一种基于图Transformer的药物靶标交互预测方法研究与流程

一种基于图transformer的药物靶标交互预测方法研究
技术领域
1.发明是属于生物化学领域，是一种基于图transformer的药物靶标交互预测方法研究。

背景技术：

2.如今已知数以万计的疾病在威胁人类的健康，并且每年都在增加新的疾病，因此快速、准确地发现能够有效治疗疾病的药物对社会的发展非常重要。药物—靶标预测就是通过识别药物化合物与蛋白质靶点之间的相互作用，识别针对新的药物和蛋白质靶点的新配体，如此可以大大减少实验成本和时间。传统的dtis大体分为两类：一是基于分子对接方法，二是基于配体方法。这些方法存在明显不足之处，比如基于分子对接方法依赖于目标蛋白的三维结构，现实情况有些靶蛋白的三维结构难以获得，当无法获得靶蛋白的三维结构时这种方法也就无法起作用。基于配体的方法在dtis预测中通常是有效的，但当已知配体数据不够时，预测结果也可能不那么可靠。如今常用的化学基因组学方法来预测药物靶标相互作用有多种形式，如基于机器学习的方法和基于图、网络的方法。近年来，人们致力于研究基于机器学习的方法，这些方法基于一个核心观点即假设相似药物作用于相似靶点。在过去的几年里，在dti网络上执行的方法在预测新的药物靶标相互作用上显示了很好的结果，如dti-knn、dti-cdf、dti-cnn等方法。最近，除了dti网络，添加其他信息，如药物与疾病的关联，药物-药物和蛋白质-蛋白质的相似性和副作用，已经显示出比单独药物靶点相互作用的优势。通常我们用药物和靶蛋白构建一个异构网络来计算它们之间的关系。然而，大多数计算方法都没有考虑到图transformer。transformer模型在attention中完全实现了不同组件之间的显式信息交互，但目前仅在序列模型中得到验证，并没有应用到图结构中。因此，本文提出了graph transformer。利用transformer的特性，将gnn及其变体模型中未解决的节点间长距离信息交互问题抽象为全连通图，使每个节点都能获取其他所有节点的信息。

技术实现要素：

3.针对药物和蛋白质异构交互图中存在的不足，本发明的目的是提供一种更加准确的预测方法。
4.本发明提供一种基于图transformer的药物靶标交互预测方法，所述方法步骤如下：步骤s1：节点特征处理根据4种药物矩阵和3种蛋白质矩阵，通过随机游走和pca模型，获得蛋白质和药物特征矩阵。
5.步骤s2：边处理根据药物和蛋白质交互的邻接矩阵，将蛋白质交互图处理成边图，并根据新节点特征矩阵。
curve(roc)，precision-recall (pr)，同时与6个现有的方式进行了对比，分别是dti-gtn，dti-cnn，dti-tag，dti-rgg，dti-hyper，dti-rf，dti-knn。现有的6个方法都运行在各自最优的参数下。本发明方法的相关参数设置如下：epoch数为2000，学习率为0.001，我们分别选用测试集和验证集为10%和10%。
19.表1实验对比：modelrocprdti-gtn99.5899.69dti-cnn99.0898.97dti-tag98.5898.41dti-rgg98.4198.64dti-hyper95.9595.72dti-rf94.9196.64dti-knn87.8290.22表1，图2和图3为本发明在数据集上与其他6个算法的比较的各项指数，roc和pr是算法是否精确的一个指标，取值区间为[0.5,1],数值越接近1，表明预测结果与实际结果越接近，在这两项指标下，本发明方法在药物-靶标相互作用预测任务的数据集上，使用测试集进行测试，从表中可以看出，本发明的roc值为99.58，pr值为99.67，相比于其它6种算法，其中效果最好的dti-cnn算法，roc值为99.08，pr值为98.97，因此本发明的效果是最好的。

技术特征：
1.一种基于图transformer的药物靶标交互预测方法，其特点在于，包括如下步骤：步骤s1：节点特征处理根据4种药物矩阵和3种蛋白质矩阵，通过随机游走和pca模型，获得蛋白质和药物特征矩阵。2.步骤s2：图结构处理根据药物和蛋白质交互的邻接矩阵，将蛋白质交互图处理成边图，并根据新节点特征矩阵。3.步骤s3: 定义模型定义模型结构，设置训练参数。4.步骤s4：训练模型将正向边和负向边划分训练集，验证集和测试集，并输入到模型中进行训练。5.步骤s5：评估模型根据训练结果求得loss，并每100轮输出roc和pr的信息。6.如权利要求1所述的基于图transformer的药物靶标交互预测方法，其特征在于：步骤s1中根据4种药物交互矩阵和3种蛋白质交互矩阵，首先通过jaccard相似系数聚合多种药物和蛋白质信息，然后通过随机游走模型获得药物和蛋白质特征矩阵，最后用过pca对高维度矩阵进行降维，最终获得125维的药物和蛋白质特征。7.如权利要求1所述的基于图transformer的药物靶标交互预测方法，其特征在于：步骤s2将首先根据药物蛋白质邻接矩阵构建异构药物蛋白质图，并根据边之间的关系，构建异构药物蛋白质对边图，最后根据新边图取得新图的邻接矩阵。8.如权利要求1所述的基于图transformer的药物靶标交互预测方法，其特征在于：步骤s4首先根据邻接矩阵获取正向边以及相同数量的负向边，然后按照8:1:1的比例划分训练集，验证集，测试集，最后将训练集的边信息和节点通过graph transformer层提取特征，通过全连接层获得预测结果。

技术总结
本发明公开了基于图Transformer的药物靶标交互预测方法，该方法的目的是为预测药物靶标对之间是否会相互作用，该模型的主要步骤是：节点特征处理，图结构处理，定义模型，训练模型，评估模型。快速、准确地发现能够有效治疗疾病的药物对社会的发展非常重要，但基于药物靶标间的预测，无法完整获取其之间的关系，忽略了一些周围节点的信息，并且当前的一些模型无法很好的提取全局节点之间的特征，基于以上考虑，本发明提出了基于图Transformer的药物靶标交互预测方法，可以自动识别药物靶标对之间是否会相互作用。间是否会相互作用。

技术研发人员：王红梅郭放张丽杰党源源
受保护的技术使用者：长春工业大学
技术研发日：2021.11.12
技术公布日：2022/1/28