基于图神经网络的miRNA-疾病关联关系预测方法
技术领域
本发明属于生物信息
技术领域
,涉及一种miRNA-疾病关联关系预测方法,具体涉及一种基于图神经网络的miRNA-疾病关联关系预测方法。背景技术
miRNA是一类由20-25个核苷酸组成的非编码单链RNA分子。microRNA能广泛的参与到重要的生物学过程,发挥反馈机制的作用,比如细胞分裂、分化、凋亡、细胞周期调节、炎症和应激反应。miRNA的失调(包括表达失调、功能增加或减少突变、表观遗传沉默等)往往致使人体生物水平异常进而导致许多疾病的发生。所以识别与疾病相关的miRNA能提高人类对复杂疾病的认识。
使用生物实验的方法手工找寻潜在的关联关系具有很高的准确性。但是由于其过程非常复杂导致时间周期长,耗费的资金也很高。因此仅通过生物实验方法验证所有的miRNA-疾病关联关系效率不高。所以基于已知的miRNA与疾病关联关系提出高效准确的计算方法可以为生物实验提供指导,使得发现miRNA-疾病关联关系更有效率。
例如Chen等人2018年在《RNA Biology》上发表文章“Predicting microRNA-disease associations using bipartite local models and hubness-awareregression”,公开了一种miRNA-疾病关联关系预测方法BLHARMDA。该方法在miRNA和疾病上分别计算了传统的高斯相互作用剖面核相似性的基础上,基于已知的miRNA-疾病关联关系分别计算了miRNA的杰卡德相似性(Jaccard-similarity)和疾病的杰卡德相似性,然后在原本的miRNA相似性矩阵上拼接上miRNA的杰卡德相似性矩阵。miRNA的相似性矩阵由规模nm×nm变为nm×2nm的大矩阵。与miRNA一样的,疾病相似性也同样在右边拼接上疾病的杰卡德相似性矩阵。BLHARMDA分别从miRNA视角和疾病视角通过基于相似性矩阵的计算方法得到每个miRNA和疾病之间的存在边的可能性分数,然后对预测分数进行带误差修正的k近邻回归,得到最后的预测分数。
又如Kai等人2019年在《Genes》上发表文章“Predicting MiRNA-DiseaseAssociation by Latent Feature Extraction with Positive Samples”,公开了一种miRNA-疾病关联关系预测方法LFEMDA。LFEMDA认为常用的miRNA相似性矩阵是基于miRNA-疾病关联关系求来的,而再用于预测miRNA-疾病关联关系是不合理的。所以LFEMDA计算了miRNA序列间的编辑距离。用1减去miRNA间编辑距离作为miRNA之间的相似性分数。接着,LFEMDA就利用新提出的miRNA相似性数据来做下面的预测。LFEMDA的思想是使用矩阵分解来解决预测问题。对每个miRNA和疾病,LFEMDA给定在固定的k维空间中的初始投影向量,然后他们的内积表示miRNA和疾病间的关联关系。然后利用多个正则化项联系miRNA-疾病关联关系与相似性数据。最终,通过矩阵分解得到预测分数。
但是这些miRNA-疾病关联关系的预测方法中所惯常使用的miRNA功能相似性和疾病语义相似性网络都是不完整和不准确。并且它们都依据一个假设:相似的miRNA与相同的疾病相关联,相似的疾病与相同的miRNA相关联。这使得模型首先就带有先验知识带来的偏差。况且miRNA功能相似性和疾病语义相似性网络的不完整和不准确使得这一假设的使用更加不合理。不完整的数据和通过人为经验得到的先验知识无疑会给模型带来预测结果的不准确。
发明内容
本发明的目的在于克服上述现有技术的不足,提出一种基于图神经网络的miRNA-疾病关联关系预测方法,用于解决现有技术中存在的预测准确率较低的技术问题。
为实现上述目的,本发明采取的技术方案包括如下步骤:
(1)获取miRNA-疾病关联关系数据L:
从miRNA-疾病关联关系数据库中下载与M种miRNAr={r1,r2,…,rm,…,rM}相关联的U种疾病d={d1,d2,…,du,…,dU}的R条miRNA-疾病关联关系数据L={L1,L2,…,Lr,…LR},其中,每个miRNArm至少与一种疾病相关联,且每个疾病du至少与一种miRNA相关联,M≥100,rm表示第m种miRNA,N≥100,du表示第u个疾病,R≥3000,Lr表示第r条miRNA-疾病关联关系数据;
(2)构建miRNA-疾病关联关系网络Y:
以M种miRNAr={r1,r2,…,rm,…,rM}和U种疾病d={d1,d2,…,du,…,dU}分别为节点,以miRNA-疾病关联关系数据L={L1,L2,…,Lr,…LR}包含的R条miRNA-疾病关联关系数据为边,构建miRNA-疾病关联关系网络Y;
(3)获取样本数据集Data和标签数据集Label:
采用1对miRNA-疾病关联关系网络Y中存在边的R个miRNA-疾病节点对P={P1,P2,…,Pr,…PR}中的每个节点对进行标注,同时采用0对Y中M×U-R个不存在边的miRNA-疾病节点对N={N1,N2,…,Ns,…,NM×U-R}中的每个节点对进行标注,得到P对应的标签数据集PLabel={11,12,…,1r,…1R}和N对应的标签数据集NLabel={01,02,…,0s,…,0M×U-R},并将P和N组成样本数据集Data={SP1,SP2,…,SPk,…,SPM×U},将PLabel和NLabel组成标签数据集Label={LB1,LB2,…,LBk,…,LBM×U},其中Pr表示第r个存在边的miRNA-疾病节点对,1r表示Pr的标签,Ns表示第s个不存在边的miRNA-疾病节点对,0s表示Ns的标签,SPk表示第k个miRNA-疾病节点对,LBk表示SPk的标签;
(4)提取每个miRNA-疾病节点对SPk的h阶封闭子图:
(4a)将从样本数据集Data所包含的每个miRNA-疾病节点对SPk的两个节点出发在miRNA-疾病关联关系网络Y中移动h步所经过的所有节点组成SPk对应的h阶封闭子图节点集合得到Data对应的h阶封闭子图节点集其中h≥1;
(4b)以SPk对应的h阶封闭子图节点集合中的所有节点为节点,并以这些节点之间的连边为边,其中不包括miRNA-疾病节点对的两节点之间的连边,构成SPk对应的h阶封闭子图得到NodesSeth对应的h阶封闭子图集合
(5)获取每个h阶封闭子图的节点特征矩阵:
(5a)利用双半径节点标注方法对h阶封闭子图集合SubgraphSeth中每个h阶封闭子图的每一节点标注一个整数,构成的节点标签向量并将所有子图的节点标签向量组合为节点标签向量集合
(5b)将节点标签向量集合NLh中的每一个节点标签向量的每一元素编码成one-hot编码向量,构成对应的节点特征矩阵则NLh对应的h阶封闭子图节点特征矩阵集合为其中,的行数与的维度相等,的列数与NLh中最大节点标签的数值加1相等;
(6)获取训练样本集TD,训练样本标签数据集TLabel和被预测样本集BPD:
(6a)将从标签数据集Label中选取的值为1的标签在Label中所处位置的序号组成位置序号集合Pidx={Pidx1,Pidx2,…,Pidxr,…,PidxR},并将从Label中随机选取的R个值为0的标签及其在Label中所处位置的序号,分别组成负样本标签集NLB={NLB1,NLB2,…,NLBr,…,NLBR}和位置序号集合Nidx={Nidx1,Nidx2,…,Nidxr,…,NidxR},然后选取Label中M×U-R个值为0的标签在Label中所处位置的序号,组成位置序号集合ANidx={ANidx1,ANidx2,…,ANidxs,…,ANidxM×U-R},其中,Pidxr表示第r个值为1的标签在Label中所处位置的序号,NLBr表示第r个负样本标签,Nidxr表示第r个值为0的标签在Label中所处位置的序号;
(6b)根据位置序号集合Pidx选取h阶封闭子图集合SubgraphSeth中R个h阶封闭子图组成正样本的h阶封闭子图集合同时根据位置序号集合Nidx选取SubgraphSeth中R个h阶封闭子图组成负样本的h阶封闭子图集合然后根据位置序号集合ANidx选取SubgraphSeth中M×U-R个h阶封闭子图组成被预测样本集的h阶封闭子图集合其中,表示第r个正样本的h阶封闭子图,是第r个负样本的h阶封闭子图,是第s个被预测样本集的h阶封闭子图;
(6c)根据位置序号集合Pidx选取h阶封闭子图节点特征矩阵集合NFSet中R个h阶封闭子图节点特征矩阵组成正样本的h阶封闭子图节点特征矩阵集合根据位置序号集合Nidx选取NFSet中R个h阶封闭子图节点特征矩阵组成负样本的h阶封闭子图节点特征矩阵集合根据位置序号集合ANidx选取NFSet中M×U-R个h阶封闭子图节点特征矩阵组成被预测样本集的h阶封闭子图节点特征矩阵集合其中,表示第r个正样本的h阶封闭子图节点特征矩阵,表示第r个负样本的h阶封闭子图节点特征矩阵,表示第s个被预测样本集的h阶封闭子图节点特征矩阵;
(6d)将正样本的h阶封闭子图集合PSGSh和负样本的h阶封闭子图集合NSGSh合并为训练样本集的h阶封闭子图集合将正样本的h阶封闭子图节点特征矩阵集合PNFSh和负样本的h阶封闭子图节点特征矩阵集合NNFSh合并为训练样本集的h阶封闭子图节点特征矩阵集合将正样本标签数据集PLabel和负样本标签集NLB合并为训练样本标签数据集TLabel={TL1,TL2,,TLt,,TL2×R},其中,表示训练样本集的h阶封闭子图集合的第t个h阶封闭子图,表示的节点特征矩阵,TLt表示的标签;
(6e)将训练样本集的h阶封闭子图集合TSGSh中的每个h阶封闭子图与训练样本集的h阶封闭子图节点特征矩阵集合TNFSh中对应的节点特征矩阵组成二元组得到训练样本集同时将被预测样本集的h阶封闭子图集合ANSGSh中的每个h阶封闭子图与被预测样本集的h阶封闭子图节点特征矩阵集合ANNFSh中对应的构成二元组得到被预测样本集,其中,表示第t个训练样本,表示第s个被预测样本;
(7)搭建图神经网络GNN:
搭建包含顺次连接的图卷积模块GCM、图池化层GPY、一维卷积模块CNNM1、全连接层FC的图神经网络GNN,GNN的权值参数为θGNN,GNN的损失函数Loss为NLLLoss,其中GCM包括I个顺次连接的图卷积层GCN1,GCN2,…,GCNi,…GCNI,I≥2,CNNM1包括顺次连接的一维卷积层最大池化层MP和一维卷积层
(8)对图神经网络GNN进行迭代训练:
(8a)初始迭代次数为e,最大迭代次数为E,E≥20,第e次迭代图神经网络GNN中的权值参数为并令e=0,
(8b)将训练样本集TD作为图神经网络GNN的输入,图卷积模块GCM对每个训练样本中的h阶封闭子图与节点特征矩阵进行多层图卷积,图池化层GPY对从GCM多层图卷积得到的节点嵌入特征矩阵Z=[Z1,Z2,…,Zi,…,ZI]中最后一列K个值最大的节点嵌入特征向量进行拼接,一维卷积模块CNNM1对GPY所拼接的的向量表示V进行特征学习,全连接层FC对CNNM1特征学习得到的Vrf进行分类,得到GNN的预测分数向量RS={RS1,RS2,…,RSt,…,RS2×R},其中,K≥10,RSt表示的预测分数,图卷积模块GCM对每个训练样本中的h阶封闭子图与节点特征矩阵进行一层图卷积的公式为:
其中,Zi表示第i个图卷积层GCNi进行一层图卷积所输出的节点嵌入特征矩阵,同时也是GCNi+1的输入,D是的度矩阵,Wi是GCNi中要训练的权值参数,[·]表示矩阵按行拼接;
(8c)采用损失函数Loss,并通过预测分数向量RS与训练集样本标签数据集TLabel,计算TLabel与RS之间的损失值Le,然后采用反向传播方法,并通过Losse计算图神经网络GNN的参数梯度,最后采用梯度下降算法通过GNN的参数梯度对GNN的权值参数进行更新;
(8d)判断e≥E是否成立,若是,得到训练好的miRNA-疾病关联预测模型GNN',否则,令e=e+1,并执行步骤(8b);
(9)获取miRNA-疾病关联关系的预测结果:
将被预测样本集BPD作为训练好的图神经网络GNN'的输入进行前向传播,得到样本数据集Data中M×U-R个不存在边的miRNA-疾病节点对的预测分数。
本发明与现有技术相比,具有以下优点:
1.本发明所构建的图神经网络GNN包含顺次连接的图卷积模块GCM、图池化层GPY、一维卷积模块CNNM1、全连接层FC,学习由miRNA-疾病节点对提取的h阶封闭子图的图结构特征,在对图神经网络GNN进行训练以及获取miRNA-疾病关联关系的预测结果的过程中,GCM可同时融合miRNA节点和疾病节点间的多种信息,充分学习隐含图拓扑信息,与现有技术相比,有效提高了miRNA-疾病关联的预测精度。
2.本发明所构建的图神经网络GNN以已知的miRNA-疾病关联关系信息作为监督信息自动学习由miRNA-疾病节点对提取的h阶封闭子图的图结构特征,对miRNA-疾病节点对进行预测,避免使用以往模型基于功能相似的miRNA调控的疾病是相似的,并且反之亦然的假设,从而避免了人为经验得到的先验知识对模型带来的偏差,进一步提高了miRNA-疾病关联的预测精度。
3.本发明所构建的图神经网络GNN所用到的数据仅使用了miRNA-疾病关联关系数据,比现有模型通常还需要使用miRNA功能相似性数据和疾病语义相似性数据相比所需要的准备的数据更少。
附图说明
图1是本发明的实现流程图。
具体实施方式
以下结合附图和具体实施例,对本发明作进一步详细描述,需要说明的是,本发明不属于专利法第25条规定的不授予专利权的客体,同时也符合专利法第二条第二款的规定:
参照图1、本发明包括如下步骤:
步骤1)获取miRNA-疾病关联关系数据L:
从miRNA-疾病关联关系数据库HMDDv2.0中下载与M种miRNA r={r1,r2,…,rm,…,rM}相关联的U种疾病d={d1,d2,…,du,…,dU}的R条miRNA-疾病关联关系数据L={L1,L2,…,Lr,…LR},每个miRNArm至少与一种疾病相关联,且每个疾病du至少与一种miRNA相关联,其中,M≥100,rm表示第m种miRNA,N≥100,du表示第u个疾病,R≥1000,Lr表示第r条miRNA-疾病关联关系数据;本实例中,M=495,N=383,R=5430,
步骤2)构建miRNA-疾病关联关系网络Y:
以M种miRNAr={r1,r2,…,rm,…,rM}和U种疾病d={d1,d2,…,du,…,dU}分别为节点,以miRNA-疾病关联关系数据L={L1,L2,…,Lr,…LR}包含的R条miRNA-疾病关联关系数据为边,构建miRNA-疾病关联关系网络Y;
步骤3)获取样本数据集Data和标签数据集Label:
采用1对miRNA-疾病关联关系网络Y中存在边的R个miRNA-疾病节点对P={P1,P2,…,Pr,…PR}中的每个节点对进行标注,同时采用0对Y中M×U-R个不存在边的miRNA-疾病节点对N={N1,N2,…,Ns,…,NM×U-R}中的每个节点对进行标注,得到P对应的标签数据集PLabel={11,12,…,1r,…1R}和N对应的标签数据集NLabel={01,02,…,0s,…,0M×U-R},并将P和N组成样本数据集Data={SP1,SP2,…,SPk,…,SPM×U},将PLabel和NLabel组成标签数据集Label={LB1,LB2,…,LBk,…,LBM×U},其中,Pr表示第r个存在边的miRNA-疾病节点对,1r表示Pr的标签,Ns表示第s个不存在边的miRNA-疾病节点对,0s表示Ns的标签,SPk表示第k个miRNA-疾病节点对,LBk表示SPk的标签;
步骤4)提取每个miRNA-疾病节点对SPk的h阶封闭子图:
步骤4a)将从样本数据集Data所包含的每个miRNA-疾病节点对SPk的两个节点出发在miRNA-疾病关联关系网络Y中移动h步所经过的所有节点组成SPk对应的h阶封闭子图节点集合得到Data对应的h阶封闭子图节点集其中h≥1,在本示例中,h=4。
步骤4b)以SPk对应的h阶封闭子图节点集合中的所有节点为节点,并以这些节点之间的连边为边,其中不包括miRNA-疾病中心节点对的两节点之间的连边,构成SPk对应的h阶封闭子图得到NodesSeth对应的h阶封闭子图集合
所述的h阶封闭子图指的是分别从某一节点对的两节点出发在网络中移动h步所构成的子图;一般而言,h越大,子图的规模越大;
步骤5)获取每个h阶封闭子图的节点特征矩阵:
步骤5a)利用双半径节点标注方法对h阶封闭子图集合SubgraphSeth中每个h阶封闭子图的每一节点标注一个整数,构成的节点标签向量并将所有子图的节点标签向量组合为节点标签向量集合
所述的双半径节点标注方法为了标注每个节点在封闭子图中所处的不同的角色,按照h阶封闭子图的每个节点在网络中相对中心两节点的位置标注一个相应的标签。
所述的利用双半径节点标注方法对h阶封闭子图集合SubgraphSeth中每个h阶封闭子图的每一节点标注一个整数,实现步骤为:
步骤5a1)对中心的miRNA-疾病节点对SPk的miRNA节点miR和疾病节点dis标注整数1;
步骤5a2)判断中除步骤(5a1)标注过的节点以外的每个节点x到miRNA节点miR的最短距离SDm或到疾病节点dis的最短距离SDd是否为无穷大,若是,则采用整数0标注节点x,否则,对节点x标注的整数通过如下公式计算:
fl(x)=1+min(SDm,SDd)+(D/2)[(D/2)+(D%2)-1]
其中,D=SDm+SDd,D/2表示整除,D%2表示取余。
步骤5b)将节点标签向量集合NLh中的每一个节点标签向量的每一元素编码成one-hot编码向量,构成对应的节点特征矩阵则NLh对应的h阶封闭子图节点特征矩阵集合为其中,的行数与的维度相等,的列数vdim与NLh中最大节点标签的数值加1相等;
所述的将节点标签向量集合NLh中的每一个节点标签向量的每一元素编码成one-hot编码向量,实现步骤为:将节点标签向量集合NLh中的每一个节点标签向量的每一元素y编码为第y维为1其余维为0的one-hot编码向量,one-hot编码向量的维度vdim等于NLh中最大节点标签的数值加1。
步骤6)获取训练样本集TD,训练样本标签数据集TLabel和被预测样本集BPD:
步骤6a)将从标签数据集Label中选取的值为1的标签在Label中所处位置的序号组成位置序号集合Pidx={Pidx1,Pidx2,…,Pidxr,…,PidxR},并将从Label中随机选取的R个值为0的标签及其在Label中所处位置的序号,分别组成负样本标签集NLB={NLB1,NLB2,…,NLBr,…,NLBR}和位置序号集合Nidx={Nidx1,Nidx2,…,Nidxr,…,NidxR},然后选取Label中M×U-R个值为0的标签在Label中所处位置的序号,组成位置序号集合ANidx={ANidx1,ANidx2,…,ANidxs,…,ANidxM×U-R},其中,Pidxr表示第r个值为1的标签在Label中所处位置的序号,NLBr表示第r个负样本标签,Nidxr表示第r个值为0的标签在Label中所处位置的序号;
步骤6b)根据位置序号集合Pidx选取h阶封闭子图集合SubgraphSeth中R个h阶封闭子图组成正样本的h阶封闭子图集合同时根据位置序号集合Nidx选取SubgraphSeth中R个h阶封闭子图组成负样本的h阶封闭子图集合然后根据位置序号集合ANidx选取SubgraphSeth中M×U-R个h阶封闭子图组成被预测样本集的h阶封闭子图集合其中,表示第r个正样本的h阶封闭子图,是第r个负样本的h阶封闭子图,是第s个被预测样本集的h阶封闭子图;
步骤6c)根据位置序号集合Pidx选取h阶封闭子图节点特征矩阵集合NFSet中R个h阶封闭子图节点特征矩阵组成正样本的h阶封闭子图节点特征矩阵集合根据位置序号集合Nidx选取NFSet中R个h阶封闭子图节点特征矩阵组成负样本的h阶封闭子图节点特征矩阵集合根据位置序号集合ANidx选取NFSet中M×U-R个h阶封闭子图节点特征矩阵组成被预测样本集的h阶封闭子图节点特征矩阵集合其中,表示第r个正样本的h阶封闭子图节点特征矩阵,表示第r个负样本的h阶封闭子图节点特征矩阵,表示第s个被预测样本集的h阶封闭子图节点特征矩阵;
步骤6d)将正样本的h阶封闭子图集合PSGSh和负样本的h阶封闭子图集合NSGSh合并为训练样本集的h阶封闭子图集合将正样本的h阶封闭子图节点特征矩阵集合PNFSh和负样本的h阶封闭子图节点特征矩阵集合NNFSh合并为训练样本集的h阶封闭子图节点特征矩阵集合将正样本标签数据集PLabel和负样本标签集NLB合并为训练样本标签数据集TLabel={TL1,TL2,,TLt,,TL2×R},其中,表示训练样本集的h阶封闭子图集合的第t个h阶封闭子图,表示的节点特征矩阵,TLt表示的标签;
步骤6e)将训练样本集的h阶封闭子图集合TSGSh中的每个h阶封闭子图与训练样本集的h阶封闭子图节点特征矩阵集合TNFSh中对应的节点特征矩阵组成二元组得到训练样本集同时将被预测样本集的h阶封闭子图集合ANSGSh中的每个h阶封闭子图与被预测样本集的h阶封闭子图节点特征矩阵集合ANNFSh中对应的构成二元组得到被预测样本集
,其中,表示第t个训练样本,表示第s个被预测样本;
步骤7)搭建图神经网络GNN:
搭建包含顺次连接的图卷积模块GCM、图池化层GPY、一维卷积模块CNNM1、全连接层FC的图神经网络GNN,GNN的权值参数为θGNN,GNN的损失函数Loss为NLLLoss,其中GCM包括I个顺次连接的图卷积层GCN1,GCN2,…,GCNi,…GCNI,I≥2,I=4,CNNM1包括顺次连接的一维卷积层最大池化层MP和一维卷积层
步骤8)对图神经网络GNN进行迭代训练:
步骤8a)初始迭代次数为e,最大迭代次数为E,E≥20,第e次迭代图神经网络GNN中的权值参数为并令e=0,在本实例中E=50;
步骤8b)将训练样本集TD作为图神经网络GNN的输入,图卷积模块GCM对每个训练样本中的h阶封闭子图与节点特征矩阵进行多层图卷积,图池化层GPY对从GCM多层图卷积得到的节点嵌入特征矩阵Z=[Z1,Z2,…,Zi,…,ZI]中最后一列K个值最大的节点嵌入特征向量进行拼接,一维卷积模块CNNM1对GPY所拼接的的向量表示V进行特征学习,全连接层FC对CNNM1特征学习得到的Vrf进行分类,得到GNN的预测分数向量RS={RS1,RS2,…,RSt,…,RS2×R},其中,K≥10,RSt表示的预测分数,图卷积模块GCM对每个训练样本中的h阶封闭子图与节点特征矩阵进行一层图卷积的公式为:
其中,Zi表示第i个图卷积层GCNi进行一层图卷积所输出的节点嵌入特征矩阵,同时也是GCNi+1的输入,D是的度矩阵,Wi是GCNi中要训练的权值参数,[·]表示矩阵按行拼接;
所述的图卷积模块GCM中的每个图卷积层GCNi使用了多种常用的传播函数也有本发明提出可以在二部图网络中更为适用的传播函数多种传播函数使得GCM能够融合miRNA节点和疾病节点间的多种信息,充分学习关联关系网络中隐含的图拓扑信息。
所述的图卷积模块GCM包含4个顺次连接的图卷积层GCN1,GCN2,GCN3,GCN4;GCN1中的全连接层的权值参数W1的输入维度是4×vdim,输出维度是32,GCN1的输出Z1的行数等于的节点数,列数等于32;GCN2中的全连接层的权值参数W2的输入维度是128,输出维度是32,GCN2的输出Z2的行数等于的节点数,列数等于32;GCN3中的全连接层的权值参数W3的输入维度是128,输出维度是32,GCN3的输出Z3的行数等于的节点数,列数等于32;GCN4中的全连接层的权值参数W4的输入维度是128,输出维度是1,GCN4的输出Z4的行数等于TSGt h的节点数,列数等于32;则GCM的输出Z的行数等于的节点数,列数等于97;
所述的图池化层GPY对从GCM多层图卷积得到的节点嵌入特征矩阵Z=[Z1,Z2,…,Zi,…,ZI]中最后一列K个值最大的节点嵌入特征向量进行拼接,得到输出的向量表示V,其中V的维度为97·K,K等于h阶封闭子图集合SubgraphSeth中的子图节点数排序后的第60百分位数;
所述的一维卷积模块CNNM1包含顺次连接的一维卷积层最大池化层MP和一维卷积层一维卷积层的输入通道为1,输出通道为16,卷积核大小为Z的列数97,步长为97,输入维度为1×(97·K),输出维度为16×K,最大池化层MP的窗口大小为2,步长为2,输入维度为16×K,输出维度为16×(K/2),一维卷积层的的输入通道为16,输出通道为32,卷积核大小为5,步长为1,输入维度为16×(K/2),输出维度为32×(K/2-4);
所述的全连接层FC的输入维度为32·(K/2-4),输出维度为2;
所述的将训练样本集TD作为图神经网络GNN的输入,在本实例中是将训练样本集TD分批次作为图神经网络GNN的输入并进行参数更新,每一批次的训练样本个数为50;
步骤8c)采用损失函数Loss,并通过预测分数向量RS与训练集样本标签数据集TLabel,计算TLabel与RS之间的损失值Le的计算公式,然后采用反向传播方法,并通过Losse计算图神经网络GNN的参数梯度,最后采用梯度下降算法通过GNN的参数梯度对GNN的权值参数进行更新的更新公式分别为:
其中,RSt表示第t个预测分数,TLt表示RSt对应的样本标签,softmax()表示归一化指数函数,log()表示对数函数,表示GNN更新后的权值参数,表示更新前的权值参数,αGNN表示GNN的学习步长,表示GNN的参数梯度;
步骤8d)判断e≥E是否成立,若是,得到训练好的miRNA-疾病关联预测模型GNN',否则,令e=e+1,并执行步骤(8b);
步骤9)获取miRNA-疾病关联关系的预测结果:
将被预测样本集BPD作为训练好的图神经网络GNN'的输入进行前向传播,得到样本数据集Data中M×U-R个不存在边的miRNA-疾病节点对的预测分数。
以下通过仿真实验对本发明的技术效果作进一步说明:
1.仿真条件和内容:
仿真实验在Intel(R)Core(TM)i7-8700k CPU、主频3.70GHz,内存48G,Ubuntu平台上的Python3.6.5结合pytorch进行。
仿真1,对本发明与现有技术的预测准确率以十折交叉验证进行对比仿真,其结果如表一所示,表一中的现有技术1是Chen等人2018年在《RNA Biology》上发表文章“Predicting microRNA-disease associations using bipartite local models andhubness-aware regression”,公开了一种miRNA-疾病关联关系预测方法BLHARMDA;表一中的现有技术2是Kai等人2019年在《Genes》上发表文章“Predicting MiRNA-DiseaseAssociation by Latent Feature Extraction with Positive Samples”,公开了一种miRNA-疾病关联关系预测方法LFEMDA;本发明与现有技术1和现有技术2同样使用下载自HMDDv2.0的miRNA-疾病关联关系数据;现有技术1和现有技术2还需要相应的miRNA功能相似性和疾病语义相似性均使用现有技术1中提供的数据。
仿真2,对本发明的预测性能进行仿真;利用本发明预测所有的miRNA-疾病关联关系,并利用相关数据库进行验证。
2.仿真结果分析:
仿真1结果,miRNA-疾病关联关系预测精度采用的评价指标包括AUROC和AUPR。其中AUROC是接受者操作特性曲线ROC的曲线下面积,AUPR是精确召回曲线下面积,AUROC和AUPR均是衡量预测准确率的指标,数值越大表示准确率越高;
本发明与两种现有技术进行十折交叉验证AUC值和AUPR值的对比结果如表1所示。
表1现有技术与本发明在预测精度上的对比结果
方法
AUROC
AUPR
现有技术1
0.92838
0.92699
现有技术2
0.90039
0.91289
本发明
0.93086
0.93247
结合表可以看出,本发明在AUROC值和AUPR值这两个指标上均高于现有技术,证明本发明方法有效的提高了药物-疾病关联预测的精度。
仿真2结果,根据上述实例的描述,得到495个miRNA和383个疾病之间关联关系的预测分数,并对预测分数进行排名,取排名前180对关联关系在三个miRNA-疾病关联关系验证数据库HMDDv3.0,dbEMCD和miR2Disease的验证结果如下:
前10的预测结果中有10个被验证。前50的预测结果过中有49个被验证。前100的预测结果中有97个被验证。前180个预测结果中有169个被验证。
以上描述仅是本发明的一个具体实例,不构成对本发明的任何限制,显然对于本领域的专业人员来说,在了解了本发明内容和原理后,都可能在不背离本发明原理、结构的情况下,进行形式和细节上的各种修改和改变,但是这些基于本发明思想的修正和改变仍在本发明的权利要求保护范围之内。