DNA6mA修饰类别的预测方法、装置、设备和存储介质
技术领域
本申请涉及生物信息学
技术领域
,特别是涉及一种DNA6mA修饰类别的预测方法、装置、设备和存储介质。背景技术
人类最早发现的表观遗传调控机制之一就是DNA甲基化。哺乳动物中最主要的DNA修饰是5mC(5-甲基胞嘧啶),占人类DNA中总胞嘧啶的3%-6%。相反,5mC在原核生物中很少,而6mA(N6-甲基腺嘌呤)则是原核生物中最具代表性的DNA修饰,主要参与限制-修饰系统,保护个体免受外来DNA的侵入。1951年6mA修饰首次在细菌中被发现。然而,它不像5mC那样受到重视。一个重要的原因是6mA的修饰被认为只在原核生物和单细胞真核生物中广泛存在,但在多细胞真核生物中很少发现。但近年来实验性方法在真核生物,甚至包括哺乳动物和植物基因组中鉴定到了6mA,并发现6mA在生长发育和疾病调控中具有重要作用。这些研究掀开了真核生物表观遗传修饰的新篇章。但是随着数据量的不断的增大和对准确率的更高的要求,实验性方法高耗时和高成本的缺点就暴露出来了,于是一些计算性方法就涌现了出来。基于机器学习的预测工具不断被开发出来,包括iDNA6mA-PseKNC,i6mA-Pred等,但是很少有研究以序列间的距离作为分类预测的主要依据。因此,有必要研究如何利用序列距离对DNA6mA进行分类。
发明内容
本申请提供一种DNA6mA修饰类别的预测方法、装置、设备和存储介质,能够预测序列的DNA6mA修饰类别。
本申请实施例第一方面提供了一种DNA6mA修饰类别的的预测方法,包括:
获取DNA6mA特征数据集;
确定所述DNA6mA特征数据集中各个序列间的相似度矩阵;
对所述相似度矩阵进行对数化处理,获得所述各个序列间的第一矩阵;
对所述距离矩阵进行高斯化处理,获得满足正定性要求的距离矩阵;
将所述满足正定性要求的距离矩阵作为支持向量机的自定义核矩阵,并基于支持向量机模型,对DNA6mA修饰类别进行预测。
可选地,确定所述DNA6mA特征数据集中各个序列间的相似度矩阵,包括:
基于后缀树的双序列比对模型得到所述DNA6mA特征数据集中各个序列间的相似度矩阵。
可选地,基于后缀树的双序列比对模型得到所述DNA6mA特征数据集中各个序列间的相似度矩阵,包括:
将第一输入序列构造为第一后缀树;
获取与所述第一输入序列进行比对的第二输入序列;
基于所述第一后缀树和所述第二输入序列,采用LCS模型确定所述第一输入序列和所述第二输入序列的公共子串;
基于预设合格标准,从所述公共子串中剔除不合格子串;
采用Needleman-Wunsch模型将所述第一输入序列和第二输入序列中未匹配的子串进行比对,并基于比对结果形成比对结果序列;
基于所述公共子串的长度和所述比对结果序列长度,确定所述第一输入序列和所述第二输入序列之间的相似度。
可选地,所述DNA6mA特征数据集包括正例数据集和反例数据集,所述正例数据集为DNA6mA序列,所述反例数据集为非DNA6mA序列。
本申请实施例第二方面提供一种药DNA6mA修饰类别的预测装置,包括:
第一获取单元,用于获取DNA6mA特征数据集;
第一确定单元,用于确定所述DNA6mA特征数据集中各个序列间的相似度矩阵;
对数处理单元,用于对所述相似度矩阵进行对数化处理,获得所述各个序列间的第一矩阵;
高斯处理单元,用于对所述距离矩阵进行高斯化处理,获得满足正定性要求的距离矩阵;
预测单元,用于将所述满足正定性要求的距离矩阵作为支持向量机的自定义核矩阵,并基于支持向量机模型,对DNA6mA修饰类别进行预测。
可选地,所述第一确定单元,包括:
第一确定子单元,用于基于后缀树的双序列比对模型得到所述DNA6mA特征数据集中各个序列间的相似度矩阵。
可选地,所述第一确定单元,包括:
第一构造子单元,用于将第一输入序列构造为第一后缀树;
第一获取子单元,用于获取与所述第一输入序列进行比对的第二输入序列;
第二确定子单元,用于基于所述第一后缀树和所述第二输入序列,采用LCS模型确定所述第一输入序列和所述第二输入序列的公共子串;
第一剔除单元,用于基于预设合格标准,从所述公共子串中剔除不合格子串;
第一比对单元,用于采用Needleman-Wunsch模型将所述第一输入序列和第二输入序列中未匹配的子串进行比对,并基于比对结果形成比对结果序列;
第三确定子单元,用于基于所述公共子串的长度和所述比对结果序列长度,确定所述第一输入序列和所述第二输入序列之间的相似度。
可选地,所述DNA6mA特征数据集包括正例数据集和反例数据集,所述正例数据集为DNA6mA序列,所述反例数据集为非DNA6mA序列。
本申请实施例第三方面提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请第一方面所述的方法中的步骤。
本申请实施例第四方面提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行时实现本申请第一方面所述的方法的步骤。
采用本申请实施例提供的药物-靶标相互作用预测方法,实现了对DNA6mA修饰类别的预测。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的DNA6mA修饰类别的的预测方法的流程图;
图2为本申请实施例提供的DNA6mA修饰类别的的预测方法所支持的数据文件类型示意图。
图3为本申请实施例提供的DNA6mA修饰类别的的预测方法中以M.musculus数据集预测方法效果对比示意图。
图4为本申请实施例提供的DNA6mA修饰类别的的预测方法中Rice数据集预测方法效果对比示意图。
图5为本申请实施例提供的DNA6mA修饰类别的的预测方法中Cross数据集预测方法效果对比示意图。
图6为本申请实施例提供的DNA6mA修饰类别的的预测装置的结构示意图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
参照图1,示出了本申请一种DNA6mA修饰类别的预测方法的流程图。
如图1所示,该方法包括以下步骤:
S101,获取DNA6mA特征数据集。
在一些可选地实施方式中,所述DNA6mA特征数据集包括正例数据集和反例数据集,所述正例数据集为DNA6mA序列,所述反例数据集为非DNA6mA序列。
在一些可选地实施方式中,,DNA6mA序列数据文件总共有3个,分别为DNA6mAM.musculus(正例DNA6mA序列数量为1934,反例非DNA6mA序列数量为1934)、DNA6mA Rice(正例DNA6mA序列数量为880,反例非DNA6mA序列数量为880)和DNA6mA Cross(正例DNA6mA序列数量为2768,反例非DNA6mA序列数量为2716)。
在一些可选地实施方式中,在获取待处理的原始DNA6mA特征数据集之前,需要对下载的DNA6mA序列数据文件进行格式判断和内容判断。其中格式判断的具体方法为:当读入的DNA6mA序列数据文件的行以字符串“>”为开头时,则取加一行的数据为序列文本数据。内容判断的具体方法为:读取的序列文本数据的内容是否由“A”、“T”、“C”或“G”四个字母组成,若有这四个字母之外的字母出现,则提示输入的文本有包括“A”、“T”、“C”和“G”之外的字母。获取的符合要求的原始数据集如图2所示。
S102,确定所述DNA6mA特征数据集中各个序列间的相似度矩阵。
在一些可选地实施方式中,基于后缀树的双序列比对模型得到所述DNA6mA特征数据集中各个序列间的相似度矩阵。具体包括以下步骤:
a,将第一输入序列seq1构造为第一后缀树tree1;
b,获取与所述第一输入序列seq1进行比对的第二输入序列seq2;
c,基于所述第一后缀树tree1和所述第二输入序列seq2,采用LCS模型确定所述第一输入序列seq1和所述第二输入序列seq2的公共子串;
d,基于预设合格标准,从所述公共子串中剔除不合格子串;预设合格标准为两个相互匹配的公共子串不能离的太远,即起始位置之差小于等于他们长度的子串。
e,采用Needleman-Wunsch模型将所述第一输入序列seq1和第二输入序列seq2中未匹配的子串进行比对,并基于比对结果形成比对结果序列;
f,基于所述公共子串的长度和所述比对结果序列长度,确定所述第一输入序列seq1和所述第二输入序列seq2之间的相似度计算公式为:
S103,对所述相似度矩阵进行对数化处理,获得所述各个序列间的第一矩阵。
在一些可选地实施方式中,对相似度矩阵进行对数化处理,得到各个序列间的距离矩阵,其计算公式如下:
D12=-log(S12)
其中S12表示seq1和seq2之间的相似度,D12表示seq1和seq2之间的距离。
S104,对所述距离矩阵进行高斯化处理,获得满足正定性要求的距离矩阵。
在一些可选地实施方式中,对距离矩阵进行高斯化处理,得到满足正定性要求的距离矩阵,其计算公式如下:
其中Dij表示序列i和序列j之间的距离,α为高斯化常数,Gij为满足正定性要求的距离矩阵的第i行第j列的值。
S105,将所述满足正定性要求的距离矩阵作为支持向量机的自定义核矩阵,并基于支持向量机模型,对DNA6mA修饰类别进行预测。
在一些可选地实施方式中,采用支持向量机算法,将距离矩阵作为支持向量机的自定义核矩阵,对DNA6mA修饰进行分类预测,算法流程包括以下步骤:
S51、构造拉格朗日函数
S52、对w,b求偏导并使其等于0:
S53、将原函数代入得到原问题的对偶问题:
αi≥0,i=1,2,…l;
S54、求解这个对偶问题得到α和w进而得到用于分类超平面方程:
f(xi)=sgn(wTx+b);
S55、根据这个方程对DNA6mA数据进行分类预测,f(xi)>0为正例,f(xi)<0为反例。
其中w和b为分类超平面的参数向量,α为构造的拉格朗日函数的参数向量,L为构造的拉格朗日函数,f为分类超平面方程。
本发明实施例中,对分类效果进行评价的指标包括SE、SP、ACC、MCC和F1,其计算公式如下:
其中TP表示预测正确的DNA6mA数量,FP表示预测正确的非DNA6mA数量,TN表示预测错误的DNA6mA数量,FN表示预测错误的非DNA6mA数量。
下面以一组具体实验例对本发明的预测效果作进一步描述。
将本发明与现有的优秀预测算法的研究成果进行比较,在比较时,保证了使用的数据集一致的基础上,使用一致的评价指标(即SE、SP、ACC和MCC)。
首先比较本发明在M.musculus数据集上与现有的机器学习方法的预测结果进行比较,如图3所示。由图3可知,在分类效果方面,本发明取得了更高的准确率。在M.musculus数据集上,基于距离的支持向量机分类器获得了0.982的分类准确率ACC值,高于csDMA的0.966和iLM-CNN的0.969的分类准确率ACC值,实验表明,本发明有效地提高了对于M.musculus数据的预测精度。同时,基于距离的支持向量机分类器还获得了最高的0.982的MCC值和0.982的F1值,表明即使处理不平衡的数据集时,基于距离的支持向量机分类器的预测精度也较高。
然后比较本发明在Rice数据集上与现有的机器学习方法的预测结果进行比较,如图4所示。由图4可知,在分类效果方面,本发明取得了更高的准确率。在Rice数据集上,基于距离的支持向量机分类器获得了0.943的分类准确率ACC值,高于csDMA的0.861和iLM-CNN的0.875的分类准确率ACC值,实验表明,本发明有效地提高了对于Rice数据的预测精度。同时,基于距离的支持向量机分类器还获得了最高的0.944的MCC值和0.942的F1值,表明即使处理不平衡的数据集时,基于距离的支持向量机分类器的预测精度也较高,为处理不平衡的Rice数据提供一种新的思路。
最后比较本发明在Cross数据集上与现有的机器学习方法的预测结果进行比较,如图5所示。由图5可知,在分类效果方面,本发明取得了更高的准确率。在Cross数据集上,基于距离的支持向量机分类器获得了0.838的MCC值,远高于csDMA的0.603和iLM-CNN的0.651,实验表明,本发明对于不平衡的Cross数据集的预测精度提升较为明显,对于这类数据集的研究有很大的裨益。同时,基于距离的支持向量机分类器还获得了最高的0.84的F1值,表明本发明对于此类数据的平衡性较好,为Cross数据的研究提供一定的参考。
本发明的有益效果是:
(1)本发明提出了一种全新的DNA6mA预测方法,利用DNA6mA序列间的距离来对序列进行分类预测,为相应理论研究提供了先导支持。
(2)本发明在应用支持向量机算法时,采用了自定义核矩阵,有效提高了处理效率。
(3)本发明通过将DNA6mA序列间的相似度矩阵转化为正定的距离矩阵,进而构建支持向量机分类器,提高了DNA6mA的预测效果
基于同一发明构思,本申请一实施例提供一种DNA6mA修饰类别的的预测装置。参考图6,图6是本申请一实施例提供的DNA6mA修饰类别的的预测装置的示意图。如图6所示,该装置包括:
第一获取单元601,用于获取DNA6mA特征数据集;
第一确定单元602,用于确定所述DNA6mA特征数据集中各个序列间的相似度矩阵;
对数处理单元603,用于对所述相似度矩阵进行对数化处理,获得所述各个序列间的第一矩阵;
高斯处理单元604,用于对所述距离矩阵进行高斯化处理,获得满足正定性要求的距离矩阵;
预测单元605,用于将所述满足正定性要求的距离矩阵作为支持向量机的自定义核矩阵,并基于支持向量机模型,对DNA6mA修饰类别进行预测。
可选地,所述第一确定单元,包括:
第一确定子单元,用于基于后缀树的双序列比对模型得到所述DNA6mA特征数据集中各个序列间的相似度矩阵。
可选地,所述第一确定单元,包括:
第一构造子单元,用于将第一输入序列构造为第一后缀树;
第一获取子单元,用于获取与所述第一输入序列进行比对的第二输入序列;
第二确定子单元,用于基于所述第一后缀树和所述第二输入序列,采用LCS模型确定所述第一输入序列和所述第二输入序列的公共子串;
第一剔除单元,用于基于预设合格标准,从所述公共子串中剔除不合格子串;
第一比对单元,用于采用Needleman-Wunsch模型将所述第一输入序列和第二输入序列中未匹配的子串进行比对,并基于比对结果形成比对结果序列;
第三确定子单元,用于基于所述公共子串的长度和所述比对结果序列长度,确定所述第一输入序列和所述第二输入序列之间的相似度。
可选地,所述DNA6mA特征数据集包括正例数据集和反例数据集,所述正例数据集为DNA6mA序列,所述反例数据集为非DNA6mA序列。
基于同一发明构思,本申请另一实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请上述任一实施例所述的方法中的步骤。
基于同一发明构思,本申请另一实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行时实现本申请上述任一实施例所述的方法中的步骤。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本申请所提供的一种植物抗性蛋白识别方法、装置、设备和存储介质,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。