药物-靶标相互作用的预测方法、装置、设备和存储介质
技术领域
本申请涉及生物信息学与化学信息学交叉的
技术领域
,特别是涉及一种药物-靶标相互作用的预测方法、装置、设备和存储介质。背景技术
药物-靶标相互作用的预测是新药研发及药物重定向中的重要步骤。为节省时间及成本,研究者们纷纷将计算机技术应用到了药物-靶标相互作用预测研究中。最常见的就是分子模拟对接和基于机器学习的方法。
分子模拟对接是计算机辅助药物设计的一项重要技术。在靶标上的蛋白质三维结构已知的情况下,分子模拟对接将药物化合物小分子放置于靶标分子的活性位点处,通过不断变换配体构象以寻找到受体小分子化合物与靶标大分子相互作用的最佳构象,并预测其结合模式和亲和力。这种方法存在本质上的不足,分子对接是通过计算机进行模拟配体与受体分子之间的结合情况。配体与受体的结合过程是十分复杂的,需要对可行的构象空间进行大量而全面的覆盖采样,才可能获取到真实(或接近真实)的结合构象。之后,如何找到最佳的结合位置就涉及到了构象搜索问题,在这个过程中同时计算多个构象会导致搜索空间以及计算量非常大,即使借助高性能计算机进行单个靶点的筛选也需要很长的时间,消耗较高的计算成本。除此之外,很重要的一点是使用分子模拟对接的前提是蛋白质的三维结构是已知的,而有些kinase的三维结构未知且不易获取。
近些年来,基于机器学习的方法得到了越来越多的关注,这类方法有一个明显的优势就是不需要获知蛋白质的三维结构信息。目前,已经有了大量关于药物-靶标相互作用预测的研究工作,这些研究工作不仅取得了较好的性能结果,而且研究的问题也越来越深入具体,这为药物的研发和药物重定向的探究产生了积极影响。但这些研究仍然存在一些不足之处有待改进:一是目前大多数药物-靶标相互作用预测的研究只提取了药物或靶标某一角度或某一层面的特征信息,单一层面的信息无法准确全面的将药物或靶标信息描述出来。且目前的很多研究只是对药物、靶标的多种类型的特征进行了简单的拼接,这样无法挖掘到比较深层的信息。这些都不利于高性能模型的构建。另外一个是当前的很多研究将探究药物-靶标相互作用视为了二分类问题,即仅探究出了药物和靶标能否相互作用,相比之下,探究出药物与靶标的相互作用程度则可以更有效地缩小用于下游实验验证的候选药物的广阔搜索空间,从而显著减少开发新药的高成本和长时间。
发明内容
本申请提供一种药物-靶标相互作用的预测方法、装置、设备和存储介质,能够预测药物与靶标之间的相互作用。
本申请实施例第一方面提供了一种药物-靶标相互作用的预测方法,包括:
获取训练数据集,所述训练数据集包括:靶标对象的蛋白序列和药物对象的化学结构,以及所述靶标对象和所述药物对象两者之间的相互作用关系;
提取所述靶标对象的蛋白序列的靶标特征和所述药物对象的化学结构的药物特征;
对所述靶标特征和所述药物特征进行特征选择;
将选择后的靶标特征和药物特征进行特征融合;
基于融合后的靶标特征和药物特征,构建用于预测药物-靶标相互作用强弱顺序的排序模型;
获取待预测靶标对象和待预测药物对象;
基于所述排序模型,预测所述待预测靶标对象和所述待预测药物对象的亲和力。
可选地,在提取所述靶标对象的蛋白序列的靶标特征和所述药物对象的化学结构的药物特征之前,所述预测方法还包括:
对所述靶标对象、所述药物对象以及所述靶标对象和所述药物对象两者之间的相互作用关系分别进行优化处理;
提取所述靶标对象的蛋白序列的靶标特征和所述药物对象的化学结构的药物特征,包括:
提取优化处理后的所述靶标对象的蛋白序列的靶标特征和优化处理后的所述药物对象的化学结构的药物特征。
可选地,对所述靶标对象、所述药物对象以及所述靶标对象和所述药物对象两者之间的相互作用关系分别进行优化处理,包括:
删除含有无效字符、长度小于预设数目的靶标对象的蛋白序列,并对剩余的靶标对象的蛋白序列进行去冗余处理;
表示药物对象的整体特征,并计算药物对象之间的相似度,基于药物对象之间的相似度去除具有较高相似度的药物对象;
将所述靶标对象和所述药物对象两者之间的相互作用关系进行取对数处理,并将去对数后的所述靶标对象和所述药物对象两者之间的相互作用关系作相反数处理。
可选地,所述靶标对象为kinase蛋白,所述药物对象为kinase抑制剂;
当所述药物对象能够作用于所述靶标对象时,用所述靶标对象和所述药物对象两者之间的半抑制浓度、抑制常数和解离常数表征两者之间的相互作用关系;
当所述药物对象不能够作用于所述靶标对象时,用预设常数表征两者之间的相互作用关系。
可选地,提取所述靶标对象的蛋白序列的靶标特征和所述药物对象的化学结构的药物特征,包括:
基于氨基酸组成、伪氨基酸组成、氨基酸的理化性质、蛋白质序列的进化信息、序列中残基之间属性信息提取所述靶标对象的蛋白序列的靶标特征;以及
基于2D指纹、药物描述符信息提取所述药物对象的化学结构的药物特征。
可选地,对所述靶标特征和所述药物特征进行特征选择,包括:
获取所述靶标特征和所述药物特征之间的欧几里得距离、余弦距离和谷本系数;
对所述欧几里得距离、余弦距离和谷本系数进行求和;
将所述求和的值最大的靶标特征和药物特征作为被选择留下的特征。
可选地,将选择后的靶标特征和药物特征进行特征融合,包括:
基于相似性网络融合算法,将选择后的靶标特征和药物特征进行特征融合。
本申请实施例第二方面提供一种药物-靶标相互作用的预测装置,包括:
第一获取模块,用于获取训练数据集,所述训练数据集包括:靶标对象的蛋白序列和药物对象的化学结构,以及所述靶标对象和所述药物对象两者之间的相互作用关系;
特征提取模块,用于提取所述靶标对象的蛋白序列的靶标特征和所述药物对象的化学结构的药物特征;
特征选择模块,用于对所述靶标特征和所述药物特征进行特征选择;
特征融合模块,用于将选择后的靶标特征和药物特征进行特征融合;
模型构建模块,用于基于融合后的靶标特征和药物特征,构建用于预测药物-靶标相互作用强弱顺序的排序模型;
第二获取模块,用于获取待预测靶标对象和待预测药物对象;
预测模块,用于基于所述排序模型,预测所述待预测靶标对象和所述待预测药物对象的亲和力。
本申请实施例第三方面提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请第一方面所述的方法中的步骤。
本申请实施例第四方面提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行时实现本申请第一方面所述的方法的步骤。
采用本申请实施例提供的药物-靶标相互作用预测方法,实现了对药物-靶标相互作用的预测。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的药物-靶标相互作用的预测方法的流程图;
图2为本申请实施例提供的药物-靶标相互作用的预测方法中所用样本示意图。
图3为本申请实施例提供的药物-靶标相互作用的预测方法中以数字形式表示药物、靶标数据信息的示意图。
图4为本申请实施例提供的药物-靶标相互作用的预测方法中所用样本经网络融合后的特征信息示意图。
图5为本申请实施例提供的药物-靶标相互作用的预测方法中排序学习对输入文件的格式要求示意图。
图6为本申请实施例提供的药物-靶标相互作用的预测方法中所用数据集输出的结果与真实排序的数据对比示意图。
图7为本申请实施例提供的药物-靶标相互作用的预测装置的结构示意图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
参照图1,示出了本申请一种药物-靶标相互作用的预测方法的流程图。如图1所示,该方法包括以下步骤:
S101,获取训练数据集,所述训练数据集包括:靶标对象的蛋白序列和药物对象的化学结构,以及所述靶标对象和所述药物对象两者之间的相互作用关系。
S102,提取所述靶标对象的蛋白序列的靶标特征和所述药物对象的化学结构的药物特征。
在一些可选地实施方式中,所述靶标对象为kinase蛋白,所述药物对象为kinase抑制剂。基于kinase蛋白的蛋白序列(样本)和kinase抑制剂的化学结构(样本),从多个不同的角度对kinase蛋白和kinase抑制剂进行特征提取。
在一些可选地实施方式中,在提取所述靶标对象的蛋白序列的靶标特征和所述药物对象的化学结构的药物特征之前,所述预测方法还包括:
对所述靶标对象、所述药物对象以及所述靶标对象和所述药物对象两者之间的相互作用关系分别进行优化处理;
提取所述靶标对象的蛋白序列的靶标特征和所述药物对象的化学结构的药物特征,包括:
提取优化处理后的所述靶标对象的蛋白序列的靶标特征和优化处理后的所述药物对象的化学结构的药物特征。
其中,对所述靶标对象、所述药物对象以及所述靶标对象和所述药物对象两者之间的相互作用关系分别进行优化处理,包括:
删除含有无效字符、长度小于预设数目50的靶标对象的蛋白序列,并用CD-Hit对剩余的靶标对象的蛋白序列进行去冗余处理;
通过MACCS指纹抽象表示药物对象的整体特征,并利用谷本系数计算药物对象之间的相似度,基于药物对象之间的相似度去除具有较高相似度的药物对象;
将所述靶标对象和所述药物对象两者之间的相互作用关系进行取对数处理,并将去对数后的所述靶标对象和所述药物对象两者之间的相互作用关系作相反数处理。
在一些可选地实施方式中,药物对象以smiles形式表示,靶标对象用蛋白质用序列形式表示,当所述药物对象能够作用于所述靶标对象时,用所述靶标对象和所述药物对象两者之间的半抑制浓度IC50、抑制常数Ki和解离常数Kd表征两者之间的相互作用关系。当所述药物对象不能够作用于所述靶标对象时,用预设常数10000表征两者之间的相互作用关系。
具体地,药物对象与靶标对象之间的相互作用关系用Affi1、Affi2、Affi3、Affi4四种值表示,具体如下:
其中,IC50、Ki、Kd值越小,药物与靶标的相互作用力越强,所以采用Affi1、Affi2、Affi3、Affi4可以将二者关系更直观地表示出来。图2为本发明实施例所用样本,其中涉及3种药物、4种蛋白质的相互作用情况。
在一些可选地实施方式中,药物特征用一般描述符表示、靶标特征基于DT算法进行特征。图3示例了将药物smile、蛋白质序列用数字的形式表示的部分信息。
在一些可选地实施方式中,特征提取方法有多种,可基于不同的角度进行特征提取。提取所述靶标对象的蛋白序列的靶标特征和所述药物对象的化学结构的药物特征,包括:
基于氨基酸组成、伪氨基酸组成、氨基酸的理化性质、蛋白质序列的进化信息、序列中残基之间属性信息提取所述靶标对象的蛋白序列的靶标特征;以及
基于2D指纹、药物描述符信息提取所述药物对象的化学结构的药物特征。
并且,每个角度的信息可由不同的特征提取算法进行挖掘,如基于进化信息进行靶标特征提取的方法有DT算法、有ACC-PSSM算法等,但是它们侧重的信息不同。
具体地,上述多种角度的特征信息提取方式如下:
1、药物的2D指纹信息、200个药物描述符均可由化学信息工具包RDKit计算得出。
2、蛋白质的多种角度的特征信息可由现今已经由研究者们集成好的工具包提取,现有的工具包有pse-in-one,ifeature,ileam等。这些工具包均可以数字的形式将蛋白质序列中包含的信息描述出来。
S103,对所述靶标特征和所述药物特征进行特征选择,包括:
获取所述靶标特征和所述药物特征之间的欧几里得距离、余弦距离和谷本系数;
对所述欧几里得距离、余弦距离和谷本系数进行求和;
将所述求和的值最大的靶标特征和药物特征作为被选择留下的特征。
基于多个角度提取特征后会得到较高维数的特征,无可避免的这些特征包含的信息之间存在交叉性,即特征冗余。用欧几里得距离、余弦距离和谷本系数这三种距离公式对这些特征进行初步的筛选,剔除冗余性特征。选择的依据为max(ED(X,Y)+Cos(X,YY+TC(X,Y)),其中ED(X,Y)为欧式距离,Cos(X,Y)为余弦距离、TC(X,Y)为谷本系数。X,Y为两个特征向量。三种距离公式的计算方法如下:以特征向量X(x1,y1),Y(x2,y2)为例
S104,将选择后的靶标特征和药物特征进行特征融合,包括:
基于相似性网络融合算法,将选择后的靶标特征和药物特征进行特征融合。
在一些可选地实施方式中,采用相似性网络融合算法代替现在大多数研究中简单的特征拼接或者feature mapping处理策略。相似性网络融合是多视角学习中的经典算法,这种算法更有潜力挖掘到特征之间的内在关联信息。融合后的网络可以捕获不同特征的共享与互补信息。图4展示了网络融合的过程及本实施例所用样本经相似性网络融合后的特征信息。连接节点的边缘表示不同的特征类型。所述的相似性网络融合算法步骤为:
S41.构建每个样本与其他样本之间的相似性网络,可用一个相似性矩阵W进行表示,矩阵中的元素W(i,j)即为样本之间的相似度,W(i,j)的计算方法如下:
其中,ED(ni,nj)为样本ni,nj的欧氏距离,μ为设置范围为[0.3,0.8]之间的超参数,Ni,Nj分别为ni,nj的邻居们。
S42.为计算多种类型特征的融合网络,需对S41中得到的相似性矩阵进行标准化,计算方式如下:
S43.构建每个样本与其近邻样本之间的相似性网络,其中近邻样本由K近邻算法计算得出。基于此网络计算出一个核矩阵,方法如下:
S44.使用非线性组合方法将这些网络集成到单个相似度网络中,过程如下:
其中,p(1),p(2)为两类特征的标准化后的矩阵,t为迭代次数。
S105,基于融合后的靶标特征和药物特征,构建用于预测药物-靶标相互作用强弱顺序的排序模型。
采用排序学习对药物-靶标相互作用强弱程度进行探究。排序学习最初是应用在信息检索领域中,它的原理与在万维网查询信息的过程一致,即用户输入查询,搜索引擎会输出与该查询相关的文档,并且这些文档按降序排列。目前已经有多种排序学习算法被开发出来。并且按照文档对象的个数可将这类算法分为三种类型:单文档类、文档对类、列表类。不同于常规的分类与回归算法,这类算法对输入文件有独特的格式要求。如图5即为排序学习对输入文件的格式要求。
欲查询新药物可作用的靶标和靶标的新功能,通过对样本数据划分为不同类型测试集、训练集实现。
用测试集测试所构建的排序模型,利用预测所得排序顺序与真实顺序作对比,评估出模型的性能。
用测试集测试训练出的模型的性能,本实施例中用整个查询1作为测试集,如图6即为基于实施例所用数据集输出的结果与真实排序的数据对比图。排序学习关注的是相对的相关性,所以本发明关注排名情况,而不是预测出的相关性数值。
一般情况下,需要进行的查询可以有多个,并不限制于1个,并且每个查询下对应的药物-蛋白对也均在大于1个以上。上述实施例为了便于阅读,均只展示较少的样本。在实际情况下,考虑到每个查询下对应的样本数较多,并且探究相关性较强的药物-靶标对更有意义,所以在实际中只比对预测结果和真实结果的排列在前1/3的样本的排序情况即可。
S106,获取待预测靶标对象和待预测药物对象;
S107,基于所述排序模型,预测所述待预测靶标对象和所述待预测药物对象的亲和力。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
1、本发明提出一种有效的药物-靶标相互作用预测模型,基于多个角度提取药物、靶标特征,每个角度都能够表示药物、靶标的一部分信息。这些信息之间可能存在互补性,这样就能够以数字的形式更加准确完备的表示出药物、靶标信息,这样有利于高性能药物-靶标相互作用模型的构建。
2、本发明将药物-靶标相互作用预测视为排序任务,并利用排序学习对药物-靶标相互作用的相对强弱程度进行探究。相对于二分类任务,排序可以更有效地缩小用于下游实验验证的候选药物的广阔搜索空间,从而显着减少开发新药的高成本和长时间。
3、本发明不再是对药物、靶标特征进行简单拼接或feature mapping.而是通过可以整合多个视角的数据并探索不同视角的数据之间复杂的相关性的多视角学习进一步挖掘了特征之间的内在关联。基于这样的信息训练模型可优化模型性能。
4、本发现通过不同的形式划分了测试集与训练集,这样的操作有利于探究新药的多靶点性以及靶标的多功能性。
基于同一发明构思,本申请一实施例提供一种药物-靶标相互作用的预测装置。参考图7,图7是本申请一实施例提供的药物-靶标相互作用的预测装置的示意图。如图7所示,该装置包括:
第一获取模块,用于获取训练数据集,所述训练数据集包括:靶标对象的蛋白序列和药物对象的化学结构,以及所述靶标对象和所述药物对象两者之间的相互作用关系;
特征提取模块,用于提取所述靶标对象的蛋白序列的靶标特征和所述药物对象的化学结构的药物特征;
特征选择模块,用于对所述靶标特征和所述药物特征进行特征选择;
特征融合模块,用于将选择后的靶标特征和药物特征进行特征融合;
模型构建模块,用于基于融合后的靶标特征和药物特征,构建用于预测药物-靶标相互作用强弱顺序的排序模型;
第二获取模块,用于获取待预测靶标对象和待预测药物对象;
预测模块,用于基于所述排序模型,预测所述待预测靶标对象和所述待预测药物对象的亲和力。
基于同一发明构思,本申请另一实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请上述任一实施例所述的方法中的步骤。
基于同一发明构思,本申请另一实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行时实现本申请上述任一实施例所述的方法中的步骤。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本申请所提供的一种植物抗性蛋白识别方法、装置、设备和存储介质,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。