信息预测及信息预测模型的训练方法、装置、设备及介质
技术领域
本公开涉及计算机
技术领域
,具体涉及机器学习与自然语言处理等人工智能技术领域
,尤其涉及一种信息预测及信息预测模型的训练方法、装置、设备与介质。背景技术
药物靶点蛋白相互作用(Drug Target Interaction,DTI)是新药研发领域中的重要一环,它是指药物化合物和靶点蛋白之间互相识别与作用的过程。判断药物和靶点蛋白之间的相互作用,即某种药物和靶标蛋白结合的亲和度,通常可以使用理化指标如解离常数Kd、抑制常数Ki等分数来衡量。
近年来,越来越多的基于人工智能(Artificial Intelligence;AI)的深度学习的方法运用在药物靶点蛋白相互作用的领域。例如,可以分别对药物化合物的原序列和靶点蛋白的原序列,使用如卷积神经网络(Convolutional Neural Network;CNN)、或者图神经网络(Graph Neural Network;GNN)等进行表示和学习,再将学习到的信息交互,根据交互得到的结果来预测药物与靶点蛋白质的亲和度。
发明内容
本公开提供了一种信息预测及信息预测模型的训练方法、装置、设备与介质。
根据本公开的一方面,提供了一种信息预测方法,其中,所述方法包括:
基于目标靶点蛋白的原序列,获取目标靶点蛋白的参数信息;
基于候选药物的原序列,获取候选药物的参数信息;
根据所述目标靶点蛋白的参数信息和所述候选药物的参数信息、以及预先训练的信息预测模型,预测所述目标靶点蛋白和所述候选药物的亲和度。
根据本公开的另一方面,提供了一种信息预测模型的训练方法,其中,所述方法包括:
采集数组训练样本;各组所述训练样本中包括训练药物的原序列、训练靶点蛋白的原序列以及所述训练药物与所述训练靶点蛋白的真实亲和度;
基于各组所述训练样本中的所述训练药物的原序列,获取所述训练药物的参数信息;
基于各组所述训练样本中的所述训练靶点蛋白的原序列,获取所述训练靶点蛋白的参数信息;
根据各组所述训练样本的所述训练药物的参数信息、所述训练靶点蛋白的参数信息以及所述训练靶点蛋白的真实亲和度,对信息预测模型进行训练。
根据本公开的再一方面,提供了一种信息预测装置,其中,所述装置包括:
靶点信息获取模块,用于基于目标靶点蛋白的原序列,获取目标靶点蛋白的参数信息;
药物信息获取模块,还用于基于候选药物的原序列,获取候选药物的参数信息;
预测模块,用于根据所述目标靶点蛋白的参数信息和所述候选药物的参数信息、以及预先训练的信息预测模型,预测所述目标靶点蛋白和所述候选药物的亲和度。
根据本公开的又一方面,提供了一种信息预测模型的训练装置,其中,所述装置包括:
采集模块,用于采集数组训练样本;各组所述训练样本中包括训练药物的原序列、训练靶点蛋白的原序列以及所述训练药物与所述训练靶点蛋白的真实亲和度;
药物信息获取模块,用于基于各组所述训练样本中的所述训练药物的原序列,获取所述训练药物的参数信息;
靶点信息获取模块,用于基于各组所述训练样本中的所述训练靶点蛋白的原序列,获取所述训练靶点蛋白的参数信息;
训练模块,用于根据各组所述训练样本的所述训练药物的参数信息、所述训练靶点蛋白的参数信息以及所述训练靶点蛋白的真实亲和度,对信息预测模型进行训练。
根据本公开的再另一方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上所述的方面和任一可能的实现方式的方法。
根据本公开的再又一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行如上所述的方面和任一可能的实现方式的方法。
根据本公开的又另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现如上所述的方面和任一可能的实现方式的方法。
根据本公开的技术,提供了一种更准确地信息预测模型,实现一种更准确地信息预测方案。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开第一实施例的示意图;
图2是根据本公开第二实施例的示意图;
图3是根据本公开第三实施例的示意图;
图4是根据本公开第四实施例的示意图;
图5是根据本公开第五实施例的示意图;
图6是根据本公开第六实施例的示意图;
图7是根据本公开第七实施例的示意图;
图8是根据本公开第八实施例的示意图;
图9示出了可以用来实施本公开的实施例的示例电子设备900的示意性框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例,都属于本公开保护的范围。
需要说明的是,本公开实施例中所涉及的终端设备可以包括但不限于手机、个人数字助理(Personal Digital Assistant,PDA)、无线手持设备、平板电脑(TabletComputer)等智能设备;显示设备可以包括但不限于个人电脑、电视等具有显示功能的设备。
另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
图1是根据本公开第一实施例的示意图;如图1所示,本实施例提供一种信息预测方法,本实施例的信息预测方法,具体可以包括如下步骤:
S101、基于目标靶点蛋白的原序列,获取目标靶点蛋白的参数信息;
S102、基于候选药物的原序列,获取候选药物的参数信息;
S103、根据目标靶点蛋白的参数信息和候选药物的参数信息、以及预先训练的信息预测模型,预测目标靶点蛋白和候选药物的亲和度。
本实施例的信息预测方法的执行主题为信息预测装置,该信息预测装置的执行主体为电子实体,或者也可以为采用软件集成的应用。本实施例的信息预测装置,用于实现目标靶点蛋白和候选药物的亲和度等信息的预测。
本实施例中,目标靶点蛋白的原序列可以为目标靶点蛋白的FASTA序列。基于目标靶点蛋白的原序列,获取目标靶点蛋白的参数信息,该参数信息可以包括一种信息,也可以包括多种信息。本实施例的目标靶点蛋白的参数信息基于目标靶点蛋白的原序列获取的,不同于目标靶点蛋白的FASTA序列,可以认为是基于目标靶点蛋白的FASTA序列获取的一种更加详细的信息。例如,目标靶点蛋白的参数信息可以包括子结构层面的信息,能够更加丰富、更加准确地表征目标靶点蛋白。当然也可以进一步包括该目标靶点蛋白的其他信息,如目标靶点蛋白的构象层面的3D结构信息、接触图(Contact map)与距离图(Distance map)信息等等中的至少一种。
另外,候选药物的原序列可以为候选药物的简化分子线性输入规范(Simplifiedmolecular input line entry specification;SMILES)序列。同理,候选药物的参数信息是基于候选药物的SMILES序列获取的,不同于候选药物的SMILES序列。同理,可以认为候选药物的参数信息是基于候选药物的SMILES序列获取的一种更加详细的信息。例如,候选药物的SMILES序列可以包括子结构层面的信息,能够更加丰富、更加准确地表征候选药物。当然也可以进一步包括该候选药物的其他信息,如3D结构信息以及官能团的图信息等等中的至少一种。
然后,可以将目标靶点蛋白的参数信息和候选药物的参数信息,输入至预先训练的信息预测模型,该信息预测模型可以基于目标靶点蛋白的参数信息和候选药物的参数信息,预测并输出目标靶点蛋白和候选药物的亲和度。
需要说明的是,本实施例的步骤S101和S102可以无先后顺序限制。
本实施例的信息预测方法,通过根据目标靶点蛋白的参数信息和候选药物的参数信息、以及预先训练的信息预测模型,预测目标靶点蛋白和候选药物的亲和度,由于目标靶点蛋白的参数信息和候选药物的参数信息分别不同于目标靶点蛋白的原序列和候选药物的原序列的信息,能够更加准确地表征目标靶点蛋白和候选药物,进而能够更加准确地预测目标靶点蛋白和候选药物的亲和度。
图2是根据本公开第二实施例的示意图;本实施例提供的信息预测方法,在上述图1所示实施例的技术方案的基础上,进一步更加详细地描述本公开的技术方案。如图2所示,本实施例提供的信息预测方法,具体可以包括如下步骤:
S201、对目标靶点蛋白的原序列进行切分,得到多个子单元构成的第一单元序列;
具体地,对目标靶点蛋白的FASTA序列进行切分,具体可以按照最小的切分单元进行切分,进而可以得到多个子单元构成的第一单元序列。
S202、根据预先建立的靶点蛋白信息表中各已知蛋白分子化合物以及对应的出现频率,对第一单元序列中的多个子单元进行合并处理,得到目标靶点蛋白的子结构信息;
由于第一单元序列中包括的各个子单元为最小的单元,有些最小的单元可能构不成蛋白分子信息,独立存在的意义不大,而与其他子单元构成的片段更有存在价值。所以,本实施例中还可以对第一单元序列中的多个子单元进行合并处理。具体地合并处理过程中,主要是对连续的两个、三个或者多个子单元进行合并处理。
本实施例在合并处理过程中,可以借助预先建立的靶点蛋白信息表来实现,该靶点蛋白信息表可以基于现有的靶点蛋白数据库如UniPront、BFD等等数据库建立,该靶点蛋白信息表中可以包括数个已知蛋白分子以及各蛋白分子在数据库中的出现频率。合并处理时,可以按照从前到后的顺序,依次选取一个子单元作为处理对象进行分析。例如,对于第一个子单元,由于其为第一个,不存在与之前的子单元合并处理,可以直接从第二子单元开始分析。对于第二个子单元,向前取一个子单元,即将第一子单元和第二子单元合并作为一个整体的蛋白分子化合物,可以查找靶点蛋白信息表,获取该蛋白分子化合物的出现频率。对于未出现过的蛋白分子化合物的出现频率均为0。若出现过,可以将该第一子单元和第二子单元合并,并记录第一子单元和第二子单元合并构成的蛋白分子化合物的出现频率。然后,继续分析第三个子单元,此时存在两种合并策略。一种是向前取一个子单元,即将第二子单元和第三子单元合并、作为一个整体的蛋白分子化合物,通过查找靶点蛋白信息表,获取该蛋白分子化合物的出现频率。另一种是向前取两个子单元,即将第一子单元、第二子单元和第三子单元合并、作为一个整体的蛋白分子化合物,通过查找靶点蛋白信息表,获取该蛋白分子化合物的出现频率。然后对比第一子单元和第二子单元合并构成的蛋白分子化合物、第二子单元和第三子单元合并构成的蛋白分子、以及第一子单元、第二子单元和第三子单元合并构成的蛋白分子化合物的出现频率哪个大,便可以按照哪种方式对子单元进行合并处理。依次类推,继续分析后面的子单元,直至对目标靶点蛋白的FASTA序列中的所有子单元分析完毕,完成合并处理,得到目标靶点蛋白的子结构信息。也就是说,目标靶点蛋白的子结构信息是对第一单元序列中的部分连续子单元进行了合并处理。基于以上所述,可以得知合并处理过程中,对于任一子单元,按照出现频率最高的蛋白分子化合物与相邻的子单元进行合并处理。对于未在靶点蛋白信息表的任一蛋白分子化合物中出现过的子单元,仍单独存在,不做合并处理。
本实施例的合并处理过程也不仅仅限于上述过程,无论采用哪种方式,均需要获取各子单元合与其相邻的子单元构成的化合物片段的出现频率,此处的相邻不仅仅包括直接相邻,在化合物片段中包括直接相邻的子单元时,还可以进一步包括相邻子单元的相邻子单元,依次类推。最后将各子单元合并至出现频率最高的化合物片段中。例如,若目标靶点蛋白的第一单元序列包括ABCDE,待分析的化合物片段可以包括AB、BC、ABC、CD、BCD、ABCD、DE、CDE、BCDE和ABCDE。若BC的出现频率最高,DE的出现频率次之,BCD的出现频率再次之,此时则分别合并B和C,D和E,得到的目标靶点蛋白的子结构信息可以表示为:A-BC-DE。当然实际应用中,不限于两个相邻子单元的合并,若多个子单元构成的化合物片段的出现频率更高时,可以将多个子单元合并至一个片段中。该种方式得到的子结构信息可以从多粒度层面上更加准确地标识目标靶点蛋白。
本实施例的步骤S201-S202为上述图1所示实施例的步骤S101的一种具体实现方式。
S203、对候选药物的原序列进行切分,得到多个子单元构成的第二单元序列;
与第一单元序列的生成同理,对候选药物的SMILES序列按照最小的切分单元进行切分,进而可以得到多个子单元构成的第二单元序列。
S204、根据预先建立的药物化合物信息表中各已知药物化合物以及对应的出现频率,对第二单元序列中的多个子单元进行合并处理,得到候选药物的子结构信息;
药物化合物信息表可以基于现有的药物数据库如Chembl、bindingDB、DrugBank等数据库建立。该药物化合物信息表中可以包括数个已知药物化合物以及各药物化合物在数据库中的出现频率。
候选药物的子结构信息的获取过程与上述目标靶点蛋白的子结构信息的获取过程原理相似,对第二单元序列中的多个子单元进行合并处理的过程,详细可以参考上述步骤S202的实现过程,在此不再赘述。
本实施例的步骤S203-S204为上述图1所示实施例的步骤S102的一种具体实现方式。
本实施例中,合并处理后得到的候选药物的子结构信息和目标靶点蛋白的子结构信息中可以认为既包括至少两个子单元合并后的片段,也包括无法合并的子单元,因此得到的候选药物的子结构信息和目标靶点蛋白的子结构信息中包括不同粒度层面的信息,能够更加准确地标识候选药物和目标靶点蛋白。
S205、根据目标靶点蛋白的子结构信息和候选药物的子结构信息、以及预先训练的信息预测模型,预测目标靶点蛋白和候选药物的亲和度。
本实施例的信息预测模型可以采用单塔结构的Transformer网络模型,或者单塔结构的其他网络模型。
使用时,首先分别将目标靶点蛋白的子结构信息和候选药物的子结构信息中的每个子结构进行embedding处理,然后将目标靶点蛋白和候选药物各自的所有子结构的embedding进行融合(Concatenation)操作,拼接在一起得到目标靶点蛋白的embedding和候选药物的embedding。并在网络模型的Embedding Layer,将候选药物的embedding和目标靶点蛋白的embedding进行点积运算:Femb=Demb*Temb;其中,Femb是点积运算后的embedding,Demb是候选药物的融合后embedding,Temb是目标靶点蛋白的融合后的embedding。由于Femb是通过候选药物的融合后embedding和目标靶点蛋白的融合后的embedding通过点积运算得到的,所以该Femb包含了目标靶点蛋白和候选药物的交互信息。最后将该Femb输入至信息预测模型,该信息预测模块可以基于该Femb中包含的目标靶点蛋白和候选药物的交互信息,预测并输出候选药物与目标靶点蛋白之间的亲和度。
本实施例的信息预测方法,基于目标靶点蛋白的子结构信息和候选药物的子结构信息、以及预先训练的信息预测模型,预测目标靶点蛋白和候选药物的亲和度,由于采用的目标靶点蛋白的子结构信息和候选药物的子结构信息更加丰富、更加准确地标识相应的目标靶点蛋白和候选药物,进而可以使得预测的目标靶点蛋白和候选药物的亲和度更加地准确。
图3是根据本公开第三实施例的示意图;本实施例提供的信息预测方法,在上述图2所示实施例的技术方案的基础上,进一步更加详细地描述本公开的技术方案。如图3所示,本实施例提供的信息预测方法,具体可以包括如下步骤:
S301、对目标靶点蛋白的原序列进行切分,得到多个子单元构成的第一单元序列;
S302、根据预先建立的药物化合物信息表中各已知药物化合物以及对应的出现频率,对第一单元序列中的多个子单元进行合并处理,得到目标靶点蛋白的子结构信息;
S303、基于目标靶点蛋白的原序列,获取目标靶点蛋白的构象层面的3D结构信息、接触图信息以及距离图信息中至少一种;
例如,可以采用HHBlits方法从目标靶点蛋白的FASTA序列中提取多序列比对(Multiple Sequence Alignment;MSA)信息,并进一步基于MSA信息获取构象层面的3D结构信息和接触图(Contact map)与距离图(Distance map)信息。
本实施例的步骤S301-S303为上述图1所示实施例的步骤S101的一种具体实现方式。在上述图2所示实施例的基础上,本实施例的目标靶点蛋白的参数信息还包括了目标靶点蛋白的构象层面的3D结构信息、接触图信息以及距离图信息中至少一种,进一步增加了目标靶点蛋白的多个粒度的信息,丰富了目标靶点蛋白的参数信息。
S304、对候选药物的原序列进行切分,得到多个子单元构成的第二单元序列;
S305、根据预先建立的药物化合物信息表中各已知药物化合物以及对应的出现频率,对第二单元序列中的多个子单元进行合并处理,得到候选药物的子结构信息;
S306、基于候选药物的原序列,获取候选药物的3D结构信息以及官能团的图信息中的至少一种;
例如,基于候选药物的SMILES序列,利用RDkit方法计算得到候选药物的3D结构信息以及官能团的图信息中的至少一种。
本实施例的步骤S304-S306为上述图1所示实施例的步骤S102的一种具体实现方式。在上述图2所示实施例的基础上,本实施例的候选药物的参数信息还包括了候选药物的3D结构信息以及官能团的图信息中的至少一种,进一步增加了候选药物的多个粒度的信息,丰富了候选药物的参数信息。
S307、根据目标靶点蛋白的子结构信息、候选药物的子结构信息和预先训练的信息预测模型,并结合目标靶点蛋白的构象层面的3D结构信息、接触图信息以及距离图信息中至少一种、同时还参考候选药物的3D结构信息以及官能团的图信息中的至少一种,预测目标靶点蛋白和候选药物的亲和度,同时还预测候选药物发生结合的官能团信息和/或目标靶点蛋白的口袋信息。
与上述图2所示实施例的步骤S205相似,以同时包括目标靶点蛋白的构象层面的3D结构信息、接触图信息和距离图信息、以及参考候选药物的3D结构信息和官能团的图信息为例。使用时,分别将目标靶点蛋白的子结构信息、目标靶点蛋白的构象层面的3D结构信息、接触图信息以及距离图信息分别进行embedding,再将这些embedding进行融合,拼接在一起作为目标靶点蛋白的embedding。同时将候选药物的子结构信息、候选药物的3D结构信息以及官能团的图信息分别进行embedding,再将这些embedding进行融合(Concatenation)操作,拼接在一起作为候选药物的embedding。后续实现与步骤S205相似,将候选药物的embedding和目标靶点蛋白的embedding进行点积计算,得到相应的Femb。该Femb包含了候选药物和目标靶点蛋白的所有交互信息。最后将点积计算后的Femb输入至信息预测模型,该信息预测模型可以基于Femb中包含的候选药物和目标靶点蛋白的所有交互信息,预测候选药物与目标靶点蛋白之间的亲和度,并输出。
进一步地,本实施例的信息预测模型功能更强大,还可以进一步基于输入的融合后的embedding,预测候选药物发生结合的官能团(functional group)信息和目标靶点蛋白的口袋信息,其中该目标靶点蛋白的口袋信息包括目标靶点蛋白的口袋结构和口袋位置(docking pocket site)。
可选地,上述图1和图2所示实施例中也可以根据目标靶点蛋白的参数信息和候选药物的参数信息、以及预先训练的信息预测模型,预测候选药物发生结合的官能团信息和/或目标靶点蛋白的口袋信息。
本实施例的信息预测方法,根据目标靶点蛋白的子结构信息、候选药物的子结构信息和预先训练的信息预测模型,并结合目标靶点蛋白的构象层面的3D结构信息、接触图信息以及距离图信息中至少一种、同时还参考候选药物的3D结构信息以及官能团的图信息中的至少一种,预测目标靶点蛋白和候选药物的亲和度,由于采用了目标靶点蛋白和候选药物的更多粒度的参数信息,进而可以更加准确地预测的目标靶点蛋白和候选药物的亲和度。
而且,本实施例中,还可以进一步预测候选药物发生结合的官能团信息和目标靶点蛋白的口袋信息,进一步丰富了预测的信息,满足用户的需求。
图4是根据本公开第四实施例的示意图;本实施例提供的信息预测模型的训练方法,具体可以包括如下步骤:
S401、采集数组训练样本;各组训练样本中包括训练药物的原序列、训练靶点蛋白的原序列以及训练药物与训练靶点蛋白的真实亲和度;
S402、基于各组训练样本中的训练药物的原序列,获取训练药物的参数信息;
S403、基于各组训练样本中的训练靶点蛋白的原序列,获取训练靶点蛋白的参数信息;
其中步骤S402和S403可以无先后顺序限制。训练药物的参数信息和训练靶点蛋白的参数信息可以参考上述图1-图3所示实施例中候选药物的参数信息和目标靶点蛋白的参数信息的相关记载。
S404、根据各组训练样本的训练药物的参数信息、训练靶点蛋白的参数信息以及训练靶点蛋白的真实亲和度,对信息预测模型进行训练。
训练时,对于任一组训练样本,基于训练药物的参数信息和训练靶点蛋白的参数信息,输入至信息预测模型中,该信息预测模型可以预测并输出训练靶点蛋白和训练药物的预测亲和度。然后基于预测亲和度和真实亲和度可以构建损失函数,并基于损失函数调整信息预测模型的参数,使得损失函数趋于收敛。按照上述方式,采用多组训练样本不断地对信息预测模型进行训练,可以使得信息预测模型学习到基于训练药物的参数信息和训练靶点蛋白的参数信息,预测两者亲和度的能力。
其中将训练药物的参数信息和训练靶点蛋白的参数信息,输入至信息预测模型中时,也可以参考上述图2所示实施例的相关记载,将训练药物的参数信息和训练靶点蛋白的参数信息进行embedding后,进行融合,再输入至信息预测模型中。
本实施例的信息预测模型的训练方法,根据各组训练样本的训练药物的参数信息、训练靶点蛋白的参数信息以及训练靶点蛋白的真实亲和度,对信息预测模型进行训练,由于训练过程中采用的训练样本的训练药物的参数信息和训练靶点蛋白的参数信息能够更加准确地表征训练药物和训练靶点蛋白,进而可以使得训练的信息预测模型预测的亲和度更加准确。
与上述图2所示实施例的实现原理相同,本实施例的训练药物的参数信息具体可以包括训练药物的子结构信息。此时对应地,步骤S402基于各组训练样本中的训练药物的原序列,获取训练药物的参数信息,具体可以包括:
基于各组训练样本中的训练药物的原序列,获取训练药物的子结构信息。该训练药物的子结构信息的获取过程可以参考上述步骤S204的相关记载。
对应地,步骤S403基于各组训练样本中的训练靶点蛋白的原序列,获取训练靶点蛋白的参数信息,具体可以包括:
基于各组训练样本中的训练靶点蛋白的原序列,获取训练靶点蛋白的子结构信息。该训练靶点蛋白的参数信息的获取过程可以参考上述步骤S202的相关记载。
与上述图3示实施例的实现原理相同,步骤S402基于各组训练样本中的训练药物的原序列,获取训练药物的参数信息,具体还可以包括:基于各组训练样本中的训练药物的原序列,获取训练药物的3D结构信息以及官能团的图信息中的至少一种。此时,训练药物的参数信息可以包括不同粒度层面的信息,可以进一步更加丰富、准确地表征训练药物分子,进而可以增强信息预测模型的学习能力。
另外,步骤S403基于各组训练样本中的训练靶点蛋白的原序列,获取训练靶点蛋白的参数信息,具体还可以包括:基于各组训练样本中的训练靶点蛋白的原序列,获取训练靶点蛋白的构象层面的3D结构信息、接触图信息以及距离图信息中至少一种。此时,训练靶点蛋白的参数信息可以包括不同粒度层面的信息,可以进一步更加丰富、准确地表征训练靶点蛋白分子,进而可以增强信息预测模型的学习能力。
需要说明的是,本实施例的信息预测模型除了可以预测训练药物与蛋白靶点的亲和度,还可以预测药物化合物的发生结合的真实官能团信息和/或训练靶点蛋白的真实口袋信息。因此,在训练时,也需要让信息预测模型对该部分功能进行学习。此时需要各训练样本中还标注有训练药物的发生结合的真实官能团信息和/或训练靶点蛋白的真实口袋信息;
对应地,训练时,可以根据各组训练样本的训练药物的参数信息、训练靶点蛋白的参数信息、训练靶点蛋白的真实亲和度;同时还参考训练药物的发生结合的真实官能团信息和/或训练靶点蛋白的真实口袋信息,对信息预测模型进行训练。
具体地,训练时,对于任一组训练样本,可以将训练药物的所有参数信息进行embedding,也将训练靶点蛋白的所有参数信息进行embedding。然后将两者进行拼接融合,并输入至信息预测模型中。然后由信息预测模型输出预测亲和度、训练药物的发生结合的预测官能团信息和训练靶点蛋白的预测口袋信息,接下来结合标注的训练药物与训练靶点蛋白的真实亲和度、训练药物的发生结合的真实官能团信息和训练靶点蛋白的真实口袋信息,构建损失函数。进一步基于损失函数调整信息预测模型的参数,使得损失函数趋于收敛。采用多组训练样本,采用上述方式不断地对信息预测模型进行训练,直至损失函数在连续预设轮数的训练中,一直收敛,或者也可以在训练次数达到预设次数阈值时,训练结束。此时可以认为信息预测模型学习到预测训练药物与蛋白靶点的亲和度的能力,同时还学习到预测药物化合物的发生结合的官能团信息和训练靶点蛋白的口袋信息的能力。
图5是根据本公开第五实施例的示意图;如图5所示,提供一种信息预测模型的应用架构图。结合上述实施例,无论是上述图3所示的信息预测模型的应用过程,还是本实施例的信息预测模型的训练过程中,该信息预测模型的应用架构都如图5所示。使用过程中,首先,可以基于靶点蛋白的原序列获取靶点蛋白的子结构信息、构象层面的3D结构信息、接触图信息以及距离图信息等不同粒度的参数信息。基于药物的原序列获取药物的子结构信息、3D结构信息以及官能团的图信息等不同粒度的参数信息。详细获取过程均参考上述相关实施例的记载。然后在嵌入(Embedding)层,将各自粒度的参数信息通过融合的方式拼接在一起,分别得到靶点蛋白的embedding和药物的embedding,并将靶点蛋白的embedding和药物的embedding进行点积计算。然后将点积计算的结果输入至信息预测模型。该信息预测模型可以基于输入的信息,实现药物的官能团信息、药物与靶点蛋白的亲和度、以及靶点蛋白的口袋信息等多任务的输出。
从宏观角度来看,药物与靶点蛋白相互作用的研究是判断药物分子与靶点蛋白质大分子之间是否能够紧密结合并激活相关理化反应,如抗原抗体免疫反应等。从微观角度来看,药物和靶点蛋白之间的相互作用,实际上只有蛋白质的某个口袋位置和药物的某部分子结构进行结合和反应。因此,如果能够结合不同粒度层面的信息,同时学习和利用分子结构与位置的信息,便能更准确地计算得到药物和靶点蛋白相结合的亲和度。本公开即是从以上角度出发,提出基于多模态分子表征的药物靶点对接多任务学习。
即本实施例,充分利用不同粒度层面的药物化合物与目标靶点蛋白的分子信息,使得信息预测模型能学习到更加丰富的分子表征,最终预测得到的药物和靶点蛋白相互作用的亲和度相较现有方法有一定提升,均方误差MSE降低约0.04,一致性指数CI上升约0.03;同时,还能够弥补现有技术的不足,同时输出多种子任务结果。因此采用本实施例的技术方案对于性能效率上会有大幅提升,能满足用户不同需求,如能够满足用户所关心的发生结合的药物化合物分子子结构、与靶点蛋白口袋位置与结构的信息的预测。
图6是根据本公开第六实施例的示意图;如图6所示,本实施例提供了一种信息预测装置600,包括:
靶点信息获取模块601,用于基于目标靶点蛋白的原序列,获取目标靶点蛋白的参数信息;
药物信息获取模块602,还用于基于候选药物的原序列,获取候选药物的参数信息;
预测模块603,用于根据目标靶点蛋白的参数信息和候选药物的参数信息、以及预先训练的信息预测模型,预测目标靶点蛋白和候选药物的亲和度。
本实施例的信息预测装置600,通过采用上述模块实现信息预测的实现原理以及技术效果,与上述相关方法实施例的实现相同,详细可以参考上述相关方法实施例的记载,在此不再赘述。
图7是根据本公开第七实施例的示意图;如图7所示,本实施例提供的信息预测装置600,在上述图6所示实施例的技术方案的基础上,进一步更加详细地描述本公开的技术方案。
如图7所示,本实施例的信息预测装置600中,靶点信息获取模块601,包括:
第一切分单元6011,用于对目标靶点蛋白的原序列进行切分,得到多个子单元构成的第一单元序列;
第一合并单元6012,用于根据预先建立的药物化合物信息表中各已知药物化合物以及对应的出现频率,对第一单元序列中的多个子单元进行合并处理,得到目标靶点蛋白的子结构信息。
进一步可选地,靶点信息获取模块601,还包括:
第一获取单元6013,用于基于目标靶点蛋白的原序列,获取目标靶点蛋白的构象层面的3D结构信息、接触图信息以及距离图信息中至少一种。
进一步可选地,如图7所示,本实施例的信息预测装置500中,药物信息获取模块602,包括:
第二切分单元6021,用于对候选药物的原序列进行切分,得到多个子单元构成的第二单元序列;
第二合并单元6022,用于根据预先建立的药物化合物信息表中各已知药物化合物以及对应的出现频率,对第二单元序列中的多个子单元进行合并处理,得到候选药物的子结构信息。
进一步可选地,药物信息获取模块602,还包括:
第二获取单元6023,用于基于候选药物的原序列,获取候选药物的3D结构信息以及官能团的图信息中的至少一种。
进一步可选地,预测模块603,还用于:
根据目标靶点蛋白的参数信息和候选药物的参数信息、以及信息预测模型,预测候选药物发生结合的官能团信息和/或目标靶点蛋白的口袋信息。
本实施例的信息预测装置600,通过采用上述模块实现信息预测的实现原理以及技术效果,与上述相关方法实施例的实现相同,详细可以参考上述相关方法实施例的记载,在此不再赘述。
图8是根据本公开第八实施例的示意图;如图8所示,本实施例提供一种信息预测模型的训练装置800,包括:
采集模块801,用于采集数组训练样本;各组训练样本中包括训练药物的原序列、训练靶点蛋白的原序列以及训练药物与训练靶点蛋白的真实亲和度;
药物信息获取模块802,用于基于各组训练样本中的训练药物的原序列,获取训练药物的参数信息;
靶点信息获取模块803,用于基于各组训练样本中的训练靶点蛋白的原序列,获取训练靶点蛋白的参数信息;
训练模块804,用于根据各组训练样本的训练药物的参数信息、训练靶点蛋白的参数信息以及训练靶点蛋白的真实亲和度,对信息预测模型进行训练。
本实施例的信息预测模型的训练装置800,通过采用上述模块实现信息预测模型的训练的实现原理以及技术效果,与上述相关方法实施例的实现相同,详细可以参考上述相关方法实施例的记载,在此不再赘述。
进一步可选地,药物信息获取模块802,用于:
基于各组训练样本中的训练药物的原序列,获取训练药物的子结构信息。
进一步可选地,药物信息获取模块802,还用于:
基于各组训练样本中的训练药物的原序列,获取训练药物的3D结构信息以及官能团的图信息中的至少一种。
进一步可选地,靶点信息获取模块803,用于:
基于各组训练样本中的训练靶点蛋白的原序列,获取训练靶点蛋白的子结构信息。
进一步可选地,靶点信息获取模块803,还用于:
基于各组训练样本中的训练靶点蛋白的原序列,获取训练靶点蛋白的构象层面的3D结构信息、接触图信息以及距离图信息中至少一种。
进一步可选地,各训练样本中还标注有训练药物的发生结合的真实官能团信息和/或训练靶点蛋白的真实口袋信息;
进一步地,训练模块804还用于:
根据各组训练样本的训练药物的参数信息、训练靶点蛋白的参数信息、训练靶点蛋白的真实亲和度;同时还参考训练药物的发生结合的真实官能团信息和/或训练靶点蛋白的真实口袋信息,对信息预测模型进行训练。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质以及一种计算机程序产品。
图9示出了可以用来实施本公开的实施例的示例电子设备900的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图9所示,电子设备900包括计算单元901,其可以根据存储在只读存储器(ROM)902中的计算机程序或者从存储单元908加载到随机访问存储器(RAM)903中的计算机程序,来执行各种适当的动作和处理。在RAM 903中,还可存储电子设备900操作所需的各种程序和数据。计算单元901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。
电子设备900中的多个部件连接至I/O接口905,包括:输入单元906,例如键盘、鼠标等;输出单元907,例如各种类型的显示器、扬声器等;存储单元908,例如磁盘、光盘等;以及通信单元909,例如网卡、调制解调器、无线通信收发机等。通信单元909允许电子设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理,例如信息预测方法或者信息预测模型的训练方法。例如,在一些实施例中,信息预测方法或者信息预测模型的训练方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元908。在一些实施例中,计算机程序的部分或者全部可以经由ROM 902和/或通信单元909而被载入和/或安装到电子设备900上。当计算机程序加载到RAM 903并由计算单元901执行时,可以执行上文描述的信息预测方法或者信息预测模型的训练方法的一个或多个步骤。备选地,在其他实施例中,计算单元901可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行信息预测方法或者信息预测模型的训练方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、互联网和区块链网络。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务("Virtual Private Server",或简称"VPS")中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。