分子相似性搜索
相关申请的交叉引用
本申请要求于2020年3月16日提交的美国临时专利申请62/989,937和2021年2月18日提交的美国临时专利申请63/150,597的优先权,上述申请通过引用合并于此。
技术领域
本申请总体上涉及相似性搜索,并且具体地涉及分子相似性搜索。
背景技术
药物工业的支柱之一是小分子药物。制药研究人员搜索将以他们期望的方式例如抑制酶或激活受体的分子。使用人工智能(AI)进行分子属性预测是已知的。
药物制造者使用分子相似性搜索来尝试预测诸如以下各项的属性:溶解度-分子可能溶解到血液中或进入细胞膜的程度;毒性-分子可能损害生物体的程度;以及血脑屏障(BBB)-分子是否进入大脑。在首先针对结构筛选出分子后,研究人员采用深度学习技术来查找具有与已知分子相似的期望属性的分子。
研究人员利用作为数学模型的神经网络,在这种情况下是卷积神经网络(CNN)或图形卷积网络(GCN),来识别分子的属性。这些可以在软件平台(例如,Rdkit、Deepchem等)上实现。
现在参考图1A和图1B,示出了GCN 1,其包括多个神经层;输入层2,多个隐藏层3和输出层4。每层包括多个节点6,并且每层中的节点可以通过多个连接7来连接。每个节点可以完全连接到前一层和后一层中的每个节点,但并不要求必须如此。
如下面详细描述的,表示分子的结构和原子特征的输入向量Vi在输入层2处进入GCN 1并且遍历隐藏层3,并且输出向量Vo在输出层4处离开GCN 1。
操作GCN的主要模式有两种:训练模式和操作模式(包括测试、验证和定期使用GCN1)。在训练期间,将具有已知的输出值Vo的输入向量Vi传递通过GCN 1。例如,通过交叉熵损失来调整节点6、权重W、连接7和GCN 1的其它特征(在下文中进一步说明),因此,当Vi遍历GCN 1时,GCN 1会将Vi转换为等于输出层4处的已知值Vo。训练GCN以执行准确的转换是一项复杂的任务,如本领域所公知的。
一旦训练了GCN,就使用另一组输入向量来测试和验证GCN转换是否可靠且准确。将同样具有已知输出值的另一组测试输入向量传递通过GCN 1,并且将实际Vo结果与已知Vo值进行比较。如果结果可接受,则认为GCN已经被训练。一旦被训练,GCN就可以用于预测未知查询向量的输出。
研究人员努力在GCN内创建完美的转换模型,该模型将针对给定输入生成期望的输出。例如,可以将分子的结构和原子属性(称为特征)输入到GCN中,并且可以在输出处预测这种分子的毒理学属性。如本领域技术人员已知的,在GCN的训练阶段期间,使用各种深度学习技术来改善GCN。这些技术包括但不限于近邻特征聚合层、归一化层、池化层、非线性转换层、读出层等。当前的GCN技术在以下各项中描述:http://www.deeplearningbook.org处的网站出版物“Deep Learning”;ACM2019发布的文章“SimGNN:A Neural NetworkApproach to Fast Graph Similarity Computation”;以及由ICLR 2017年发布的Semi-Supervised Classification with Graph Convolutional Networks。
使用上文提到的毒理学示例,美国环境保护署、美国国家毒理学计划、美国国家推进转化科学中心和美国食品药品监督管理局形成了Tox21联盟,该联盟创建了Tox21分子属性数据集。Tox21数据集包括:用于训练、验证和测试GCN的超过12,000个分子的数据库。训练分子具有一组已知的12种毒理学属性,其由GCN 1在训练期间使用,以对节点6、连接7、权重W和上文提到的其它GCN特征进行自调整,从而训练GCN以针对给定输入分子输出正确的Tox21 12位属性集。
Tox21数据集具有输入向量集,其具有可以用于训练GCN 1的已知输出向量。其它向量集包含于用于测试和验证的数据集中。总共大约有12,000个向量可用。选择训练分子集以反映与GCN 1一起使用的输入类型的范围。同样,验证向量是将测试GCN的性能的完整宽度但在训练期间不使用的一组分子。最后,当GCN 1经过测试和验证时,未知的分子向量被输入到GCN1中,并且在输出4处预测它们的Tox21属性。
现在参考图2A和图2B,其示出了GCN 1的输入向量和输出向量。每个输入向量Vi包括分子中所有s个原子的原子特征集(AFS)10和空间数据文件(SDF)11。每个AFS 10描述输入分子中的一个原子,并且包括128个特征。SDF 11定义了分子内的原子的结构和相邻性,并且由GCN 1用来考虑相邻原子的影响。
输出向量Vo是代表分子的Tox21分子属性13的12位二进制向量。这12种属性被分为具有7种毒理学属性的7位“核受体小组”:(1)雌激素受体α,LBD(ER,LBD);(2)雌激素受体α,全(ER,全);(3)芳香酶;(4)芳烃受体(AhR);(5)雄激素受体,全(AR,全);(6)雄激素受体,LBD(AR,LBD);(7)过氧化物酶体增殖物激活受体γ(PPAR-γ),以及具有5种毒理学属性的5位“应激反应小组”:(8)核因子(类胡萝卜素衍生物2)样2/抗氧化剂反应元素(Nrf2/ARE);(9)热冲击因子响应元素(HSE);(10)ATAD5;(11)线粒体膜电位(MMP);(12)p53。
发明内容
根据本发明的优选实施例,提供一种用于查找与查询分子相似的分子的方法。该方法包括:利用已经被训练以分别根据输入查询分子向量或输入候选分子向量输出分子属性向量的GCN,将查询原子特征集(AFS)向量和候选AFS向量转换为查询属性特征集(PFS)嵌入向量和候选PFS嵌入向量。该方法还包括:从经训练的GCN的隐藏层中提取查询PFS嵌入向量和候选PFS嵌入向量;针对至少一对查询PFS嵌入向量和一个候选PFS嵌入向量,计算经补偿的相似性度量(CSM);以及仅选择其CSM的值高于预定门限值的这种候选分子向量。
此外,根据本发明的优选实施例,补偿试图补偿由原子特征集在经训练的GCN的输入层处的变化位置引起的不准确性。
此外,根据本发明的优选实施例,计算包括:针对每个候选PFS嵌入向量,对查询PFS嵌入向量中的属性特征集与候选PFS嵌入向量中的属性特征集之间的点积的所有可能组合求和,以及通过将点积和除以候选PFS嵌入向量中的属性特征集的数量来将点积和归一化。
此外,根据本发明的优选实施例,经训练的GCN包括输入层、四个隐藏层以及输出层。
另外,根据本发明的优选实施例,每个PFS嵌入向量包括多个属性特征集。
此外,根据本发明的优选实施例,经训练的GCN的属性是溶解度、血脑屏障或毒性。
此外,根据本发明的优选实施例,提取查询PFS嵌入向量和候选PFS嵌入向量是在第四个隐藏层的输出处执行的。
此外,根据本发明的优选实施例,候选AFS向量是用于训练GCN的向量。
另外,根据本发明的优选实施例,调整预定门限值改变被认为与查询分子向量相似的候选分子向量的数量。
根据本发明的优选实施例,还提供一种用于查找与查询分子相似的分子的系统。该系统包括:GCN,PFS向量提取器,经补偿的向量比较器(CVC)以及候选向量选择器。GCN已经被训练以分别根据输入查询分子向量或输入候选分子向量输出分子属性向量。GCN将查询原子特征集(AFS)向量和候选AFS向量转换为查询属性特征集(PFS)嵌入向量和候选PFS嵌入向量。PFS向量提取器从经训练的GCN的隐藏层中提取查询PFS嵌入向量和候选PFS嵌入向量。经补偿的向量比较器(CVC)针对一个查询PFS嵌入向量和一个候选PFS嵌入向量的对,计算经补偿的相似性度量(CSM)。候选向量选择器仅选择其CSM的值高于预定门限值的这种候选分子向量。
另外,根据本发明的优选实施例,经补偿的向量比较器(CVC)试图补偿由原子特征集在经训练的GCN的输入层处的变化位置引起的不准确性。
此外,根据本发明的优选实施例,CVC包括:点积求和器和DPS归一化器。该点积求和器针对每个候选PFS嵌入向量,对查询PFS嵌入向量中的属性特征集与候选PFS嵌入向量中的属性特征集之间的点积的所有可能组合求和。DPS归一化器针对每个候选PFS嵌入向量,通过将DPS除以候选PFS嵌入向量中的属性特征集的数量来将DPS归一化。
此外,根据本发明的优选实施例,候选向量选择器改变预定门限值的值,以便改变被认为与查询分子向量相似的候选分子向量的数量。
附图说明
在说明书的结论部分中特别指出并明确要求保护被视为本发明的主题。然而,当结合附图阅读时,通过参考以下详细描述,可以最好地理解本发明的组织和操作方法及其目的、特征和优点,其中:
图1A和图1B是包括多个神经层的GCN的图示;
图2A和图2B是GCN的输入向量和输出向量的图示;
图3是毒理学分子相似性搜索系统的图示;
图4是经训练的GCN的实施例中的层的图示;
图5A是TFS嵌入向量的图示;
图5B是经补偿的向量比较器(CVC)的图示;
图6A是示例性查询TFS嵌入向量的图示;
图6B是TFS点积之和的示例的图示;
图7是通用分子相似性搜索系统的图示。
应当理解,为了图示的简单和清楚起见,图中所示的元件未必按比例绘制。例如,为了清楚起见,一些元件的尺寸可能相对于其它元件被放大。此外,在认为适当的情况下,附图标记可以在附图之间重复以指示对应或相似的元件。
具体实施方式
在下面的详细描述中,阐述了许多具体细节以便提供对本发明的透彻理解。然而,本领域技术人员将理解,可以在没有这些具体细节的情况下实践本发明。在其它情况下,未详细描述公知的方法、过程和组件,以免模糊本发明。
申请人已经认识到,在毒理学训练的图形卷积网络(GCN)中,当包括多个原子特征集(AFS)的输入向量从输入层遍历并经过多个隐藏层时,其AFS数据被转换为毒理学特征集(TFS)数据,然后在输出层进一步转换为毒理学属性向量。
申请人已经认识到,这不仅对于毒理学而言是正确的,而且对于其它分子属性(例如,血脑屏障(BBB)、溶解度和其它属性)也是如此。在根据特定分子属性进行训练的这种GCN中,当输入向量遍历GCN时,AFS数据被转换为属性特征集(PFS),然后在输出层进一步转换为合适的属性向量。本申请使用毒理学为例。
申请人还已经认识到,不是使用来自这种毒理学GCN的毒理学输出向量,而是可以从GCN的隐藏层内提取TFS嵌入向量,并且在GCN外部使用以将其毒理学属性与其它提取出的TFS嵌入向量进行数学上的比较。
申请人已经意识到,原子被呈现给GCN的输入层的次序可能会影响输出准确度。例如,具有两个氢原子和一个氧原子的水分子AFS向量可以作为H-H-O、H-O-H或O-H-H被呈现给GCN输入层。
现在参考图3,示出了分子相似性搜索系统14,该系统14包括:已使使用Tox21数据集训练的GCN 16;毒理学分子候选数据库18,该数据库18包含例如Tox21分子向量cAFS,i(如图2A中所述);毒性特征集(TFS)向量提取器20,用于从GCN 16内提取查询TFS嵌入向量qTFS和多个候选TFS嵌入向量cTFS,i;TFS嵌入向量数据库22,用于存储TFS嵌入向量qTFS和cTFS,i;经补偿的向量比较器(CVC)24,用于在TFS嵌入向量qTFS和cTFS,i之间计算经补偿的相似性度量(CSM)Mcvc,i,从而最小化qAFS和cAFS中原子数据的次序的影响;CSM数据库26,用于存储CSMMcvc,i;以及候选向量选择器28,用于选择被认为类似于查询向量qAFS的那些候选向量cAFS,i。
例如,可以使用任何GCN。现在参考图4,示出了图3所示的经训练的GCN 16的实施例中的层。GCN16可以配置有包含128个节点的输入层30,同样包含128个节点的四个隐藏层32,以及包含12个节点的输出层34。图4的GCN 16利用4个隐藏层来计算上面提到的SDF文件中定义的相邻原子的影响。在输入层30处,该计算仅单独考虑了分子原子的原子特征集。例如,如果在输入层30处呈现H-O-H,则在第一节点处仅计算H的特征集的影响,在第二节点处仅计算O的影响,并且在第三节点处仅计算第二个H的影响。
在第一个隐藏层32处,还计算第一级相邻原子的特征集的影响。在第一节点处,包括H-O,在第二节点处包括H-O-H,以及在第三节点处包括O-H。在第三个隐藏层32处,包括第二邻居,其是第一节点上的H-O-H和第三节点上的H-O-H,并且在第四个隐藏层32处,包括第三邻居。在H2O示例中,没有第三邻居,但是在Tox21数据集中,每个分子约有20个原子,并且相邻原子对计算的影响可能更大。
如上面提到的,在GCN内应用了许多深度学习技术,以改进GCN的性能和准确性。在本发明的优选实施例中,在第一个隐藏层32的输出处存在:包含128个Relu的非线性平移(NLT)层36;设置为0.1的脱离(dropout)层38;批量归一化层40;以及图形池化层42,其被设置成针对键合图中的原子及其邻居在特征向量上最大池化。在第二个隐藏层32的输出处存在:包含128个Relu的非线性平移(NLT)层36;设置为0.1的脱离层38;批量归一化层40。在第三个隐藏层32的输出上存在:包含128个Relu的非线性平移(NLT)层36;以及批量归一化层40;并且在第四个隐藏层32的输出处存在:包含128个Relu的非线性平移(NLT)层36,批量归一化40;图形池化层42;致密层44;另一批量归一化层40;图形收集层46;以及Softmax层48。
应当理解,GCN 16中采用的特定技术、层数和节点数可以变化,并且在此作为配置神经网络的示例呈现。
申请人已经认识到,Tox21数据集中的向量不仅可以用于训练GCN,而且可以用于产生候选TFS嵌入向量cTFS,i,将其与查询TFS嵌入向量qTFS进行比较。
返回图3,分子相似性搜索系统14从包含例如大约12000个Tox21分子样本向量的毒理学分子候选数据库18中获取候选向量cAFS,并且将它们传递通过经毒理学训练的GCN16。TFS向量提取器20从在上文提到的任何输出调整层之前的第四个隐藏层32(如图4所示)的输出提取候选TFS嵌入向量cTFS,i,然后将它们存储在TFS嵌入向量数据库22中。查询向量qAFS也被输入到GCN 16,并且TFS向量提取器20可以提取查询TFS嵌入向量qTFS并可以将其存储在TFS嵌入向量数据库22中。
简要地参考图5A,示出了TFS嵌入向量VTFS,其可以是候选向量cTFS,i或查询向量qTFS。TFS嵌入向量包括多个TFS 50,一个TFS 50用于分子向量中的t个原子中的每个原子。这样的TFS嵌入向量可以存储于TFS嵌入向量数据库22中。
申请人已经认识到,输入向量VAFS中原子特征集的布置还可能影响TFS嵌入向量VTFS中的毒性特征集的布置。申请人还已经认识到,对TFS嵌入向量VTFS执行的计算需要补偿TFS嵌入向量VTFS中的这种TFS布置的影响。申请人已经意识到,在毒理学示例中,通过使用在嵌入向量对之间的TFS点积的归一化总和作为度量,这样的定位影响被最小化,并且可以计算出向量对的更准确的相似性度量。
现在参考图5B,其示出了包括点积加法器51和点积和归一化器52的CVC 24。点积加法器51可以从TFS嵌入向量数据库22获取查询TFS嵌入向量qTFS和候选TFS嵌入向量cTFS,i,并且计算向量的点积和。
现在参考图6A,示出了示例性查询TFS嵌入向量qTFS和候选TFS嵌入向量cTFS,i。查询TFS嵌入向量qTFS包括两个毒性特征集50——TFSq1和TFSq2;并且候选TFS嵌入向量cTFS,i包括三个毒性特征集50——TFSc1、TFSc2和TFSc3。现在参考图6B,示出了在嵌入向量qTFS和cTFS,i之间的TFS点积之和的示例。点积加法器51计算查询TFS嵌入向量qTFS毒性特征集50和候选TFS嵌入向量cTFS,i毒性特征集50的所有组合的所有点积DPS(qTFS,cTFS,i)之和,如图6B并且在等式(1)中所示:
DPS(qTFS,cTFS,i)=[TFSq1·TFSc1]+[TFSq1·TFSc2]+[TFSq1·TFSc3]+[TFSq2·TFSc1]+[TFSq2·TFSc2]+[TFSq2·TFSc3] 等式(1)
点积和归一化器52然后通过将DPS(qTFS,cTFS,i)归一化(通过将其除以候选向量cTFS,i中的原子数t(在该示例中为3))来完成CSM计算,如等式(2)所示:
MCVC,i=归一化DPS(qTFS,cTFS,i)=[DPS(qTFS,cTFS,i)]/t 等式(2)
然后,CVC 24将每个TFS查询-候选对qTFS-cTFS,i的每个MCVC,i存储在CSM数据库26中。然后,候选向量选择器28将MCVC,i用作分数,其然后针对该分数仅选择分数在候选分数门限之上的那些候选向量CAFS,i。分数在这种门限之上的那些候选被认为类似于查询向量qAFS。
应当注意,上述实施例可以在任何合适的计算设备上实现。所有数据库都可以实现为单独的数据库或单个数据库的部分。提取的TFS嵌入向量可以用于任何计算,不仅是如上所示的相似性度量。可以从用任何训练向量集训练的GCN中提取TFS嵌入向量,而不仅是如上所示的毒性向量。
申请人还已经认识到,通过使候选向量选择器28能够调整门限分数(通过该门限分数,候选被视为相似),用户可以具有在不必重新训练神经网络的情况下调整候选池的大小的灵活性。
申请人还已经认识到,计算可以实现为简单布尔函数,并且可以在关联存储器阵列(例如,Gemini关联处理单元,其可从美国的GSI Technologies Inc购买到)上同时对所有候选向量并行执行。
如上面提到的,可以使用任何分子属性(例如,溶解度、BBB或其它属性)来训练这样的GCN。现在参考图7,示出了通用分子相似性搜索系统60,其包括:已经使用任何已知分子属性进行训练的GCN 62;包含分子向量cAFS,i的分子候选数据库64(如图2A中所述);属性特征集(PFS)向量提取器66,用于从GCN 62内提取查询PFS嵌入向量qPFS和多个候选PFS嵌入向量cPFS,i;PFS嵌入向量数据库68,用于存储PFS嵌入向量qPFS和cPFS,i;经补偿的向量比较器(CVC)70,用于计算在PFS嵌入向量qPFS和cPFS,i之间的经补偿的相似性度量(CSM)Mcvc,i,其试图最小化qAFS和cAFS中原子数据的次序的影响;CSM数据库72,用于存储CSM Mcvc,i;以及候选向量选择器74,用于选择被认为类似于查询向量qAFS的那些候选向量cAFS,i。
除非另有特别说明,否则从前面的讨论中显而易见的是,可以理解,在整个说明书中,使用诸如“处理”、“计算”、“运算”、“确定”等的术语的讨论是指任何类型的通用计算机(例如,客户端/服务器系统、移动计算设备、智能家电、云计算单元,或将计算系统的寄存器和/或存储器内的数据操纵和/或转换为计算系统的存储器、寄存器内的其它数据的类似电子计算设备,或其它这种信息存储、传输或显示设备)的动作和/或过程。
本发明的实施例可以包括用于执行本文中的操作的装置。该装置可以被特别地构造用于期望的目的,或者它可以包括通常具有至少一个处理器和至少一个存储器(由存储于计算机中的计算机程序选择性地激活或重新配置)的计算设备或系统。当由软件指示时,所得的装置可以将通用计算机转变为如本文所讨论的发明元件。指令可以定义与所期望的计算机平台一起操作的发明设备。这样的计算机程序可以存储在计算机可读存储介质中,例如但不限于任何类型的磁盘(包括光盘,磁光盘),只读存储器(ROM),易失性和非易失性存储器,随机存取存储器(RAM),电可编程只读存储器(EPROM),电可擦除和可编程只读存储器(EEPROM),磁卡或光卡,闪速存储器,密钥磁盘,或适用于存储电子指令并能够耦合到计算机系统总线的任何其它类型的介质。计算机可读存储介质也可以在云存储中实现。
一些通用计算机可以包括至少一个通信元件,以使得能够与数据网络和/或移动通信网络进行通信。
本文中呈现的过程和显示与任何特定计算机或其它装置不是固有地相关的。各种通用系统可以与根据本文的教导的程序一起使用,或者可以证明构造更专用的装置以执行期望的方法是方便的。各种这些系统的期望结构将从下面的描述中显而易见。另外,没有参考任何特定的编程语言来描述本发明的实施例。应当理解,可以使用多种编程语言来实现如本文所述的本发明的教导。
虽然本文已经图示和描述了本发明的某些特征,但是本领域普通技术人员现在将想到许多修改、替换、改变和等效物。因此,应当理解,所附权利要求旨在覆盖落入本发明的真实精神内的所有这样的修改和改变。