一种基于图像卷积的分子特征提取及性能预测方法
技术领域
本发明涉及分子指纹设计
技术领域
,特别涉及一种基于图像卷积的分子特征提取及性能预测方法。背景技术
分子性质的预测是有效材料发现的关键,是材料基因组研究的重要组成部分。随着计算能力的提高和分子数据库的不断发展,机器学习在化学和材料研究中已经有了广泛的应用,如电子结构学习、光谱性质预测和相关材料设计的虚拟筛选等,利用机器学习辅助的方法,可以更准确、有效地建立定量构效关系。
目前,分子指纹设计以及适当的分子表征构建,是分子机器学习的一个挑战,分子特征抽取为机器学习分子设计以及分子性能预测重要的部分,该步骤需要将分子图像转换为数字化向量,一边作为神经网络的输入,同时其特征向量还需要具有比较完全的原子信息,化学键信息,以及分子结构信息。
传统的ECFP圆形指纹利用hash算法加密分子子结构,使其变为一个二值向量,但在加密过程中具有信息损失的问题;CM库伦指纹利用原子电荷和原子间距离构建库伦矩阵,但该指纹不具有原子序数置换不变性。
发明内容
本发明提供了一种基于图像卷积的分子特征提取及性能预测方法,集成了原子和化学键信息抽取,邻里节点信息汇聚,避免了原子序数置换可变性的确缺陷,将分子特征向量融入神经网络模型中,具有可学习的特征,且通过原子节点邻里信息的有效抓取,提升分子性能的预测精度,对推断蛋白质结构、化合物合成,药物设计,分子功能材料开发等领域具有较高价值。
本发明提供了一种基于图像卷积的分子特征提取及性能预测方法,包括如下步骤:
S1:分子特征抽取,构建原子特征矩阵和图像邻接矩阵,将分子图像转化为具有原子信息、化学键信息以及分子结构信息的数字化向量;
S2:构建图像卷积层,将得到的原子特征矩阵和图像邻接矩阵输入,获取卷积后的原子特征矩阵;
S3:构建节点线性层,对卷积后的原子特征矩阵进行节点水平的线性激活,得到分子的特征矩阵;
S4:构建池化层,对分子的特征矩阵进行池化,提取分子特征向量;
S5:构建分子图像线性层,对分子特征向量进行线性激活。
进一步的,所述原子特征矩阵的构建,获取原子节点对应的原子特征数据,对所述原子特征数据进行hash加密,得到节点特征矩阵。
进一步的,所述图像邻接矩阵的构建,根据分子结构信息构建n×n的二值矩阵,其中n表示原子节点数量,若节点相邻则将矩阵中对应的元素置为1,不相邻则置为0。
进一步的,所述图像卷积层构建,所述图像卷积层为神经网络模型中的隐藏层,公式如下所示:
其中H(l)为当前隐藏层n×d矩阵,n表示原子节点个数,d表原子特征的维数,H(l+1)为下一层隐藏层矩阵,W(l)为隐藏层权重系数,为包含自身连接的邻接矩阵,由A加单位矩阵I获得,矩阵A为图像邻接矩阵,σ为非线性激活函数,为矩阵的度矩阵,计算方式如下:
进一步的,所述图像卷积层为2层或3层。
进一步的,所述节点线性层的构建,对图像卷积输出的隐藏层进行线性激活操作,公式如下所示:
H(node MLP)=σ(H(Conv)W+B)
其中H(node MLP)为节点线性层输出,H(Conv)为卷积层的输出,W为线性层权重系数,B为偏置矩阵,σ为非线性激活函数。
进一步的,所述节点线性层为1层。
进一步的,所述分子图像线性层的构建,所述分子图像线性层为神经网络模型中的隐藏层,公式如下:
Hl+1 (graph MLP)=σ(Hl (graph MLP)W+B)
其中,Hl (graph MLP)为当前的线性隐藏层,Hl+1 (graph MLP)为下一层的线性隐藏层,W为线性层权重系数,B为偏置矩阵,σ为非线性激活函数。
进一步的,所述分子图像线性层为1-3层。
本发明的有益效果如下:
1、通过对各原子以及原子之间化学键的信息进行量化,抽取分子中各原子之间的连接信息,利用hash算法加密分子中原子,化学键以及分子结构信息,形成无信息损失且可学习的特征向量,保证特征向量具有比较完全的原子信息、化学键信息以及分子结构信息的完整性,以便输入MLP网络进行性能预测。
2、基于图像卷积构建神经网络模型,将分子特征向量融入神经网络模型中,通过卷积层操作、节点水平的线性操作,池化操作以及图像水平的线性操作,实现对原子节点邻里信息有效抓取,提高了分子性能的预测精度。
附图说明
图1是本发明方法整体流程示意图;
图2是本发明分子在模型中输入输出的过程示意图。
具体实施方式
在下面的描述中对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的实施例提供了一种基于图像卷积的分子特征提取及性能预测方法,包括抽取分子特征、构建图像卷积网络模型,并将获取的分子特征输入到网络模型中进行分子性能预测,所述图像卷积网络模型包括图像卷积层、节点线性层、池化层、分子图像线性层。
如图1所示,首先根据设定的原子特征参数,抽取分子特征,对特征数据进行加密得到分子图像的节点特征矩阵,获取分子结构信息,得到图像邻接矩阵;之后构建图像卷积网络模型,通过从分子数据库中获取的数据输入到模型中,进行训练得到最终的网络模型,最后再对模型进行验证和测试进行分子的性能预测;
本实施例中,分子数据库采用QM9数据库,从中获取133885个分子,按照8∶1∶1分为训练集、验证集和测试集。
结合图2所示,具体过程如下:
S1:抽取分子特征,构建得到原子特征矩阵和图像邻接矩阵,将分子图像转化为具有原子信息、化学键信息以及分子结构信息的数字化向量;
根据设定的原子特征参数,获取特征数据,本实施例中,所述原子特征参数包括原子类型、原子序数、受主、施主、芳香性、轨道杂化、氢的数量、化学键的类型,具体设定描述如表1所示:
表:1:原子特征表
特征参数
描述
原子类型
H、C、N、O、F、S、Cl等
原子序数
质子数量
受主
接受电子
施主
施予电子
芳香性
位于芳香体系中
轨道杂化
<u>sp</u>,sp2,sp3
氢的数量
所连接H的个数
化学键类型
单键,双键,三键,芳香键
其中所述原子类型为分子数据中所包含的原子类型,采用one-hot对个原子进行编码;所述原子序数为原子的质子数量,质子数量为整数,通过整数数字进行编码;所述受主与所述施主的特征参数表述在分子结构中为接收电子的一方还是施予电子的一方,采用二进制方式进行编码;所述芳香性为分子是否位于芳香体系中,采用二进制进行编码;所述氢的数量表示分子中原子连接的H原子的个数,连接的原子个数为整数,用整数数字进行编码;所述化学键类型表示分子中原子连接的化学键,包括单键,双键,三键,芳香键,通过one-hot方式进行编码。
根据特征参数获取对应的特征数据,通过hash算法进行加密,得到n×m的节点特征矩阵,其中n表示原子节点数量,m表示原子特征的维数,得到的所述节点特征矩阵为(0,1)二值矩阵;
根据特征数据,对分子结构信息构建出n×n的图像邻接矩阵,n表示原子节点数量,若节点i与节点j相邻则矩阵中对应的元素为1,若不相邻则为0,即构建出所述图像邻接矩阵为对角线为0的二值矩阵。
S2:构建网络模型中的图像卷积层,所述图像卷积层即为分子图像节点的隐藏层,使得每个节点可以代表周围节点的信息,公式如下所示:
其中H(l)为当前隐藏层n×d矩阵,n表示原子节点个数,d表原子特征的维数,H(l+1)为下一层隐藏层矩阵,W(l)为隐藏层权重系数,为包含自身连接的邻接矩阵,由A加单位矩阵,σ为非线性激活函数,为矩阵的度矩阵,计算方式如下:
本实施例中,所述图像卷积层为3层,避免较多的隐藏层影响模型训练精度,其中H(0)表示第一层输入的原子节点特征矩阵。
S3:构建节点线性层,采用全连接神经网络对卷积后的原子特征矩阵进行节点水平的线性激活,公式如下所示:
H(node MLP)=σ(H(Conv)W+B)
其中H(node MLP)为节点线性层输出,H(Conv)为卷积层的输出,W为线性层权重系数,B为偏置矩阵,σ为非线性激活函数;
本实施例中,所述节点线性层为1层,所述线性层权重系数W的初始权重为标准正态中抽取的随机数,所述非线性激活函数采用ReLU、Softmax等。
S4:构建池化层,对分子的特征矩阵进行池化,提取分子特征向量;
将节点线性层输出的分子特征向量矩阵进行池化操作,所述池化操作包括对节点向量求取平均值、最大值等,本实施例中,对节点线性层输出的Q×E的分子特征向量矩阵进行求和,求取所述分子特征向量矩阵的列向量之和,得到1×E的矩阵。
S5:构建分子图像线性层,所述分子图像线性层采用全连接神经网络搭建,为神经网络模型中的隐藏层,对池化后的分子特征向量矩阵进行线性激活操作,并预测分子性能,公式如下所示:
Hl+1 (graph MLP)=σ(Hl (graph MLP)W+B)
其中,Hl (graph MLP)为当前的线性隐藏层,Hl+1 (graph MLP)为下一层的线性隐藏层,W为线性层权重系数,B为偏置矩阵,σ为非线性激活函数;
本实施例中,所述分子图像线性层为3层,H0 (graph MLP)为输入的第一层分子特征向量矩阵,最后一层预测分子性能,维数为1;
本实施例中,通过均方根误差RMSE作为损失函数获取模型训练时的误差,采用反向传播的方式利用Autogard优化器对模型的参数进行更新,所述损失函数公式如下所示:
其中,y为实际标注性能,p为预测性能,N表示样本数量;
采用梯度下降法获取损失函数的最小值,取验证集输入时,损失函数最小的Epoch作为最终的输出模型,本实施例中最终输出模型基于图像卷积分子指纹的分子性能预测效果与ECFP指纹作为输入的神经网络预测效果对比,分子性能以及预测精度如下表2所示:
表2:性能预测对比表
本发明并不局限于前述的具体实施方式。本发明扩展到任何在本说明书中披露的新特征或任何新的组合,以及披露的任一新的方法或过程的步骤或任何新的组合。