基于改进的径向基函数神经网络的岩性识别方法及系统
技术领域
本发明涉及地球物理
技术领域
,特别是涉及一种基于改进的径向基函数神经网络的岩性识别方法及系统。背景技术
岩性是指反映岩石特征的一些属性,包括颜色、成分、结构、胶结物及胶结类型、特殊矿物等。岩性识别是地层认识和储层参数求解过程中的一项基础工作。随着矿产资源的不断开采,地表资源日益枯竭,勘探与挖掘深部资源已成为当今地质工作的重中之重。精细刻画地下储层岩性及其结构关系,能为深部资源勘查、储层构造认识提供重要的基础信息。因此,针对深部地层的岩性识别已成为当前地质工作的研究重点。
岩性识别研究至今,主要包括重磁、测井、地震、遥感、电磁、地球化学、薄片分析等方法。其中,遥感识别仅限于地表,无法满足深度上的要求;地震识别在深度上具有很大的优势,但高昂的作业成本阻碍了其大规模的发展;测井识别技术发展最为成熟,缺点在于无法进行大范围的岩性识别。开展地球物理联合反演识别岩性,可以通过地球物理数据反演得到研究区的密度、磁性、电性等地下物性结构特征,并根据物性结构特征与岩性之间的逻辑关系来判别地层中的岩性分布。我国大规模的重磁数据已相当齐全,其覆盖面积广、采样密度高,反演算法发展成熟,可以方便地获取大面积地层岩性识别结果。因此,基于重磁的岩性识别被认为是现阶段三维岩性识别最有可能成功并适合推广的办法。当前重磁岩性识别工作开展较少,主要是分析岩性与物性之间的关系,对带先验信息约束的反演所获得的密度和磁化率数据进行逻辑拓扑运算,绘制岩性图(严加永等,2014;付光明等,2017)。
但是在无先验信息约束的情况下,基于重磁的岩性识别存在垂向分辨较差、多解性强等问题。如何将重磁反演得到的物性结构转换为岩性,实质上是一个模式识别问题。模式识别是一种用计算的方法实现特征提取和种类划分的方法。根据对样本空间特征的学习,可以将所属模式映射到适当的特征类空间。近年来,伴随着人工智能和机器学习的快速发展,基于人工神经网络的模式识别得到了广泛的研究,并成功地应用于岩性识别领域。张野等(2018)基于Inception-v3深度卷积神经网络建立了岩石图像集分析的迁移模型,在数据充分的情况下具有良好的表现,测试概率值均达到85%以上;潘拓等(2020)基于主成分分析法优化BP神经网络模型,有效地解决了研究区测井岩性识别问题;张绍红等(2008)利用概率神经网络方法对地震属性数据做变换,在非均质性较强的地层中具有较明显的优势。人工神经网络拥有着较强的适应能力和学习能力,神经网络的预测结果优于传统统计方法,因此建立基于人工神经网络的重磁岩性识别更具研究价值。
前馈型神经网络(Feedforward neural network,简称FNN)是一种应用广泛的人工神经网络模型。其中,BP(Back propagation)神经网络在岩性识别中应用较多,但是BP神经网络本质上采用梯度下降法,收敛速度缓慢,训练效率不高,而且受初始值影响较大,容错率低。因此,BP神经网络在实际应用中存在着许多难点。径向基函数(Radial basisfunction,简称RBF)神经网络是一种基于人脑神经元对外界局部响应的前馈型神经网络,模型训练简洁,收敛快,具有很高的计算速度。特别是它具有很强的非线性映射能力,能够以任意精度对非线性函数进行全局逼近,在岩性识别领域内已有初步的应用。陈潮等(2008)结合准噶尔盆地某井的实际测井资料和岩性剖面资料,建立基于径向基函数神经网络的岩性识别模型,收敛速度快且识别准确率较高;靳玉萍等(2013)实现了基于遗传优化径向基函数神经网络的岩性识别应用,提高了测井数据的解释效率和精度。
径向基函数神经网络的自适应和自学习能力是通过学习算法实现的。在学习过程中涉及确定隐含层的中心向量、宽度系数以及隐含层到输出层的权值计算。常见的径向基函数神经网络学习方法主要有三种:随机选取RBF中心(直接计算法)、自组织学习选取RBF中心(K-means聚类)以及有监督学习选取RBF中心(梯度下降)。随机选取法在处理分布具有代表性的样本数据时较为合适,对于一般性的样本数据则不适用;自组织学习选取法通常使用传统K-means聚类算法,其聚类结果容易受到初始随机选取聚类中心的影响,稳定性较差;而采用有监督学习选取时,梯度下降法所要优化的目标函数非常复杂,导致网络收敛速度缓慢。综合比较三种RBF中心选取方法的效率和精度,选用基于K-means聚类的自组织学习方法用于深部地层的岩性识别。
不同类型的岩石通过地球物理联合反演得到的物性样本特征空间可能存在着较多的重叠,各类岩石的物性参数有些并没有明显的界限,岩性与物性之间的关系往往具有模糊性,数据集中的对象无法被划分为明显分离的簇,采用K-means聚类算法将一个样本划分为指定的簇可能会比较生硬甚至出错,对于样本容量小的岩性容易误分;同时,反演得到的物性(速度、密度、磁化率、电阻率等)数值之间存在着大量冗余信息,导致彼此之间具有较高的相关性,精度和效率都受到影响。因此,针对地球物理联合反演得到的物性数据,仅仅采用基于K-means聚类算法的径向基函数神经网络也难以进行全面准确而高效的岩性识别。
发明内容
本发明要解决的技术问题是提供一种基于改进的径向基函数神经网络的岩性识别方法及系统,能够进行全面准确而高效的岩性识别。
为解决上述技术问题,本发明提供了一种基于改进的径向基函数神经网络的岩性识别方法,所述方法包括:结合矿区采集的样本,对地球物理联合反演得到的数据进行预处理;采用K-L变换对经过预处理的数据进行特征提取,实现降维处理,得到压缩后的数据集;采用K折交叉验证法处理新的数据集,将数据集打乱后K等分,其中一份作为测试集,其余K-1份作为训练集;采用模糊C聚类算法完成训练集的聚类,获取隐含层的中心;搭建径向基函数神经网络,根据隐含层中心求取径向基函数神经网络的参数;利用测试集对径向基函数神经网络进行验证,记录各种类识别准确率;重复K次模型训练与测试,求取总体识别准确率,并保存参数最优的径向基函数神经网络。
在一些实施方式中,径向基函数神经网络的参数包括:中心、宽度、权值。
在一些实施方式中,预处理包括:检查数据的一致性、处理无效值和缺失值、对数据进行中心化和归一化的处理。
在一些实施方式中,采用K-L变换对经过预处理的数据进行特征提取,实现降维处理,得到压缩后的数据集,包括:输入特征值;求取均值作为新坐标轴原点;求取协方差矩阵;将特征值从大到小排序,取前m个对应的特征向量进行K-L变换;求取协方差矩阵的特征值、特征向量。
在一些实施方式中,采用模糊C聚类算法完成训练集的聚类,获取隐含层的中心,包括:给定需要划分的聚类中心数目C及相关参数;初始化隶属度矩阵U;计算C个聚类中心;计算处各个样本点到聚类中心的距离矩阵,得到新的隶属度矩阵;计算目标函数值J;判断是否小于给定的阈值或与上次循环产生的目标函数之差小于阈值;如果并不小于,重复执行上述步骤,如果已经小于,结束迭代。
在一些实施方式中,径向基函数神经网络学习方法包括:随机选取法、自组织学习法以及梯度下降法。
此外,本发明还提供了一种基于改进的径向基函数神经网络的岩性识别系统,所述系统包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现根据前文所述的基于改进的径向基函数神经网络的岩性识别方法。
采用这样的设计后,本发明至少具有以下优点:
本发明以地球物理联合反演得到的物性数据为基础,构建了基于K-L变换和模糊聚类优化的径向基函数神经网络(FCM-RBFNN)岩性识别模型,通过对样本数据降维处理以及采用模糊聚类算法确定隐含层中心等方法提高神经网络参数学习,有效地提高了岩性识别效率和精度,采用K折交叉验证法得到总体平均准确率达94.5%,高于RBFNN模型的平均准确率83.2%。该模型能有效完成地质解释中的岩性识别任务。
附图说明
上述仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,以下结合附图与
具体实施方式
对本发明作进一步的详细说明。
图1是RBFNN模型结构图;
图2是K-L变换流程图;
图3是模糊C聚类算法流程图;
图4是K折交叉验证法的流程示意图;
图5是FCM-RBFNN岩性识别模型图;
图6是RBFNN模型K折交叉验证结果;
图7是FCM-RBFNN模型K折交叉验证结果;
图8是FCM-RBFNN与RBFNN的对比图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
本文提出一种基于K-L变换和模糊聚类优化的径向基函数神经网络(FCM-RBFNN)岩性识别模型。K-L变换属于数据统计特性的数学变换,可以消除数据之间的相关性,起到数据压缩的作用。采用K-L变换可以对特征空间进行降维处理,不仅能够减少模型的时间和空间复杂度,也能使岩性识别的结果更加准确。模糊C均值聚类算法(Fuzzy C-Meansclustering algorithm,FCM)是对样本类别的不确定的描述,可以得到样本属于各个岩性的不确定性程度,表达样本类属的中介性。用模糊C均值聚类分析方法获取RBFNN基中心的结果更加精确。
1.径向基函数神经网络(RBFNN)
1.1径向基函数
径向基函数取值仅依赖于与原点之间距离的实值函数,即满足Φ(x)=Φ(||x||)特性的函数。径向基函数主要应用于散乱数据插值和逼近、偏微分方程的数值解、神经网络的构造等领域。
1.2径向基函数神经网络结构
径向基函数神经网络是一种三层的静态前向网络,由输入层、隐含层和输出层构成,其拓扑结构如图1所示。
其中,输入层为m维向量I=(I1,I2,...,Im),由信号源结点组成。
隐含层为m维向量D=(D1,D2,...,DP),隐含层节点根据基函数产生非线性变化,将输入空间映射到一个新的空间,在新的空间线性加权后得到输出层结点。在径向基函数神经网络中,最常用的基函数是高斯函数,其定义为:
其中,x为输入向量;为隐含层第i个单元的输出;ci为隐含层第i个单元高斯函数的中心点;σi为第i个隐含层节点的宽度;P为隐含层结点数。隐含层神经元参数(中心、宽度)的设定是对分类器性能产生影响的主要因素。
第三层为输出层,表示输入层对应的分类模式,结点数与样本类别数相同。
1.3径向基函数神经网络的参数学习方法
假设建立一个输入层有m个结点,隐含层有P个节点,输出层有n个节点的径向基函数神经网络。其中,输入层与隐含层之间的连接权值均为1;网络中存在P个高斯函数,即需要确定P个中心(记为c)、P个宽度(记为b);隐含层每个节点与输出层之间的连接是非线性的,计算得到权值矩阵w。因此,我们需要通过学习得到一组合适的c,b,w,以确定整个模型的参数。
常见的径向基函数神经网络学习方法主要有三种:随机选取法、自组织学习法以及梯度下降法。
(1)随机选取法。对于参数c,b,可以随机初始化得到,再根据隐藏层输出向量直接计算求解伪逆矩阵,即可得到参数w。此法仅适用于处理分布具有代表性的样本数据,局限性较大。
(2)自组织学习法。使用聚类算法将样本数据分成P类得到P个聚类中心,可以确定参数c,再根据聚类中心计算得到P个方差,确定参数b,最后根据隐藏层输出向量求解伪逆矩阵得到参数w。此法较直接计算法在准确率上有较大提升。
(3)梯度下降法。梯度下降法属于有监督学习,先随机初始化得到参数c,b,w,之后通过求解损失函数的最小值,逐步迭代求解更新权值。此法所要优化的目标函数非常复杂,导致网络收敛速度缓慢。
2.K-L变换
K-L(Karhunen-Loeve)变换是建立在统计特性基础上的一种数学变换,可以看作是一种特征选择和特征提取的过程,在大的输入空间中提取主要特征。其数学原理是将矩阵X的自相关矩阵R的归一化正交特征矢量q所构成的正交矩阵Q,来对原矩阵X进行变换,即Y=QX,则有:
mY=E(Y)=E(QTX)=QTE(X)=QTmX
∑Y=E(YYT)-mYmY T=E[(QTX)(QTX)T]=E[QT(XXT)Q]-QTmXmX TQ=QT[E(XXT)-mXmX T]Q=QT∑YQ=Λ=diag[λ1,λ2,...,λN,]
其中,mY为Y的平均值,∑Y为协方差矩阵,其矩阵形式为:
K-L变换完成了协方差矩阵∑Y对角化,使得Y的各个分量互不相关,可以消除数据之间的相关性,达到数据压缩的目的,即降维处理。K-L的突出优点是去相关性好,是均方误差(MSE,Mean Square Error)意义下的最佳变换,它在数据压缩技术中占有重要地位。
K-L变换的步骤如图2所示。
3.模糊聚类
模糊C均值聚类算法(Fuzzy C-Means clustering algorithm,FCM)是应用最广泛的模糊聚类方法。FCM算法根据不同样本点对聚类中心的隶属度不同来划分聚类,它的隶属度取值由K-means聚类算法的{0,1},拓展至[0,1],即每个样本的类别隶属度为一个实数区间。
记Xi(i=1,2,…,n)表示每一个向量均有i维属性,根据选定的相似性度量函数,划分为c个聚类中心称为簇Vk,其中K=1,2,…,c.n个样本分别属于c个类别的隶属度矩阵,记为U=[Uik]c×n(模糊划分矩阵),其中Uik(1≤i≤n,1≤k≤c)表示第i个样本Xi属于第k个类别的隶属度,满足以下约束条件:
Uik∈[0,1], 1≤i≤n,1≤k≤c
FCM算法的目标函数定义如下:
聚类中心的迭代公式如下:
FCM聚类算法的步骤如图3所示。
4.K折交叉验证
K折交叉验证法(K-Fold Cross Validation)等量分成K份,每次以其中1组作为测试集(test set),其余k-L组作为训练集(training test),训练并测试模型。重复K次实验,取其平均值作为总体的模型误差评估结果,如图4所示。
K折交叉验证可以调高模型的泛化能力,有效地避免欠拟合和过拟合等现象,已被广泛地应用于模型性能评估、模型参数确定、过拟合检验等任务。
5.基于k-L变换与模糊聚类优化的径向基函数神经网络岩性识别模型
根据上述算法,提出一个基于k-L变换与模糊聚类优化的RBFNN模型(FCM-RBFNN),实现过程如图5所示。
1)结合矿区采集的样本,对地球物理联合反演得到的数据进行预处理,包括检查数据的一致性、处理无效值和缺失值、对数据进行中心化和归一化等处理;
2)采用K-L变换对经过预处理的数据进行特征提取,实现降维处理,得到压缩后的数据集;
3)采用K折交叉验证法处理新的数据集,将数据集打乱后K等分,其中一份作为测试集,其余K-1份作为训练集;
4)采用模糊C聚类算法完成训练集的聚类,获取隐含层的中心;
5)搭建径向基函数神经网络,根据隐含层中心求取参数c,b,w;
6)利用测试集对模型进行验证,记录各种类识别准确率;
7)重复K次模型训练与测试,求取总体识别准确率,并保存最优网络参数。
为验证本文模型的优化效果,将本文模型与基于K-means聚类算法的自适应选取中心法求取RBFNN中心模型的测试结果进行比较分析,如图6、7和表1所示。
表1 RBFNN、FCM-RBFNN模型各类岩性预测准确率汇总
对比两种模型的测试结果可以得出,FCM-RBFNN岩性识别模型相较于基于K-means选取基中心的RBFNN算法在识别准确率上得到了一定的提升。
(1)对于花岗岩、闪长岩、辉石闪长岩和大理岩的识别,两种模型均有较高的准确率,FCM-RBFNN模型的精确率相较于RBFNN模型有小幅度的提升。
(2)对于沉积岩和千枚岩的识别,RBFNN模型的准确率较低,分别为54.7%和77.0%,易将沉积岩预测为千枚岩,千枚岩预测为辉石闪长岩,其原因是沉积岩与大理岩的密度、磁化率相接近(沉积岩密度平均值为2.719g/cm3,大理岩密度平均值为2.726g/cm3;沉积岩磁化率平均值为0.686×10-5SI,大理岩磁化率平均值为0.285×10-5SI)。而在FCM-RBFNN模型上预测得到的准确率有明显的改善,准确率分别为84.0%和100%。将该方法应用于实际岩性识别工程中是有效的。
参见图8,本发明以地球物理联合反演得到的物性数据为基础,构建了基于K-L变换和模糊聚类优化的径向基函数神经网络(FCM-RBFNN)岩性识别模型,通过对样本数据降维处理以及采用模糊聚类算法确定隐含层中心等方法提高神经网络参数学习,有效地提高了岩性识别效率和精度,采用K折交叉验证法得到总体平均准确率达94.5%,高于RBFNN模型的平均准确率83.2%。该模型能有效完成地质解释中的岩性识别任务。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,本领域技术人员利用上述揭示的技术内容做出些许简单修改、等同变化或修饰,均落在本发明的保护范围内。