基于互信息特征筛选pls的libs铁矿浆定量分析方法
技术领域
本发明涉及光谱分析领域,具体地说是一种基于互信息特征筛选偏最小二乘的激光诱导击穿光谱铁矿浆定量分析方法。
背景技术
铁矿石原矿到最后变成钢铁要经过一系列复杂的选矿流程,其中矿物浮选是根据目标矿物与杂质理化性质的不同,将目标矿物与杂质分离,进而从原矿浆中提取出来的选矿方法。尾矿是浮选最后的产物,据统计2018年我国铁尾矿产生量约为4.76亿吨。对尾矿铁品位的分析可以帮助判断整个浮选的工艺性能,同时对环境的保护,尾矿资源回收利用有着重要的作用。
目前国内选矿厂检测矿浆品位相对准确的方法是化学分析,但化学分析周期长,有滞后性,无法做到在线检测分析。近几年,也出现了新的检测技术对矿浆进行在线检测,如X射线荧光(XRF)分析法。XRF分析法能够做到实时在线检测,但是用于矿浆在线分析的XRF分析仪无法检测原子序数20以前的元素,且X射线具有放射性,具有潜在的危害性。激光诱导击穿光谱技术是一种新兴的检测技术,被世界著名的光谱分析学家Winefordner称为“一颗未来巨星”,它具有多元素同时分析、无需对样品处理、对样品的破坏小、快速分析实时检测等优点,相比其他方法,LIBS更有利于对矿浆的检测。
在分析铁矿浆中铁元素时,矿浆的成分复杂且自吸效应比较严重,采用传统的单变量定量分析方法不能达到对铁矿浆中铁元素定量分析的要求,因此在分析铁矿浆时,常采用多变量分析方法以校正自吸收效应和基体效应。其中,偏最小二乘回归是一种多元统计分析算法,可以在自变量多重相关的情况下实现定量分析,并较为容易地排除自变量中的噪声,能够解决多元线性回归中比较难分析的问题。而LIBS采集到的光谱数据中有大量对成分分析无用的冗余信息,采用全谱数据进行建模会增加建模复杂程度,导致建立的模型精确度不够、泛化能力不强。
为了降低建模复杂程度,避免数据维度过多,减少冗余信息的干扰的问题,本发明提出一种基于互信息特征筛选偏最小二乘的激光诱导击穿光谱铁矿浆定量分析方法。
发明内容
针对现有技术的不足,本发明的目的是解决光谱数据维度过高给PLS建模带来的数据冗余和过拟合问题,以及激光诱导击穿光谱在进行成分分析时受自吸收效应和基体效应造成的影响。将互信息特征筛选引入到光谱数据的处理中,提出一种基于互信息特征筛选偏最小二乘的模型以提高铁矿浆尾矿中铁元素的定量分析的精度。
为此,本发明是采用如下技术方案实现的:基于互信息特征筛选PLS的LIBS铁矿浆定量分析方法,包括以下步骤:
离线建模的步骤:采集矿浆样本的激光诱导原始光谱数据;对每张原始光谱特征进行互信息的特征筛选,保留互信息量非零的特征;利用特征筛选后新特征建立光谱强度-浓度的PLS模型,并反复迭代过程中根据训练集的解释方差与均方误差确定最优主成分数;利用最优主成分数获取最优的PLS模型;
实时检测的步骤:利用现场设备采集现场矿浆样本的实时光谱数据,输入优化的光谱强度-浓度的PLS模型,获取矿浆中指定元素的浓度含量。
所述采集矿浆样本的激光诱导原始光谱数据是采用激光诱导击穿光谱仪采集的。
所述离线建模包括以下步骤:
S1、数据预处理及特征提取:对获得的待测物质的激光诱导击穿光谱原始数据,进行均值化和谱线特征提取处理;
S2、数据集划分:将采集的矿浆样本数据划分为训练集和测试集;训练样本样本用于建模,测试样本用于评价最终模型的预测精度;
S3、计算训练集中每列中各个维度特征与标签之间的估计互信息;
S4、训练集中去除互信息量为零的a个特征;
S5、保留测试集中与训练集剩余特征相同的特征列;
S6、用训练集剩余特征迭代主成分个数进行PLS建模;
S7、利用训练集数据的解释方差和均方误差来确定主成分个数,优化PLS模型。
在划分数据集时,使测试集数据均匀分布在训练集样本的浓度范围之内,以实现最充分的评估模型性能的效果。
所述估计互信息的获取包括:
按照如下公式计算,特征谱线X和元素浓度Y之间的互信息:
式中:p(x,y)表示X=x,Y=y同时发生的概率,而p(x)是X=x的发生概率,p(y)是Y=y的发生的概率,x是某一列光谱特征谱线,y是浓度标签。
是采用最邻近方法来估计互信息。
7.根据权利要求1所述的基于互信息特征筛选PLS的LIBS铁矿浆定量分析方法,其特征在于,计算训练集解释方差和均方误差,当两个误差均在波动阈值范围内时,当前的主成分数为最优值。
基于互信息特征筛选PLS的LIBS铁矿浆定量分析系统,包括:光谱采集设备、处理器、存储器;所述光谱采集设备用于采集矿浆样本的激光诱导原始光谱数据;所述存储器存储有如下程序模块,处理器读取程序执行如上所述的方法步骤,实现当前矿浆样本中指定元素的浓度含量预测;
离线建模程序模块:采集矿浆样本的激光诱导原始光谱数据;对每张原始光谱特征进行互信息的特征筛选,保留互信息量非零的特征;利用特征筛选后新特征建立光谱强度-浓度的PLS模型,并反复迭代过程中根据训练集的解释方差与均方误差确定最优主成分数;利用最优主成分数获取最优的PLS模型;
实时检测程序模块:利用现场设备采集现场矿浆样本的实时光谱数据,输入优化的光谱强度-浓度的PLS模型,获取对当前矿浆样本的光谱数据的实时特征提取结果,即当前矿浆样本中指定元素的浓度含量。
本发明具有以下有益效果及优点:
本发明通过基于互信息偏最小二乘模型以进行LIBS的定量分析,降低了数据冗余带来建模复杂度以及自吸收和基体效应带来的影响,提高了矿浆品位分析的精度,可实际应用于选矿厂现场监控矿浆品位分析监测。
附图说明
图1为本发明的流程图。
图2为PLS主成分个数与训练集解释方差和均方误差的关系。
图3为互信息保留的特征位置。
图4为铁精矿矿浆预测值与真实值的比较图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合尾矿矿矿浆的LIBS品位分析实例对本发明的技术方案进行进一步说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但本发明能够以很多不同于在此描述的其他方式来实施,本领域技术人员可以在不违背发明内涵的情况下做类似改进,因此本发明不受下面公开的具体实施的限制。
除非另有定义,本文所使用的所有技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。
实施例:一种基于互信息特征筛选偏最小二乘的激光诱导击穿光谱铁矿浆定量分析,流程图如图1所示,具体包括以下步骤:
(1)数据预处理。对获得的待测物质的激光诱导击穿光谱原始数据,进行均值处理;40个样本一共获得400×6116维大小的光谱矩阵,每个样品有10张光谱数据。对每个样品采集到的10张光谱数据再进行均值化处理,最终40个样品共获得40×6116维光谱数据矩阵。
(2)划分训练集和测试集。总样本数为N,选取n_train个样本作为训练样本,利用该样本进行建模,n_test个样本作为测试样本,用于评价最终模型的预测精度,在划分测试样本时,使其均匀分布在训练样本的浓度范围之内,以实现最充分的评估模型性能的效果。
总样本数为40,随机选取10个样品作为测试集,剩余30个样品作为训练集。在划分训练样本和测试样本时,使测试集浓度范围均匀分布在训练集的浓度范围之内,且最大浓度和最小浓度的样品均在训练集中。
(3)计算训练集中各个维度特征与标签之间的估计互信息;
具体描述为:由于受到基体效应,自吸收效应的影响,特征谱线与元素浓度之间除了存在线性关系也存在非线性的关系。互信息,它可以反应变量之间的任意关系。当所度量的两组变量之间相互独立时,对应的互信息为零,而当两者具有一定的相关性时,得到的互信息将为某一正值。运用互信息理论进行特征筛选,来降低数据维度,减少冗余信息的干扰的影响。
根据熵的定义,两个离散随机变量X和Y的互信息可以写成:
式中:p(x,y)表示X=x,Y=y同时发生的概率,而p(x)是X=x的发生概率,p(y)是Y=y的发生的概率,x是某一列光谱特征,y是浓度标签。
由信息熵或互信息的定义可知,随机变量的概率分布必须是预先可知的。然而现实应用中,数据的真实概率分布一般是未知的。常用无参数概率密度或熵的估计方法来近似求互信息。本次采用Kraskov Alexander等的最邻近方法来估计互信息,主要通过python中mutual_info_regression函数包来实现。
(4)训练集中去除互信息量为0的a个维度的特征,如图3所示,为互信息保留的特征位置,从图3中可以看出硅、铁、钙、钠是被保留的元素特征;
(5)测试集保留与训练集剩余维度特征相同的特征列;
(6)用训练集剩余特征进行PLS建模;
传统PLS模型,可以建立元素品位值浓度与光谱数据的关系式:
C为品位值浓度,βi为回归系数,Ii为特征谱线强度值。
(7)利用训练集解释方差和均方误差来综合考虑PLS模型的主成分个数。主成分个数为优化后PLS模型的维度数。如图2所示,为PLS主成分个数与训练集解释方差和均方误差的关系。具体是,计算训练集解释方差和均方误差,当两个误差趋近平稳时,当前的主成分数为最优值(图2中主成分数为8时解释方差和均方误差趋于收敛),从而优化PLS模型。
结果验证:图4所示为采用本方法得到的训练集和测试集的预测值与真实值的比较图。从图4中可以看出测试集的拟合效果和准确程度都有良好的表现。
表1
表1比较了本发明方法与全谱PLS和线性变量筛选PLS方法的结果,本发明方法取得了最低的预测决定误差(MAE)和最高的决定系数R2。表明本发明方法对维度较高光谱数据降维、降低自吸收和基体效应带来的影响对定量分析有明显的提升效果。
本实例采用尾矿矿矿浆,仅为优选实施例,具体实施时可根据应用对象不同进行分析,调整选择的谱线和主成分个数。
上述具体实施方式用来解释说明本发明,仅为本发明的优选实施例,而不是对本发明进行限制,在本发明的精神和权利要求的保护范围内,对本发明做出的任何修改、等同替换、改进等,都落入本发明的保护范围。
- 上一篇:石墨接头机器人自动装卡簧、装栓机
- 下一篇:一种污秽化合物识别方法和装置