一种基于多分类器融合的冠状动脉狭窄病变程度识别方法
技术领域
本发明属于生物工程
技术领域
,具体涉及一种基于多分类器融合的冠状动脉狭窄病变程度识别方法。背景技术
近年来,心脑血管疾病的发生率和致死率都已经跃居各类疾病的首位,尤其是冠状动脉位于心脏表面,为心肌供血,一旦发生病变,其检查和治疗措施都需要更加重视。可以通过解剖学参数(例如直径狭窄)或与冠状动脉心肌缺血相关的功能参数来诊断冠脉疾病。临床上诊断冠心病以及确定治疗方案通常需要患者先进行心脏CTA检查,医生由CT图像给出初步诊断,但是仅仅根据CT图像只能给出病变程度的初步预判,诊断结果带有主观性且只能给出轻、中及重度狭窄程度的初步预判,若要进一步确定狭窄率需要患者行冠脉造影术DSA,获得诊断的“金指标”,通过金指标给出治疗方案。但值得注意的是,冠脉造影术为有创检测,需要进行造影剂注射及压力导丝介入操作,因此患者容易发生术中和术后不良反应,创伤较大。针对以上问题,无创检测成为当下的研究热点,从患者层面上讲,它可以避免活体手术介入带来的重大痛苦和严重风险,从医生层面上讲,可以极大提高医生诊断的效率和准确率。医学各领域也在与工科技术、人工智能、大数据等结合,影像组学的发展为从二维CT图像挖掘隐含信息,构建图像特征与疾病之间的关联,进而进行体外识别和预测病变提供了可能,并且在很多疾病诊断及治疗上都取得了重大的研究成果,未来医学也将朝着更加智能便捷的方向发展,运用前沿技术诊断疾病也将是未来的研究重点和热点。
在冠脉狭窄相关病变的诊断方法上,目前有医疗上的冠脉造影压力导丝体内检测方法,后来出现了基于流体力学以及深度学习的无创诊断方法,但是这些方法仍然存在一些需要进一步研究的问题,主要表现在以下两个方面:
流体力学仿真建模过程复杂:需要建立患者特异性冠脉模型,进行血流动力学仿真,单数据单模型,且人体血流运行情况复杂,一些因素可能尚未考虑到,如进行瞬态模拟时,压力及速度波形虽然可由文献得到,但要进行更为精确的个例模拟,需要进行体外或体内的测量,且建模过程需要对图像进行处理以及重建,对处理器的要求较高,增加了操作复杂度,使得计算时间相应延长,数小时不等。
深度学习算法效果容易过拟合:医学真实数据一般较难获得,通常属于小样本学习范畴,深度神经网络由于模型结构复杂,因此需要大量的图像样本来进行训练。但是这种具有强表达能力的算法专注于解释训练数据,容易牺牲对未来数据即测试数据的解释能力,为避免发生过拟合常常需要更多的数据样本进行学习来保证在新的数据集上仍然能够达到较好的效果,这在图像样本数据较少时是不适用的。
因此本发明在机器学习的基础上,针对医学冠脉CT图像少的特点,使用小样本分类器,避免以往深度学习算法容易过拟合的特点。具体做法为由CTA图像分割出冠脉血管进行狭窄分类,直接诊断狭窄程度,而不用再进行有创检查,同时提出了一种多分类器融合的诊断方法,将各分类器的优点结合起来,相比单分类器,融合分类器具有更高的分类准确率和性能,能够为临床诊断提供更加可靠的依据。
发明内容
本发明的目的是提供一种基于多分类器融合的冠状动脉狭窄病变程度识别方法,实现在判别狭窄程度上的自动分类预判,免去有创手术给患者带去的伤害。
本发明所采用的技术方案是,一种基于多分类器融合的冠状动脉狭窄病变程度识别方法,具体按照以下步骤实施:
步骤1、构建图像样本库;
步骤2、对由心脏CTA提取出的CT原始序列图进行去噪、分割二值化处理,获得冠状动脉提取图;
步骤3、对分割后的图像做特征提取,提取感兴趣的纹理特征、灰度特征以及几何特征三个大类特征;
步骤4、按照7:3的原则,采用随机索引法,将入组的500例样本分为训练组和测试组,采用可进行多分类的ReliefF特征加权算法对步骤3提取出来的纹理、灰度、几何三大影像组学特征进行筛选,对随机特征采用十折交叉验证,计算各个特征与预测结果的相关性大小,剔除相关性小的特征;
步骤5、将步骤4中筛选后选出的纹理、灰度、几何三个方面的特征构成特征集合,建立多分类器融合预测模型,选择对医学图像分类效果较好的支持向量机(SVM)、随机森林(RF)、极限学习机(ELM)三种分类器进行融合预测冠脉病变程度;采用加权法确定3种分类器在融合分类器中所占的权重,当狭窄程度低于50%时判定为正常样本,狭窄程度大于50%时判定为病变样本。
本发明的特点还在于,
步骤1具体如下:
在医院数据系统中收集近三年来同时做过心脏CTA和冠脉造影DSA检查的患者信息和图像,即能够将CT图像和冠脉狭窄金指标数据进行对应,隐去图像中患者的基本信息之后选取符合影像质量的500例患者冠脉CT图像作为选定的输入样本,进行标签类别标注。
步骤2具体如下:
步骤2.1、将原始CT图像中高斯噪点邻域内的所有像素点按照大小规律排列,取最中间的像素灰度值作为该噪点的灰度值对图片进行降噪,其原理表达式如下:
其中,i,j代表像素点的坐标值,gij为噪点灰度值,A为噪点所取邻域区域;{fij}为数据序列;Med意为取中值操作。
通过去噪处理可以提高CT图像的图像质量,同时去噪后的图像能够更加清晰的体现CT图像中的冠状动脉结构信息,有助于推进步骤2.2中的分割操作。
步骤2.2、R表示整幅图像,分割看成将整幅去噪后的CT图像R分割成c个子区域的过程,需同时满足以下①~④的条件:
①U(Rx)=R,Rx为子连通区域;
②Rx∩Ry=φ,x,y=1,2,3......c,且对任意的x,y,都有x≠y;
③P(Rx)=True,对x=1,2,3.......c;
④R(Rx∪Ry)=False,x≠y;
通过区域生长分割算法将具有连续区域的冠状动脉血管从原始CT图像中提取出来,即获得冠状动脉提取图。
步骤3具体如下:
步骤3.1、采用灰度直方图的方法提取步骤2中冠状动脉提取图的均值、方差、能量、熵、峰态以及歪斜度六个方面的灰度特征;
步骤3.2、构造灰度共生矩阵,选取5×5的滑动窗口计算步骤2中冠状动脉提取图各像素点的灰度特征值,提取图像的纹理特征;
步骤3.3、基于步骤2所获冠状动脉提取图,采用Hu不变矩方法提取冠状动脉图像的几何特征,首先计算冠脉图像的二阶以及三阶中心距,然后进行归一化处理获得不变矩组,由不变矩组描述冠脉提取图像的形状几何特征。
步骤4具体如下:
步骤4.1、经ReliefF特征加权算法从步骤3提取出来的纹理、灰度、几何三大影像组学的全部特征中选出最大相关的前d个特征构成d个特征子集,每个子集包含特征数目依次从1到d;
步骤4.2、进行十折交叉验证,将样本集分成10个子集,每次选择一个子集作为测试集,其余9个子集作为训练集,重复10次,最后选取10次的平均识别正确率作为结果;
步骤4.3、按此过程计算出每个特征子集的预测错误率,选择预错率最小的特征子集作为步骤5中多分类器融合预测模型的输入特征。
步骤4.1中ReliefF特征加权算法具体如下:
每次从训练样本集中随机的抽取出一个样本S,再从样本S的同类样本和不同类样本中分别找出k个近邻样本Hl、Ml,之后更新步骤3所提取的纹理、灰度以及几何三大类特征中每个特征在预测过程中所占的权重,权重小于所设阈值的特征将会被剔除,特征权重计算公式如下:
上式中,m为样本抽样次数,k为最近邻样本个数,l=1......k,diff(A,S,Hl)表示样本S和样本Hl在特征A上的差,C为样本类别,p(C)为C类目标样本数占样本总数的比例,p(class(S))为样本S中样本数占样本总数的比例。
步骤5具体如下:
步骤5.1、首先将步骤4中筛选出来的特征样本集分别通过支持向量机(SVM)、极限学习机(ELM)、随机森林(RF)三个单分类器,得到各分类器对冠状动脉狭窄程度的识别结果,即各个分类器对待识别样本的分类预测所得到的3个类别,由各个分类器分类的正确能力计算各单分类器在最终的多分类器融合预测模型中所占的权重;
步骤5.2、采用多数加权投票法对支持向量机(SVM)、极限学习机(ELM)、随机森林(RF)三种单分类器的分类结果进行融合,当分类器输出结果为+1时,表示分类结果为正常类别即狭窄程度低于50%,当分类器输出结果为-1时,表示分类结果为病变类别即狭窄程度高于50%;将各分类器的分类结果乘以步骤5.1中所得的相应权重,再将三个乘积进行加和作为最后的输出,得到多分类器融合预测模型的分类结果,加和结果为正数时判定为正常类别,为负数时判定为病变类别。
步骤5.1中各分类器所占权重是根据其分类正确率确定的,分类模型的正确率计算公式如下:
其中,a=1,2,3;n=narrow,Non-narrow;e'n为的累计次数,en为分为正常类或异常类的累计次数;ya∈{+1,-1}为训练样本的标签,分别表示各模型的分类结果;
计算每个模型的权值wa为:
其中,
步骤5.2中将各模型所得结果分别与对应权值相乘加和后即得到最后的输出结果:
当输出结果为正数时,表明分类结果为正常类别,即狭窄程度低于50%,输出结果为负数时,表明分类结果为病变类别,即狭窄程度高于50%。
本发明的有益效果是,一种基于多分类器融合的冠状动脉狭窄病变程度识别方法,能够将已有患者的CTA及DSA图像及诊断报告进行对应,可以直接借助心脏CTA检测结果,利用机器学习,建立多分类器融合预测模型,进而预测患者冠脉狭窄程度的金指标,决定治疗方案。此发明思路采用体外分类预测模式,免去有创冠状动脉造影术给患者带来的不良反应和创伤,患者不用再单独行冠脉造影手术,因此可以提高冠脉病变诊断的适用性,同时融合多分类器能够将各个分类器的优势结合起来,预测准确率,预测速度均具有良好的性能,提高临床医生诊断效率。
附图说明
图1为本发明基于多分类器融合预测模型的框架示意图;
图2为本发明基于多分类器融合预测模型的结构流程图;
图3为本发明中采用的区域生长分割算法示意图;
图4为本发明的特征提取流程图;
图5为本发明的特征筛选流程图;
图6为本发明中使用的各分类器实施流程图;
图7为本发明的融合分类器网络构建示意图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明基于无创冠脉狭窄程度识别的初衷,提出了一种使用融合分类器来自动识别疾病程度的机器学习方法,使用二维CT拍摄图像来比对金指标,提高临床诊断效率。如图1总体框架图,本发明主要包括构建样本库、图像预处理、特征提取、特征筛选、融合分类器模型搭建以及实验验证六个基本模块,可以理解为主要分为样本获取、建模两大主要阶段。其中,在样本获取阶段,需要完成对训练样本的各项处理过程,在建模阶段,需要建立起机器学习模型,确定分类器结构及参数调优。最后可以对本发明所提出的方法的效能进行验证评估。应当指出的是,本发明针对本申请方案但不限于此,除适于本研究背景之外对其他疾病的诊断仍然适用。
本发明为一种基于多分类器融合的冠状动脉狭窄病变程度识别方法,结合图1、图2,具体按照以下步骤实施:
步骤1、构建图像样本库;
步骤1具体如下:
在医院数据系统中收集近三年来同时做过心脏CTA和冠脉造影DSA检查的患者信息和图像,即能够将CT图像和冠脉狭窄金指标数据进行对应,隐去图像中患者的基本信息之后选取符合影像质量的500例患者冠脉CT图像作为选定的输入样本,进行标签类别标注。
步骤2、对由心脏CTA提取出的CT原始序列图进行去噪、分割二值化处理,获得冠状动脉提取图;
步骤2具体如下:
步骤2.1、由于本发明所使针对的对象为CT图像,医学图像主要引入的噪声为高斯噪声,采用中值滤波方式能够对高斯噪声起到较好的去噪效果,将原始CT图像中高斯噪点邻域内的所有像素点按照大小规律排列,取最中间的像素灰度值作为该噪点的灰度值对图片进行降噪,其原理表达式如下:
其中,i,j代表像素点的坐标值,gij为噪点灰度值,A为噪点所取邻域区域;{fij}为数据序列;Med意为取中值操作。
通过去噪处理可以提高CT图像的图像质量,同时去噪后的图像能够更加清晰的体现CT图像中的冠状动脉结构信息,有助于推进步骤2.2中的分割操作。
步骤2.2、依据血管形状特点,所提取区域与外界区域具有明显差距,因此使用基于区域生长的算法对图像进行分割,其概念是指将具有满足某种相似特性的各个像素点被划分到同一个区域来实现分割。首先针对整幅图像的多个待分割区域,在每一个待分割的区域内选择一个种子点作为区域生长的起点,然后需要按照使自己目标最优化的生长准则或者把它周围与该个像素点特征相近或者相似的像素合并到预先设置的种子像素所在的区域中,之后把这些合并完成的新的像素作为种子区域按照上述方法继续进行生长,直到遍历完整幅图像,以至于整幅图像中没有满足预先设定的条件或者准则的像素可被合并到种子区域内时,结束整个区域生长分割过程。
区域生长分割算法能够将具有相同特征的连通区域较好的分割出来,提供很好的边界信息,R表示整幅图像,分割看成将整幅去噪后的CT图像R分割成c个子区域的过程,需同时满足以下①~④的条件:
①U(Rx)=R,Rx为子连通区域;
②Rx∩Ry=φ,x,y=1,2,3......c,且对任意的x,y,都有x≠y;
③P(Rx)=True,对x=1,2,3.......c;
④R(Rx∪Ry)=False,x≠y;
区域生长分割算法是根据一种事先定义的准则将像素或者子区域聚合成更大区域的过程,通过区域生长分割算法将具有连续区域的冠状动脉血管从原始CT图像中提取出来,即获得冠状动脉提取图。
步骤3、对分割后的图像做特征提取,如图3所示,依据医学图像特点提取感兴趣的纹理特征、灰度特征以及几何特征三个大类特征;
步骤3具体如下:
步骤3.1、采用灰度直方图的方法提取步骤2中冠状动脉提取图的均值、方差、能量、熵、峰态以及歪斜度六个方面的灰度特征;
步骤3.2、构造灰度共生矩阵,选取5×5的滑动窗口计算步骤2中冠状动脉提取图各像素点的灰度特征值,提取图像的纹理特征;
步骤3.3、基于步骤2所获冠状动脉提取图,采用Hu不变矩方法提取冠状动脉图像的几何特征,在统计学中,矩反映随机变量的散布情形,推广至图像领域,如果将图像的灰度值看作一个密度散布函数,那么矩方式可用于图像特征的提取。Hu不变矩方法表征图像区域的几何特征,首先计算冠脉图像的二阶以及三阶中心距,然后进行归一化处理获得不变矩组,由不变矩组描述冠脉提取图像的形状几何特征。
步骤4、按照7:3的原则,采用随机索引法,将入组的500例样本分为训练组和测试组,采用可进行多分类的ReliefF特征加权算法对步骤3提取出来的纹理、灰度、几何三大影像组学特征进行筛选,对随机特征采用十折交叉验证,计算各个特征与预测结果的相关性大小,剔除相关性小的特征;
步骤4具体如下:
步骤4.1、经ReliefF特征加权算法从步骤3提取出来的纹理、灰度、几何三大影像组学的全部特征中选出最大相关的前d个特征构成d个特征子集,每个子集包含特征数目依次从1到d;
步骤4.2、进行十折交叉验证,将样本集分成10个子集,每次选择一个子集作为测试集,其余9个子集作为训练集,重复10次,最后选取10次的平均识别正确率作为结果;
步骤4.3、按此过程计算出每个特征子集的预测错误率,选择预错率最小的特征子集作为步骤5中多分类器融合预测模型的输入特征。
步骤4.1中ReliefF特征加权算法具体如下:
如流程图4所示,特征是机器学习的依据,但是特征之间的冗余性和相关性反而会降低分类的准确率,尤其是本申请为小样本学习模型,特征过多不仅会增加模型的复杂度,也会在一定程度上降低模型的泛化能力,因此本申请将对步骤2中所提取出来的特征采用ReliefF特征加权算法进行优化和选择,赋予各个特征不同的权重,权重小于所设阈值的特征将会被剔除。
每次从训练样本集中随机的抽取出一个样本S,再从样本S的同类样本和不同类样本中分别找出k个近邻样本Hl、Ml,之后更新步骤3所提取的纹理、灰度以及几何三大类特征中每个特征在预测过程中所占的权重,权重小于所设阈值的特征将会被剔除,特征权重计算公式如下:
上式中,m为样本抽样次数,k为最近邻样本个数,l=1......k,diff(A,S,Hl)表示样本S和样本Hl在特征A上的差,C为样本类别,p(C)为C类目标样本数占样本总数的比例,p(class(S))为样本S中样本数占样本总数的比例。
步骤5、将步骤4中筛选后选出的纹理、灰度、几何三个方面的特征构成特征集合,建立多分类器融合预测模型,选择对医学图像分类效果较好的支持向量机(SVM)、随机森林(RF)、极限学习机(ELM)三种分类器进行融合预测冠脉病变程度;采用加权法确定3种分类器在融合分类器中所占的权重,使得预测效果达到最佳,当狭窄程度低于50%时判定为正常样本,狭窄程度大于50%时判定为病变样本。
步骤5具体如下:
如图7分类器拓扑结构所示,选取支持向量机(SVM)、极限学习机(ELM)、随机森林(RF)组成融合分类器对样本集进行分类,各分类器原理如下:
如图6(a)所示,支持向量机(SVM)基本原理即为寻找能够将不同样本分隔开来的最优超平面,其求解相当于凸二次规划求最优化过程:寻找目标函数、确定约束条件。可避免维数灾难,鲁棒性好,泛化能力强;SVM的分类性能受到多种因素影响,其中两个关键的因素为:1)误差惩罚参数C;2)核函数形式及其参数g。误差惩罚参数通过调节特征子空间中置信范围和经验风险使学习机器的泛化能力达到最好。径向基核函数具有非线性、参数少、能够把原始特征映射到无限维,因此本申请选择径向基核函数作为支持向量机的核函数。
如图6(b)所示,极限学习机基本结构为单隐层神经网络,相较于传统BP神经网络具有更好的泛化能力,学习速度更快,简单来说,极限学习机(ELM)模型的网络结构与单隐层前馈神经网络(SLFN)一样,只不过在训练阶段不再是传统的神经网络中屡试不爽的基于梯度的算法(后向传播),而采用随机的输入层权值和偏差,对于输出层权重则通过广义逆矩阵理论计算得到。所有网络节点上的权值和偏差得到后极限学习机(ELM)的训练就完成了,这时测试数据过来时利用刚刚求得的输出层权重便可计算出网络输出完成对数据的预测。在算法实现过程中,输入包括数据集、隐层神经元数目、激活函数,输出为β权重,通过随机产生输入权重和隐层偏差,计算隐藏层输出和输出层权重。
如图6(c)所示,随机森林的输入包括训练数据集和样本子集个数,输出为最终的强分类器,在机器学习方面具有良好的的适用性,且不需要复杂的调参过程,对于一个数据集而言正常情况下只能构造一棵树,通过引导聚集算法思想可以在同一数据集上划分出多个彼此关联的数据子集进而构造多颗子树,通过对多棵决策树的分类结果进行投票决定最优分类。
步骤5.1、如图7融合示意图所示,首先将步骤4中筛选出来的特征样本集分别通过支持向量机(SVM)、极限学习机(ELM)、随机森林(RF)三个单分类器,得到各分类器对冠状动脉狭窄程度的识别结果,即各个分类器对待识别样本的分类预测所得到的3个类别,由各个分类器分类的正确能力计算各单分类器在最终的多分类器融合预测模型所占的权重;
步骤5.2、采用多数加权投票法对支持向量机(SVM)、极限学习机(ELM)、随机森林(RF)三种单分类器的分类结果进行融合,当分类器输出结果为+1时,表示分类结果为正常类别即狭窄程度低于50%,当分类器输出结果为-1时,表示分类结果为病变类别即狭窄程度高于50%时;将各分类器的分类结果乘以步骤5.1中所得的相应权重,再将三个乘积进行加和作为最后的输出,得到多分类器融合预测模型的分类结果,加和结果为正数时判定为正常类别,为负数时判定为病变类别。
步骤5.1中各分类器所占权重是根据其分类正确率确定的,分类模型的正确率计算公式如下:
其中,a=1,2,3;n=narrow,Non-narrow;e'n为的累计次数,en为分为正常类或异常类的累计次数;ya∈{+1,-1}为训练样本的标签,分别表示各模型的分类结果;
计算每个模型的权值wa为:
其中,
步骤5.2中将各模型所得结果分别与对应权值相乘加和后即得到最后的输出结果:
当输出结果为正数时,表明分类结果为正常类别,即狭窄程度低于50%,输出结果为负数时,表明分类结果为病变类别,即狭窄程度高于50%。
本发明所采用的技术方案包括两个主要组成部分的设计:图像处理阶段以及分类器建模阶段。首先需要采集数据库,对构建的图像样本库进行预处理,提取出冠状动脉分割图以进行后续针对冠状动脉的分类学习;然后需要搭建融合分类器模型,确定分类器拓扑结构以及结果输出方式,根据已定义好的训练样本进行对狭窄程度的识别和分类,融合分类结果。最后可以采用SPSS软件分析预测结果的准确度、灵敏度、特异性、阴性预测值、阳性预测值的分析以及利用测试集进行分类预测。在此过程中,本发明从无创确定冠脉狭窄程度的角度出发,定义了两类标注类别:狭窄程度50%以上和狭窄程度50%以下。临床上,当狭窄程度在50%以上时可定义为冠心病,因此当分出时的病例狭窄程度大于50%时需要引起重视,制定治疗方案。融合分类器是进行程度识别以及程度类型标注的重要部件之一,通过使用标注好了的训练集对模型进行参数训练,然后应用测试集进行识别和标注。为了获得较高的分类准确率,本发明针对特征过多将会造成过拟合的特点采用算法对特征进行了筛选,在单分类器的选择上选择了对图像分类性能较好的三种分类器来进行联合搭建,由于单分类器涉及多个超参数的调优,多分类器之间可以相互协调,减轻参数调优的问题,并且在分类结果的准确率上可以实现一加一大于二的效果,加权融合算法给到分型性能较好的分类器一个更大的权值,从而使得分类结果更具可信性。
本发明采用SPSS软件分析预测结果的准确度、灵敏度、特异性、阴性预测值、阳性预测值的分析。采用测试集测试模型分类效果。所设计技术方案中,步骤5中各分类器在融合分类器中所占的比重是通过各分类器的预测能力来分配的,分类标准以国际最新冠状动脉狭窄诊断标准CAD-RADS为准则,狭窄程度小于50%时,以观察和预防为主,狭窄程度大于50%时,考虑药物及手术等治疗。
本发明能够通过学习已有患者数据CTA及DSA诊断结果的比对,直接由心脏CTA图像对狭窄程度进行分类,最终实现自动由冠脉CT图像预测出DSA应对应的狭窄程度,即由CTA图像准确的确定冠脉病变的”金指标”,从而给出治疗方案,而不用再经过有创的检查,既能够辅助医生给出诊断结果,提高工作效率的同时又能够极大减轻患者痛苦,具有重要的临床意义。
- 上一篇:石墨接头机器人自动装卡簧、装栓机
- 下一篇:抽真空结果判定方法、装置、设备及存储介质