一种乳腺组织病理图像分类方法
技术领域
本发明属于计算机辅助诊断
技术领域
,具体涉及一种乳腺组织病理图像分类方法。背景技术
乳腺癌是全球女性最常见的癌症之一,也是死亡率最高的癌症之一。随着计算机科学技术的不断进步,计算机辅助诊断已经成为医疗领域的热门研究领域。
传统的乳腺组织病理图像分类方法需要手动提取图像特征,但由于专业病理学专家数量有限,且人工选取具有主观性,所选取的特征不具有代表性,传统的乳腺癌图像分类方法的精度远不能符合临床要求。与传统人工诊断相比,计算机辅助诊断技术能够克服医师诊断的主观性,减少人工诊断出现的误诊漏诊现象,且得益于计算机强大的运算能力,可以在短时间内处理大量图像数据,诊断速度显著提高,辅助医生更快做出合理决策。基于深度学习的图像分类方法广泛运用于各种分类任务当中,而由于医学图像的特殊性与复杂性,数据集的获取非常困难,所以已有的公开数据集数据量小,运用神经网络对乳腺癌组织病理图像进行分类极易造成网络的过拟合现象。
在图像预处理阶段,目前最常用的方法是将图像进行分块处理,不仅可以减少网络的训练时间,而且使数据量成倍增长。但是分块处理只适用于拥有像素级别标签的数据集,乳腺组织病理图像由于本身的复杂性,标记过程成本很高,BreaKHis乳腺组织病理图像数据集只有图像级别的标记,使用分块处理会将原始图像的标签分配给相应的生成块,然而乳腺恶性图像中会存在良性区域,这就会造成块的错误标记,由此导致网络分类性能下降。
发明内容
本发明涉及一种乳腺组织病理图像分类方法,解决现有技术中计算机辅助乳腺组织病理图像分类时错误标记的分块与小样本过拟合问题。
为了达到上述目的,本发明的技术方案是:
一种乳腺组织病理图像分类方法,首先在VGG16与ResNet50两个网络模型上使用迁移学习方法将浅层卷积冻结,利用浅层通用特征提高网络精度与泛化能力;其次,加入注意力模块提取乳腺病灶区域信息以增强特征描述;最后,将两个个体分类器的类概率结果以软投票的方式进行融合,得到最后的八分类结果。
进一步的,具体步骤如下:
步骤S1:对乳腺组织病理学图像数据集进行图像预处理;
步骤S2:以VGG16网络为基础框架构建的神经网络作为个体分类器一,VGG16网络包括13个卷积层,通过逐层冻结参数的方式,以ImageNet数据集为源域,乳腺组织病理学图像数据集为目标域,进行迁移学习微调实验;
步骤S3:以ResNet50网络为基础框架构建的神经网络作为个体分类器二,ResNet50网络包括4种残差块,通过逐步冻结残差块参数的方式,以ImageNet数据集为源域,乳腺组织病理学图像数据集为目标域,进行迁移学习微调实验;
步骤S4:在VGG16网络与ResNet50网络中分别加入通道注意力与空间注意力,加入位置为最后的卷积层之后,全连接层之前,并且顺序为通道注意力在前,空间注意力在后;
步骤S5:构建结合注意力与双模型迁移融合的乳腺图像分类网络;
步骤S6:训练结合注意力与双模型迁移融合的乳腺图像分类网络用于乳腺组织病理学图像分类检测。
与现有技术相比,本发明的有益效果是:
乳腺癌的早期诊断对后期的治疗至关重要,通过计算机辅助乳腺癌病理学图像进行良恶性分类,可以起到良好的预防与检测作用。本发明将迁移学习机制运用到乳腺图像分类任务中,预先使用大型公开数据集获取一定的先验知识,提高网络学习效率,避免模型训练出现过拟合。注意力机制融合了空间注意力与通道注意力的特征信息,学习到了图像中空间与通道的显著性特征,选择关注突岀特征,以便更好地捕捉重点信息,抑制噪声及背景等干扰区域对决策的影响,提升分类网络的性能。采用软投票算法对两个分类器的类概率结果进行投票,对比硬投票直接对类标签进行投票,能够提升对易混淆类别的分类能力。本发明可以实现乳腺组织病理学图像的高精度分类,包括乳腺良恶性二分类和八亚型多分类。
附图说明
图1是本发明乳腺组织病理学图像分类网络的结构原理图;
图2是通道注意力结构图;
图3是空间注意力结构图;
图4是VGG16逐层冻结效果图;
图5是ResNet50逐层(残差块)冻结效果图;
图6是八分类混淆矩阵;
图7是二分类混淆矩阵。
具体实施方式
下面通过具体实施方式结合附图对本发明作进一步详细说明。在以下的实施方式中,很多细节描述是为了使得本申请能被更好的理解。然而,本领域技术人员可以毫不费力的认识到,其中部分特征在不同情况下是可以省略的,或者可以由其他元件、材料、方法所替代。本发明将构建一种结合注意力与双模型迁移融合的乳腺组织病理学图像分类网络,融合了空间注意力与通道注意力的特征信息,学习到了图像中空间与通道的显著性特征,这使得网络的分类效果有较大提升;采用软投票算法对两个分类器的类概率结果进行投票,对比硬投票直接对类标签进行投票,能够提升对易混淆类别的分类能力。本发明可以实现乳腺组织病理学图像的高精度分类,包括乳腺良恶性二分类和八亚型多分类。
实施例:
参见图1,本实施例方法完整的步骤如下:
步骤S1:对乳腺组织病理学图像数据集进行图像预处理;
数据量的多少可以决定神经网络的训练效果,乳腺组织病理学BreaKHis数据集共7909张图片,但是对于神经网络的学习是远远不够的,易造成网络的过拟合,因此数据增强是十分有必要的。常见的数据增强方式有:裁剪、旋转、翻转、平移、调整对比度等。乳腺组织病理学图像具有旋转不变性的特点,病理学家的诊断并不会由于图像角度的变化而变化,但是对于机器而言,图片经过旋转变换后是完全不同的。
步骤S1包括以下步骤:
步骤S101:进行图像预处理,乳腺组织病理学图像数据集BreaKHis图像大小为[700,460],将全部图像重定义为[224,224]作为神经网络的输入;
步骤S102:划分数据集,将65%的图片作为训练集,35%的图片作为测试集;
步骤S103:进行数据增强,包括随机裁剪、随机旋转、随机水平翻转、随机垂直翻转。
步骤S2:以VGG16网络为基础框架构建的神经网络作为个体分类器一, VGG16网络包括13个卷积层,通过逐层冻结参数的方式,以ImageNet数据集为源域,乳腺组织病理学图像数据集为目标域,进行迁移学习微调实验。
神经网络的加深致使参数量增大,若训练数据集样本不足,神经网络就无法充分学习到目标任务的特征规律,随机初始化也会延长网络拟合时间。当目标域数据量不充足时,在迁移学习的帮助下,借助源域已经存在的数据量充足的相关任务,可以使目标任务的实验结果得到显著提升。迁移学习在大型公开数据库预先训练网络参数,代替随机初始化完全从头训练,可以缩短训练时长,还可以有效抑制过拟合现象,提高网络泛化能力。
ImageNet数据集拥有超过1400万张被标记图片,ImageNet数据集在经典网络模型上都有训练,由此得到的训练参数可以迁移到乳腺组织病理学图像的分类任务当中。但是ImageNet数据集中的图片主要为日常生活中的真实图片,与乳腺组织病理图像的相似度不高,因此使用模型微调方法,该方法属于基于参数(模型)的迁移学习方法,能够克服样本之间的差异性,通过迁移模型参数的方式得到适用于目标任务的优化模型,具体方法是以逐层冻结参数的方式将知识迁移到乳腺图像分类任务当中,利用边缘、轮廓、纹理等浅层特征,提高网络特征提取的能力与效率。
步骤S2包括以下步骤:
步骤S201:以VGG16网络为基础框架,根据分类任务将分类器输出维度由1000改为8,并在最后三层全连接层之间加入Dropout层;
步骤S202:选择Adam优化器最小化交叉熵损失函数为训练策略,学习率初始值为0.0001;
步骤S203:网络在ImageNet数据集上预训练,选择迁移第一层卷积,具体做法为冻结第一层卷积参数,之后卷积层参数随网络学习不断更新;
步骤S204:输入经过预处理的乳腺组织病理学图像,打乱数据集内图片,以每批次16张图片输入神经网络,学习50轮并保存结果与模型;
步骤S205:重复步骤S23与步骤S24,其中步骤S23迁移卷积逐步增加,即冻结前两层卷积参数、前三层卷积参数……,以此类推;
步骤S206:对比基于VGG16网络结构的迁移学习微调结果,选择最合适的迁移策略进行融合实验。
步骤S3:以ResNet50网络为基础框架构建的神经网络作为个体分类器二,ResNet50网络包括4种残差块,通过逐步冻结残差块参数的方式,以ImageNet数据集为源域,乳腺组织病理学图像数据集为目标域,进行迁移学习微调实验;
步骤S3包括以下步骤:
步骤S301:以ResNet50网络为基础框架,根据分类任务将分类器输出维度由1000改为8,并在最后三层全连接层之间加入Dropout层;
步骤S302:选择Adam优化器最小化交叉熵损失函数为训练策略,学习率初始值为0.0001;
步骤S303:网络在ImageNet数据集上预训练,选择迁移第一个残差块,具体做法为冻结第一个残差块参数,之后卷积层参数随网络学习不断更新;
步骤S304:输入经过预处理的乳腺组织病理学图像,打乱数据集内图片,以每批次16张图片输入神经网络,学习50轮并保存结果与模型;
步骤S305:重复步骤S33与步骤S34,其中步骤S33迁移残差块逐步增加,即冻结前两个残差块参数、前三个残差块参数……,以此类推;
步骤S306:对比基于ResNet50网络结构的迁移学习微调结果,选择最合适的迁移策略进行融合实验。
步骤S4:在VGG16迁移网络与ResNet50迁移网络中分别加入通道注意力与空间注意力;
人类的视觉注意力机制可以在复杂场景中快速锁定目标区域,注意力机制模拟人眼视觉感知,选择关注重点特征,忽略掉不重要的冗余信息。注意力机制首先学习相应维度的权重以表示信息的关注度,权重较小即可抑制非重要特征对分类结果的干扰,权重较大可以增强有用信息对网络决策时的贡献,最终与输入特征图进行乘运算得到最终的注意力图。本发明使用的注意力机制结合通道注意力与空间注意力两个维度进行自适应特征优化。
步骤S4包括以下步骤:
步骤S401:使用步骤2中迁移效果最好的VGG16框架网络模型与步骤3中迁移效果最好的ResNet50框架网络模型,在各网络最后一个卷积层后分别加入通道注意力模块。
卷积神经网络中不同通道所提取到的特征也各不相同,如纹理、颜色、轮廓等信息,而不同特征对目标任务的贡献程度也不同,所以经过通道注意力模块对各通道进行加权处理,就可以解决目标“是什么”的问题。
参照图2和图3,步骤S401具体包括:
步骤S411:对于给定特征图F进行空间维度的压缩,具体操作为全局平均池化与全局最大池化,获得通道维度的特征;
步骤S412:分别经过两层卷积网络进行特征学习;
步骤S413:将两个特征图相加;
步骤S414:经过Sigmoid函数激活得到通道注意力权重;
步骤S415:将通道注意力权重与输入特征图F相乘。
通道注意力模块通过对不同通道特征分配权重,即对不同特征给予不同关注度,使得网络聚焦重要维度特征。
空间注意力模块模拟人眼感知机制,解决目标“在哪里”的问题。通过压缩通道维度,针对空间维度进行权值分配,以此实现病理图像中病灶区域所处空间位置的关注。
步骤S402:在通道注意力后加入空间注意力模块。
参照图2,步骤S402具体包括:
步骤S421:对于给定特征图F进行通道维度的压缩,具体操作为全局平均池化与全局最大池化,获得空间维度的特征;
步骤S422:将这两个特征图进行通道维度的连接;
步骤S423:经由一层卷积神经网络进行特征学习;
步骤S424:经过Sigmoid函数激活得到空间注意力权重;
步骤S425:将空间注意力权重与输入特征图F相乘。
空间注意力模块通过通道维度压缩特征图并在空间维度进行特征校准,对空间每个位置的特征值分配权重,从而提取空间维度的显著性信息,抑制无关背景区域。
步骤S5:构建结合注意力与双模型迁移融合的乳腺图像分类网络;
分类器融合是指将多个个体分类器的决策结果以某种方式进行组合来判断分类,常见的融合方式包括多数投票法、加权投票法等。经研究证实采用多分类器融合进行分类远远优于个体分类器。多数投票法和加权投票法采用的是类标签投票,而软投票算法采用类概率投票方式。
步骤S5具体包括:
步骤S501:改变结合注意力的VGG16框架迁移网络与结合注意力的ResNet50框架迁移网络的输出,直接输出八亚型类概率;
步骤S502:将结合注意力的VGG16框架迁移网络与结合注意力的ResNet50框架迁移网络的类概率结果通过软投票算法进行融合。
表1
表1为不同模型在八分类任务中的评估结果对比,由实验结果可知,本发明方法由于融合了空间注意力与通道注意力的特征信息,学习到了图像中空间与通道的显著性特征,这使得网络的分类效果有较大提升。
步骤S6:训练结合注意力与双模型迁移融合的乳腺图像分类网络用于乳腺组织病理学图像分类检测。
步骤S6具体包括:
步骤S601:两个模型都选择Adam优化器最小化交叉熵损失函数为训练策略,学习率初始值为0.0001;
步骤S602:输入经过预处理的乳腺组织病理学图像,打乱数据集内图片,以每批次2张图片输入神经网络,学习100轮并保存结果与模型;
为了全面评估网络模型,将本发明模型与上述性能较好的模型进行多种指标的对比,包括准确率、精确度、召回率与F1值,具体对比结果如表2所示。针对乳腺组织病理图像二分类任务,本发明方法相较于其他分类模型拥有更高的准确率,并且多种指标均表现优异,证明了本发明模型拥有良好的性能。
表2
以上实验结果表明,针对乳腺组织病理学图像的二分类任务与八分类任务,本发明提出的融合注意力机制与深度迁移学习的多模型融合算法的表现都要优于BHCNet等其他算法,并且加入注意力模块以及融合两个模型并未使训练时间过分增加,因此本发明模型在分类准确率与训练效率上都达到了较好的效果。
本发明个体分类器VGG16框架的深度迁移逐层冻结效果如图4所示,由图可知VGG16框架网络冻结前两层卷积效果最佳。个体分类器ResNet50框架的深度迁移逐残差块冻结效果如图5所示,由图可知ResNet50框架网络冻结前5个残差块时精度最高。图6为本发明对测试集图片进行的混淆矩阵测试,混淆矩阵是以矩阵的形式呈现分类结果,可以表示神经网络模型对分类任务的混淆程度,图中混淆矩阵的行表示真实类别,列表示模型预测类别。图7为良恶性二分类混淆矩阵。
以上为本发明的具体实施例,但本发明的结构特征并不局限于此,本发明可以用于类似的产品上,任何本领域的技术人员在本发明的领域内,所作的变化或修饰皆涵盖在本发明的专利范围之中。