一种多层三值主元与双向长短期记忆融合的文本识别方法

文档序号:8527 发布日期:2021-09-17 浏览:36次 英文

一种多层三值主元与双向长短期记忆融合的文本识别方法

技术领域

本发明涉及文本识别

技术领域

,具体地说,涉及一种多层三值主元与双向长短期记忆融合的文本识别方法。

背景技术

文字的出现对于人类文明的发展和传承有着重要的现实意义和历史意义,古今中外思想的交流、文化的发展、历史的记载无不依赖于文字的出现。文字既是信息的载体,也是人类认知世界的重要手段,它不仅能够独立传递信息,也能够和其他视觉元素相互补充传递更高层次的语言含义。随着经济社会的蓬勃发展,自然场景中的文本元素随处可见,例如公交车站牌、道路指示牌、商城广告牌等等。这些文本指示能够透露给我们大量的环境信息等待我们的探索和利用。

在将深度学习应用到文本检测与识别之前,已经对文档检测有了相应的解决方案——OCR(光学字符识别)。在过去,硬件设备落后、对自然场景文本检测与识别的客观需求也较低,OCR作为当时最先进的文档识别技术为人类提供了便捷的服务。虽然OCR局限于文档识别、识别率较低以及存在需要大量人工辅助等问题,但该技术经过长时间的发展,目前也任在生活中的方方面面服务着人们的学习和生活。

近年来,计算机软硬件设备飞速发展,智能家居、智能驾驶、机器人引导、拍照翻译系统等智能应用纷纷落地,这些应用依靠对自然环境信息的理解能够为人类提供非常便捷的服务,因为自然场景中出现的文本多数是带有说明性、引导性、指示性的信息,能够为智能控件提供更直观、更丰富、更准确的环境信息。因此获得自然场景中的文本信息的需求已经变得更加迫切。

自然场景图像中的文本识别,其难度远大于扫描文档图像中的文本识别。不同于扫描文本的规则与背景一致,自然场景中的文本展现形式非常丰富。场景文字存在多种语言的文本混合,甚至文本字符也可以有不同的大小、字体样式、颜色、亮度、对比度等特殊呈现。文本行也可能出现横向、竖向、弯曲、旋转、扭曲等不规则样式。特别地,自然场景图像的背景还复杂多样,比如文本可以出现在平面、曲面或折皱面上,文本区域附近也可能出现复杂的干扰纹理、或者非文本区域有近似文字的纹理,文本区域还可能会产生变形,比如透视、仿射变换、残缺、模糊等。

不同于以往,随着人工智能的兴起、深度神经网络学习理论的发展、计算硬件的快速迭代,自然场景的文本检测与识别迎来了属于它的浪潮。深度学习在图像识别领域的成就为自然场景的文本检测与识别问题的解决奠定了坚实的基础,基于计算机视觉与自然语言处理等学科交叉的自然场景文本检测与识别课题成为了识别自然场景文本问题的重要研究热点。因为深度学习本身就具有强大的拟合能力,相对于传统的OCR技术,深度神经网络的学习更加具有解决在复杂的自然场景下进行文本检测与识别这类问题的前途。

发明内容

本发明的内容是提供一种多层三值主元与双向长短期记忆融合的文本识别方法,其能够克服现有技术的某种或某些缺陷。

根据本发明的一种多层三值主元与双向长短期记忆融合的文本识别方法,其包括以下步骤:

一、向场景文本模型输入一张包含文本信息的场景图像;

二、经过基于多层融合的多层三值主元网TPCANet模型获得图像特征输出;

三、将图像特征输入长短期记忆网BLSTM网络预测每个像素点上对应的k个锚点框的置信度;

四、再输入全连接进行预测最可能的文本框坐标;

五、根据文本框坐标在原图像上进行目标文本框的切割;

六、将切割得到的文本框输入基于多层融合的多层三值主元网TPCANet模型提取包含更多文本信息及空间信息的特征输出;

七、继续输入长短期记忆网BLSTM网络预测特征序列对应字符的概率;

八、将带概率的序列输入CTC网络预测最大概率的序列,实现转录,从而输出所需要的文本序列。

作为优选,多层融合的TPCANet模型算法过程为:设数据集有N个大小为m×n的训练样本,设置滤波器大小始终为k1×k2,三值化邻域半径为r;

Step1:输入一个包含文本形象的图像数据集I;

Step2:对输入图像样本Ii做邻域半径为r的块采样,并进行三值化运算处理;

Step3:对每个Step2经过三值化处理的图像样本做去均值化处理,并将所有经过去均值化处理后的图像样本进行级联形成矩阵;

Step4:对Step3中产生的矩阵进行主成分分析,获得第一阶段L1个卷积核

Step5:使用第一阶段的L1个卷积核对原始图像Ii做卷积,得到对应的L1个特征图像

Step6:将整个图像数据集在第一阶段产生的特征图像进行做去均值化处理,并将所有经过去均值化处理后的特征图像进行级联形成矩阵;

Step7:对Step6中产生的矩阵进行主成分分析,获得第二阶段L2个卷积核

Step8:使用第二阶段的L2个卷积核对第i个原始图像Ii在第一阶段由第l1个第一层的卷积核卷积得到的特征图像做卷积,将得到对应的L2个特征图像因此,第i个原始图像Ii在第二阶段总共将会产生L1×L2个特征图像:其中l1=1,2,…,L1

Step9:对Step5与Step8中得到的第i个图像样本在第一阶段卷积产生的结果及第二阶段中产生的卷积结果进行加权融合

作为优选,步骤二中,先进行特征提取,然后进行多尺寸窗口滑动采样,采用3×3的空间采样块,对带有空间信息的卷积结果进行滑动采样。

作为优选,步骤三中,BLSTM将从两个方向上对循环上下文进行编码,每个滑动窗口的卷积特征从两个方向循环顺序地输入两个LSTM网络,并更新其内部特征隐层中Ht的循环状态;

Ht=φ(Ht-1,Xt),t=1,2,...,W;

其中Ht是循环内部状态,由当前输入Xt和Ht-1中编码的先侧状态共同计算得出;Xt∈R3×3×C是第t个滑动采样窗口的卷积特征。

本发明的一种多层三值主元与双向长短期记忆融合的文本识别方法具有较佳的特征提取效果,对自然场景文本识别有不错的识别效果。

附图说明

图1为实施例1中一种多层三值主元与双向长短期记忆融合的文本识别方法的流程图;

图2为实施例1中双向LSTM示意图;

图3为实施例1中CTC转录过程示意图;

图4为实施例1中自然场景文本识别应用识别示意图。

具体实施方式

为进一步了解本发明的内容,结合附图和实施例对本发明作详细描述。应当理解的是,实施例仅仅是对本发明进行解释而并非限定。

实施例1

如图1所示,本实施例提供了一种多层三值主元与双向长短期记忆融合的文本识别方法,其包括以下步骤:

一、向场景文本模型输入一张包含文本信息的场景图像;

二、经过基于多层融合的多层三值主元网TPCANet模型获得图像特征输出;

三、将图像特征输入长短期记忆网BLSTM网络预测每个像素点上对应的k个锚点框的置信度;

四、再输入全连接进行预测最可能的文本框坐标;

五、根据文本框坐标在原图像上进行目标文本框的切割;

六、将切割得到的文本框输入基于多层融合的多层三值主元网TPCANet模型提取包含更多文本信息及空间信息的特征输出;

七、继续输入长短期记忆网BLSTM网络预测特征序列对应字符的概率;

八、将带概率的序列输入CTC网络预测最大概率的序列,实现转录,从而输出所需要的文本序列。

多层融合的TPCANet模型算法过程为:设数据集有N个大小为m×n的训练样本,设置滤波器大小始终为k1×k2,三值化邻域半径为r;

Step1:输入一个包含文本形象的图像数据集I;

Step2:对输入图像样本Ii做邻域半径为r的块采样,并进行三值化运算处理;

Step3:对每个Step2经过三值化处理的图像样本做去均值化处理,并将所有经过去均值化处理后的图像样本进行级联形成矩阵;

Step4:对Step3中产生的矩阵进行主成分分析,获得第一阶段L1个卷积核

Step5:使用第一阶段的L1个卷积核对原始图像Ii做卷积,得到对应的L1个特征图像

Step6:将整个图像数据集在第一阶段产生的特征图像进行做去均值化处理,并将所有经过去均值化处理后的特征图像进行级联形成矩阵;

Step7:对Step6中产生的矩阵进行主成分分析,获得第二阶段L2个卷积核

Step8:使用第二阶段的L2个卷积核对第i个原始图像Ii在第一阶段由第l1个第一层的卷积核卷积得到的特征图像做卷积,将得到对应的L2个特征图像因此,第i个原始图像Ii在第二阶段总共将会产生L1×L2个特征图像:其中l1=1,2,…,L1

Step9:对Step5与Step8中得到的第i个图像样本在第一阶段卷积产生的结果及第二阶段中产生的卷积结果进行加权融合

步骤二中,先进行特征提取,然后进行多尺寸窗口滑动采样,采用3×3的空间采样块,对带有空间信息的卷积结果进行滑动采样。滑动窗口方法采用多尺度窗口来检测不同尺寸的物体,并且采用垂直锚点机制(Vertical Anchor Mechanism)来预测每个固定宽度文本提议(Text Proposal)的位置和文本/非文本评分。

这些带顺序的滑动采样结果将会被循环输入BLSTM,并分别预测这些文本行切片(文本提议框)的置信度。由于BLSTM独特的双向循环连接机制,使得检测器可以探索到文本行的上下文信息。BLSTM将从两个方向上对循环上下文进行编码,通俗来讲就是将每个滑动窗口的卷积特征从两个方向循环顺序地输入两个LSTM网络,并更新其内部特征隐层中Ht的循环状态:

Ht=φ(Ht-1,Xt),t=1,2,...,W;

其中Ht是循环内部状态,由当前输入Xt和Ht-1中编码的先侧状态共同计算得出;Xt∈R3×3×C是第t个滑动采样窗口的卷积特征。过程如图2所示。

CTC就是一种对字符间的连续特性进行归纳的技术,用于解决输入输出数据标签没有对应的问题,被广泛应用于输入输出无法对齐的文本行识别和语音识别中。CTC核心技术是一个损失函数,用来衡量输入的序列经过神经网络之后,和真实的输出相差有多少。从数学角度来讲,这个损失计算实则是求解总体概率的归纳,求解概率最大的标签序列,然后输出对应的文本序列。也就是基于给定的输入X,最大化后验概率P(Y∥X)。图3为CTC对输入的特征序列进行转录的过程,X0到X14是列举的一个特征序列,特征之间包含位置关系,依次输入到CTC模型中。CTC将对特征序列进行求解最大概率序列。图中的块表示当前特征是某个字符的概率,越深代表概率越高。

本实施例提出的多层融合TPCANet特征提取模型的卷积核求解是基于主成分分析原理通过求解协方差矩阵的特征矩阵而来,不同于其他深度卷据神经网络具有后向传播的过程,因此可融入现有的两段式自然场景文本识别模型当中。

实验测试与分析

数据集介绍:

本实验将在ICDAR 2003、ICDAR 2015及SVT数据集上,对本章提出的基于多层融合TPCANet的自然场景文本识别模型进行测试实验。这些数据集不仅提供了丰富的包含文本信息的自然场景图片,还包含了对图像中文本区域的定位以及对应的文本。以SVT数据集为例,该数据集来自谷歌街景图像,数据集包含高质量照片和大量低质量照片,以及为这些图像提供了XML格式的train文件和test文件,分别保持了图像文本区域的坐标和对应的文本序列。

数据增广及数据集的划分:

首先对数据集进行增广处理,一张图像增广两张,那么数据样本总数将增加为原始大小的3倍。以及由于本文实验的数据集众多,且数据集总量不一致,因此本文对数据集的划分采取了有放回重复采样的自动划分方式进行选取训练集和测试集。也就是每次从数据集中取出一个样本作为训练集中的元素,然后把该样本放回,重复该行为M次,这样我们就可以得到大小为M的训练集,在这里面有的样本会被重复采样,也会存在有的样本从未被采样,那么这部分从未被采样的样本就可以作为测试集。通过这样的方式,从数据集中划分的测试集大概为总数据集的1/e:

其中M为数据集大小,1-1/M为每个样本未被采样到的概率。

评价标准:

本文在文本检测阶段选择的评价标准包含三个部分:召回率(Recall)、准确率(Precision)和调和平均(FMeasure)。

本文在文本检测阶段选择的评价标准包含两个部分:标准编辑距离度量和单词识别率。

标准编辑距离即为一个序列通过编辑操作转换为另一个字符所需要的最小次数,是基于标准编辑距离衡量识别结果与真实字符之间的归一化编辑距离之和,字符串Si和Sj的归一化编辑距离。

字符识别率是另一种分析文本识别模型性能的评价标准,字符识别率即为将正确识别的字符总数与所有待识别字符识别总数的比值。字符识别率又根据有无约束分为有词典和无词典的评价标准。有词典约束的转录将从词典中寻找到与原始输出具有最小编辑距离的字符,无词典的转录方式直接将t时刻预测的最大概率标签值作为结果。

实验一:

首先分别验证本章提出的基于多层融合TPCANet的自然场景文本识别模型对水平文本数据集(ICDAR 2003)、倾斜扭曲文本数据集(ICDAR 2015)及字体变化较大且多数图像分辨率较低数据集(SVT)上的性能与检测表现。

表1

数据集 召回率 准确率 调和平均
ICDAR 2003 84.21% 93.0% 88.2%
ICDAR 2015 52.12% 71.9% 64.43%
SVT 69.0% 81.9% 78%

如表1所示,在本次实验中,本文自然场景文本识别模型的检测阶段在ICDAR 2003数据集上的召回率是84.21%,准确率为93.0%,调和平均为88.2%。通过实验数据分析发现,本文自然场景文本检测模型在包含水平文本的图像数据集上的检测准确率明显高于在包含扭曲、倾斜文本图像的数据集上的准确率。

实验二:

接下来分别验证本章提出的基于多层融合TPCANet的自然场景文本识别模型对水平文本数据集(ICDAR 2003)、及字体变化较大且多数图像分辨率较低数据集(SVT)上的性能与识别表现。

表2

数据集 准确率
ICDAR 2003 89%
SVT 74.23%

如表2所示,实验表明,本文提出的基于多层融合TPCANet的自然场景文本识别模型在在水平方向上的文本识别数据集上表现优异。通过实验数据分析发现,本文自然场景文本识别模型的识别阶段在包含水平文本的图像数据集ICDAR 2003上的检测准确率明显高于在包含扭曲、倾斜文本图像的数据集SVT上的准确率,高出了14.77%。

实验三:

基于以上实验结果,接下来在包含水平文本图像的数据集(ICDAR 2003)上进行不同模型的识别率对比。

表3

方法模型 识别准确率
MTPCANet-CTPN-CRNN 81.9%
CTPN+CRNN 71.9%

如表3所示,实验表明,本文提出的基于多层融合TPCANet的自然场景文本识别模型(MTPCANet-CTPN-CRNN)在ICDAR 2003数据集上的准确率为81.9%,略胜原始CTPN+CRNN模型一筹。

最后为本文提出的基于多层融合TPCANet的自然场景文本识别应用的测试样例,如图4所示,依次为原图、文本结果及文本识别输出。其中文本框检测中,框为文本检测预测得出的文本框区域,框中数字为该文本行锚点框置信度之和。

实验结果显示,本文整合的基于多融合TPCAnet的自然场景文本识别模型能够在训练时长上略低于经典CTPN与CRNN组合模型,而识别精度相对经典模型来说略有提升,证明本文构建的基于多层融合TPCAnet的自然场景文本应用具有一定现实意义。

以上示意性的对本发明及其实施方式进行了描述,该描述没有限制性,附图中所示的也只是本发明的实施方式之一,实际的结构并不局限于此。所以,如果本领域的普通技术人员受其启示,在不脱离本发明创造宗旨的情况下,不经创造性的设计出与该技术方案相似的结构方式及实施例,均应属于本发明的保护范围。

完整详细技术资料下载
上一篇:石墨接头机器人自动装卡簧、装栓机
下一篇:基于Handle标识定位的图像识别防伪方法及图像识别防伪系统

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!