一种面向机械化工领域的中文实体识别方法和系统
技术领域
本发明涉及中文命名实体识别NER(Name Entity Recoginiton),尤其涉及机械化工领域的中文短文本的高准确率产品实体抽取方法和系统。利用中文文本分词工具对短文本进行分词,然后利用关键词提取方法提取合适实体,同时基于有向概率状态转化图进行实体扩展获取最终实体。
背景技术
随着计算机的普及以及各种电子文本的广泛引用,大量的信息给人们的信息获取与处理带来了严峻的挑战,人们迫切需要一些自动化工具帮助进行大量信息数据处理,信息抽取、信息检查、机器翻译等技术应运而生,而其中最基础和重要的问题就是命名实体识别,命名实体识别的质量会直接影响到后续的一系列数据操作。
[1]从命名实体识别的发展过程来说基于规则的方法领域性较强,缺乏鲁棒性和和可移植性;而统计的方法虽然有一定的客观性,但人类的语言使用不是单纯的随机过程,严重的数据稀疏和系统处理能力的限制使得统计模型适用范围有限。统计模型和规则知识结合使用将具有较好的可训练性和可适应性,而且保持性能所花费的代价相对要低的多,这也是NER未来的发展趋势,见张晓艳,王挺,陈火旺所著“命名实体识别研究[J]”一文,计算机科学,2005(04):44-48。
近年来中文文本的NER技术越来越成熟,并且有大量的中文分词工具已经成熟,例如python中的SnowNLP,Thulac,HanLP,LTP,CoreNLP等开源技术都能够对中文文本进行一定的处理,但大多数中文分词器对某一特定领域的命名实体识别效率都不够高,如面向机械化工领域只能达到50%左右的识别准确率。
发明内容
本发明要克服现有技术的上述缺点,提供一种面向机械化工领域的中文实体识别方法和系统,实现了高准确率的产品实体识别。
本发明的一种面向机械化工领域的中文实体识别方法,包含以下步骤:
(1)采取短文本预处理来提取有效内容;
(2)采用经过词典优化的中文分词器进行中文分词和词性标注筛选出名词;
(3)利用词频与类优先级函数所构成的权重函数用作权重计算同时基于规则式优化加权提取短文本最高权重关键词;
(4)搜索权重最高关键词的上下文同时基于构建的有向概率状态转化图来进行关键词的上下文扩展从而形成目标实体;整体流程图如附图1。
进一步地,步骤(1)所述的短文本预处理具体包括:
(1-1)文本正则。机械化工类短文本中可能包含大量杂乱脏数据,脏数据主要包括了一些不规则文本或非中文数据,它们会极大影响对数据的正常操作,为了处理脏数据,文本正则是常用且有效的手法,尤其针对中文短文本,文本正则主要包括了纯中文的提取并且无视短文本所有括号中的内容,其中括号内容基本上为特殊注释,在本方法中对实体识别无明显作用故舍去。
(1-2)特殊词的处理。机械化工类短文本总是含有一些独有的特征,其主要包含了产品名称和产品型号等,因而如“型号”、“规格”、“规格型号”等词可以帮助快速直接定位目标产品实体所在的位置,如产品名称总在产品型号周围,在定位型号的位置后只需在上下文寻找产品名称即可,即直接将上下文作为候选关键词,可以减少在关键词提取步骤中的消耗,无需将短文本中的全部名词当作候选关键词去使用权重公式,也可将产品名称总在产品型号周围这一规律进行规则概率化从而直接当作步骤(3)中的规则式,可以提高识别准确率。
步骤(2)所述的词典优化具体包括:
(2-1)语料库更新。大多数中文分词器都自带语料库,但其自带的语料库大多只能应对日常中常见语句的分析,对于某领域特殊词的分析能力较弱,语料库是中文分词与词性标注的基础,直接决定了中文命名实体识别的基础准确率,针对机械化工领域,使用适应的语料库能有效的提高基础识别准确率,并且添加停止词也能对准确识别起到一定的促进作用,以上都是中文命名实体识别常用的手法。
(2-2)根据识别结果统计更新语料库。在程序运行的过程中,统计发现的高频率产品名词,能够用来扩充语料库,并且有效提高产品实体识别准确率。
步骤(3)所述的权重函数是:
F(t)=tfi,j*f(t) (1)
其中:
函数构成分析如下:
本关键词提取策略为基于TF-IDF关键词提取策略的增强改进版,TF-IDF策略为常用文本分类统计方法,词频*逆向文件频率作为加权即tfi,j*idfi。其中:
因为逆向文件频率idfi在短文本中的提取识别效率极低,故用类优先级函数
作为替代,权重函数则优化为tfi,j*f(t),其中
t=实体为最终关键词个数/该实体在全部短文本中作为候选关键词个数,即
t代表了候选关键词成为最终词的强度,理想范围为[0,1],当t→0时,代表该词不可能成为最终词,当t→1时代表了该词出现必然为最终关键词,因而利用函数变化通过f(t)在不影响函数实际作用与凹凸性的情况下将范围放大,可以使权重差距变大从而更利于体现t的作用,其核心目标为提高最终关键词命中概率,常数1.01是为了防止实际运行中出现除数为0的情况,也可适当调整。
在实际运行中可能会出现t>1的情况,比如一个短文本中出现了多个相同的候选关键词,此时可以进行范围修正,范围修正为将所有t除以tmax从而保证范围t<=1。该权重可以极大的提高产品实体的最终关键词命中概率。
步骤(3)所述的规则式优化加权是:因为f(t)为全监督学习,当训练集太过紊乱导致f(t)存在明显误差,如实际情况一个短文本可能包含多个最终关键词等;或t不存在时,即代表了该词未曾出现,此时类优先级函数无效;此时均可以采取规则式优化加权,其中规则式包含但不仅限于利用结果集聚类产生的某一特征,如产品实体占据短文本的相对位置,产品实体的字符大小范围等。
设有n个规则式,结果集符合规则式的占取百分比分别为x1,x2,x3,...x1,当 xn>0.5时,则认为该规则式具有较大实用性,在权重函数的基础上增加权重
其中C为常数,实际上代表了规则式在总权重的占比,默认置为1/n,在资源足够时为了达到较优的常数C,使用部分运行结果基于梯度下降求得较优解,特征值为两部分分别为权重函数和加权函数。加权函数本质上为sigmoid激活函数的逆函数,故实际上当xn<0.5也可参与优化加权但影响不佳,可发现当xn< 0.5也时加权函数为负,为减少运行成本考虑舍去。
规则式优化加权在训练集较优时或类优先级函数无明显误差时作用不明显,但在训练集紊乱导致类优先级函数有较大误差时或类优先级函数无法起到作用时效果极佳,此时作为一种互补手段,当然,在不使用类优先级函数情况下直接使用规则式加权对关键词的识别也有显著促进作用,两者结合最佳。
步骤(4)所述的构建有向概率状态转化图是:
机械化工类产品的实体识别中往往包含了组合词,单个名词关键词往往无法成为最终目标,因此在最高权重关键词在本身字数较少时需要寻找关键词的上下文并基于词性同时根据有向概率状态转化图来判断是否进行上下文扩展。
有向概率状态转化图的构建:由于筛选的实体关键词都是名词,因此概率状态转化图的初始状态均为名词n,根据训练集查找上下文进行所有的状态统计并计算转化成该状态的概率形成有向图,构建详细步骤如图2,部分步骤说明如下:
(4-1)统计结果集词性组合。即统计目标结果自身的词性组合,产品名称可能不仅仅由单个名词形成,可能由多个不同词性的词组成(如nn、nnn、an等,以上n代表名词,a代表形容词),因而统计结果集所有词性组合作为有向状态概率转化图的最终状态并且以此作为概率计算的其中一环。
(4-2)统计仅有一个名词的上下文组合。一部分结果集由单个名词组成,统计该部分的原短文本上下文词性组合,这些词性组合统计的数量代表了由单名词不转化成该词性组合数量,将其作为概率计算的另一环。
(4-3)将两个统计结果进行概率转化形成状态转化概率图。由步骤说明(4- 1)获得了由单名词可转化成某一词性组合的统计数量由步骤说明(4-2)获得由单名词无法转化成该词性组合的统计数量根据概率计算公式
即可计算出状态转化概率。
使用有向概率状态转化图时仅需查找遍历进行比较概率判断是否进行上下文的拓展,理论上当状态转化概率Pk大于0.5即需要转化,但也可根据实际情况进行适量调整,提高参数0.5可以提高转化的准确率,但此时也会减少进行转化的数量,转化成功的数量=进行转化的数量*转化的准确率,此时在资源允许的情况下使用少量运行结果结合最小二乘法拟合出二次曲线,之后取出当转化成功数量最多时的概率参数作为转化标准。
实施本发明的一种面向机械化工领域的中文实体识别方法的系统,其特征在于:包括依次连接的短文本预处理模块、中文分词和词性标注模块、权重计算和规则式优化加权模块、关键词搜索和扩展模块。
本发明的优点是:在有监督和无监督学习均允许的情况下实现了对机械化工领域中文短文本实体的高准确率识别,且具有较高鲁棒性和可拓展性。
附图说明
图1是本发明方法的总体流程图。
图2是本发明有向概率状态转化图的构建流程图。
图3是是本发明方法的实施方式的详细流程图。
具体实施方式
下面结合附图,以部分机械化工类短文本为例对本方案整体流程步骤做进一步说明,详细实施方式流程图如图3所示。
步骤1:对大量机械化工类短文本做首次遍历,使每条短文本进行预处理获得预处理后的文本;对中文分词器进行停止词库和自定义词库的导入,以上两个词库需针对机械化工领域进行对应创建。
步骤2:遍历经过预处理的短文本并使用中文分词器进行分词和词性识别标注并提取名词;利用关键词提取策略计算每个名词对应的权重,在此期间可利用规则式优化加权。其中关键词提取策略的词频和类优先级函数所需的数据均根据词典中提取,词典中数据一般由大量形似(词、词性、词频)的元组组成,提取方式根据中文分词器调整,不同中文分词器可能有差异。规则式的获取方式为将聚类算法提取的特征作为规则式、将字符大小范围作为规则式、人为观测某一规律作为规则式等,目标为尽量将准确率能够超过50%的规则式用作规则式加权,准确率越高的规则式用作加权效果越佳。关键词提取策略使用后提取最高权重的关键词作为下一步的输入。
步骤3:根据有向状态概率转化图判断最终的关键词是否需要进行上下文的扩展。首先根据训练集统计数据建立有向状态概率转化图,然后针对字符大小较小的关键词,查找上下文的词性形成组合词性,最后遍历有向状态概率转化图进行判断是否进行上下文组合形成最终词。
步骤4:对出现的组合词进行统计发现频率较高即添加入词典更新词典,下次运行时碰到同样的组合词就不需要在进行重新组合,提高识别效率。
实施本发明的一种面向机械化工领域的中文实体识别方法的系统,包括依次连接的短文本预处理模块、中文分词和词性标注模块、权重计算和规则式优化加权模块、关键词搜索和扩展模块,其中:
短文本预处理模块采取短文本预处理来提取有效内容,所述的短文本预处理具体包括:
(1-1)文本正则;为了处理脏数据,文本正则包括纯中文的提取并且无视短文本所有括号中的内容,其中括号内容为特殊注释,对实体识别无明显作用故舍去;
(1-2)特殊词的处理;机械化工类短文本含有包含了产品名称和产品型号的独有的特征,“型号”、“规格”、“规格型号”的词能帮助快速直接定位目标产品实体所在的位置,在定位型号的位置后只需在上下文寻找产品名称即可,即直接将上下文作为候选关键词,能减少在关键词提取步骤中的消耗,无需将短文本中的全部名词当作候选关键词去使用权重公式,或者直接当作步骤(3)中的规则式,能提高识别准确率;
中文分词和词性标注模块采用经过词典优化的中文分词器进行中文分词和词性标注筛选出名词,所述的词典优化是对于中文分词器的词典优化,包括添加停止词和自定义词典、根据识别结果统计更新语料库;
权重计算和规则式优化加权模块利用词频与类优先级函数所构成的权重函数用作权重计算同时基于规则式优化加权提取短文本最高权重关键词;
权重计算和规则式优化加权模块所述的提取关键词所使用的权重函数,提取关键词策略为基于TF-IDF关键词提取策略的增强改进版,TF-IDF策略为常用文本分类统计方法,词频*逆向文件频率作为加权即tfi,j*idfi;其中:
因为逆向文件频率idfi在短文本中的提取识别效率极低,故用类优先级函数
作为替代,权重函数则优化为tfi,j*f(t),其中
t=实体为最终关键词个数/该实体在全部短文本中作为候选关键词个数,即
t代表了候选关键词成为最终词的强度,理想范围为[0,1],当t→0时,代表该词不可能成为最终词,当t→1时代表了该词出现必然为最终词,因而利用函数变化通过f(t)在不影响函数实际作用凹凸性的情况下将范围放大,使权重差距变大从而更利于体现t的作用,其核心目标为提高最终关键词命中概率,常数1.01 是为了防止实际运行中出现除数为0的情况;
在实际运行中当出现t>1的情况,进行范围修正,范围修正为将所有t除以 tmax从而保证范围t<=1;
所述的规则式优化加权具体包括:
因为f(t)为全监督学习,当训练集太过紊乱导致f(t)存在明显误差,实际情况一个短文本可能包含多个最终关键词,或t不存在时,即代表了该词未曾出现,此时类优先级函数无效;此时采取规则式优化加权,其中规则式包含但不仅限于利用结果集聚类产生的某一特征,包括产品实体占据短文本的相对位置、产品实体的字符大小范围;
设有n个规则式,结果集符合规则式的占取百分比分别为x1,x2,x3,...x1,当xn>0.5时,则认为该规则式具有较大实用性,在权重函数的基础上增加权重
其中C为常数,实际上代表了规则式在总权重的占比,默认置为1/n,在资源足够时为了达到较优的常数C,使用部分运行结果基于梯度下降求得较优解,特征值为两部分分别为权重函数和加权函数;加权函数本质上为sigmoid激活函数的逆函数,故实际上当xn<0.5也可参与优化加权但影响不佳,可发现当xn< 0.5也时加权函数为负,为减少运行成本考虑舍去。
关键词搜索和扩展模块搜索权重最高关键词的上下文同时基于构建的有向概率状态转化图来进行关键词的上下文扩展从而形成目标实体,所述的构建有向概率状态转化图具体包括:
由于筛选的实体关键词都是名词,因此概率状态转化图的初始状态均为名词 n,根据训练集查找上下文进行所有的状态统计并计算转化成该状态的概率形成有向图,包括如下步骤:
(4-1)统计结果集词性组合;即统计目标结果自身的词性组合,产品名称可能不仅仅由单个名词形成,可能由多个不同词性的词组成(如nn、nnn、an等,以上n代表名词,a代表形容词),因而统计结果集所有词性组合作为有向状态概率转化图的最终状态并且以此作为概率计算的其中一环;
(4-2)统计仅有一个名词的上下文组合;一部分结果集由单个名词组成,统计该部分的原短文本上下文词性组合,这些词性组合统计的数量代表了由单名词不转化成该词性组合数量,将其作为概率计算的另一环;
(4-3)将两个统计结果进行概率转化形成状态转化概率图;由步骤说明(4- 1)获得了由单名词可转化成某一词性组合的统计数量由步骤说明(4-2)获得由单名词无法转化成该词性组合的统计数量根据概率计算公式
即可计算出状态转化概率;
使用有向概率状态转化图时仅需查找遍历进行比较概率判断是否进行上下文的拓展,理论上当状态转化概率Pk大于0.5即需要转化,但也可根据实际情况进行适量调整,提高参数0.5可以提高转化的准确率,但此时也会减少进行转化的数量,转化成功的数量=进行转化的数量*转化的准确率,此时在资源允许的情况下使用少量运行结果结合最小二乘法拟合出二次曲线,之后取出当转化成功数量最多时的概率参数作为转化标准。
本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。
- 上一篇:石墨接头机器人自动装卡簧、装栓机
- 下一篇:实体识别方法、装置、电子设备及存储介质