一种基于BERT与BiGRU-CRF的命名实体识别方法
技术领域
本发明涉及计算机
技术领域
,具体来说,涉及一种基于BERT与BiGRU-CRF的命名实体识别方法。背景技术
随着互联网技术的快速发展,电子商务已于人们的日常生活密不可分。电子商务平台基本都提供了给消费者进行在线评论的商品评论区。消费者可以通过阅读评论区的信息来挑选自己满意的商品,同时,商家也可以从评论区的信息中获取消费者对于该商品的满意程度,及时查看评论区可以发现该商品交易过程中的不足并及时做出改进,对于店铺的持续发展具有重大意义。
但是移动互联网的迅速发展使得电商平台上堆积了大量和繁杂的评论,这使得消费者很难在短时间内得到正确的商品信息。商家同样也难以从海量的评论中获取有效的消费者评论。因此,如何高效地从大量繁杂的评论中挖掘其蕴含的信息,对于促进消费者消费行为和促进商家改善服务或者改变产品质量都有很大的帮助,直接影响电商平台的经济效益。
随着大量的评论文本不断涌入,加之用户随意发表,评论的格式并没有统一的标准,语法规则难以捉摸,靠人力进行自然语言处理,专家建立规则和语料库的速度赶不上评论数据增长的速度,已经无法满足需要,并且工作量巨大,浪费人力资源。
针对相关技术中的问题,目前尚未提出有效的解决方案。
发明内容
针对相关技术中的问题,本发明提出一种基于BERT与BiGRU-CRF的命名实体识别方法,以克服现有相关技术所存在的上述技术问题。
本发明的技术方案是这样实现的:
一种基于BERT与BiGRU-CRF的命名实体识别方法,包括以下步骤:
通过网络爬虫获取电商行业的评论文本数据,并对所述文本数据进行标注;
对标注文本数据进行预处理,构建训练数据集与验证数据集,并根据所述训练数据集和所述验证数据集,进行训练BiGRU-CRF算法模型和BERT算法模型;
通过BERT预训练语言模型训练句子的词向量表示,对传统BERT模型训练任务做出改进,使用片段遮掩代替传统的字词遮掩;
通过BiGRU模型进一步提取当前词与上下文的语义信息;
通过CRF算法提取符合上下文逻辑的最优化标签。
进一步的,所述文本数据进行标注,包括以下步骤:
采用增量学习的方式,利用部分标注后的文本数据训练模型,并根据训练后的模型对其余未标注的文本数据进行预测;
将置信度高于预设阈值的预测结果直接作为文本数据的标记,并由人工再标注置信度低于预设阈值的文本数据。
进一步的,所述使用片段遮掩代替传统的字词遮掩,包括以下步骤:
根据几何分布,先随机选择一段掩藏的长度,然后根据均匀分布随机选择起始位置,最后根据长度遮盖句子中的一段文字。
进一步的,所述通过BiGRU模型进一步提取当前词与上下文的语义信息,包括通过训练后的BiGRU-CRF算法模型提取待预测文本数据中包含的实体,表示以下步骤:
利用双向的GRU模型对文本数据序列进行前向和后向的建模;
利用条件随机场CRF约束标签结果之间的关系,对整个预测路径进行打分,提取出文本数据中包含的实体。
进一步的,还包括以下步骤:
若所述文本数据为长文本,则通过训练后的BERT算法模型预测待预测文本数据与所述实体的关系,包括以下步骤:
获取BERT原始模型,通过所述BERT原始模型采用[CLS]标记代表文章中句子整体类型的特征,并使用[SEP]对输入的文章中多个句子进行分割;
通过将BERT的输入与上游抽取的实体进行结合,采用{[CLS]文章句子[SEP]主体[客体][SEP]}的结构进行编码;
连接主语实体向量、句子向量、客体实体向量,并通过全连接和softmax预测关系类型;其中,使用a=[a1,a2,...,an]表示主语实体向量;使用b=[b1,b2,...,bn]表示客体实体向量。
本发明的有益效果:
本发明基于BERT与BiGRU-CRF的命名实体识别方法,通过网络爬虫获取电商行业的评论文本数据,并对文本数据进行标注;对标注文本数据进行预处理,构建训练数据集与验证数据集;并根据训练数据集、验证数据集训练BiGRU-CRF算法模型、BERT算法模型;通过训练后的BiGRU-CRF算法模型提取待预测文本数据中包含的实体;通过训练后的BERT算法模型预测待预测文本数据与实体的关系,建立实体连接关系,之后根据连接关系进一步解析语义信息;实现基于深度学习自然语言处理的自动化信息提取方法,在命名实体识别任务上,基于深度学习下的自然语言处理技术,利用BiGRU-CRF的算法模型提取文本中的所需实体,将文本及其抽取实体通过BERT模型预测实体间的关系,建立实体连接关系,根据连接关系进一步解析语义信息。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的一种基于BERT与BiGRU-CRF的命名实体识别方法的流程示意图;
图2是根据本发明实施例的一种基于BERT与BiGRU-CRF的命名实体识别方法的原理框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
根据本发明的实施例,提供了一种基于BERT与BiGRU-CRF的命名实体识别方法。
如图1-图2所示,根据本发明实施例的基于BERT与BiGRU-CRF的命名实体识别方法,包括以下步骤:
步骤一,通过网络爬虫获取电商行业的评论文本数据,并对文本数据进行标注;
步骤二,对标注文本数据进行预处理,构建训练数据集与验证数据集;并根据训练数据集、验证数据集训练BiGRU-CRF算法模型、BERT算法模型;
步骤三,通过训练后的BiGRU-CRF算法模型提取待预测文本数据中包含的实体;
步骤四,通过训练后的BERT算法模型预测待预测文本数据与实体的关系;
步骤五,根据连接关系进一步解析语义信息。
借助于上述技术方案,通过基于电商评论命名实体识别问题,创新性地提出一种基于深度学习自然语言处理的自动化信息提取方法。在评论文本命名实体识别上,本发明基于深度学习下的自然语言处理技术,针对非结构化评论文本的信息抽取提出一种高精度的命名实体提取方法,利用BiGRU-CRF的算法模型提取文本中的所需实体,将文本及其抽取实体通过改进掩藏策略的BERT模型进一步预测实体间的关系,之后根据实体关系进一步解析待预测句子的语义。
另外,对文本数据进行标注,包括:采用增量学习的方式,利用部分标注后的文本数据训练模型,并根据训练后的模型对其余未标注的文本数据进行预测;将置信度高于预设阈值的预测结果直接作为文本数据的标记,置信度低于预设阈值的文本数据由人工再标注。构建电商行业中的商品评论数据实体库,采用随机替换的方式对相同类型的实体从实体库进行替换,并针对通用实体类型如时间、金额等构建不同表达方式的随机数词生成器,随机生成和替换原始标注文本数据中的时间、金额等。在扩充标注数据集的同时,还能让模型更好地学习到上下文的语言知识,相比通常方法,增加了模型的鲁棒性和准确性。同时采用增量学习的方式,利用一部分标注数据训练的模型对另一批未标注文本数据进行预测,将算法置信度高于阈值的预测结果直接作为标记,置信度低的数据由人工进行再标注。利用构建好的实体库、时间金额随机生成器对标记文本数据进行实体替换,进行数据集增强。同时采用增量学习的方式,利用一部分标注数据训练的模型对另一批未标注文本数据进行预测,将算法置信度高的预测结果直接作为标记,置信度低的数据由人工进行再标注。本方法极大地提高了数据标注的效率,减少了人力成本。
另外,通过训练后的BiGRU-CRF算法模型提取待预测文本数据中包含的实体,包括有:利用双向的GRU模型对文本数据序列进行前向和后向的建模;利用条件随机场CRF约束标签结果之间的关系,对整个预测路径进行打分,提取出文本数据中包含的实体。本实施例通过对标注之后的语句,利用深度学习序列标注模型对语句进行命名实体识别,识别文本中存在的实体。利用双向的GRU模型对序列进行前向和后向的建模,利用条件随机场(CRF)约束标签结果之间的关系,对整个预测路径进行打分,进而提取出语句中包含的实体。
此外,若文本数据为长文本,则通过训练后的BERT算法模型预测待预测文本数据与实体的关系,建立相关实体间的关系连接,包括:
获取BERT原始模型,通过BERT原始模型采用[CLS]标记代表文章中句子整体类型的特征,并使用[SEP]对输入的文章中多个句子进行分割;
通过将BERT的输入与上游抽取的实体进行结合,采用{[CLS]文章句子[SEP]主体[客体][SEP]}的结构进行编码;
连接主语实体向量、句子向量、客体实体向量,并通过全连接和softmax预测关系类型;
其中,使用a=[a1,a2,...,an]表示主语实体向量;使用b=[b1,b2,...,bn]表示客体实体向量。
本方法通过标注的数据分别训练实体识别模型和关系预测模型。构建BiGRU-CRF并进行实体识别的训练,利用双向的GRU模型对序列进行前向和后向的建模,利用条件随机场(CRF)约束标签结果之间的关系;
构建BERT模型作为关系分析模型,将模型前向输入数据处理为“{[CLS]文章句子[SEP]主体[客体][SEP]}”形式的结构,对BERT模型进行训练;
将待预测数据通过实体识别模型BiGRU-CRF预测文本中出现的实体;
将上一步抽取出的实体分别进行组合,与原始文本按照训练数据的格式进行整合,输入模型预测实体间的关系。
本发明提出改进掩码策略的BERT模型对实体之间的语义关系进行解析。BERT使用多层自注意力机制对文本进行双向的编码表示,从低到高提取文本不同层级的语义句法信息。传统BERT模型通过Masked Language Model的方式通过将文本中的15%词进行遮蔽并预测被遮蔽的字词达到训练语言模型的效果。本发明提出使用片段遮掩代替传统的字词遮掩,具体而言,根据几何分布,先随机选择一段掩藏的长度,然后根据均匀分布随机选择起始位置,最后根据长度遮盖句子中的一段文字。通常情况下使用BERT进行迁移学习能为下游任务提供强力支撑。
其中,BERT原始模型采用[CLS]标记代表句子整体类型特征,使用[SEP]对输入的多个句子进行分割,针对BERT中特殊的输入结构,创新性地提出BERT结构进行语义关系解析,通过将BERT的输入结合上游抽取的实体,采用{[CLS]文章句子[SEP]主体[客体][SEP]}的结构进行编码。使用a=[a1,a2,...,an]表示主语实体向量;使用b=[b1,b2,...,bn]表示客体实体向量,最终通过连接句子向量、主语实体向量、客体实体向量,经过全连接和softmax预测关系类型,表示为:
V′=W[concat(a,b)]+λ;
p=softmax(V′)。
针对传统的BERT模型掩藏策略中字词遮掩导致意思相近的词的信息被割裂,创新性地采用片段遮掩的方式,根据几何分布,先随机选择一段掩藏的长度,然后根据均匀分布随机选择起始位置,最后根据长度遮盖句子中的一段文字。以抽取的实体为语义中心词,根据连接关系进行去噪,保留和实体有依赖关系的有限步长文本,去除不必要的文本噪声。此方法能解决实体区域模糊的问题,提高实体关系分析的准确性。将实体对以有效的方式加入模型之中,提取特征对实体间关系进行预测。同时为防止过拟合的发生,将待预测关系的实体对在句子中进行遮掩[MASK]。对比现有关系抽取方式有明显的效果提升。本发明使用句法关系分析去除文本噪声的方法:针对文本中实体区域模糊的问题,创新性地采用句法关系分析的方式抽取语义中心词实体,保留和实体有依赖关系的有限步长文本,去除实体分布模糊所带来的不必要的文本噪声。
综上所述,借助于本发明的上述技术方案,基于深度学习下的自然语言处理技术,针对非结构化文本的信息抽取创新性地提出一种语义关系提取方法。首先通过BiGRU-CRF的算法模型提取文本中所包含的产品实体、金额、时间、地点、机构等实体,将文本及其抽取实体通过BERT模型预测实体间的关系,建立相关实体间的关系连接,根据连接关系完成文本语义解析。本发明基于非结构化文档的语义关系分析提取问题,创新性地基于深度学习自然语言处理的自动化信息提取方法。在文章非结构化信息抽取上,本发明基于深度学习下的自然语言处理技术,针对非结构化文本的信息抽取提出一种高精度的语义关系提取方法,利用BiGRU-CRF的算法模型提取文本中的所需实体,将文本及其抽取实体通过BERT模型预测实体间的关系。本发明是自然语言处理结合深度学习预训练模型的,经过实践摸索研究的具有较好预测效果的自然语言分析流程,算法高效,针对性强。并且在工程应用实践中,相较文本数据挖掘项目普遍采用的基于规则提取流程和与通用技术方法相比,本发明具有较高的准确性和较快的处理速度。而且,本发明还具有以下三个优点:
1)采用构建电商行业评论数据实体库的方式,随机替换的方式对相同类型的实体从实体库进行替换,并针对通用实体类型如时间、金额等构建不同表达方式的随机数词生成器,对原始标注文本数据中的时间、金额等位置进行随机生成和替换,使得模型更好地学习到上下文的语言知识,相比通常方法,增加了模型的鲁棒性和准确性。
2)发明采用增量学习的方式,利用一部分标注数据训练的模型对另一批未标注文本数据进行预测,将算法置信度高于阈值的预测结果直接作为标记,置信度低的数据由人工进行再标注。本方法极大地提高了数据标注的效率,减少了人力成本。
3)针对电商评论文本中实体区域模糊特性,创新性地采用句法关系分析的方式对文本中的不相关信息进行去噪操作。以抽取的实体为语义中心词,通过句法关系进行去除,保留和实体有依赖关系的有限步长文本,能在保留原有上下文结构的同时,最大程度缩短分析文本长度,去除实体分布模糊所带来的不必要的文本噪声。对于模型的训练速度和预测的准确度都有极大提高,能很好缓解预训练模型在长句子训练推理上的速度劣势。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。