一种命名实体识别方法、装置、存储介质及电子设备

文档序号:7674 发布日期:2021-09-17 浏览:33次 英文

一种命名实体识别方法、装置、存储介质及电子设备

技术领域

本发明涉及命名实体识别

技术领域

,具体涉及一种命名实体识别方法、装置、存储介质及电子设备。

背景技术

命名实体识别NER(Named Entity Recognition,命名实体识别)是自然语言处理中的常见任务,随着人工智能的发展,命名实体识别在日常生活中得到了广泛的应用。例如,当需要从一段新闻或者文字中获取用户需要且重要的信息时,可以采用命名实体识别技术获取,命名实体识别技术有助于从文本中快速检索出所需的关键信息。

命名实体识别技术能够自动识别出人名、组织机构名、地名、时间等等实体信息,命名实体识别对于文本语义知识获取非常重要,是事件或者关系抽取等技术的基础,对于非结构化的信息提取有重要意义作用。

目前,中文命名实体识别相对于英文命名实体识别来说,识别的效果较差,识别出的中文命名实体往往不准确。因此,本领域亟需有效提高中文命名实体识别效果的技术方案。

发明内容

为了解决中文命名实体识别准确率较低的问题,本发明提供一种命名实体识别方法、装置、存储介质及电子设备,识别出的中文命名实体准确,识别的效果较好。

第一方面,本发明实施例提供一种命名实体识别方法,包括:

获取待识别文本;

基于所述待识别文本的字向量和词向量对所述待识别文本进行双向语义表征,得到所述待识别文本的特征向量;

基于所述特征向量得到命名实体识别结果。

在一些实施方式中,所述基于所述待识别文本的向量和词向量对所述待识别文本进行双向语义表征,得到所述待识别文本的特征向量,包括:

利用预设BERT语义表征层对所述待识别文本进行初始语义表征,得到待识别文本的字向量、词向量;

将所述待识别文本的字向量、词向量输入预设BiLattice-LSTM层,对所述待识别文本进行双向语义表征,得到所述待识别文本的特征向量。

在一些实施方式中,所述利用预设BERT语义表征层对所述待识别文本进行初始语义表征,得到待识别文本的字向量、词向量,包括:

提取所述待识别文本中的字与词;

将提取的字与词利用预先训练好的BERT模型进行训练,得到该待识别文本的字向量、词向量。

在一些实施方式中,所述提取所述待识别文本中的字与词,包括:

利用BIO标注形式将所述待识别文本中每个中文字符切分开,提取到所述待识别文本中的字;

使用结巴分词工具和预先构建的词典对所述待识别文本进行分词,提取到所述待识别文本中的词。

在一些实施方式中,所述将所述待识别文本的字向量、词向量输入预设BiLattice-LSTM层,对所述待识别文本进行双向语义表征,得到所述待识别文本的特征向量,包括:

采用BiLSTM模型对所述待识别文本的字向量、词向量进行训练,获取融合上下文信息的特征向量;

其中,所述BiLSTM模型中的LSTM结构为Lattice LSTM结构,所述Lattice LSTM结构中至少包含一个词级别的门单元,通过所述门单元将不同路径得到的词送至相应的字符中。

在一些实施方式中,所述基于所述特征向量得到命名实体识别结果,包括:

将所述特征向量输入预设注意力机制层,得到相应的注意力权重向量;

基于预设条件随机场模型及所述注意力权重向量,对所述特征向量进行优化得到命名实体识别结果。

第二方面,本发明实施例提供一种命名实体识别装置,包括:

获取模块,用于获取待识别文本;

训练模块,用于基于所述待识别文本的字向量和词向量对所述待识别文本进行双向语义表征,得到所述待识别文本的特征向量;

优化模块,用于基于所述特征向量得到命名实体识别结果。

在一些实施方式中,所述训练模块,包括:

第一表征模块,用于利用预设BERT语义表征层对所述待识别文本进行初始语义表征,得到待识别文本的字向量、词向量;

第二表征模块,用于将所述待识别文本的字向量、词向量输入预设BiLattice-LSTM层,对所述待识别文本进行双向语义表征,得到所述待识别文本的特征向量。

第三方面,本发明实施例提供一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被一个或多个处理器执行时,实现如第一方面所述的方法。

第四方面,本发明实施例提供一种电子设备,其特征在于,包括存储器和处理器,所述存储器上存储有计算机程序,所述计算机程序被所述处理器执行时实现如第一方面所述的方法。

与现有技术相比,本发明的一个或多个实施例至少能够带来如下有益效果:

本发明提供了一种命名实体识别方法、装置、存储介质及电子设备,基于待识别文本的字向量和词向量对获取的待识别文本进行双向语义表征,得到待识别文本的特征向量,进而基于特征向量得到命名实体识别结果。本方法识别出的中文命名实体准确,识别的效果较好,有效提高了中文命名实体识别效果。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1是本发明实施例提供的一种命名实体识别方法流程图;

图2是本发明实施例提供的另一种命名实体识别方法流程图;

图3是本发明实施例提供的另一种命名实体识别方法流程图;

图4是本发明实施例提供的另一种命名实体识别方法流程图;

图5是本发明实施例提供的应用示例的实施过程示意图;

图6是本发明实施例提供的应用示例的BiLattice-LSTM层示意图;

图7是本发明实施例提供的应用示例的BiLattice-LSTM模型原理示意图;

图8是本发明实施例提供的一种命名实体识别装置框图;

图9是本发明实施例提供的另一种命名实体识别装置框图。

具体实施方式

下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。

相关技术中,早期的命名实体识别主要是基于规则和统计的方法,这些方法主要利用语言学家手工设定的词法、句法和语义规则模板进行命名实体识别,效果不是很理想。而之后产生了基于机器学习的方法进行命名实体识别的方案,如条件随机场(ConditionalRandom Field algorithm,CRF)、支持向量机(Support Vector Machine,SVM)、隐马尔科夫(Hidden Markov Model,HMM)等,随着深度学习(Deep Learning,DL)的发展,卷积神经网络(Convolutional Neural Networks,CNN)、循环神经网络(Recurrent Neural Network,RNN)等模型在应用越来越多,然而,相关技术中的命名实体识别方案识别效果不佳,命名实体识别的准确率较低。

因此,本发明实施例提供一种命名实体识别方法、装置、存储介质及电子设备,提高了中文命名实体识别的准确率,以获得较好的识别效果。下面对本发明的几个实施例进行说明。

实施例一

图1示出了一种命名实体识别方法流程图,如图1所示,本实施例提供一种命名实体识别方法,包括步骤S110~步骤S130:

步骤S110、获取待识别文本。

在实际应用中,对外采购物料完全依赖人工拆解空调接线图形成核价的物料清单(BOM,Bill of Material),此过程依赖大量人工作业,耗时耗力,因此可以利用人工智能的语义分析与图片分析先进等技术结合完成空调接线图中的原材料提取与用量统计。因此,本实施例的待识别文本可以是空调接线图,通过本方法对空调接线图中的命名实体识别,能够将其中的原材料及相应的用量准确提取出来,以形成准确的物料清单,供核价使用。可以理解的是,待识别文本可以是任意非结构化文本,并不仅限于空调接线图。

步骤S120、基于待识别文本的字向量和词向量对待识别文本进行双向语义表征,得到待识别文本的特征向量。

相比于仅基于字向量进行语义表征而言,本实施例中基于待识别文本的字向量和词向量对待识别文本进行双向语义表征,能够融合待识别文本中潜在的词信息,有效利用词信息,以避免实体分割错误的清晰,从而避免命名实体识别中的错误分析,准确获得待识别文本的特征向量。

在一些实施方式中,如图2所示,步骤S120中基于待识别文本的向量和词向量对待识别文本进行双向语义表征,得到待识别文本的特征向量,包括步骤S121~步骤S122:

步骤S121、利用预设BERT(Bidirectional Encoder Representations fromTransformers)语义表征层对待识别文本进行初始语义表征,得到待识别文本的字向量、词向量。

在实际应用中,将空调接线图的技术要求部分的文本作为待识别文本,对其进行解码,BERT模型具有强大的语义表征能力,解码部分利用预设BERT语义表征层中预先训练好的BERT模型进行语义表征,分别训练词向量和字向量,从而将待识别文本的字、词转化为字向量、词向量形式,用于后续的双向语义表征,以得到待识别文本的特征向量。

在一些情形下,如图3所示,步骤S121中利用预设BERT语义表征层对待识别文本进行初始语义表征,得到待识别文本的字向量、词向量,包括步骤S121-1~步骤S121-2:

步骤S121-1、提取待识别文本中的字与词。

进一步地,步骤S121-1中提取待识别文本中的字与词,包括:

a、利用BIO(B-begin,I-inside,O-outside)标注形式将待识别文本中每个中文字符切分开,提取到待识别文本中的字。

b、使用结巴分词工具和预先构建的词典对待识别文本进行分词,提取到待识别文本中的词。

步骤S121-2、将提取的字与词利用预先训练好的BERT模型进行训练,得到该待识别文本的字向量、词向量。

步骤S122、将待识别文本的字向量、词向量输入预设BiLattice-LSTM层,对待识别文本进行双向语义表征,得到待识别文本的特征向量。

在实际应用中,利用预设BiLattice-LSTM层中预设的预设BiLattice-LSTM模型,基于待识别文本的字向量、词向量进行进一步语义表征,以充分利用词的信息,有效学习到待识别文本中的词的信息,以得到语义编码表示的待识别文本的特征向量。

步骤S122中将待识别文本的字向量、词向量输入预设BiLattice-LSTM层,对待识别文本进行双向语义表征,得到待识别文本的特征向量,包括:

步骤S122-1、采用BiLSTM(Bidirectional LSTM)模型对待识别文本的字向量、词向量进行训练,获取融合上下文信息的特征向量。

Bi-LSTM(Bi-directional long-short term memory,双向长短时记忆)是由前向LSTM和后向LSTM组合而成的双向长短期记忆网络,BILSTM可以很好地捕捉双向的语义依赖。本实施例的BiLSTM模型中的LSTM结构为Lattice LSTM(网格结构-长短期记忆网络)结构,Lattice LSTM结构中至少包含一个词级别的门单元,通过门单元将不同路径得到的词送至相应的字符中。

对于命名实体识别任务来说,传统神经网络模型很难利用上下文信息,为了获取连续表征的上下文信息,采用BiLSTM模型进行训练,来获取融合上下文特征的信息的文本特征向量,实现双向语义表征。在此基础上,BiLSTM模型中的LSTM结构采用至少包含一个词级别的门单元的Lattice LSTM结构,以形成BiLattice-LSTM模型,通过BiLattice-LSTM模型能够将不同路径得到的词送至相应的字符中,从而既充分融合上下文信息,又能够在双向语义表征过程中将潜在的词的信息融合进去。

在实际应用中,通过将句子与预设词典匹配能够构建一个字-词的Lattice结构,从而可以消除待识别文本中潜在命名实体的歧义,Lattice LSTM结构中的字-词会有指数级的路径,因此通过构建Lattice LSTM结构能够自动控制信息流从句子开始流到句子结尾。

步骤S130、基于特征向量得到命名实体识别结果。

在一些实施方式中,如图4所示,步骤S130中基于特征向量得到命名实体识别结果,包括步骤S131~步骤S132:

步骤S131、将特征向量输入预设注意力机制层,得到相应的注意力权重向量。

在实际应用中,BiLattice-LSTM层得到的编码表示的特征向量,较难捕捉到重要词的语义权重向量,因此,将特征向量输入预设注意力机制层,利用预设注意力机制层的预设注意力机制来关注重要词的权重向量,注意力机制层能够充分识别到相关重要词的权重,充分利用输入携带的信息,当重要词的权重得到“关注”之后,命名实体识别效果得以有效提升。

步骤S132、基于预设条件随机场模型及注意力权重向量,对特征向量进行优化得到最优的特征向量,作为命名实体识别结果。

条件随机场模型结合了最大熵模型和隐马尔科夫模型的特点,具有表达长距离依赖性和交叠性特征的能力,较好地解决标注(分类)偏置等问题的优点,通过将注意力权重向量及待识别文本的特征向量输入CRF层的预设条件随机场模型,所有特征可以进行全局归一化,求得全局的最优解,即优化全局的特征向量。

本实施例中,基于待识别文本的字向量和词向量对所获取的待识别文本进行双向语义表征,得到待识别文本的特征向量,进而基于特征向量得到命名实体识别结果,能够将潜在的词信息融合到实体命名识别过程中,有效利用词信息,以避免实体分割错误的清晰,从而避免命名实体识别中的错误分析,准确获得待识别文本的特征向量。

下面结合一个应用示例,对本方法的技术方案做进一步说明。

本方案是一种基于BiLattice-LSTM的命名实体识别方法,利用BERT模型强大语义表征能力进行语义编码,分别训练词向量和字向量,完成初始语义表征。然后,将字向量、词向量输入到BiLattice-LSTM层中进行进一步的语义编码,将潜在的词汇信息融合到BiLattice-LSTM层的BiLattice-LSTM模型中,再输入到注意力机制层中获取文本注意力(重要词)的权重向量,最后输入到CRF层中,得到编码的最优特征向量。如图5所示,本方法的实施过程如下:

首先,BERT语义表征层:待识别文本(例如空调接线图的技术要求部分的文本)X1、X2、……Xn经文本输入层输入BERT语义表征层,在BERT语义表征层中,将接线图的技术要求部分的文本进行解码,解码部分利用BERT模型进行语义表征,将文本的字与词转化成向量的形式。

其中:利用BIO标注形式将每个中文字符切分开得到字,使用结巴分词工具和预先构建的词典进行分词得到词,完成待识别文本中的字与词提取,然后分别利用BERT模型进行字向量、词向量训练,得到该文本表示的字向量、词向量。

其次,BiLattice-LSTM层:将字向量、词向量输入到BiLattice-LSTM层中获得待识别文本的进一步表示。BiLattice-LSTM相较于相关技术中的单个字符输入表征来说,可以利用词汇的信息有效的避免实体分割错误的情况,可以有效的避免分析错误的影响。BiLattice-LSTM模型相对于传统的LSTM模型来说,更能有效的学习到待识别文本中的词语信息,得到语义编码表示的特征向量。BiLattice-LSTM层示意图如图6所示,BiLSTM模型中的LSTM结构采用BiLSTM模型中的LSTM结构为Lattice LSTM结构,以在输入和输出之间形成多个Lattice LSTM结构组成的前向Lattice LSTM(forward Lattice LSTM)和后向LatticeLSTM(backward Lattice LSTM),前向Lattice LSTM和后向Lattice LSTM形成BiLSTM结构,也就是本方法的BiLattice-LSTM模型,利用Lattice结构的LSTM将句子中潜在的词信息融入到字粒度的LSTM中,构建Lattice LSTM结构能够自动控制信息流从句子开始流到句子结尾,能够消除待识别文本中潜在的命名实体的歧义。如图7所示,Lattice LSTM结构中至少包含一个词级别的门单元(cell结构),通过门单元c将不同路径得到的词送至相应的字符中。举例来说,,基于图7所示的字符,融合所有词级别信息,比如西安、体育、体育场、比赛等。通过门单元动态的将不同路径得到的词输送到相应的字符。在NER数据上训练,LatticeLSTM能够自动的在文中找到更多的词信息来达到更好的NER性能。与只依赖于字信息的NER相比,Lattice LSTM能够不受分词错误的影响,并将明确的词信息作用于字序列标注上。

再次,注意力机制层:为了捕捉重要词的语义权重向量,在BiLattice-LSTM层得到编码表示的特征向量后,利用注意力机制关注重要词的权重向量,充分利用特征向量所携带的信息。由于命名实体识别中每一个词对正确识别出命名实体的贡献可能不同,因此在BiLattice-LSTM层之后,添加注意力机制层,可以准确捕捉到重要词的权重,以提高识别的精确度,当重要词的权重得到“关注”之后,命名实体识别效果会得以有效提升。

最后,CRF层:即条件随机场模型,其结合了最大熵模型和隐马尔科夫模型的特点,将注意力机制层确定的权重向量及特征向量输入CRF层,能够求得全局的最优解,即优化全局的特征向量,作为命名实体识别结果。

实施例二

图8示出了一种命名实体识别装置框图,如图8所示,本实施例提供一种命名实体识别装置,包括:

获取模块710,用于获取待识别文本;

训练模块720,用于基于所述待识别文本的字向量和词向量对所述待识别文本进行双向语义表征,得到所述待识别文本的特征向量;

优化模块730,用于基于所述特征向量得到命名实体识别结果。

图9示出了另一种命名实体识别装置框图,如图9所示,在一些实施方式中,训练模块720包括:

第一表征模块721,用于利用预设BERT语义表征层对待识别文本进行初始语义表征,得到待识别文本的字向量、词向量。

第二表征模块722,用于将待识别文本的字向量、词向量输入预设BiLattice-LSTM层,对待识别文本进行双向语义表征,得到待识别文本的特征向量。

可以理解的是,获取模块710可用于执行实施例一中的步骤S110,训练模块720可用于执行实施例一中的步骤S120,优化模块730可用于执行实施例一中的步骤S130,各步骤的具体实施方式请参见实施例一,本实施例不再赘述。

显然本领域的技术人员应当明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何限定的硬件和软件结合。

实施例三

本实施例提供一种存储介质,存储介质上存储有计算机程序,计算机程序被一个或多个处理器执行时,实现实施例一的方法。

本实施例中,存储介质可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。方法的内容详见实施例一,此次不再赘述。

实施例四

本实施例提供一种电子设备,包括存储器和处理器,存储器上存储有计算机程序,计算机程序被处理器执行时实现实施例一的方法。

本实施例中,处理器可以是专用集成电路(Application Specific IntegratedCircuit,简称ASIC)、数字信号处理器(Digital Signal Processor,简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(ProgrammableLogic Device,简称PLD)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述实施例中的方法。在处理器上运行的计算机程序被执行时所实现的方法可参照本发明前述实施例提供的方法的具体实施例,此处不再赘述。

在本发明实施例所提供的几个实施例中,应该理解到,所揭露的系统和方法,也可以通过其它的方式实现。以上所描述的系统和方法实施例仅仅是示意性的。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

虽然本发明所揭露的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。

完整详细技术资料下载
上一篇:石墨接头机器人自动装卡簧、装栓机
下一篇:基于语义的题目作答评判方法、装置及电子设备

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!