语义识别方法、装置、电子设备及计算机可读存储介质

文档序号:8294 发布日期:2021-09-17 浏览:30次 英文

语义识别方法、装置、电子设备及计算机可读存储介质

技术领域

本申请涉及自然语言处理

技术领域

,更具体地,涉及一种语义识别方法,装置及计算机可读存储介质。

背景技术

人工智能(AI,Artificial Intelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法和技术及应用系统。自然语言处理(NLP,Nature Language Processing)是人工智能中的一个重要方向,主要研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。

目前,常用的语义识别方案通常需要先通过机器学习模型识别文本中具有特定意义的实体,例如歌名、人名及地名等,而机器学习模型的训练耗时较长,影响语义识别的效率。

发明内容

有鉴于此,本申请实施例提出了一种语义识别方法、装置、电子设备及计算机可读存储介质,以改善上述问题。

第一方面,本申请实施例提供了一种语义识别方法,该方法包括:

获取待识别文本;

根据所述待识别文本在标注文本索引库中获取候选文本集合;所述标注文本索引库包括多个具有语义标注信息的标注文本;

在所述候选文本集合中获取与所述待识别语句最匹配的标注文本作为目标文本;

根据目标文本对应的语义标注信息标注所述待识别文本,获得语义标注结果。

第二方面,本申请实施例提供了一种语义识别装置,该装置包括:

待识别文本获取模块,用于获取待识别文本;

候选文本集合获取模块,用于根据所述待识别文本在标注文本索引库中获取候选文本集合;所述标注文本索引库包括多个具有语义标注信息的标注文本;

目标文本获取模块,用于在所述候选文本集合中获取与所述待识别语句最匹配的标注文本作为目标文本;

语义标注模块,用于根据目标文本对应的语义标注信息标注所述待识别文本,获得语义标注结果。

第三方面,本申请实施例提供了一种电子设备,该电子设备包括:一个或多个处理器;存储器;一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于执行上述第一方面提供的语义识别方法。

第四方面,本申请实施例提供了一种计算机可读存储介质,计算机可读取存储介质中存储有程序代码,所述程序代码可被处理器调用执行上述第一方面提供的语义识别方法。

本申请实施例提供的方案,在获取待识别文本时,基于待识别文本在标注文本索引库中获取候选文本集合,并在候选文本集合中获取与待识别语句最匹配的标注文本作为目标文本,从而根据目标文本对应的语义标注信息标注待识别文本,获得语义标注结果。如此,可以通过匹配的目标文本的语义标注信息标注待识别文本,从而可以不经过实体模型对实体的抽取,快速获得待识别文本的语义识别结果,提升语义识别的响应速度,降低延迟。

本申请实施例的这些方面或其他方面在以下实施例的描述中会更加简明易懂。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1示出了本申请一实施例所涉及的一种应用环境的示意图;

图2示出了本申请一实施例提出的一种语义平台系统图;

图3示出了本申请一实施例提出的一种语料标注的页面示意图;

图4示出了本申请一实施例提出的一种语义识别方法的流程图;

图5示出了本申请一实施例提出了一种语义识别方法的步骤S221~步骤S223的流程示意图;

图6示出了本申请一实施例提出的一种语义识别方法的步骤S231~步骤S233的流程示意图;

图7示出了本申请一实施例提出的一种文本匹配模型的结构示意图;

图8示出了本申请另一实施例提出的一种文本匹配模型的结构示意图;

图9示出了本申请实施例提出的语义识别装置的一种结构示意图;

图10示出了本申请实施例提出的一种电子设备的结构框图;

图11示出了本申请实施例的用于保存或者携带现实根据本申请实施例的语义识别方法的程序代码的存储单元。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

其中,随着人工智能技术中的文本处理技术的发展,出现了许多的涉及基于文本处理技术以及自然语言处理技术进行语义识别的场景。例如,智能问答场景。在智能问答场景中,用户可以通过文本或语音的形式输入自己所期望了解的问题,智能问答系统则可以根据用户输入的问题来查询对应的回答以反馈给用户。再例如,新闻资讯搜索场景中,用户可以通过文本语音的形式输入所期望了解的主题,而搜索系统这可以根据该主题来搜索对应的信息反馈给用户。当用户通过语音的形式输入时,系统可先将语音转为文本,再对文本进行进一步处理。

但是,发明人在对语义识别场景中的相关文本识别方法进行研究后发现,相关文本识别方法存在延迟时间有待改善的问题。在相关的语义识别方法中,会通过机器学习模型来对用户输入的文本进行实体的抽取,而传统的模型解决方案,在遇到坏例时涉及到模型的重新训练,而伴随平台功能越来越多,标注语料越来越多,并且使用越来越复杂的模型时,模型的训练耗时会变长,从而使用模型时,无法快速解决线上的坏例,会造成较大的延迟。

因此,为了改善上述问题,发明人提出了本申请提供的语义识别方法、装置、电子设备及存储介质,在该方法中会先获取待识别文本,然后根据待识别文本在标注文本索引库中获取候选文本集合,在候选文本集合中获取与待识别语句最匹配的标注文本作为目标文本,从而根据目标文本对应的语义标注信息标注待识别文本,获得语义标注结果。从而在对待识别文本进行语义识别的过程中,不用再将待识别文本输入到模型中进行实体的抽取,而是可以直接利用标注语料的标注信息,进而降低了文本处理过程中模型抽取实体的耗时,提升了进行语义识别的效率。

在对本申请实施例进行进一步详细说明之前,对本申请实施例中设计的应用环境进行介绍。

如图1所示,图1所示为本申请实施例所涉及的应用环境的示意图。其中,包括有客户端110以及服务器120。其中,客户端110用于采集用户输入的待识别文本,然后将所采集的待识别文本发送给服务器120。服务器120接收到待识别文本之后会进一步的根据待识别文本获取候选文本集合、再获得目标文本,进而执行本申请实施例提供的语义识别方法。服务器120在通过该语义识别方法获得待识别文本的语义识别结果的情况下,将语义识别结果返回给客户端110。

需要说明的是,图1是一种示例性的应用环境,本申请实施例所提供的方法还可以运行于其他的应用环境中。例如,本申请实施例提供的语义识别方法可以均由客户端110来执行。

需要说明的是,其中,服务器120可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content DeliveryNetwork,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。客户端110所在的电子设备可以为智能手机外、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。

如图2所示,图2所示为本申请实施例提出的一种语义平台系统图。如图2所示,技能专家在语料标注系统标注语料,得到的初始化语料存储在数据库中。进一步地,离线模型训练模块可以从上述数据库中获取标注语料作为训练数据进行离线模型训练,并将训练好的模型进行发布。在本申请中,离线模型训练模块从数据库中获取大量的相似的标注语料进行模型的训练。标注文本索引库从上述数据库中获取标注语料构建索引库,可以理解的是,用于构建索引库的标注语料还需要根据索引库的规则进行格式的转换。客户端向服务端发送文本查询请求,标注文本索引库根据待识别文本进行索引获取候选文本集合,模型处理模块获取候选文本集合,并通过模型处理输出与用户发送的文本查询请求最匹配的目标文本。语义标注模块根据目标文本的语义标注信息对待识别文本进行标注,之后语义识别模块对标注后的待识别文本进行语义识别,最后将识别结果反馈给客户端。

如图3所示,图3所示为本申请实施例提出的一种语料标注的页面示意图。如图3所述,技能专家在语料标注系统标注语料的时候,按照意图槽位进行标注。例如,对于一串语料“我想看锦衣天下”,技能专家可以在语料标注系统上对上述语料进行编辑,标注出该串语料的槽位,槽位为“资源”,该槽位对应的实体为“锦衣天下”。数据库中包括众多的通过语料标注系统标注的语料,具有标注信息的语料存储至数据库中,用于提供给索引库进行导入的索引文本,以及提供给离线模型训练模块进行离线模型训练。

下面先对本申请实施例中涉及的专业术语进行说明。

短文本查询(query):智能助手中用户输入的一个请求语句,通常只包含用户的一个意图期望。例如:“来一首刘德华的冰雨”;“给我讲愚公移山的故事”;“我想看电影无间道”等等。

槽位(slot):任务型对话系统中,具体意图下的槽位设计,用于表述用户query中的重要信息。如用户在创建一个音乐技能play意图来识别“我想听刘德华的冰雨”这样的query时,就会设计“singer=刘德华,song=冰雨”这样的槽位。

ES(Elastic Search):开源的搜索索引工具,支持分布式扩展,实时索引等功能,并且支持自行开发检索插件,在我们的方案中用于对平台标注query创建索引检索。

词单元(Token),对输入文本做任何实际处理前,都需要将其分割成诸如词、标点符号、数字或纯字符数字等语言单元。这些单元被称为词单元。

词向量(Word Embedding),是将自然语言表示的单词转换为计算机能够理解的向量或矩阵形式的技术。

句向量(Sentence Embedding),是将一个句子的所有词向量组合成能够理解的向量或矩阵形式的技术。

下面将结合附图具体描述本申请的各实施例。

请参阅图4,图4所示为本申请一实施例提出的一种语义识别方法的流程图。

步骤S210、获取待识别文本。

需要说明的是,在本申请实施例中待识别文本为需要进行语义识别的文本。待识别文本可以是用户输入的查询文本,也可以是一串语音,当用户输入一串语音,可通过语音识别(Automatic Speech Recognition,ASR)将用户的语音转化为文本,方便服务端的处理,以得到该待识别文本的语义识别结果。上述服务器可以是Web服务器或者其他服务器,上述客户端可以是手机、平板电脑、笔记本电脑、可穿戴设备、智能音箱等可与服务器进行交互的设备,用户输入的待识别文本可以通过客户端上的智能助手传给服务器。可以理解的是,本申请并不限制与此,还可以有多种获取到待识别文本的方式。

作为本发明的一种实施方式,可以由客户端触发的语义识别请求触发执行本申请实施例提供的语义识别方法,若在该语义识别请求中携带有需要进行语义识别的待识别文本,则可以对该语义识别请求进行解析,以获取到该语义识别请求中携带的文本作为待识别文本。

作为本发明的另外一种方式,可以不用在前述的语义识别请求中携带需要进行语义识别匹配的文本。此时,在接收到语义识别请求后,可以向发送该语义识别请求的客户端返回应答信息,客户端在接收到该应答信息后再发送需要进行语义识别的文本,以便将接收到的需要进行语义识别的文本作为待识别文本。

步骤S220、根据所述待识别文本在标注文本索引库中获取候选文本集合;所述标注文本索引库包括多个具有语义标注信息的标注文本。

需要说明的是,标注文本可以来源于数据库,数据库中存储有大量具有语义标注信息的的标注语料,语义标注信息是包括标注语料中对应的槽位。标注语料可以是技能专家预先对语料进行编辑,标注出语料对应的槽位。例如,对于一串“杨宗纬唱的空白格”的语料,标注人员可以对上述语料进行编辑,标注出该语料的槽位,槽位为“歌手”和“歌名”,槽位“歌手”对应的实体为“杨宗纬”,槽位“歌名”对应的实体为“空白格”。在一些实施方式中,语义标注信息还包括标注语料对应的意图分类。例如对于一串“杨宗纬唱的空白格”的语料,标注人员可以对上述语料进行编辑,标注出该语料的意图为播放意图。可以理解的是,本发明并不限制于此,语义标注信息还可以包括其它可用于语义识别的标注信息。

可以理解的是,为了便于召回更多的候选语料,作为本发明的一种实施方式,在利用标注语料构建标注文本索引库之前,可以先将标注语料进行预处理,作为一种实施方式,可以对标注有槽位信息的标注语料进行停用词处理,即从标注语料中去掉类似于“的”、“我”、“吗”、“是”、“一下”、“什么”、“了”、“吧”、“啊”、“?”、“呢”、“最”、“,”、“^”、“ng”、“啥”、“还”、“之”等无具体意义,但经常会出现在用户查询文本中的停用词。通过停用词处理获得预处理文本,经过预处理可以便于召回更多的候选语料,从而提升整体的召回率。

可以理解的是,为了构建标注文本索引库,作为本发明的一种实施方式,预处理文本还需要根据所要构建的索引库的规则,转化为适应索引库检索的格式,预处理文本通过索引格式转换获得标注文本。

作为本发明的一种实施方式,在获取候选文本集合的过程中,采用搜索的方式,从标注文本中搜索和待识别文本最相似的标注文本,具体做法可以采用Elastic Search作为底层搜索引擎,将预处理文本根据索引规则转化格式,建好索引,调用ES服务的插件即可往索引中批量插入预处理文本。这里由于ES是支持索引功能的,其延时一般在500毫秒级别,所以用户实时添加的一条标注语料,例如用于临时解决线上坏例的操作,当出现坏例响应时,获取坏例对应的待识别文本,对待识别文本进行语义标注,将坏例对应的待识别文本和对应的语义标注信息加入标注文本索引库以更新标注文本索引库。同时服务器会向ES服务发送数据变更的消息,推送最新的变化语料,从而实时将数据变化反映到ES索引中,便于用户实时获得更新后的结果。

作为本发明的一种实施方式,根据待识别文本在标注文索引库中获取候选文本集合,其中标注文本索引库包括多个具有语义标注信息的标注文本。标注文本索引库中的数据都是基于索引库的索引规则进行过调整,以利于统一数据格式,快速进行索引。

具体地,将待识别文本作为索引在标注文本索引库中检索获得倒排表。在本实施例中,待识别文本作为索引,在标注文本索引库中检索与待识别文本相关的标注文本,所有命中的标注文本均会出现在倒表中,确保召回率。作为一种实施方式,倒排表中的标注文本都会被召回,作为后续相似性排序计算的候选集合,从而用于做下一步的数据筛选。在本实施例中,先通过索引获得与待相似文本相似的一个候选文本集合,后续再对候选文本集合进行进一步筛选,从而获得与待识别文本最匹配的标注文本。

作为本发明的一种实施方式,可以根据与待识别文本的相似度的大小对倒排表的中的标注文本进行排序。作为本发明的又一种实施方式可以将相似度大于预设相似度的标注文本作为候选文本集合。

可以理解的是,候选文本集合的数量是不确定的,不同的待识别文本,命中的倒排表中标注文本的数量是不同的。数据量较大时,可能会引发索引库检索超时,从而影响整个系统的延迟,因此作为本发明的一种实施方式,可以对候选文本集的标注文本的数量进行限制。具体地,可以优先选择相似度最大的标注文本,依次进行选择,假设候选文本集合的数量控制在预设数量,则将倒排表按相似度从大到小进行排序,挑选前预设数量个标注文本作为候选文本集合。预设数量可以根据实际需要进行设置,本申请对此不作限制。

步骤S230、在候选文本集合中获取与所述待识别语句最匹配的标注文本作为目标文本。

通过标注文本索引库获取候选文本集合,可以获取到一批与待识别文本相似的标注文本。再从候选文本集合中筛选与待识别文本最匹配的目标文本,从而可以精确获得待识别文本的语义识别结果。在本实施例中,进一步地,从候选文本集合中继续获取与待识别语句最匹配的标注文本。目标文本的获取,可以通过多种方式,例如可以通过多种相似模型进行匹配,从候选文本集合中获得与待识别语句最匹配的标注文本。作为一种实施方式,相似模型可以有多种选择。相似模型可以通过大量相似的标注语料进行离线训练得到。相似的标注语料例如“q1=帮我播放刘德华的忘情水”和“q2=我想听刘德华的忘情水”。大量的相似语料可以是技能专家预先对语料进行标注,形成标注后的标注语料存储于数据库中。当相似模型进行离线模型训练时,可以从数据库中获取预先存储的大量相似的标注文本对进行相似模型的训练。将与待识别文本最相似的标注文本作为目标文本,由于目标文本与标注文本最为相似,具有相似的词语组成,因此可以利用目标文本已经具有的语义标注信息,对与其最匹配的待识别文本标注于同样的语义标注信息,就可以获得待识别文本的语义标注信息,进而获得待识别文本的语义识别结果。而且不需要对待识别文本进行实体抽取即可获得待识别文本的语义标注信息和语义识别结果,可以大大节省采用模型而造成的延迟,极大地提高了语义识别的效率。

步骤S240、根据目标文本对应的语义标注信息标注所述待识别文本,获得语义标注结果。

在本实施例中,语义标注信息是包括标注人员预先对标注文本进行标注的与语义识别相关的标注信息。在一些实施方式中,语义标注信息包括标注文本中对应的槽位信息,例如标注文本为“今天天气”中,“今天”对应的槽位为“date”,“天气”对应的槽位为“weather”。在一些实施方式中,语义标注信息还包括标注文本中对应的意图分类,例如标注文本为“今天天气”对应的意图分类为查询天气。在步骤S230中,通过相似度模型匹配在候选文本集合中获取到与待识别语句最匹配的目标文本。而候选文本集合中的标注文本都是经过标注人员标注,具有语义标注信息的文本,待识别文本可以参考与其最匹配的目标文本的语义标注信息进行标注,并通过标注结果进行语义识别。作为本发明的一种实施方式,根据目标文本的语义标注信息获得目标文本每个词对应的槽位。例如,目标文本“我想听刘德华的忘情水”中,实体“刘德华”对应的槽位为“singer”,实体“忘情水”对应的槽位为“song”。进而将待识别文本中与目标文本对应的词标注为相同的槽位,例如,待识别文本“帮我播放刘德华的忘情水”中,与目标文本对应的词为“刘德华”,标注为相同的槽位“歌手”,与目标文本对应的词还有“忘情水”,标注为相同的槽位“song”。又如根据目标文本的语义标注信息获得目标文本对应的意图。例如,目标文本“我想听刘德华的忘情水”对应的意图为播放的play意图。进而将待识别文本的意图标注为与目标文本相同的play意图。从而可以获得待识别文本的语义标注结果,即标注文本对应的槽位和意图。待识别文本与目标文本具有高度相似性,两者具有类似的实体,直接运用目标文本的语义标注信息对待识别文本进行标注,可以节省对待识别文本进行实体抽取的步骤。

在一些实施方式中,本发明的实施例的语义识别方法还可以包括步骤:根据所述语义标注结果获得待识别文本的语义识别结果。

服务器根据语义标注结果获得识别文本的语义识别结果,并将该语义识别结果传递给客户端,提供相应的响应,完成一次交互。

作为本发明的一种实施方式,当待识别文本“帮我播放刘德华的忘情水”的目标文本为“我想听刘德华的忘情水”,采用目标文本的标注槽位信息标注待识别文本,可以不用对待识别文本进行实体的抽取,待识别文本中与目标文本对应的词可以标注为相同的槽位。通过将目标文本的槽位信息标注到待识别文本中,获得的待识别文本的标注结果为实体刘德华对应的槽位为“歌手”,实体忘情水对应的槽位为“歌曲”,目标文本对应的意图为play意图,待识别文本采用目标文本对应的意图,即play意图,play意图包括槽位“歌手”、槽位“歌曲”,从而待识别文本“帮我播放刘德华的忘情水”的语义识别结果为“播放刘德华的忘情水”。将语义识别结果传递给客户端,客户端根据语义识别结果打开音乐播放器,为用户播放刘德华的忘情水,完成一次交互。

请参阅图5,图5所示为本申请一实施例提出的一种语义识别方法的步骤S221~S223的流程示意图。

具体地,步骤S220、根据待识别文本在标注文本索引库中获取候选文本集合。标注文本索引库包括多个具有语义标注信息的标注文本,包括:

步骤S221、以待识别文本做为索引在标注文本索引库中检索获得倒排表。

作为一种实施方式,基于ES的检索语法,通过待识别文本作为索引在标注文本索引库中检索获得倒排表。倒排表是与待识别文本相关的所有标注文本的列表,为了保证召回率,通常倒排表命中的标注文本都会被召回,作为后续相似性排序计算的候选集。

步骤S222、根据与待识别文本的相似度大小对倒排表中的标注文本进行排序。

作为一种实施方式,为了获得更有效的候选文本集合,找到与待识别问题更匹配的目标文本,可以将待识别文本的相似度大小按从大小进行排序,优选选择相似度大的标注文本作为候选文本集合。

步骤S223、将相似度大于预设相似度的标注文本作为候选文本集合。

可以理解的是,候选文本集合中标注文本的数量无法确定,在一些实施例中,倒排表命中的标注文本数量不多,候选文本集合中标注文本的数量较小。在另一些实施例中,倒排表命中非常多的标注文本,此时候选文本结合中标注文本的数量较大。当候选文本集合中的标注文本的数量达到一定数量时,会引发系统检索的超时,从而影响整个系统的延迟,为了防止检索超时,作为本申请的一种实施方式,按照相似度从大到小的顺序依次将相似度大于预设相似度的标注文本加入候选文本集合,候选文本集合中相似文本的数量不超过预设数量。通过适当控制候选文本集合的大小,筛选最相似的、且数量适中的标注文本作为候选文本集合,可以在确保获得目标文本的同时,可以防止系统检索超时。

请参阅图6,图6所示为本申请一实施例提出的一种语义识别方法的步骤S231~S233的流程图。

具体地,步骤S230、在候选文本集合中获取与所述待识别语句最匹配的标注文本作为目标文本,包括:

S231、获取待识别文本的第一特征向量表示。

作为本发明的一种实施方式,获取待识别文本的第一特征向量标识包括:将待识别语句进行分词处理,获得待识别语句的词向量。通过对待识别语句的词向量进行平均词向量处理,获得待识别语句的句向量。

在具体阐述之前,首先对词向量和句向量的含义进行说明。在本实施例中词向量(Word embedding)为文本内容中的单词或短语所对应向量。其中,词向量表征的是单个单词或者短语本身的含义。句向量(Sentence Embedding)为文本内容整体上所对应的向量,句向量表征的是文本整体上所表达的含义。例如,对于“我们去运动”这个文本所对应的词向量可以包括“我”对应的词向量、“们”对应的词向量、“去”对应的词向量、“运”对应的词向量以及“动”对应的词向量。而对于“我们去运动”所对应的句向量则为基于前述的每个字所对应的词向量经过线性变换后的向量,其中,该经过线性变换后的向量则可以表征“我们去运动”这个文本的整体含义。其中,整体含义可以理解为文本内容中每个字组合得到的文本在整体上所表达的含义。

作为本发明的一种实施方式,待识别文本对应的词向量包括待识别文本中每个字对应的词向量。示例性的,若待识别文本为“我要听周杰伦的歌”,那么“我要听周杰伦的歌”所对应的词向量则会包括“我”对应的词向量、“要”对应的词向量、“听”对应的词向量、“周”对应的词向量、“杰”对应的词向量、“伦”对应的词向量。

具体地,通过对待识别文本进行分词,构建词向量的方法有多种,可选地,在本实施例中可以通过指定的模型来获得待识别文本的词向量。例如可以通过word2vec模型或者fasttext模型实现,当然本发明并不限制与此,还可以采用其它的模型来获得待识别文本的词向量。作为一种实施方式,在通过指定的模型获取词向量的过程中,可以先将待识别文本中的每个字转换各自对应为一维向量,得到待识别文本中每个字各自对应的初始一维向量。其中,需要说明的是,这里的初始一维向量可以理解为待识别文本中每个字的初始的字向量。然后,将每个字各自对应的初始一维向量输入到该指定的模型中,从而得到该指定的模型输出的待识别文本对应的词向量,进而基于指定的模型输出的每个字对应的字向量来组合得到待识别文本对应的词向量。可选的,该组合得到待识别文本对应的词向量可以为序列形式。

需要说明的是,该指定的模型所输出的待识别文本中每个字对应的词向量,相比待识别文本中每个字各自对应的初始一维向量能够更多的融合待识别文本的语境的含义,进而使得指定的模型所输出的待识别文本中每个字对应的词向量能够更为准确的表达对应的含义。示例性的,第一文本内容为“播放洋葱”,那么其中的洋葱可以理解为一种蔬菜或者水果,也可以理解为歌曲,而结合语境可知对于洋葱,用户采用的是“播放”这个动作而不是“吃”或其它与蔬菜水果相关的关键词,所以其结合语音含义所对应的实际要表达的意图可以确定洋葱为歌曲,用户实际的意图是想要播放音乐洋葱。那么在得到前述的初始的一维向量中,洋葱所对应的一维向量可能表征的是一种蔬菜,而再进行前述的指定的模型进行处理并输出后,洋葱所对应的词向量则可以表征的是一个歌曲。

进一步地,作为本发明的一种实施方式,通过对待识别语句的词向量进行平均词向量处理,获得待识别语句的句向量。具体地,将得到的词向量做平均来代表整个待识别文本的第一特征向量表示。

S232、获取候选文本集合中标注文本的第二特征向量表示。

作为本发明的一种实施方式,获取标注文本的第二特征向量表示包括:将标注文本进行分词处理,获得标注文本的词向量。具体地,通过对标注文本进行分词,构建词向量,本实施例中的词向量可以通过word2vec或者fasttext实现。进一步地,通过对标注文本的词向量进行平均词向量处理,获得标注文本的句向量。具体地,将得到的词向量做平均来代表整个标注文本的第二特征向量表示。可以理解的是,候选文本集合中标注文本的数据可以包括一个或多个。当候选文本集合中的标注文本的数量包括多个时,需要分别获取每个标注文本的第二特征向量表示。

在本实施例中,候选文本集合中的标注文本为用于与待识别文本进行匹配的文本。作为本发明的一种实施方式,在将候选文本集合中的标注文本与待识别文本进行匹配的过程中,会基于待识别文本的句向量和候选文本集合中的标注文本的句向量来进行匹配的。那么在获取到待识别文本后则会对应的获取候选文本集合中的标注文本的句向量。其中,对于候选文本集合中的标注文本的句向量为预先计算得到并存储在指定存储区域中的,那么在这种方式下,在需要获取候选文本集合中的标注文本的句向量时,可以直接从该制定存储区域中进行读取即可获取到,而不用再实施的通过计算的方式来获取得到候选文本集合中的标注文本的句向量。

S233、将第一特征向量表示和第二特征向量表示输入训练后的文本匹配模型中,获得与待识别文本最匹配的标注文本作为目标文本。

作为本发明的一种实施方式,将待识别文本的第一特征向量和候选文本集合中标注文本的第二特征向量表示输入到训练后的文本匹配模型中进行计算,获得与待识别文本最匹配的标注文本作为相似文本。

图7示出了本申请一实施例提出的一种文本匹配模型的结构示意图。

如图7所示,图7所示为本申请一实施例提出的一种文本匹配模型的结构示意图。本实施中采用gdbt二分类模型作为文本匹配模型进行目标文本的获取。具体地,通过获取待识别文本的词向量(word embeddings),再由待识别文本所有词向量组合获得待识别文本的句向量(sentence embeddings),作为本发明的一种实施方式,将待识别文本所有的词向量做平均(average)来代表识别文本的句向量的表示。同理,获得标注文本的句向量表示,再将两个句向量传送到gdbt的分类器做0/1分类判别。通过待识别文本的句向量与所有候选文本集中的句向量进行匹配,最终获得与待识别文本最匹配的标注文本作为目标文本。gdbt二分类模型的创建是通过数据库中存储的相似标注文本对作为训练数据,通过离线训练获得gdbt二分类模型,其中可采用逻辑回归算法来建模,逻辑回归算法为二分类/多分类建模算法,是线性分类模型中常用的方法,计算简单稳定,速度快,且支持大量特征维度。第一特征向量表示和第二特征向量表示输入训练后的文本匹配模型中,可以获得与与待识别文本最匹配的标注文本作为目标文本。可以理解的是,本申请并不限制于此,还可以通过其它相似模型获得目标文本。

图8示出了本申请另一实施例提出的一种文本匹配模型的结构示意图。

如图8所示,图8所示为本申请一实施例提出的另一种文本匹配模型的结构示意图。本实施例中采用bert模型作为文本匹配模型进行目标文本的获取。bert全称为Bidirectional Encoder Representation from Transformers,是一种利用海量文本的语言模型训练方法,它可以被广泛应用于多种自然语言处理任务,如文本分类、文本匹配、机器阅读理解等。Bert模型是采用Transformer模型中的编码器中的编码器作为特征提取模块获得的模型,bert模型包括多个Trm,Trm为bert模型中的特征提取模块,该特征提取模块可以是Transformer模型中的Encoder(编码器)。将待识别文本和候选文本集合中的标注文本以[CLS]+句子1+[SEP]+句子2的格式输入BERT模型,句子1(例如为待识别文本)由Tok1,…,TokN组成,这里的TokN(例如为标注文本)可以为输入字符流中所生成的标记,句子2由Tok’1,…,Tok’M组成,E1,…,EN是Tok1,…,TokN的词向量输入,E1’,,…,EM’,是Tok’1,…,Tok’M的词向量输入,T1,…,TN是Tok1,…,TokN的模型的输出,即Tok1,…,TokN的表示,T’1,,…,T’M,是Tok’1,…,Tok’M的模型的输出,即Tok’1,…,Tok’M的表示,[CLS]的输入为E[CLS],[CLS]的表示为C,[SEP]的输入为E[SEP],[SEP]的表示为(T[SEP])。待识别文本和候选文本集合中的标注文本经过bert模型的处理,获得候选文本集合中与待识别文本最匹配的目标文本。

本申请的实施例的语义标注方法,不仅可以快速匹配目标文本,利用目标文本的语义标注信息对待标注文本进行标注,从而快速获得待标注文本的语义识别结果。并且在遇到线上坏例时,本申请的实施例的语义标注方法,可以快速的解决。线上坏例是指系统无法识别用户输入的待识别文本。作为本申请的一种实施方式,当用户遇到成都的天气怎么样,这个query系统无法识别的时候,即出现坏例时,在本实施例中,可以在语义平台上添加这条query,并标注好对应的槽位信息,不到1s的时间新添加的标注语料就更新到系统ES索引库中,当用户的query再次请求时,就可以找到相应的目标文本,然后使用预先标注的槽位信息来完成对用户待识别文本的语义识别,整个过程是秒级完成。而对比现有的采用模型抽取实体的语义识别方法,当遇到坏例时,如果是由于实体抽取错误导致的坏例,则需要更新实体模型。而更新模型的过程耗时较久,整个过程需要耗费数小时。对比现有技术的方案,本申请的技术方案在解决坏例时可以简化解决步骤,快速解决坏例。

本申请实施例提供的方案,在获取待识别文本时,基于待识别文本在标注文本索引库中获取候选文本集合,并在候选文本集合中获取与待识别语句最匹配的标注文本作为目标文本,从而根据目标文本对应的语义标注信息标注待识别文本,获得语义标注结果,进而根据语义标注结果获得待识别文本的语义识别结果。如此,可以通过匹配的目标文本标注待识别文本,从而可以不经过实体模型对实体的抽取,快速获得待识别文本的语义识别结果,提升语义识别的响应速度,降低延迟且准确率高。

请参阅图9,其示出了本申请实施例提出的一种语义识别装置的结构示意图,该语义识别装置300可以包括:待识别文本获取模块310、候选文本集合获取模块320、目标文本获取模块330、语义标注模块340。

待识别文本获取模块310,用于获取待识别文本。在本申请实施例中待识别文本为需要进行语义识别的文本。待识别文本可以是用户输入的查询文本,也可以是一串语音,当用户输入一串语音,可通过语音识别(Automatic Speech Recognition,ASR)将用户的语音转化为文本,方便服务端的处理,以得到该待识别文本的语义识别结果。

候选文本集合获取模块320,用于根据所述待识别文本在标注文本索引库中获取候选文本集合。

其中,标注文本索引库包括多个具有语义标注信息的标注文本。标注文本可以来源于数据库,数据库中存储有大量标注过的标注语料,标注过的标注语料是指标注有槽位信息的语料。标注语料可以是技能专家预先对语料进行编辑,标注出语料对应的槽位信息。

目标文本获取模块330,用于在候选文本集合中获取与待识别语句最匹配的标注文本作为目标文本。

通过标注文本索引库获取候选文本集合,可以获取到一批与待识别文本相似的标注文本。再从候选文本集合中筛选与待识别文本最匹配的目标文本,从而可以精确获得待识别文本的语义识别结果。具体地,根据目标文本已经具有的语义标注信息,对与其最匹配的待识别文本标注于同样的语义标注信息,就可以获得待识别文本的语义标注信息,进而获得待识别文本的语义识别结果。而且不需要对待识别文本进行实体抽取即可获得待识别文本的语义标注信息和语义识别结果,可以大大节省采用模型而造成的延迟,极大地提高了语义识别的效率。

语义标注模块340,用于根据目标文本对应的语义标注信息标注待识别文本,获得语义标注结果。

待识别文本与目标文本具有高度相似性,两者具有类似的实体,直接运用目标文本的语义标注信息对待识别文本进行标注,可以获得待识别文本的语义标注结果。

在一些实施方式中,语义识别装置还可以包括语义识别模块350。语义识别模块350用于根据语义标注结果获得待识别文本的语义识别结果。

服务器根据语义标注结果获得识别文本的语义识别结果,并将该语义识别结果传递给客户端,提供相应的响应,完成一次交互。

本申请实施例提供的方案,在获取待识别文本时,基于待识别文本在标注文本索引库中获取候选文本集合,并在候选文本集合中获取与待识别语句最匹配的标注文本作为目标文本,从而根据目标文本对应的语义标注信息标注待识别文本,获得语义标注结果,进而根据语义标注结果获得待识别文本的语义识别结果。如此,可以通过匹配的目标文本标注待识别文本,从而可以不经过实体模型对实体的抽取,快速获得待识别文本的语义识别结果,提升语义识别的响应速度,降低延迟。

请参阅图10,其示出了本申请一个实施例提出的电子设备的结构框图,上述电子设备400包括存储器410、处理器420以及存储在存储器410中并可在处理器420上运行的计算机程序,处理器420执行计算机程序时实现前述方法实施例中所描述的方法。

处理器420可以包括一个或者多个处理核。处理器420利用各种接口和线路连接整个电子设备400内的各个部分,通过运行或执行存储在存储器410内的指令、程序、代码集或指令集,以及调用存储在存储器410内的数据,执行电子设备700的各种功能和处理数据。可选地,处理器420可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable LogicArray,PLA)中的至少一种硬件形式来实现。处理器420可集成中央处理器(CentralProcessing Unit,CPU)、图像处理器(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,调制解调器也可以不集成到处理器420中,单独通过一块通信芯片进行实现。

存储器410可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。存储器410可用于存储指令、程序、代码、代码集或指令集。存储器410可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如获取、选取、提取、控制等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储电子设备400在使用中所创建的数据(比如待识别文本、标注文本、目标文本、语义标注结果、语义识别结果等。

请参阅图11,其示出了本申请一个实施例提出的计算机可读存储介质,其特征在于,计算机可读取存储介质500中存储有程序代码,程序代码可被处理器调用执行前述方法实施例中所描述的方法。

需要说明的是,本申请实施例所示的计算机可读存储介质500可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质500例如以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。可选地,计算机可读存储介质500包括非易失性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质500具有执行上述方法中的任何方法步骤的程序代码510的存储单元。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码510可以例如以适当形式进行压缩。

可选地,计算机可读存储介质500可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的计算机程序。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的计算机程序可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。

附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。

应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本申请实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本申请实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的实施方式后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。

应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

完整详细技术资料下载
上一篇:石墨接头机器人自动装卡簧、装栓机
下一篇:语义匹配方法、装置、电子设备及存储介质

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!