一种样本筛选方法及装置
技术领域
本申请涉及计算机
技术领域
,特别涉及一种样本筛选方法及装置、计算设备和计算机可读存储介质。背景技术
对于机器学习,尤其是深度学习而言,大多数算法的运行均需要以大量的样本数据为基础。样本数据的丰富程度及准确性对于机器学习具有非常重要的意义。
目前的模型训练过程中,由于样本标注存在人为标注的主观因素,并且训练样本数量多,无法做到通过人工一一筛选掉部分劣质样本,影响模型训练效果。或者部分场景需构建正负样本进行模型训练,但由于未能对正负样本进行有效筛选,使训练后的模型精准度不高。
发明内容
有鉴于此,本申请实施例提供了一种样本筛选方法及装置、计算设备和计算机可读存储介质,以解决现有技术中存在的技术缺陷。
根据本申请实施例的第一方面,提供了一种样本筛选方法,包括:
获取样本问题,以及包含所述样本问题对应答案的样本语料;
在所述样本语料的语料文本中提取文本片段作为所述语料文本的文本片段集,其中所述文本片段的尺寸根据所述样本问题对应的答案确定;
对所述文本片段集中的文本片段进行筛选,并将包含完整的所述答案的文本片段作为所述样本问题的正样本文本,将不包含所述答案的文本片段作为所述样本问题的负样本文本。
可选地,所述在所述样本语料的语料文本中提取文本片段作为所述语料文本的文本片段集,包括:
确定所述样本语料的语料文本的起始滑动位置;
将特征提取窗口从所述起始滑动位置开始,按照预设滑动步长在所述语料文本中进行滑动,并将滑动过程中所述特征提取窗口提取的文本片段作为所述语料文本的文本片段集。
可选地,所述在所述样本语料的语料文本中提取文本片段作为所述语料文本的文本片段集,包括:
确定所述样本语料的语料文本的起始滑动位置;
将尺寸变化的特征提取窗口从所述起始滑动位置开始,并按照预设滑动步长在所述语料文本中进行滑动,并将滑动过程中所述特征提取窗口提取的文本片段作为所述语料文本的文本片段集。
可选地,所述在所述样本语料的语料文本中提取文本片段作为所述语料文本的文本片段集,包括:
确定所述样本语料的语料文本的起始滑动位置;
将固定尺寸的特征提取窗口从所述起始滑动位置开始,并按照预设滑动步长在所述语料文本中进行滑动,并将滑动过程中所述特征提取窗口提取的文本片段作为所述语料文本的文本片段集。
可选地,所述对所述文本片段集中的文本片段进行筛选,包括:
利用预设文本片段筛选算法对所述文本片段集中的文本片段进行筛选。
可选地,所述对所述文本片段集中的文本片段进行筛选,包括:
确定所述样本语料中所述样本问题对应的答案的起始位置标识以及结束位置标识;
根据所述起始位置标识以及所述结束位置标识对所述文本片段集中的文本片段进行筛选。
可选地,所述根据所述起始位置标识以及所述结束位置标识对所述文本片段集中的文本片段进行筛选,包括:
将所述文本片段集中包含所述起始位置标识以及所述结束位置标识的文本片段作为所述正样本文本;以及,将不包含所述起始位置标识以及所述结束位置标识的文本片段作为所述负样本文本。
可选地,所述样本筛选方法,还包括:
基于所述样本问题、所述正样本文本以及所述负样本文本构建问题文本对;
将所述问题文本对输入待训练的答案抽取模型进行训练,获得所述答案抽取模型,所述答案抽取模型使得所述样本问题与所述正样本文本和/或所述负样本文本相关联。
根据本申请实施例的第二方面,提供了一种样本筛选装置,包括:
获取模块,被配置为获取样本问题,以及包含所述样本问题对应答案的样本语料;
滑动模块,被配置为在所述样本语料的语料文本中提取文本片段作为所述语料文本的文本片段集,其中所述文本片段的尺寸根据所述样本问题对应的答案确定;
筛选模块,被配置为对所述文本片段集中的文本片段进行筛选,并将包含完整的所述答案的文本片段作为所述样本问题的正样本文本,将不包含所述答案的文本片段作为所述样本问题的负样本文本。
根据本申请实施例的第三方面,提供了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现所述样本筛选方法的步骤。
根据本申请实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现所述样本筛选方法的步骤。
根据本申请实施例的第五方面,提供了一种芯片,其存储有计算机指令,该指令被芯片执行时实现所述样本筛选方法的步骤。
本申请实施例中,通过获取样本问题,以及包含所述样本问题对应答案的样本语料,在所述样本语料的语料文本中提取文本片段作为所述语料文本的文本片段集,其中所述文本片段的尺寸根据所述样本问题对应的答案确定,对所述文本片段集中的文本片段进行筛选,并将包含完整的所述答案的文本片段作为所述样本问题的正样本文本,将不包含所述答案的文本片段作为所述样本问题的负样本文本。
本申请实施例通过将长语料文本进行文本片段划分,得到多个短语料文本,并通过对所述多个短语料文本进行筛选的方式,确定用于进行模型训练的正负样本,其中,所述正样本中包含样本问题的完整答案,所述负样本中不包含所述样本问题的答案对应的文本片段中的任意文本信息;通过对所述多个短语料文本进行筛选的方式确定正负样本,从而保证利用所述正负样本进行模型训练得到训练结果的准确性。
附图说明
图1是本申请实施例提供的计算设备的结构框图;
图2是本申请实施例提供的样本筛选方法的流程图;
图3(a)是本申请实施例提供的一种通过滑窗的方式对长文本进行截断的示意图;
图3(b)是本申请实施例提供的另一种对长文本进行截断的示意图;
图4是本申请实施例提供的模型训练过程的示意图;
图5是本申请实施例提供的样本筛选方法的处理过程流程图;
图6是本申请实施例提供的样本筛选装置的结构示意图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本申请一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“响应于确定”。
首先,对本发明一个或多个实施例涉及的名词术语进行解释。
EQA:抽取式问答。
正样本:与真实样本标签一致的样本,或属于某一类别的样本。
负样本:与真实样本标签不一致的样本,或不属于某一类别的样本。
在分类问题中,例如人脸识别问题中,若需要对图像中的待识别用户进行人脸识别,那么正样本即为图片中的人脸所在区域(矩形框),负样本即为图片中除人脸所在区域之外的其他对象所在的区域(矩形框);或者,在检测问题中,例如答案检测问题中,若需要在一段文本中抽取某个问题的答案,那么包含该问题的完整答案的文本即为正样本,不包含该问题对应答案的任意内容的文本即为负样本。
滑动窗口:在处理语料文本时,滑动窗口可以是一个或多个窗口,窗口的尺寸(大小)是可以指定,窗口从文本的开始位置一直滑动到文本的结尾位置。
特征提取:给定一个语料文本,特征提取即提取特征序列的过程,具体即在窗口滑动的过程中,将窗口内的内容(也即字符串)抽取出来。
在本申请中,提供了一种样本筛选方法及装置、计算设备和计算机可读存储介质,在下面的实施例中逐一进行详细说明。
图1示出了根据本申请一实施例的计算设备100的结构框图。该计算设备100的部件包括但不限于存储器110和处理器120。处理器120与存储器110通过总线130相连接,数据库150用于保存数据。
计算设备100还包括接入设备140,接入设备140使得计算设备100能够经由一个或多个网络160通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备140可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
在本申请的一个实施例中,计算设备100的上述部件以及图1中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图1所示的计算设备结构框图仅仅是出于示例的目的,而不是对本申请范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备100可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备100还可以是移动式或静止式的服务器。
其中,处理器120可以执行图2所示样本筛选方法中的步骤。图2示出了根据本申请一实施例的样本筛选方法的流程图,包括步骤202至步骤206。
步骤202,获取样本问题,以及包含所述样本问题对应答案的样本语料。
目前,机器阅读理解是自然语言处理领域的一个重要研究课题,比较常见的任务有完形填空、多项选择、答案抽取、自由回答等。其中,答案抽取(抽取式文本问答EQA)就是将问题query和文本片段para组织成一个问题文本对输入到答案抽取模型中,让答案抽取模型从文本片段中抽取出问题的答案。
传统的答案抽取模型训练过程中,训练数据的样本采样方法主要是使用所有样本进行训练,即不对样本进行过滤;或者,按一定比例随机选择一些负样本参与训练,这两种训练方式训练获得的答案抽取模型都不够准确。
因为在对样本语料进行文本片段划分时,会得到一批干扰模型训练结果的样本,我们把这些样本归入负样本,但这些负样本中又包含正确答案的部分文本,所以在进行模型训练时这些负样本会在一定程度上干扰模型训练结果。
基于此,本申请实施例提供的样本筛选方法,对于一个问题query,给定一篇文本,这篇文本中包含问题query对应的答案,若这篇文本为长文本(文本包含的字符数量大于预设阈值),则选择滑窗的方式将长文本截断成多个短文本,其中,这多个短文本中,存在部分短文本包含问题query对应答案的完整内容,部分短文本包含问题query对应答案的部分内容,还存在部分短文本不包含问题query对应答案的任意内容,本申请实施例通过对短文本进行过滤,以将包含问题query对应答案的部分内容的短文本过滤掉,提高了用于模型训练的样本质量,减少了低质量样本对模型训练的干扰,有利于模型训练结果的提升。
具体的,所述样本语料为包含有一定信息内容的书面文本,其可以是一句话、一段文字、多段文字、一篇文章或多篇文章等各种篇幅的文本,也可以是中文文本、英文文本、俄文文本等各种语言文本,本申请对此不做限制。
样本问题为要求回答或解释的题目,既可以是与样本语料中的信息内容相关联的问题,也可以是与样本语料中的信息内容无关联的问题,本申请对此不做限制。
步骤204,在所述样本语料的语料文本中提取文本片段作为所述语料文本的文本片段集。
其中,所述文本片段的尺寸根据所述样本问题对应的答案确定。
具体实施时,在所述样本语料的语料文本中提取文本片段作为所述语料文本的文本片段集,具体可通过以下方式实现:
确定所述样本语料的语料文本的起始滑动位置;
将特征提取窗口从所述起始滑动位置开始,按照预设滑动步长在所述语料文本中进行滑动,并将滑动过程中所述特征提取窗口提取的文本片段作为所述语料文本的文本片段集。
具体的,所述起始滑动位置可以是所述样本语料的起始字符所处的位置,也可以是所述样本语料的结束字符所处的位置,还可以是所述样本语料的其他字符所处的位置。
特征提取窗口从所述起始滑动位置开始,按照所述样本语料中各字符的排列顺序,并按照预设滑动步长进行滑动;其中,所述排列顺序即所述样本语料的起始字符到结束字符之间各字符的排列顺序。通常字符按照一定的顺序排列之后即可构成表达某种含义的文本。
实际应用中,对于一个样本问题,给定一篇包含所述样本问题对应答案的文本(样本语料),在利用所述样本问题以及所述文本对答案抽取模型进行训练的情况下,由于文本中包含的词单元数量较多,而答案抽取模型的输入长度固定为512个词单元,因此,对于长文本,一般选择通过滑窗的方式将长文本截断成多个短文本。
本申请实施例提供的通过滑窗的方式对长文本进行截断的示意图如图3(a)所示。
给定一个样本问题,并给定一篇包含所述样本问题对应答案的长文本,其中,样本问题对应的答案在文本中的位置如图3(a)的标注结果所示。
对于一篇完整的长文本,通过滑窗的方法将长文本分割为多个文本片段,其中,窗口的宽度(即文本片段的长度)一般大于等于答案的字符串长度。分割结果如图3(a)所示,具体即将所述长文本划分为para1、para2、……、para6等6个文本片段。
本申请实施例在特征提取窗口的宽度满足大于等于答案的字符串长度这一条件的情况下,未对特征提取窗口的具体尺寸进行进一步限定,实际应用中,在利用特征提取窗口进行文本片段提取时,所述特征提取窗口的尺寸可以是固定值,也可以是在特征提取窗口滑动过程中不断变化的。
其中,若利用尺寸变化的特征提取窗口提取文本片段,则在所述样本语料的语料文本中提取文本片段作为所述语料文本的文本片段集,可通过以下方式实现:
确定所述样本语料的语料文本的起始滑动位置;
将尺寸变化的特征提取窗口从所述起始滑动位置开始,并按照预设滑动步长在所述语料文本中进行滑动,并将滑动过程中所述特征提取窗口提取的文本片段作为所述语料文本的文本片段集。
具体的,除特征提取窗口的尺寸会在滑动过程中发生变化外,具体的文本片段提取过程与前述实施例的文本片段的提取过程类似,具体的实现过程参见前述实施例的内容,在此不再赘述。
其中,所述特征提取窗口的宽度在满足大于等于答案的字符串长度这一条件的情况下,在滑动过程其宽度可以随机变化,或者设置其按照一定规律变化(例如,逐渐变大、先逐渐变大后逐渐变小等),具体可根据实际需求确定,在此不做限制;另外,为保证本申请实施例通过特征提取窗口能够提取到完整的文字信息,因此,特征提取窗口的高度可根据语料文本中文字的高度确定,具体可将特征提取窗口的高度设为大于语料文本中文字的高度,在满足这一条件的情况下,具体的特征提取的高度可根据实际需求确定,在此不做限制。
以特征提取窗口的尺寸在滑动过程中,按照先逐渐变小后逐渐变大的规律进行变化为例,对长文本进行截断的示意图如图3(b)所示。
给定一个样本问题,并给定一篇包含所述样本问题对应答案的长文本,其中,样本问题对应的答案在文本中的位置如图3(b)的标注结果所示。
对于一篇完整的长文本,通过滑窗的方法将长文本分割为多个文本片段,其中,窗口的宽度(即文本片段的长度)一般大于等于答案的字符串长度,在满足这个条件的前提下,窗口的宽度在滑动过程中可按先逐渐变小后逐渐变大的规律进行变化,并按照变化过程中各窗口的尺寸对长文本进行分割,得到的分割结果如图3(b)所示,具体即将所述长文本划分为para1、para2、……、para6、para7等7个文本片段,其中,para4这个文本片段中包含样本问题对应答案的完整内容,并且相对于图3(a)中的para3而言,para4在包含样本问题对应答案的完整内容的情况下,包含的其他与样本问题无关的内容相对较少,这种情况下,若将para4这一文本片段作为正样本文本,则利用样本问题、包含para4这一文本片段的正样本文本以及其他负样本文本对答案抽取模型进行训练时,有利于提高模型训练效率,并有利于保证模型训练结果的准确性。
或者,若利用固定尺寸的特征提取窗口提取文本片段,则在所述样本语料的语料文本中提取文本片段作为所述语料文本的文本片段集,还可通过以下方式实现:
确定所述样本语料的语料文本的起始滑动位置;
将固定尺寸的特征提取窗口从所述起始滑动位置开始,并按照预设滑动步长在所述语料文本中进行滑动,并将滑动过程中所述特征提取窗口提取的文本片段作为所述语料文本的文本片段集。
具体的,除限定特征提取窗口的尺寸在滑动过程中不发生变化外,具体的文本片段提取过程与前述实施例的文本片段的提取过程类似,具体的实现过程参见前述实施例的内容,在此不再赘述。
利用固定尺寸的特征提取窗口对文本进行文本片段分割生成的分割结果示意图如图3(a)所示,图3(a)中分割生成的文本片段1(para1)至文本片段6(para6)包含的文本单元数量相等。
实际应用中,若特征提取窗口的尺寸固定,则所述特征提取窗口的尺寸需大于样本语料包含的待查询问题对应的答案的长度,在满足这一条件的基础上,特征提取窗口的实际尺寸可根据实际需求进行确定,在此不做限制。
本申请实施例通过尺寸固定的特征提取窗口对语料文本进行文本片段划分,简化了文本特征的提取过程,有利于提高文本特征提取效率;另外,通过尺寸变化的特征提取窗口对语料文本进行文本片段划分,有利于保证文本片段划分结果的多样性,从而有利于提高利用所述正负样本进行模型训练得到训练结果的准确性。
步骤206,对所述文本片段集中的文本片段进行筛选,并将包含完整的所述答案的文本片段作为所述样本问题的正样本文本,将不包含所述答案的文本片段作为所述样本问题的负样本文本。
其中,所述正样本文本包含所述答案的完整语料文本,所述负样本文本不包含所述答案的任意语料文本。
具体的,利用特征提取窗口对语料文本进行分割得到多个文本片段后,可对所述多个文本片段进行过滤,把包含不完整答案(即包含答案的部分内容)的文本片段过滤掉,并利用剩余的文本片段以及样本问题对待训练的答案抽取模型进行训练即可,通过这种样本筛选的方式,有利于保证训练样本的有效性,从而有利于保证模型训练结果的准确性。
具体实施时,对所述文本片段集中的文本片段进行筛选,还可通过以下方式实现:
确定所述样本语料中所述样本问题对应的答案的起始位置标识以及结束位置标识;
根据所述起始位置标识以及所述结束位置标识对所述文本片段集中的文本片段进行筛选。
进一步的,根据所述起始位置标识以及所述结束位置标识对所述文本片段集中的文本片段进行筛选,包括:
将所述文本片段集中包含所述起始位置标识以及所述结束位置标识的文本片段作为所述正样本文本;以及,将不包含所述起始位置标识以及所述结束位置标识的文本片段作为所述负样本文本。
具体的,利用特征提取窗口对语料文本进行分割得到多个文本片段后,对所述多个文本片段进行过滤,具体可先根据样本语料中词单元与待查询问题对应答案的标识之间的关联关系,确定样本语料中待查询问题对应答案的起始位置标识以及结束位置标识。其中,在获取样本问题和样本语料后,可根据样本问题确定样本语料中所述样本问题对应的答案,并为这些答案添加对应的标识,具体可建立答案与标识之间的关联关系,以根据所述关联关系确定样本语料中哪个词单元是答案起始位置或答案结束位置(即样本语料中哪些词单元构成了所述样本问题对应的答案)。
然后判断各文本片段中是否包含所述起始位置标识以及所述结束位置标识,若包含,则可将所述文本片段作为所述正样本文本,将不包含所述起始位置标识和所述结束位置标识的文本片段作为负样本文本,并将包含所述起始位置标识或所述结束位置标识的文本片段剔除。
如图3(a)所示,对长文本进行文本片段划分后,会出现以下情形:1)文本片段包含完整的答案;2)文本片段包含不完整的答案,即只包含答案的部分内容;3)文本片段完全不包含答案。
并且,从图3(a)可以看出,文本片段para1和para4包含答案的部分内容,para2、para3包含完整的答案,para5、para6完全不包含答案,因此,可将para2和para3作为正样本文本,将para5和para6作为负样本文本,并将para1和para4剔除即可。
具体实施时,在筛选获得样本问题的正样本文本以及负样本文本后,可基于所述样本问题、正样本文本以及负样本文本构建样本对,并利用所述样本对进行模型训练,具体可通过以下方式实现:
基于所述样本问题、所述正样本文本以及所述负样本文本构建问题文本对;
将所述问题文本对输入待训练的答案抽取模型进行训练,获得所述答案抽取模型,所述答案抽取模型使得所述样本问题与所述正样本文本和/或所述负样本文本相关联。
具体的,对样本语料的语料文本进行划分生成的多个文本片段,并对所述多个文本片段进行筛选获得多个正样本文本以及负样本文本后,可基于所述样本问题、所述正样本文本以及所述负样本文本构建问题文本对,并将所述问题文本对输入待训练的答案抽取模型进行训练,获得答案抽取模型。
为能够更加直观的对语料文本的分割过程进行描述,本申请实施例以样本问题(query)为“农村防疫工作怎么做?”、样本语料中包含的所述样本问题对应的答案为“一是要求成立农村疫情防控专班;二是要求充分发挥基层医疗卫生机构的作用;三是要求加强对流动人口的健康管理。”为例进行说明。
对上述样本语料中的语料文本进行分割生成的文本片段1(para1)为“...一是要求成立农村疫情防控专班”,由于文本片段1只包含部分答案的,我们认为para1不是正确的答案。
分割出的文本片段2(para2)为“一是要求成立农村疫情防控专班;二是要求充分发挥基层医疗卫生机构的作用;三是要求加强对流动人口的健康管理。...”,para2包含完整的答案,所以para2是正确答案。
确定其他文本片段是否为正确答案的实现过程与前述文本片段1和文本片段2的实现过程类似,在此不再赘述。
由于目前的样本选择方案中,其中一种方案是使用所有样本进行模型训练,不对样本进行筛选,即图3(a)中划分出的6个文本片段,全部参与模型训练。另一种方案是,使用简单的负样本采样方式,即按一定比例随机选择负样本,仍以图3(a)中的6个文本片段为例,将para1、para4、para5、para6作为负样本(不包含完整的答案),para2和para3是正样本;正样本全部参与训练,而负样本可全部参与训练,或只随机选择一部分参与训练。
但由于图3(a)中的para1和para4包含部分答案片段,将其作为负样本进行模型训练中会干扰模型的训练结果。因此,本申请实施例的样本筛选方案则是,将类似para1和para4的样本过滤掉,仅将para2和para3作为正样本,将para5和para6作为负样本进行模型训练。
更进一步,本申请实施例提供的模型训练过程的示意图如图4所示。
对长文本进行分割,得到文本片段集合,对所述文本片段集合中的文本片段进行过滤筛选,得到新的文本片段集合,所述文本片段集合中包含正样本文本和负样本文本,再将样本问题分别与所述正样本文本和负样本文本进行拼接生成问题文本对,将所述问题文本输入待训练的答案抽取模型进行训练即可。
当前,机器阅读理解的应用中,EQA模型训练数据的样本采样方法主要有以下几种:
(1)使用所有样本进行训练,即不对样本进行过滤。
(2)使用简单的负样本采样方式,即按一定比例随机选择负样本。
相对于目前的样本采样方法,本申请实施例在于使用更合理的样本筛选策略,过滤掉对模型训练造成干扰的样本。
本申请实施例中,通过获取样本问题,以及包含所述样本问题对应答案的样本语料,基于预设滑动步长在所述样本语料的语料文本中滑动特征提取窗口,并将滑动过程中所述特征提取窗口提取的文本片段作为所述语料文本的文本片段集,对所述文本片段集中的文本片段进行筛选,并将筛选获得的第一文本片段作为所述样本问题的正样本文本,将筛选获得的第二文本片段作为所述样本问题的负样本文本,其中,所述第一文本片段包含所述答案的完整语料文本,所述第二文本片段不包含所述答案的任意语料文本。
本申请实施例通过将长语料文本进行文本片段划分,得到多个短语料文本,并通过对所述多个短语料文本进行筛选的方式,确定用于进行模型训练的正负样本,其中,所述正样本中包含样本问题的完整答案,所述负样本中不包含所述样本问题的答案对应的文本片段中的任意文本信息;通过对所述多个短语料文本进行筛选的方式确定正负样本,从而保证利用所述正负样本进行模型训练得到训练结果的准确性。
下述结合附图5,以本申请提供的样本筛选方法以将筛选获得的样本用于训练答案抽取模型为例,对所述样本筛选方法进行进一步说明。其中,图5示出了本申请一个实施例提供的一种样本筛选方法的处理过程流程图,具体步骤502至步骤518。
步骤502,获取样本问题,以及包含所述样本问题对应答案的样本语料。
步骤504,确定所述样本语料的语料文本的起始滑动位置。
步骤506,将特征提取窗口从所述起始滑动位置开始,按照预设滑动步长在所述语料文本中进行滑动。
步骤508,将滑动过程中所述特征提取窗口提取的文本片段作为所述语料文本的文本片段集。
其中,所述特征提取窗口的尺寸根据所述样本问题对应的答案确定。
步骤510,确定所述样本语料中所述样本问题对应的答案的起始位置标识以及结束位置标识。
步骤512,根据所述起始位置标识以及所述结束位置标识对所述文本片段集中的文本片段进行筛选。
步骤514,将所述文本片段集中包含所述起始位置标识以及所述结束位置标识的文本片段作为所述正样本文本;以及,将不包含所述起始位置标识以及所述结束位置标识的文本片段作为所述负样本文本。
步骤516,基于所述样本问题、所述正样本文本以及所述负样本文本构建问题文本对。
步骤518,将所述问题文本对输入待训练的答案抽取模型进行训练,获得所述答案抽取模型,所述答案抽取模型使得所述样本问题与所述正样本文本和/或所述负样本文本相关联。
本申请实施例通过将长语料文本进行文本片段划分,得到多个短语料文本,并通过对所述多个短语料文本进行筛选的方式,确定用于进行模型训练的正负样本,其中,所述正样本中包含样本问题的完整答案,所述负样本中不包含所述样本问题的答案对应的文本片段中的任意文本信息;通过对所述多个短语料文本进行筛选的方式确定正负样本,从而保证利用所述正负样本进行模型训练得到训练结果的准确性。
与上述方法实施例相对应,本申请还提供了样本筛选装置实施例,图6示出了本申请一个实施例的样本筛选装置的结构示意图。如图6所示,该装置600包括:
获取模块602,被配置为获取样本问题,以及包含所述样本问题对应答案的样本语料;
滑动模块604,被配置为在所述样本语料的语料文本中提取文本片段作为所述语料文本的文本片段集,其中所述文本片段的尺寸根据所述样本问题对应的答案确定;
筛选模块606,被配置为对所述文本片段集中的文本片段进行筛选,并将包含完整的所述答案的文本片段作为所述样本问题的正样本文本,将不包含所述答案的文本片段作为所述样本问题的负样本文本。
可选地,所述滑动模块604,包括:
第一确定子模块,被配置为确定所述样本语料的语料文本的起始滑动位置;
第一滑动子模块,被配置为将特征提取窗口从所述起始滑动位置开始,按照预设滑动步长在所述语料文本中进行滑动,并将滑动过程中所述特征提取窗口提取的文本片段作为所述语料文本的文本片段集。
可选地,所述滑动模块604,还被配置为:
第二确定子模块,被配置为确定所述样本语料的语料文本的起始滑动位置;
第二滑动子模块,被配置为将尺寸变化的特征提取窗口从所述起始滑动位置开始,并按照预设滑动步长在所述语料文本中进行滑动,并将滑动过程中所述特征提取窗口提取的文本片段作为所述语料文本的文本片段集。
可选地,所述滑动模块604,还被配置为:
第三确定子模块,被配置为确定所述样本语料的语料文本的起始滑动位置;
第三滑动子模块,被配置为将固定尺寸的特征提取窗口从所述起始滑动位置开始,并按照预设滑动步长在所述语料文本中进行滑动,并将滑动过程中所述特征提取窗口提取的文本片段作为所述语料文本的文本片段集。
可选地,所述筛选模块606,进一步被配置为:
第一筛选子模块,被配置为利用预设文本片段筛选算法对所述文本片段集中的文本片段进行筛选。
可选地,所述筛选模块606,进一步被配置为:
标识确定子模块,被配置为确定所述样本语料中所述样本问题对应的答案的起始位置标识以及结束位置标识;
第二筛选子模块,被配置为根据所述起始位置标识以及所述结束位置标识对所述文本片段集中的文本片段进行筛选。
可选地,所述第二筛选子模块,包括:
样本确定单元,被配置为将所述文本片段集中包含所述起始位置标识以及所述结束位置标识的文本片段作为所述正样本文本;以及,将不包含所述起始位置标识以及所述结束位置标识的文本片段作为所述负样本文本。
可选地,所述样本筛选装置,还包括:
构建模块,被配置为基于所述样本问题、所述正样本文本以及所述负样本文本构建问题文本对;
训练模块,被配置为将所述问题文本对输入待训练的答案抽取模型进行训练,获得所述答案抽取模型,所述答案抽取模型使得所述样本问题与所述正样本文本和/或所述负样本文本相关联。
本申请实施例通过将长语料文本进行文本片段划分,得到多个短语料文本,并通过对所述多个短语料文本进行筛选的方式,确定用于进行模型训练的正负样本,其中,所述正样本中包含样本问题的完整答案,所述负样本中不包含所述样本问题的答案对应的文本片段中的任意文本信息;通过对所述多个短语料文本进行筛选的方式确定正负样本,从而保证利用所述正负样本进行模型训练得到训练结果的准确性。
上述为本实施例的一种样本筛选装置的示意性方案。需要说明的是,该样本筛选装置的技术方案与上述的样本筛选方法的技术方案属于同一构思,样本筛选装置的技术方案未详细描述的细节内容,均可以参见上述样本筛选方法的技术方案的描述。
需要说明的是,装置权利要求中的各组成部分应当理解为实现该程序流程各步骤或该方法各步骤所必须建立的功能模块,各个功能模块并非实际的功能分割或者分离限定。由这样一组功能模块限定的装置权利要求应当理解为主要通过说明书记载的计算机程序实现该解决方案的功能模块构架,而不应当理解为主要通过硬件方式实现该解决方案的实体装置。
本申请一实施例中还提供一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现所述的样本筛选方法的步骤。
上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的样本筛选方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述样本筛选方法的技术方案的描述。
本申请一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现如前所述样本筛选方法的步骤。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的样本筛选方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述样本筛选方法的技术方案的描述。
本申请实施例公开了一种芯片,其存储有计算机指令,该指令被处理器执行时实现如前所述样本筛选方法的步骤。
上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本申请的内容,可作很多的修改和变化。本申请选取并具体描述这些实施例,是为了更好地解释本申请的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。