生成式文本摘要系统和方法
技术领域
本公开涉及生成式文本摘要系统和方法。
背景技术
文本摘要策略倾向于采用机器学习算法来生成较大文本的简明摘要。例如,文本摘要可以用于为较长的新闻文章或可能长达数十至数百页的文本文章生成较短的段落摘要。所采用的机器学习需要筛选冗余或不重要的信息,并生成准确传达较大文本含义的摘要。
发明内容
公开了一种用于生成式文本摘要模型的系统和方法。该模型可以接收输入文本数据集,并为将被选择以包含在文本摘要中的一个或多个候选单词扩大搜索空间。该模型可以包括使用最佳优先搜索算法(best-first search algorithm)在搜索空间内对一个或多个候选单词进行排名。该模型还可以使用软界限单词奖励(soft-bound word-reward,SBWR)算法对将包括在文本摘要中的一个或多个候选单词进行重新排名。设想,当文本摘要超过预测长度阈值时,SBWR算法可以对一个或多个候选单词应用递减的奖励值。当文本摘要在预测长度阈值以下时,SBWR算法还可以将增加的奖励值应用于一个或多个候选单词。当文本摘要等于预测长度阈值时,SBWR算法可以进一步选择一个或多个候选单词。
该模型可以使用sigmoid函数进一步使递减的奖励值和增加的奖励值平滑。可以使用被训练来选择将被包括在文本摘要中的一个或多个候选单词的值来对递减的奖励值和增加的奖励值进行缩放。此外,当输入文本数据集超过预定义的长度阈值时,可以对一个或多个候选单词进行重新排名。
可以计算BP标准化,以对不满足预测长度阈值的一个或多个候选单词应用惩罚。可以通过将简短惩罚的对数值与长度标准化评分函数相加来计算BP标准化。此外,简短惩罚可以被设计成使得生成式文本摘要模型不从输入文本数据集产生短的翻译。简短惩罚还可以包括将简短惩罚减少到零的复制率值。
还可以使用包括编码器机器学习算法和解码器机器学习算法的变换器神经模型来训练生成式文本摘要模型。在训练序列期间,输入文本数据集可以被输入到编码器机器学习算法;并且目标摘要文本数据集可以被输入到解码器机器学习算法。变换器神经模型还可以使用一个或多个源标记来确定用于一个或多个目标摘要标记的概率值。
附图说明
图1是采用生成式文本摘要神经模型的示例性系统。
图2是采用生成式文本摘要神经模型的示例性流程图。
图3是用于实现最佳优先搜索策略的示例性源代码部分。
图4是用于训练生成式文本摘要神经模型的变换器神经模型的示例性实施例。
具体实施方式
本文描述了本公开的实施例。然而,将理解,所公开的实施例仅仅是示例,并且其他实施例可以采取各种形式和替代形式。各图不一定是按比例的;一些特征可以被放大或最小化以示出特定部件的细节。因此,本文公开的具体结构和功能细节不应被解释为限制性的,而仅作为教导本领域技术人员以各种方式采用实施例的代表性基础。如本领域普通技术人员将理解的,参考任何一个附图图示和描述的各种特征可以与一个或多个其他图中图示的特征相组合,以产生没有明确图示或描述的实施例。图示特征的组合为典型应用提供了代表性实施例。然而,与本公开的教导一致的特征的各种组合和修改对于特定的应用或实现可以是期望的。
文本摘要通常是缩减较大文本(例如,长新闻文章)以生成包括原始输入文本数据集的上下文准确内容的摘要的过程。为了生成准确的摘要,各种算法可以试图计及原始文本的长度、写作风格和语法。用于执行文本摘要的两种已知方法包括提取摘要和生成(即,抽象)摘要。提取式摘要通常通过选择和使用来自原始文本的句子作为摘要的一部分来操作。
替代地,生成式摘要可以构建内部语义表示,并使用自然语言生成技术从原始文本创建抽象式目标摘要。因此,生成式摘要系统可以创建比提取式摘要更准确的抽象式目标摘要。此外,生成式摘要可以创建更抽象式的摘要,并表述与原始文本更紧密相似的含义。
设想,采用单词嵌入和编码器-解码器结构的变换器神经框架可以用于改进生成式摘要系统的输出摘要。在解码阶段期间,可以生成多个摘要假设作为候选,供系统选择作为摘要输出。如果搜索策略采用已知的“波束搜索”算法,则可能的输出候选可能看起来彼此相像,只是在给定的单词上有微小的变化。因此,还设想,可以采用不同的策略,其中可以首先扩大摘要候选的搜索空间。
例如,可以采用最佳优先搜索算法来扩大搜索空间,从而生成更多样化的候选。一旦多样化,就可以选择对信息具有不同风格或不同强调的候选摘要。然后可以采用重新排名方法来选择最佳候选作为输出。重新排名方法可以采用软界限单词奖励(SBWR)算法,该软界限单词奖励(SBWR)算法选择最佳候选作为用于摘要的输出。
图1图示了可以用于采用生成式文本摘要神经模型的示例性系统100。系统100可以包括至少一个计算设备102。计算系统102可以包括可操作地连接到存储器单元108的至少一个处理器104。处理器104可以是实现处理单元(PU)106的功能的一个或多个集成电路。PU 106可以是商业上可获得的中央处理单元(CPU),其实现诸如x86、ARM、Power或MIPS指令集家族之一的指令。或者,处理单元106可以是商业上可获得的图形处理单元(GPU),其由数百个可操作来同时处理大量并行任务(即,并行计算)的内核组成。
在操作期间,PU 106可以执行从存储器单元108检索的存储的程序指令。存储的程序指令可以包括控制PU 106的操作以执行本文描述的操作的软件。在一些示例中,处理器104可以是片上系统(SoC),其将PU 106、存储器单元108、网络接口和输入/输出接口的功能集成到单个集成设备中。计算系统102可以实现用于管理操作的各个方面的操作系统。
存储器单元108可以包括用于存储指令和数据的易失性存储器和非易失性存储器。非易失性存储器可以包括诸如NAND闪存、磁和光存储介质之类的固态存储器,或者当计算系统102被停用或失去电力时保留数据的任何其他合适的数据存储设备。易失性存储器可以包括存储程序指令和数据的静态和动态随机存取存储器(RAM)。例如,存储器单元108可以存储机器学习模型110或算法、机器学习模型110的训练数据集112和/或原始源数据115。
计算系统102可以包括网络接口设备122,网络接口设备122被配置为提供与外部系统和设备的通信。例如,网络接口设备122可以包括如由电气和电子工程师协会(IEEE)802.11标准家族定义的有线和/或无线以太网接口。网络接口设备122可以包括用于与蜂窝网络(例如,3G、4G、5G)通信的蜂窝通信接口。网络接口设备122可以进一步被配置为向外部网络124或云提供通信接口。
外部网络124可以被称为万维网或因特网。外部网络124可以在计算设备之间建立标准通信协议。外部网络124可以允许信息和数据在计算设备和网络之间容易地交换。一个或多个服务器130可以与外部网络124通信。
计算系统102可以包括输入/输出(I/O)接口120,其可以被配置为提供数字和/或模拟输入和输出。I/O接口120可以包括用于与外部设备通信的附加串行接口(例如,通用串行总线(USB)接口)。
计算系统102可以包括人机界面(HMI)设备118,人机界面(HMI)设备118可以包括使得系统100能够接收控制输入的任何设备。输入设备的示例可以包括诸如键盘、鼠标、触摸屏、语音输入设备和其他类似设备的人机界面输入。计算系统102可以包括显示设备132。计算系统102可以包括用于向显示设备132输出图形和文本信息的硬件和软件。显示设备132可以包括电子显示屏、投影仪、打印机或者用于向用户或操作员显示信息的其他合适的设备。计算系统102可以进一步被配置为允许经由网络接口设备122与远程HMI和远程显示设备进行交互。
系统100可以使用一个或多个计算系统来实现。虽然该示例描绘了实现所描述的特征的单个计算系统102,但是意图是各种特征和功能可以由彼此通信的多个计算单元来分离和实现。所选择的架构可以取决于多种因素。
系统100可以实现被配置为分析原始源数据115(或数据集)的机器学习算法110。原始源数据115可以包括原始的或未处理的传感器数据,其可以代表用于机器学习系统的输入数据集。原始源数据115可以包括视频、视频片段、图像和原始或部分处理的传感器数据(例如,来自数码相机或LiDAR传感器的数据)。在一些示例中,机器学习算法110可以是神经网络算法(例如,变换器、CNN、RNN或DNN),其可以被设计成执行预定功能。
图2图示了采用生成式文本摘要神经模型的示例性流程图200。流程图200可以从框202开始,在框202,可以提供纯文本数据集作为至生成式摘要系统的输入。数据集可以是从键盘提供的文本,或者该文本可以从存储在存储器118内的一个或多个文档提供。文本也可以是从外部网络124提供的网页或文档。
流程图然后可以行进到框204,在框204,可以采用解码阶段来基于输入的文本数据集确定最佳输出摘要。设想,可以采用“波束搜索”算法从序列标记解码过程确定近似最优解。优选地,可以采用有利于给定候选(即,可能的选择)的最佳优先搜索策略(例如,贪婪的最佳优先搜索或纯启发式搜索),并且然后可以将最佳分数分配给候选。
图3图示了用于实现最佳优先搜索策略的示例性源代码部分。如图示的,最佳优先搜索策略可以采用维护输入文本的部分摘要的优先级堆。可以根据启发式函数对部分摘要进行评分。最佳优先搜索算法可以迭代地采用评分最高的部分摘要,并将部分摘要扩展一个单词。然后可以将新扩展的摘要序列放置(即,推送)回到优先级堆。最佳优先搜索策略还可以为新的摘要序列生成前k个数量的候选。设想,可以通过选择生成最高概率分数(P)的单词并将所选择的单词迭代地附加到部分摘要(y)来生成前k。可以使用下面的等式1生成最高概率:
。
其中最高概率分数(P)的对数值可以使用基于输入文本(x)的逐位“或(OR)”函数将部分摘要()的所选单词附加到当前部分摘要(y j )。
流程图然后可以行进到框206,在框206,对摘要候选采用重新排名过程,并且选择生成最佳结果的候选。设想,在扩大搜索空间以提供一个或多个多样化候选的最佳优先搜索过程之外,重新排名过程可能仍然有必要对候选进行排名。
例如,在文本摘要期间要考虑的一个重要方面是输入文本数据的长度(例如,输入文本句子或字符串的长度)。最佳优先搜索策略通常将针对更短长度的候选提供增强的结果(即,更高的输出分数)。但是,短的摘要可能太抽象,并且可能丢失来自原始文本的关键信息。事实上,在某些应用中,仅包括几个单词的过于短的摘要可能不是信息性的摘要,即使最佳优先搜索策略可以使用上面的等式1生成高对数分数。
可以采用调整术语频率或相关性分数的长度标准化,以使文本长度对文档排名的影响标准化。可以特别地采用长度标准化,使得考虑更长的文本字符串或语句进行重新排名。一般理解,长度标准化可以提供比波束搜索算法更好的结果。然后可以计算简短惩罚(BP)标准化值(),以确保输入文本适合摘要任务。BP-范数值也可以对不满足预定义预期长度的摘要应用惩罚。BP-范数算法可以通过将简短惩罚的对数值()与长度标准化评分函数()相加来计算,如在下面等式2中所示:
[等式2]
其中x是可以定义为的输入序列,并且y是可以定义为的输出假设。设想,可以使用下面的等式3来计算可以用于惩罚短翻译的简短惩罚(bp):
[等式3]
其中r是复制率,其可以包括按因子c缩放的在源文本中看到的摘要标记的百分比。设想,当复制率r被设置为1时,惩罚可以减少到接近或等于0的值。惩罚项可以进一步修改,以使其更喜欢具有来自源文本的更多复制内容的摘要,如下面的等式4A和4B所示:
[等式4a]
[等式4b]
计算的惩罚项可以直接转化为乘以对数似然分数的系数。接下来,可以采用软界限单词奖励(SBWR)算法来对候选重新排名,如下面的等式5所示:
[等式5]
SWBR算法可以在摘要中给每个单词分配奖励。如果解码的摘要长度大于预测的长度阈值(即,),则SWBR算法将对添加的单词应用递减的奖励。奖励的递减可以定义为。当解码的摘要长度短于预期的阈值(即,)时,SWBR算法将奖励每个单词。预期SWBR算法可能更喜欢最接近预测长度()的候选。此外,sigmoid函数可以用于使奖励值平滑,并且系数(r)可以用于对根据验证数据调谐的总奖励进行缩放。流程图然后可以行进到框208,在框208,基于通过SWBR算法接收最高奖励的单词来生成输出文本摘要。
图4图示了可以用于训练生成式文本摘要神经模型的变换器神经模型400的示例性实施例。变换器神经模型400可以包括编码器结构404和解码器结构408。为了训练该系统,可以将输入源文本402——其可以包括一系列标记——输入到编码器模块404中。此外,可以将目标摘要文本406——其也可以包括一系列文本或文本串——输入到解码器结构408中。设想,给定如下面的等式6所示的源标记序列,变换器神经模型400可以确定目标摘要标记的概率:
[等式6]
其中y是可以定义为的目标摘要标记,并且x是可以定义为的源标记序列。
图4还图示了在训练阶段期间,输入(源)文本402和目标摘要文本406都可以作为训练实例给出,以使损失函数或观察给定训练实例集的最大可能性最大化。在解码阶段中,给定由变换器神经模型400学习的参数,生成式摘要系统可以使用下面的等式7来确定输出(y):
[等式7]。
本文公开的过程、方法或算法可以被可递送到处理设备、控制器或计算机/由处理设备、控制器或计算机实现,处理设备、控制器或计算机可以包括任何现有的可编程电子控制单元或专用电子控制单元。类似地,过程、方法或算法可以以多种形式存储为可由控制器或计算机执行的数据和指令,其包括但不限于永久存储在诸如ROM设备的不可写存储介质上的信息和可替换地存储在诸如软盘、磁带、CD、RAM设备以及其他磁性和光学介质的可写存储介质上的信息。过程、方法或算法也可以在软件可执行对象中实现。替代地,可以使用合适的硬件组件——诸如专用集成电路(ASIC)、现场可编程门阵列(FPGA)、状态机、控制器——或者其他硬件组件或设备,或者硬件、软件和固件组件的组合,来整体或部分地体现过程、方法或算法。
虽然上面描述了示例性实施例,但是不意图这些实施例描述权利要求所包含的所有可能的形式。说明书中使用的词语是描述性的词语,而不是限制性的词语,并且应当理解,在不脱离本公开的精神和范围的情况下,可以进行各种改变。如先前所述,各种实施例的特征可以被组合以形成可能没有被明确描述或图示的本发明的另外实施例。虽然各种实施例可能已经被描述为在一个或多个期望的特性方面提供了优于其他实施例或现有技术实现的优点或者比其他实施例或现有技术实现优选,但是本领域的普通技术人员认识到,一个或多个特征或特性可以被折衷以实现期望的总体系统属性,这取决于具体的应用和实现。这些属性可以包括但不限于成本、强度、耐用性、生命周期成本、适销性、外观、包装、尺寸、适用性、重量、可制造性、组装容易性等。照此,就一个或多个特性而言,在任何实施例都被描述为不如其他实施例或现有技术实现合期望的程度上,这些实施例不在本公开的范围之外,并且对于特定应用可以是合期望的。