一种机器翻译引擎的构建方法、装置和设备

文档序号:8259 发布日期:2021-09-17 浏览:42次 英文

一种机器翻译引擎的构建方法、装置和设备

技术领域

本发明涉及机器翻译

技术领域

,特别涉及一种机器翻译引擎的构建方法、装置和设备。

背景技术

随着计算机计算能力的提升和多语言信息的爆发式增长,机器翻译在如今的翻译领域扮演着重要角色,实时为普通用户提供着便捷的翻译服务。现有的机器翻译(尤其是神经机器翻译)方法是通过大量的平行双语句对来进行模型训练的,且机器翻译训练所需要的双语数据一般都在千万级别。

垂直领域也可以称为细分领域,是指对产业做进一步纵向细分而成的领域,例如:汽车领域相对于机械领域而言是进一步细分的垂直领域,而SUV汽车领域相对于汽车领域而言是又进一步细分的垂直领域。然而在垂直领域中通过人工翻译获取的平行双语句对很少,难以获得大量高质量的平行双语句对,也就不足以训练出满足需要的翻译模型。

现有的在垂直领域中构建翻译模型方法是:首先使用现有的平行双语句对(粒度粗的语料)进行训练得到基础翻译模型;再使用机器翻译得到伪平行语料,将一端是细分语料一端是伪语料组成的平行双语句对(粒度细的语料)输入到基础翻译模型中进行训练,得到最终的翻译模型。

通过现有方式得到的上述翻译模型,因为伪语料是利用Back translation(回译也被称作“逆译”、“返译”等,是相对顺译(forward translation)而言的,是一种利用反向翻译引擎生成伪平行语料的技术)生成的,并不是真正由人工翻译得到的“真正的”语料,因此准确性无法保证,容易造成翻译模型的性能低,且在对垂直领域进行翻译时翻译结果往往不能达到人们的期望。

发明内容

鉴于现有技术中存在的技术缺陷和技术弊端,本发明实施例提供克服上述问题或者至少部分地解决上述问题的一种机器翻译引擎的构建方法、装置和设备。

作为本发明实施例的第一方面,涉及一种机器翻译引擎的构建方法,可以包括:

基于双语句对样本对神经网络翻译模型的编码器和解码器进行训练得到基础翻译模型;

基于源端单语样本对语言模型进行训练得到源端语言模型,基于目标端单语样本对语言模型进行训练得到目标端语言模型;

将所述基础翻译模型的编码器与所述源端语言模型融合为所述机器翻译引擎的编码器,将所述基础翻译模型的解码器与所述目标端语言模型融合为所述机器翻译引擎的解码器。

可选的,所述将所述基础翻译模型的编码器与所述源端语言模型融合为所述机器翻译引擎的编码器包括:

基于所述基础翻译模型的编码器与所述源端语言模型之间的具有相同功能的模型参数和模型节点进行所述融合。

可选的,所述将所述基础翻译模型的解码器与所述目标端语言模型融合为所述机器翻译引擎的解码器包括:

基于所述基础翻译模型的解码器与所述目标端语言模型之间的具有相同功能的模型参数和模型节点进行所述融合。

作为本发明实施例的第二方面,涉及第二种机器翻译引擎的构建方法,可以包括:

基于双语句对样本对神经网络翻译模型的编码器和解码器进行训练得到基础翻译模型;

将所述基础翻译模型的编码器与语言模型融合为源端语言模型,将所述基础翻译模型的解码器与语言模型融合为目标端语言模型;

基于源端单语样本对所述源端语言模型进行训练得到所述机器翻译引擎的编码器,基于目标端单语样本对所述目标端语言模型进行训练得到所述机器翻译引擎的解码器。

可选的,所述将所述基础翻译模型的编码器与语言模型融合为源端语言模型包括:

基于所述基础翻译模型的编码器与所述语言模型之间的具有相同功能的模型参数和模型节点进行所述融合。

可选的,所述将所述基础翻译模型的解码器与语言模型融合为目标端语言模型包括:

基于所述基础翻译模型的解码器与所述语言模型之间的具有相同功能的模型参数和模型节点进行所述融合。

作为本发明实施例的第三方面,涉及第三种器翻译引擎的构建方法,可以包括:

基于源端单语样本对语言模型进行训练得到源端语言模型,基于目标端单语样本对语言模型进行训练得到目标端语言模型;

将神经网络翻译模型的编码器与所述源端语言模型融合为基础翻译模型的编码器,将所述神经网络翻译模型的解码器与所述目标端语言模型融合为所述基础翻译模型的解码器;

基于双语句对样本对所述基础翻译模型的编码器和解码器进行训练得到所述机器翻译引擎的编码器和解码器。

可选的,所述将神经网络翻译模型的编码器与所述源端语言模型融合为基础翻译模型的编码器包括:

基于所述基础翻译模型的编码器与所述源端语言模型之间的具有相同功能的模型参数和模型节点进行所述融合。

可选的,所述将所述神经网络翻译模型的解码器与所述目标端语言模型融合为所述基础翻译模型的解码器包括:

基于所述基础翻译模型的解码器与所述目标端语言模型之间的具有相同功能的模型参数和模型节点进行所述融合。

作为本发明实施例的第四方面,涉及一种机器翻译方法,包括:将源端语言的待翻译文本输入到上述第一方面、第二方面或第三方面所述构建方法所构建的机器翻译引擎中,得到目标端语言的翻译后文本。

作为本发明实施例的第五方面,涉及一种病历翻译方法,包括:将源端语言的待翻译病历文本输入到上述第一方面、第二方面或第三方面所述构建方法所构建的机器翻译引擎中,得到目标端语言的翻译后病历文本。

作为本发明实施例的第六方面,涉及一种交通信息翻译方法,包括:将源端语言的待翻译交通信息文本输入到上述第一方面、第二方面或第三方面所述构建方法所构建的机器翻译引擎中,得到目标端语言的翻译后交通信息文本。

作为本发明实施例的第七方面,涉及一种自动驾驶方法,包括基于上述第六方面所述的交通信息翻译方法得到的翻译后交通信息文本进行自动驾驶。

作为本发明实施例的第八方面,涉及一种由上述第一方面、第二方面或第三方面所述构建方法所构建的机器翻译引擎。

作为本发明实施例的第九方面,涉及一种机器翻译引擎的构建装置,可以包括:

第一训练模块,用于基于双语句对样本对神经网络翻译模型的编码器和解码器进行训练得到基础翻译模型;

第二训练模块,用于基于源端单语样本对语言模型进行训练得到源端语言模型,基于目标端单语样本对语言模型进行训练得到目标端语言模型;

第一融合模块,用于将所述基础翻译模型的编码器与所述源端语言模型融合为所述机器翻译引擎的编码器,将所述基础翻译模型的解码器与所述目标端语言模型融合为所述机器翻译引擎的解码器。

具体的,第一融合模块,用于基于所述基础翻译模型的编码器与所述源端语言模型之间的具有相同功能的模型参数和模型节点进行所述融合;和,基于所述基础翻译模型的解码器与所述目标端语言模型之间的具有相同功能的模型参数和模型节点进行所述融合。

作为本发明实施例的第十方面,涉及第二种机器翻译引擎的构建装置,可以包括:

第三训练模块,用于基于双语句对样本对神经网络翻译模型的编码器和解码器进行训练得到基础翻译模型;

第二融合模块,用于将所述基础翻译模型的编码器与语言模型融合为源端语言模型,将所述基础翻译模型的解码器与语言模型融合为目标端语言模型;

第四训练模块,用于基于源端单语样本对所述源端语言模型进行训练得到所述机器翻译引擎的编码器,基于目标端单语样本对所述目标端语言模型进行训练得到所述机器翻译引擎的解码器。

具体的,第二融合模块,用于基于所述基础翻译模型的编码器与所述语言模型之间的具有相同功能的模型参数和模型节点进行所述融合。和,基于所述基础翻译模型的解码器与所述语言模型之间的具有相同功能的模型参数和模型节点进行所述融合。

作为本发明实施例的第十一方面,涉及第三种机器翻译引擎的构建装置,可以包括:

第五训练模块,用于基于源端单语样本对语言模型进行训练得到源端语言模型,基于目标端单语样本对语言模型进行训练得到目标端语言模型;

第三融合模块,用于将神经网络翻译模型的编码器与所述源端语言模型融合为基础翻译模型的编码器,将所述神经网络翻译模型的解码器与所述目标端语言模型融合为所述基础翻译模型的解码器;

第六训练模块,用于基于双语句对样本对所述基础翻译模型的编码器和解码器进行训练得到所述机器翻译引擎的编码器和解码器。

具体的,第三融合模块,用于基于所述基础翻译模型的编码器与所述源端语言模型之间的具有相同功能的模型参数和模型节点进行所述融合。和,基于所述基础翻译模型的解码器与所述目标端语言模型之间的具有相同功能的模型参数和模型节点进行所述融合。

作为本发明实施例的第十二方面,涉及一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时能够实现如上述第一方面、第二方面或第三方面所述的构建方法,或者能够实现如上述第四方面所述的机器翻译方法,或者能够如实现上述第五方面所述的病例翻译方法,或者能够实现如上述第六方面所述的交通信息翻译方法,或者能够实现如上述第七方面所述的自动驾驶方法。

作为本发明实施例的第十三方面,涉及一种计算机设备,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时能够实现如上述第一方面、第二方面或第三方面所述的构建方法,或者能够实现如上述第四方面所述的机器翻译方法,或者能够如实现上述第五方面所述的病例翻译方法,或者能够实现如上述第六方面所述的交通信息翻译方法,或者能够实现如上述第七方面所述的自动驾驶方法。

本发明实施例至少实现了如下技术效果:

本发明实施例通过基于源端单语样本对语言模型进行训练得到源端语言模型和基于目标端单语样本对语言模型进行训练得到目标端语言模型,从而分别完成针对源端语言模型和目标端语言模型多任务训练学习,且通过语言模型强大的学习能力,结合单语样本中上下文知识,使得源端语言模型和目标端学习模型把大量、无穷尽的无标注的自然语言文本利用起来,进而把大量语言学知识抽取出来编码到神经网络结构中。然后分别将基础翻译模型的编码器与源端语言模型融合为机器翻译引擎的编码器,将基础翻译模型的解码器与目标端语言模型融合为机器翻译引擎的解码器,使得在垂直领域中大量的单语数据应用到翻译模型之中,对通用数据和有限数据起到了有效补充作用,避免了语言学现象中覆盖不到、泛化能力较弱的现象,不仅使大量的单语数据得到了有效的利用,而且强化了机器翻译引擎的编码器和解码器。

可选的,本发明实施例提供的机器翻译引擎在进行翻译任务时能够有效保证翻译的准确性,提高了翻译引擎在垂直领域的性能,使翻译结果更符合用户的期望,提高了用户体验。

本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所记载的结构来实现和获得。

下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:

图1为本发明实施例1提供的第一种机器翻译引擎的构建方法的流程图;

图2为本发明实施例1提供的神经网络模型融合的结构示意图;

图3为本发明实施例1提供的第一种机器翻译引擎的构建装置的示意图;

图4为本发明实施例2提供的第二种机器翻译引擎的构建方法的流程图;

图5为本发明实施例2提供的第二种机器翻译引擎的构建装置的示意图;

图6为本发明实施例3提供的第三种机器翻译引擎的构建方法的流程图;

图7为本发明实施例3提供的第三种机器翻译引擎的构建装置的示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。

这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

术语解释:

单语:是指一种单一的语言,如:英语、法语、中文等。

双语:是指两种语言,如:英语和法语、英语和中文等。

双语句对:也可以称为平行双语句对,是互为翻译的两种语言的句对,例如,在中文与英文的双语句对中,“你好,我是中国人”和“Hello,I am a Chinese person”构成一个双语平行句对。

双语句对样本:是指由双语句对构成的语句对样本。

基础翻译模型:是指基于上述双语句对样本训练出的翻译模型。

神经网络翻译模型:也可以称为基于神经网络的机器翻译(Neutral MachineTranslation,简称:NMT)模型,是利用计算机神经网络技术将一种自然语言(源端语言)的语句转换为另一种自然语言(目标端语言)的模型,该模型中包括编码器和解码器,各自为一个循环神经网络,向编码器输入源端语言(例如:中文)的语句,从解码器输出目标端语言(例如:英文)的语句,从而达到翻译的目的。

语言模型:也可称为神经网络语言模型,是指根据语言客观事实进行语言抽象数学建模,从而成为语言模型与语言客观事实之间的关系模型。语言模型能够将自然语言转换为计算机所能理解的表示。

源端单语样本:是指与上述编码器的源端语言相对应的语言的语句样本。

源端语言模型:是指基于上述源端单语样本进行训练后得到的语言模型。

目标端单语样本:是指与上述解码器的目标端语言相对应的语言的语句样本。

目标端语言模型:是指基于上述目标端单语样本进行训练后得到的语言模型。

实施例1

本发明实施例提供了一种机器翻译引擎的构建方法,参照图1所示,可以包括以下步骤:

步骤S11、基于双语句对样本对神经网络翻译模型的编码器和解码器进行训练得到基础翻译模型。

步骤S12、基于源端单语样本对语言模型进行训练得到源端语言模型,基于目标端单语样本对语言模型进行训练得到目标端语言模型。

步骤S13、将基础翻译模型的编码器与源端语言模型融合为机器翻译引擎的编码器,将基础翻译模型的解码器与目标端语言模型融合为机器翻译引擎的解码器。

本发明实施例通过基于源端单语样本对语言模型进行训练得到源端语言模型和基于目标端单语样本对语言模型进行训练得到目标端语言模型,从而分别完成针对源端语言模型和目标端语言模型多任务训练学习,且通过语言模型强大的学习能力,结合单语样本中上下文知识,使得源端语言模型和目标端学习模型把大量、无穷尽的无标注的自然语言文本利用起来,进而把大量语言学知识抽取出来编码到神经网络结构中。然后分别将基础翻译模型的编码器与源端语言模型融合为机器翻译引擎的编码器,将基础翻译模型的解码器与目标端语言模型融合为机器翻译引擎的解码器,使得在垂直领域中大量的单语数据应用到翻译模型之中,对通用数据和有限数据起到了有效补充作用,避免了语言学现象中覆盖不到、泛化能力较弱的现象,不仅使大量的单语数据得到了有效的利用,而且强化了机器翻译引擎的编码器和解码器。

本发明实施例的上述步骤的详细介绍如下:

上述步骤S11是基于双语句对样本对神经网络翻译模型的编码器和解码器进行训练得到基础翻译模型。

其中,本发明实施例中的双语句对样本是指已经存在的双语句对样本数据,可以通过网络爬取(网络搜索数据)、数据购买等方式获得,但是该双语句对数据大多为通用领域的数据,并不是在垂直领域内的粒度细的语料数据。

所述神经网络翻译模型可以是现有的神经网络翻译模型可以是Seq2Seq模型(全称Sequence to Sequence)、Transformer模型,在神经网络翻译模型中包括有编码器-解码器框架。在进行翻译任务时,神经网络翻译模型接收一个序列作为输入,编码器将序列中的信息编码为中间表示,然后解码器解码中间表示为目标语言。编码器的作用是把一个不定长的输入序列转化成一个定长的背景数据值(背景数据值例如为背景向量cc),且该背景数据值包含了输入序列的信息。解码器是针对编码器最终输出的背景数据值进行解码,得到目标语言。

本步骤是使用已有的模型和/或已有的双语句对进行重新训练,得到基础翻译模型,在进行了重新训练之后,对模型的参数进行了调整修改,该步骤主要是通过重新训练对编码器的矩阵参数和解码器的矩阵参数进行调整。

在一个可选的实施方式中,上述基础翻译模型中还可以包括有注意力机制(Attention Mechanism)。注意力机制可以使得神经网络具备专注于其输入(或特征)子集的能力,即能够实现选择特定的输入。在计算能力有限情况下,注意力机制(AttentionMechanism)是为了解决信息超载问题而进行的一种资源分配方案,即将计算资源分配给更重要的任务。在此情形下的神经网络翻译模型可以包括:编码器(Encoder)、注意力机制(Attention Mechanism)和解码器(Decoder)几部分,输出是目标语言。

训练过程可采用例如反向传播(BP,Back Propagation)算法等神经网络的训练方法实现。BP算法的原理主要由两个环节即激励传播、权重更新反复循环迭代,直到网络的对输入的响应达到预定的目标范围为止。BP算法的学习过程由正向传播过程和反向传播过程组成。在正向传播过程中,输入信息通过输入层经隐含层,逐层处理并传向输出层。如果在输出层得不到期望的输出值,则取输出与期望的误差的平方和作为目标函数,转入反向传播,逐层求出目标函数对各神经元权值的偏导数,构成目标函数对权值数据的梯量,作为修改权值的依据,网络的学习在权值修改过程中完成。误差达到所期望值时,网络学习结束。

上述步骤S12是基于源端单语样本对语言模型进行训练得到源端语言模型,基于目标端单语样本对语言模型进行训练得到目标端语言模型。

其中,所述源端单语样本和目标端单语样本可以为同一垂直领域中的两种不同语言类型的单语样本,可以从该领域的新闻报道、网页信息等获得相应语言的单语样本。对语言模型进行训练的目的是使计算机对接收到的单语样本进行学习,在技术上表现为将单语样本转换为经训练后的神经网络的参数矩阵等形式。具体地,语言模型可以有NNLM语言模型、RNNLM语言模型、word2vec语言模型,ELMo语言模型等。

例如:在对机械领域中的细分领域汽车领域进行翻译引擎构建时,假设源端语言为英文,目标端语言为中文,从英文的新闻报道或网页中获取英文语句(例如包含“Benzecar”等英文词语)作为源端单语样本,相应地从中文的新闻报道或网页中获取中文语句(例如包含“奔驰汽车”等中文词语)作为源端单语样本。此时,计算机并不知道“Benze car”与“奔驰汽车”是相对应的双语句对,只是通过语言建模使源端语言模型学习到包含“Benzecar”的英文内容,使目标端语言模型学习到包含“奔驰汽车”的中文内容。

优选地,作为上述语言模型还可以使用功能更强的BERT语言模型,BERT(Bidirectional Encoder Representations from Transformers,来自转换器的双向编码器表示)语言模型旨在通过联合调节所有层中的上下文来预先训练深度双向表示,预训练的BERT语言模型可以通过一个额外的输出层进行微调(fine-tuning),适用于广泛任务的最先进模型的构建,比如问答任务和语言推理,使用时无需针对具体任务做大幅架构修改。BERT语言模型具有如下优点:提出的多层Transformer结构,抛弃了传统的RNN和CNN,通过Attention机制将任意位置的两个单词的距离转换成1,有效的解决了NLP中棘手的长期依赖问题,能更彻底的捕捉语句中的双向关系;使用了Mask Language Model(简称MLM,遮罩语言模型)和Next Sentence Prediction(简称NSP,预测下一个句子)的多任务训练目标;使用更强大的机器训练更大规模的数据,使BERT的结果达到了全新的高度,并且用户可以直接使用BERT作为Word2Vec的转换矩阵并高效的将其应用到自己的任务中。

优选地,作为上述语言模型还可以使用功能更强的GPT语言模型,GPT语言模型,具有如下优点:循环神经网络所捕捉到的信息较少,而Transformer可以捕捉到更长范围的信息;计算速度比循环神经网络更快,易于并行化;实验结果显示Transformer的效果比ELMo语言模型和LSTM语言模型网络更好。

此处需要说明的是,上述步骤S11与步骤S12执行顺序不分先后,先执行步骤S11和先执行步骤S12都可以,当然也可以同时执行,本发明实施例对此不做具体限定。

上述步骤S13是将基础翻译模型的编码器与源端语言模型融合为机器翻译引擎的编码器,将基础翻译模型的解码器与目标端语言模型融合为机器翻译引擎的解码器。

其中,所述融合是指基于预设的策略将多个神经网络合并成一个神经网络的过程。具体的,在本步骤中,可以基于基础翻译模型的编码器与源端语言模型之间的具有相同功能的模型参数和模型节点进行融合,并基于基础翻译模型的解码器与目标端语言模型之间的具有相同功能的模型参数和模型节点进行融合。

其中,所述相同功能的模型参数和模型节点即多个神经网络中可以作为共享参数和共享节点。例如本发明实施例中基础翻译模型的编码器和源端语言模型的wordembedding,encode参数等可以作为相同功能的模型参数。

例如,参照图2所示,本发明实施例是将训练得到的源端语言模型和目标端语言模型分别融合到基础翻译模型的编码器和解码器的神经网络之中。两个神经网络中分别训练出两组参数矩阵,这两组参数矩阵中功能相同的参数和节点叠加到一起且共享的参数保持一致,不共享的参数各自维持原有值。

其中,假设基础翻译模型的编码器中有节点A1~A6,语言模型中有节点B1~B6,其中的节点A5与B4为具有相同功能的节点,节点A1与A5之间的模型参数a15与节点B1与B4之间的模型参数b14是具有相同功能的模型参数,节点A3与A5之间的模型参数a35与节点B3与B4之间的模型参数b34是具有相同功能的模型参数。在进行融合时,将具有相同功能的节点重叠在一起,丢弃一份模型参数,保留另一份模型参数,从而成为整合的神经网络。

通过将训练后的语言模型与训练后的翻译模型分别在源端和目标端进行融合,使得机器翻译引擎在无法获得垂直领域中的双语句对的情况下也能实现针对垂直领域相关内容的翻译。例如,在上述的汽车领域翻译中,在源端学习到了“Benz is a famous Germancar brand”、“Benz cars have very good quality”等大量的英文相关内容,在目标端学习到了“奔驰是著名的德国汽车品牌”、“奔驰车的质量很好”等大量的中文相关内容。虽然机器翻译引擎事先不知道“Benz”与“奔驰”是相对应的双语句对,但除此之外的其他语句部分都是基本翻译模型已经被训练好的通用语句部分,再结合语言模型的大量学习结果,机器翻译引擎便能够一定概率上确定上述英文上述中文的对应关系,从而实现翻译。

本发明实施例提供的上述方法构建的机器翻译引擎在进行翻译任务时能够有效保证翻译的准确性,提高了翻译引擎在垂直领域的性能,使翻译结果更符合用户的期望,提高了用户体验。

由于单语样本获取的过程相对简单高效,且量级大,因此通过利用大规模领域内单语数据,缓解了垂直领域中双语数据量少,避免无法提供足够的翻译引擎训练数据,从而导致无法将垂直领域翻译模型的质量提升到足够高的水平的技术问题。本步骤中主要目的是基于大量的单语数据对语言模型进行训练学习,利用语言模型强大的学习能力,结合单语数据中上下文知识,把大量的无标注的自然语言文本利用起来,从而可以应用到翻译模型中。

基于同一发明构思,本发明实施例提供了一种机器翻译引擎的构建装置,参照图3所示,可以包括:第一训练模块11、第二训练模块12和第一融合模块13,其工作原理如下:

第一训练模块11基于双语句对样本对神经网络翻译模型的编码器和解码器进行训练得到基础翻译模型。

第二训练模块12基于源端单语样本对语言模型进行训练得到源端语言模型,基于目标端单语样本对语言模型进行训练得到目标端语言模型。

第一融合模块13将所述基础翻译模型的编码器与所述源端语言模型融合为所述机器翻译引擎的编码器,将所述基础翻译模型的解码器与所述目标端语言模型融合为所述机器翻译引擎的解码器。

在一个具体的实施例中,第一融合模块13基于所述基础翻译模型的编码器与所述源端语言模型之间的具有相同功能的模型参数和模型节点进行所述融合;和,基于所述基础翻译模型的解码器与所述目标端语言模型之间的具有相同功能的模型参数和模型节点进行所述融合。

本实施例所述装置的技术效果及相关举例说明可参见上述方法实施例的相关内容,此处不再赘述。

实施例2

实施例1中对翻译模型的训练和对语言模型的训练是各自分开独立进行,没有先后顺序关系;而本实施例提供了另一种机器翻译引擎的构建方法,先对翻译模型进行训练,之后在训练好的翻译模型基础之上再进行语言模型的训练,参照图4所示,可以包括以下步骤:

步骤S21、基于双语句对样本对神经网络翻译模型的编码器和解码器进行训练得到基础翻译模型。

步骤S22、将基础翻译模型的编码器与语言模型融合为源端语言模型,将基础翻译模型的解码器与语言模型融合为目标端语言模型。

在一个具体的实施例中,将基础翻译模型的编码器与语言模型融合为源端语言模型包括:基于基础翻译模型的编码器与语言模型之间的具有相同功能的模型参数和模型节点进行融合。

在另一个具体的实施例中,将基础翻译模型的解码器与语言模型融合为目标端语言模型包括:基于基础翻译模型的解码器与语言模型之间的具有相同功能的模型参数和模型节点进行融合。

具体的整合过程可参见上述图2的举例说明,此处不再赘述。

步骤S23、基于源端单语样本对源端语言模型进行训练得到机器翻译引擎的编码器,基于目标端单语样本对目标端语言模型进行训练得到机器翻译引擎的解码器。

本发明实施例的相关举例说明和有益效果参照实施例1中的内容,在此不再赘述。

需要说明的是,与实施例1相比,本发明实施例2是先利用已有的平行双语句对和模型训练得出基础翻译模型的编码器和解码器的神经网络,然后将编码器的神经网络和解码器的神经网络分别与未经过训练的语音模型进行融合形成新的神经网络模型结构,最后再对融合后的编码器(源端语言模型)和融合后的解码器(目标端语言模型)以大量垂直领域源端单语样本数据和目标端单语样本数据为基础分别进行训练,最终强化了机器翻译引擎的编码器和解码器。本发明通过神经网络的融合,能够将垂直领域中大量的单语数据应用到翻译模型中,不仅使大量的单语数据得到了有效的利用,而且生成的机器翻译引擎在进行翻译任务时能够有效保证翻译的准确性,提高了翻译引擎在垂直领域的性能,使翻译结果更符合用户的期望,提高了用户体验。

基于同一发明构思,本发明实施例提供了另一种机器翻译引擎的构建装置,参照图5所示,可以包括:第三训练模块21、第二融合模块22和第四训练模块23,其工作原理如下:

第三训练模块21基于双语句对样本对神经网络翻译模型的编码器和解码器进行训练得到基础翻译模型。

第二融合模块22将所述基础翻译模型的编码器与语言模型融合为源端语言模型,将所述基础翻译模型的解码器与语言模型融合为目标端语言模型.

具体的,第二融合模块22基于所述基础翻译模型的编码器与所述语言模型之间的具有相同功能的模型参数和模型节点进行所述融合。和,基于所述基础翻译模型的解码器与所述语言模型之间的具有相同功能的模型参数和模型节点进行所述融合。

第四训练模块23基于源端单语样本对所述源端语言模型进行训练得到所述机器翻译引擎的编码器,基于目标端单语样本对所述目标端语言模型进行训练得到所述机器翻译引擎的解码器。

本实施例所述装置的技术效果及相关举例说明可参见上述方法实施例的相关内容,此处不再赘述。

实施例3

实施例2中先对翻译模型进行训练,之后在训练好的翻译模型基础之上再进行语言模型的训练;而本实施例提供了再一种机器翻译引擎的构建方法,先对语言模型进行训练,之后在训练好的语言模型基础之上再进行翻译模型的训练,参照图6所示,可以包括以下步骤:

步骤S31、基于源端单语样本对语言模型进行训练得到源端语言模型,基于目标端单语样本对语言模型进行训练得到目标端语言模型。

步骤S32、将神经网络翻译模型的编码器与所述源端语言模型融合为基础翻译模型的编码器,将所述神经网络翻译模型的解码器与所述目标端语言模型融合为所述基础翻译模型的解码器。

在一个具体的实施例中,所述将神经网络翻译模型的编码器与所述源端语言模型融合为基础翻译模型的编码器包括:基于所述基础翻译模型的编码器与所述源端语言模型之间的具有相同功能的模型参数和模型节点进行所述融合。

在另一个具体的实施例中,所述将所述神经网络翻译模型的解码器与所述目标端语言模型融合为所述基础翻译模型的解码器包括:基于所述基础翻译模型的解码器与所述目标端语言模型之间的具有相同功能的模型参数和模型节点进行所述融合。

具体的整合过程可参见上述图2的举例说明,此处不再赘述。

步骤S33、基于双语句对样本对所述基础翻译模型的编码器和解码器进行训练得到所述机器翻译引擎的编码器和解码器。

本步骤中的术语解释、相关举例说明以及有益效果参照实施例1中的步骤S11中的描述部分,在此不再赘述。

本发明实施例3提供的上述方法需要说明的是,与实施例1相比,本发明实施例3是先基于垂直领域大量的源端单语样本和目标端单语样本分别对语言模型进行训练,分别得到源端语言模型和目标端语言模型;然后将源端语言模型神经网络和目标端语言模型神经网络分别与未经训练的神经网络翻译模型的编码器神经网络和解码器神经网络融合处理,形成新的包含有大量单语数据的基础翻译模型的编码器神经网络和解码器神经网络;最后在基于已有的平行双语句对样本对基础翻译模型的编码器和解码器进行训练得到机器翻译引擎的编码器和解码器。本发明通过神经网络的融合,能够将垂直领域中大量的单语数据应用到翻译模型中,不仅使大量的单语数据得到了有效的利用,而且生成的机器翻译引擎在进行翻译任务时能够有效保证翻译的准确性,提高了翻译引擎在垂直领域的性能,使翻译结果更符合用户的期望,提高了用户体验。

基于同一发明构思,本发明实施例提供了再一种机器翻译引擎的构建装置,参照图7所示,可以包括:第五训练模块31,第三融合模块32和第六训练模块33,其工作原理如下:

第五训练模块31基于源端单语样本对语言模型进行训练得到源端语言模型,基于目标端单语样本对语言模型进行训练得到目标端语言模型。第三融合模块32将神经网络翻译模型的编码器与所述源端语言模型融合为基础翻译模型的编码器,将所述神经网络翻译模型的解码器与所述目标端语言模型融合为所述基础翻译模型的解码器。第六训练模块33基于双语句对样本对所述基础翻译模型的编码器和解码器进行训练得到所述机器翻译引擎的编码器和解码器。

具体的,第三融合模块32基于所述基础翻译模型的编码器与所述源端语言模型之间的具有相同功能的模型参数和模型节点进行所述融合。和,基于所述基础翻译模型的解码器与所述目标端语言模型之间的具有相同功能的模型参数和模型节点进行所述融合。

本实施例所述装置的技术效果及相关举例说明可参见上述方法实施例的相关内容,此处不再赘述。

实施例4

本实施例提供了一种机器翻译方法,包括:将源端语言的待翻译文本输入到上述构建方法所构建的机器翻译引擎中,得到目标端语言的翻译后文本。

本发明实施例中的举例说明参数上述实施例中的内容,在此不再赘述。

现有的机器翻译方法中只能在通用领域进行准确的翻译,并不能在垂直领域完成精准的翻译任务,本实施例通过对翻译模型的编码器和解码器的神经网络融合语言学习模型生成能够在垂直领域进行训练的编码器和解码器,然后基于大量的源端单语样本数据和目标端单语样本数据生成新的机器翻译模型。最终在进行翻译任务时,能够有效保证翻译的准确性,提高了翻译引擎在垂直领域的性能,使翻译结果更符合用户的期望,提高了用户体验。

实施例5

本实施例提供了一种病历翻译方法,包括:将源端语言的待翻译病历文本输入到上述构建方法所构建的机器翻译引擎中,得到目标端语言的翻译后病历文本。

因为医疗领域的病例中的词汇专业性较强,普通的机器翻译已经不能达到用户的需求,本发明实施例翻译的病例可以用于诊断治疗、病例诊断等。最终在进行翻译任务时,能够有效保证翻译的准确性,提高了翻译引擎在垂直领域的性能,使翻译结果更符合用户的期望,提高了用户体验。

实施例6

本发明实施例提供了一种交通信息翻译方法,包括:将源端语言的待翻译交通信息文本输入到上述构建方法所构建的机器翻译引擎中,得到目标端语言的翻译后交通信息文本。例如翻译各国的各种语言的交通事故记录,从而总结出避免交通事故的方法,以便提高自动驾驶的安全性。

在交通领域中,专业的词汇很多,普通的机器翻译不能满足用户需求,且对于交通法规的准确翻译能够有效帮助用户遵守交通规则,或者帮助自动驾驶机器人更快做出翻译,例如翻译获取的指示牌信息可以帮助自动驾驶机器人更快获得道路前方的交通状况。在进行翻译任务时,能够有效保证翻译的准确性,提高了翻译引擎在垂直领域的性能,使翻译结果更符合用户的期望,提高了用户体验。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

完整详细技术资料下载
上一篇:石墨接头机器人自动装卡簧、装栓机
下一篇:手术文书生成方法、装置、计算机设备及存储介质

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!