模型训练方法、信息提取方法、相关装置及存储介质

文档序号:8210 发布日期:2021-09-17 浏览:34次 英文

模型训练方法、信息提取方法、相关装置及存储介质

技术领域

本申请涉及计算机

技术领域

,尤其涉及一种模型训练方法、信息提取方法、相关装置及存储介质。

背景技术

目前互联网的普及率越来越高,网民数量也不断增加,越来越多的人通过视频等多模态数据来记录并且分享生活。在创作短视频过程中不仅需要准备视频内容、音频内容以及文字,而且还需要考虑如何生成高质量的文案或标题吸引更多的用户观看。目前的文案生成方法主要是通过人工编写等方式生成,通常会导致生成的文案质量低、生成效率低等问题。

发明内容

本申请实施例提供了一种模型训练方法、信息提取方法、相关装置及存储介质,可以快速准确地提取目标信息。

为解决以上技术问题,本申请包括以下技术方案:

第一方面,本申请实施例提供了一种模型训练方法,所述方法包括:

获取N个样本数据;每个所述样本数据包括M种类别的子数据;其中,N个所述样本数据包括的所述M种类别的子数据对应M×N个子数据对,每个所述子数据对包括M个子数据,每个所述子数据所属的类别不同,每个子数据对包括的M个子数据之间对应一个关联关系,每个所述样本数据包括的M种类别的子数据相互关联,所述M和N均为大于或等于2的正整数;

将所述M×N个子数据对输入到预设模型中进行训练,生成每种类别的子数据各自对应的预训练模型;其中,所述预设模型用于计算每个子数据对包括的M个子数据之间的相似度,并根据所述M×N个子数据对各自包括的M个子数据之间的相似度确定每一种数据类别各自对应的向量表示空间。

第二方面,本申请实施例提供了一种信息提取方法,所述方法包括:

获取待处理数据,所述待处理数据包括至少一种类别的待处理子数据;

将所述至少一种类别的待处理子数据输入到各个所述待处理子数据的类别各自对应的预训练模型中,得到所述待处理数据对应的向量信息;其中,所述预训练模型为采用权利要求1所述的模型训练方法得到的预训练模型;

根据所述向量信息提取所述待处理数据携带的目标信息。

第三方面,本申请实施例提供了一种模型训练装置,所述装置包括:

第一获取模块,用于获取N个样本数据;每个所述样本数据包括M种类别的子数据;其中,N个所述样本数据包括的所述M种类别的子数据对应M×N个子数据对,每个所述子数据对包括M个子数据,每个所述子数据所属的类别不同,每个子数据对包括的M个子数据之间对应一个关联关系,每个所述样本数据包括的M种类别的子数据相互关联,所述M和N均为大于或等于2的正整数;

训练模块,用于将所述M×N个子数据对输入到预设模型中进行训练,生成每种类别的子数据各自对应的预训练模型;其中,所述预设模型用于计算每个子数据对包括的M个子数据之间的相似度,并根据所述M×N个子数据对各自包括的M个子数据之间的相似度确定每一种数据类别各自对应的向量表示空间。

第四方面,本申请实施例提供了一种信息提取装置,所述装置包括:

第二获取模块,用于获取待处理数据,所述待处理数据包括至少一种类别的待处理子数据;

输出模块,用于将所述至少一种类别的待处理子数据输入到各个所述待处理子数据的类别各自对应的预训练模型中,得到所述待处理数据对应的向量信息;其中,所述预训练模型为采用权利要求1所述的模型训练方法得到的预训练模型;

提取模块,用于根据所述向量信息提取所述待处理数据携带的目标信息。

第五方面,本申请提供了另一种模型训练装置,所述装置包括处理器、存储器以及通信接口:

所述处理器与所述存储器、所述通信接口相连;

所述存储器,用于存储可执行程序代码;

所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于执行如上述第一方面所述的模型训练方法。

第六方面,本申请提供了另一种信息提取装置,所述装置包括处理器、存储器以及通信接口:

所述处理器与所述存储器、所述通信接口相连;

所述存储器,用于存储可执行程序代码;

所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于执行如上述第二方面所述的信息提取方法。

第七方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如上述第一方面所述的模型训练方法或第二方面所述的信息提取方法。

本申请实施例通过大量的包含多种类别的子数据的样本数据对预设模型进行训练,生成每一种类别的子数据对应的预训练模型,在用户使用过程中,将原始数据输入到预训练模型中,获取原始数据对应的向量信息,最后通过预设的信息提取模型提取原始数据对应的目标信息。采用本申请提供的模型训练方法,利用对比学习的思想来构建预训练模型,生成多种不同类别的原始数据各自对应的向量信息,获得了对原始数据更加准确简短的表示方法,再根据获取的向量信息提取目标信息,使得提取的目标信息质量更高,实现了从原始数据中快速准确地提取目标信息,解决了现有的通过人工编写等方式提取的信息导致提取的信息质量低、生成效率低等问题。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种应用场景示意图;

图2是本申请实施例提供的一种模型训练方法的流程示意图;

图3是本申请实施例提供的一种子数据对的构建方法示意图;

图4是本申请实施例提供的一种双塔模型的向量表示空间示意图;

图5是本申请实施例提供的一种编码器的结构示意图;

图6是本申请实施例提供的一种信息提取方法的流程示意图;

图7是本申请实施例提供的一种解码器的结构示意图;

图8是本申请实施例提供的一种基于预训练模型提取信息方法的整体框架示意图;

图9是本申请实施例提供的一种电子设备在提取信息过程中界面显示示意图;

图10是本申请实施例提供的另一种信息提取方法的流程示意图;

图11是本申请实施例提供的另一种信息提取方法的流程示意图;

图12是本申请实施例提供的一种模型训练装置的结构示意图;

图13是本申请实施例提供的一种信息提取装置的结构示意图;

图14是本申请实施例提供的另一种模型训练装置的结构示意图;

图15是本申请实施例提供的另一种信息提取装置的结构示意图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂,下面将结合附图对本申请的具体实施方式做详细说明。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

请参考图1所示,图1是本申请提供的一种应用场景示意图。如图1所示,视频A可以被输入到电子设备10中,电子设备10对视频A进行数据分析,输出视频A的标题或文案。其中,在本申请实施例中,可将视频A的标题或文案称为视频A的目标信息,输入到电子设备中进行信息提取的数据可以称为待处理数据,对待处理数据进行处理后得到可以得到至少一种类别的子数据,其中,子数据的类别可以包括但不限于是视频数据、音频数据、图片数据、文本数据等,本申请对子数据的种类不做限定。

电子设备10可以包括但不限于是智能手机、个人计算机、笔记本电脑、智能平板电脑和便捷式可穿戴设备等。电子设备10具有灵活的接入方式和高带宽通信性能,有多种通信方式,可以包括但不限于通过GSM、码分多址(Code Division Multiple Access,CDMA)、宽带码分多址(Wideband Code Division Multiple Access,W-CDMA)等多种无线运营网通讯,也可以通过无线局域网、蓝牙和红外进行通信。

在本申请实施例中,电子设备10可以包括编码器和解码器。编码器用于对样本数据进行训练得到预训练模型,在使用过程中根据预训练模型获取待处理数据对应的向量信息,解码器用于根据向量信息生成目标信息。如图1中所示,当用户基于电子设备上传视频A后,电子设备根据本申请提供的信息提取方法可以输出视频A进行信息提取后的目标信息。

接下来将全部结合图1出示的应用场景示意图介绍本申请实施例提供的模型训练方法及信息提取方法。

请参考图2所示,图2是本申请实施例中的一种模型训练方法的流程示意图,所述方法包括:

S201,获取N个样本数据。

具体地,电子设备根据内部的编码器对样本数据进行训练,首先获取N个样本数据。其中,每个样本数据包括M种类别的子数据,N个样本数据包括的M种类别的子数据对应M×N个子数据对,每个子数据对包括M个子数据,每个子数据所属的类别不同,每个子数据对包括的M个子数据之间对应一个关联关系,每个样本数据包括的M种类别的子数据相互关联,M和N均为大于或等于2的正整数。在本申请实施例中,样本数据可以包括但不限于是视频数据、音频数据、图像数据、文本数据等多种不同类别的数据。

进一步地,电子设备在获取N个样本数据后,首先对所有的样本数据进行处理。其中,对样本数据进行处理的方式可以包括:对样本数据进行batch批处理。电子设备首先对样本数据构建batch数据集,构建方法具体包括:以样本数据中包括3条数据,子数据类别以视频数据和音频数据为例,对这3条样本数据进行处理,得到每一条数据对应的子数据,以当前每一个样本数据中包含的视频数据和音频数据构建子数据对,其中,每一个子数据对均包括一个视频数据和一个音频数据。

图3出示了一种子数据对的构建方法示意图。假设样本数据中包括音频和视频两种类别的子数据,如图3所示,样本数据中有3条数据,分别为样本数据A、样本数据B、样本数据C。首先对这3条数据进行分解处理,分别得到子数据:视频A、音频A,视频B、音频B,视频C、音频C,分别对这6个子数据构建相似子数据对和不相似子数据对。其中,相似子数据对表示子数据对中不同类别的子数据的来源相同,子数据的来源相同是指来源于同一个样本数据。如图3所示的相似子数据对包括:(视频A,音频A)、(视频B,音频B)、(视频C,音频C)。不相似子数据对中不同类别的子数据来源不同,子数据的来源不同是指来源于不同的样本数据。如图3所示的不相似子数据对包括:(视频A,音频B)、(视频A,音频C)、(视频B,音频A)、(视频B,音频C)、(视频C,音频A)、(视频C,音频B)。示例性地,子数据对(视频A,音频B)为相似子数据对,其中,视频A和音频A均来源于样本数据A。子数据对(视频B,音频C)为不相似子数据对,其中,视频B来源于样本数据B,音频C来源于样本数据C。可以理解的是,上述示例中构建的相似子数据对及不相似子数据对,也可以称为构建样本数据集的正负例,具体可以将相似子数据对作为正例,不相似子数据对作为负例。本申请实施例中,也可以将上述相似子数据对称为相似实例对,将上述不相似子数据对称为不相似实例对。本申请对样本数据进行处理的方法及构建子数据对的方式不做限定。

S202、将M×N个子数据对输入到预设模型中进行训练,生成每种类别的子数据各自对应的预训练模型。

具体地,电子设备对上述N个样本数据进行处理得到M×N个子数据后,将M×N个子数据对输入到预设模型中进行训练,训练后得到每一种类别的子数据各自对应的预训练模型。其中,预设模型用于计算每个子数据对包括的M个子数据之间的相似度,并根据M×N个子数据对各自包括的M个子数据之间的相似度确定每一种数据类别各自对应的向量表示空间。其中,预设模型可以包括基于双塔模型训练得到的对比学习模型,对比学习模型可以是适用于本申请的模型训练方法的任意一个对比学习模型,本申请对对比学习模型的种类不做限定。基于双塔模型进行模型训练的方法可以包括:基于任意两种类别的数据进行对比学习训练。

图4出示了一种双塔模型的向量表示空间示意图,在本申请实施例中,向量表示空间可以以坐标系的形式呈现,若为双塔模型,则对应二维坐标系,若为三塔模型,则可以是三维坐标系。在向量表示空间中,同一来源的子数据集中在一个区域,不同来源的子数据所在的区域不同。如图4所示,从坐标系中可看出,样本数据A、样本数据B、样本数据C各自包括的子数据较为集中,即样本数数据A包括的子数据集中在图中样本数据A对应圈出的区域,同理,样本数据B和样本数据C各自包括的子数据集中在图中样本数据B和样本数据C对应圈出的区域。需要说明的是,本申请对向量表示空间的呈现形式不做限定。对于同一来源的不同类别的子数据,其相似度高于不同来源的不同类别的子数据。相似度越高,子数据在向量表示空间中的距离越近,预训练模型中损失函数的损失值越小;相似度越低,子数据在向量表示空间中的距离越远,预训练模型中损失函数的损失值越大。

可以理解的是,在实际应用中,可根据业务场景的不同,以其中一种类别的数据作为模型训练的基准塔,再结合其他类别的数据进行对比学习训练。举例来说,若要训练分别得到视频数据、音频数据、图片数据及文本数据各自对应的预训练模型,一般以视频数据对应的特征作为双塔模型中的基准塔,分别结合音频数据、图片数据、文本数据构建视频塔及音频塔的双塔模型、视频塔及图片塔的双塔模型、视频塔及文本塔的双塔模型,根据样本数据分别对上述双塔模型进行训练,得到每一种类别的数据各自对应的预训练模型。需要说明的是,本申请实施例对双塔模型训练过程中的基准塔的数据类别不做限定。例如但不限于以音频数据作为双塔模型中的基准塔。可以理解的是,在实际应用中,还可以将双塔模型扩展成多塔结构的模型,当样本数据包括三种类别的数据时,可将双塔模型扩展成三塔模型,后续对样本数据基于三塔模型进行训练,以此类推。本申请实施例中,扩展成多塔结构的模型可根据实际应用中业务的不同及样本数据的差异进行灵活选用,本申请对此不做限定。

进一步地,将所述M×N个子数据对输入到预设模型中进行训练,生成每种类别的子数据各自对应的预训练模型,包括:将M×N个子数据对输入到预设模型中;根据M×N个子数据对包括的M个子数据之间的关联关系对预设模型进行训练,生成每种类别的子数据各自对应的预训练模型。

具体地,在对预设模型进行训练时,可将InfoNCE函数作为模型训练的损失函数。InfoNCE函数的具体计算公式如下所示:

其中,Zi和zi′表示相似子数据对,zi和zj′表示不相似子数据对。相似子数据对与不相似子数据对的示例详见S201中相关内容。

在模型训练的过程中,通过InfoNCE损失函数可以使得当前的向量表示空间中来源于同一样本数据的视频数据和音频数据(也即前述实施例中提到的相似子数据对)距离拉近,而来源于不同样本数据的视频数据和音频数据(也即前述实施例中提到的不相似子数据对)则距离拉远。相似子数据对的相似度越高,各个子数据在向量表示空间中的距离越近,损失函数的损失值越小;相似子数据对的相似度越低,各个子数据在向量表示空间中的距离越远,损失函数的损失值越大。不相似子数据对的相似度越低,各个子数据在向量表示空间中的距离越远,损失函数的损失值越大;不相似子数据对的相似度越高,各个子数据在向量表示空间中的距离越近,损失函数的损失值越小。基于InfoNCE损失函数对对比学习模型进行训练可以得到每一个类别的数据对应的一个向量表示空间。在这个向量表示空间中,相似的子数据对相似度高,在向量表示空间中的距离较近,不相似的子数据对相似度低,在向量表示空间中距离较远。模型训练过程中,根据预先构建的相似子数据对及不相似子数据对各自的相似度,不断调整损失函数的相关参数值,使得训练得到的预训练模型达到最优状态。基于上述训练过程后可以得到每一种类别的子数据对应的预训练模型,得到预训练模型后,在后续使用过程中,将待提取信息的数据输入预训练模型中即可获取待提取数据对应的向量信息用于项目下游任务。

本申请实施例提供的模型训练方法由电子设备内部的编码器执行。下面将结合上述模型训练方法,介绍本申请实施例中执行模型训练方法的编码器的结构。

图5出示了一种编码器的结构示意图。其中,编码器主要用于生成预训练模型及利用预训练模型生成待提取信息的数据对应的向量。如图5所示,电子设备首先获取样本数据,样本数据包括视频数据、音频数据、图片数据及文本数据。假设当前的模型训练是基于双塔模型进行对比学习训练得到预训练模型,则可以以视频数据作为基准塔构建得到视频塔,分别结合其他三种类别的数据构建得到视频塔及音频塔的双塔模型、视频塔及图片塔的双塔模型、视频塔及文本塔的双塔模型。以视频塔及音频塔的双塔模型为例,电子设备中的编码器首先对样本数据进行batch批处理,分别对视频数据、音频数据、图片数据及文本数据进行分类,得到需要的视频数据及音频数据。若样本数据中有3条数据:分别为样本数据A、样本数据B、样本数据C,分别对这三个样本数据进行处理可以得到,样本数据A包括视频A和音频A,样本数据B包括视频B和音频B,样本数据C包括视频C和音频C。对于样本数据A而言,子数据包括视频A和音频A,同理可得,样本数据B的子数据包括视频B和音频B,样本数据C的子数据包括视频C和音频C。因此,在构建子数据对时,可以根据子数据的来源构建相似子数据对和不相似子数据对,其中,相似子数据对例如(视频A,音频A)、(视频B,音频B)、(视频C,音频C),不相似子数据对例如(视频A,音频B)、(视频B,音频C)等。若有N个样本数据,数据的类别有M种,则可得到M×N个子数据对。子数据对构建完成后,将InfoNCE函数作为损失函数对双塔模型进行训练,得到预训练模型。如图5所示,对于不同类别的数据,进行训练得到的预训练模型不同,对于视频数据,通常基于3DResNet50进行对比学习训练,音频数据及文本数据基于BERT模型进行训练,图片数据基于ResNet进行训练。得到预训练模型后,分别可以获取各个类别的数据对应的向量表示空间,如图5所示,视频数据、音频数据、图片数据及文本数据的向量表示空间分别为Linear projector、CLS、Linear projector、CLS,基于向量表示空间,可以得到每一个子数据对应的向量。如图5所示,以其中一个数据为例,视频数据、音频数据、图片数据及文本数据分别可以得到样本数据转化后的向量(z,a)、(z,b)、(z,c)、(z,d)。在获取向量信息后,为了避免过拟合,通常需要对数据进行L2正则化处理,处理完成后再对单个向量进行特征融合操作,得到样本数据对应的最终的向量,分别为(z_a,z_b)、(z_a,z_c)、(z_a,z_d)。其中,向量(z_a,z_b)表示基于视频塔及音频塔的双塔模型处理输出的向量,该向量对应的原始数据中包括视频数据和音频数据;向量(z_a,z_c)表示基于视频塔及图片塔的双塔模型处理输出的向量,该向量对应的原始数据中包括视频数据和图片数据;向量(z_a,z_d)表示基于视频塔和文本塔的双塔模型处理输出的向量,该向量对应的原始数据中包括是视频数据和文本数据。到此,编码器的任务完成,可以将生成的向量发送给解码器中基于T5模型训练得到的预训练模型,以使解码器生成目标信息。

本申请提供的模型训练方法,在获取样本数据后,首先对样本数据进行处理,构建子数据对,基于双塔模型对处理后的子数据对进行对比学习训练,得到预训练模型,同时根据双塔模型训练得到每一个类别的数据对应的向量表示空间,以用于下游的信息提取任务中,从而更有针对性地生成各数据对应的向量信息,为后续进行信息提取奠定了基础,提高了提取的目标信息的质量。

下面将结合本申请实施例提供的模型训练方法介绍本申请实施例提供的信息提取方法。其中,本申请实施例提供的信息提取方法采用上述模型训练方法进行信息提取。

请参考图6所示,图6是本申请实施例中的一种信息提取方法的流程示意图,所述方法包括:

S601、获取待处理数据。

具体地,当用户想要进行信息提取操作时,可点击电子设备界面上的指定位置,在指定位置上传待处理数据。电子设备获取待处理数据。其中,待处理数据包括至少一种类别的待处理子数据。举例来说,待处理数据为某视频软件中的任意一条视频,该条视频经处理后包括视频数据和音频数据。其中,处理后的视频数据和音频数据即为待处理子数据。

S602、将所述至少一种类别的待处理子数据输入到各个所述待处理子数据的类别各自对应的预训练模型中,得到所述待处理数据对应的向量信息。

具体地,电子设备获取待处理数据后,当待处理数据仅包括一条数据时,且该条数据仅包括一种类别的子数据,则无需对其进行batch批处理,直接将其输入到该类别的子数据对应的预训练模型中,预训练模型输出待处理数据对应的向量信息。当待处理数据包括一条数据且该条数据包括至少两种类别的子数据时,则分别将这至少两种类别的子数据输入到各自的类别的对应的预训练模型中,输出这至少两种类别的子数据各自对应的向量信息。当待处理数据包括至少两条数据且每一条数据均包括至少一种类别的子数据时,对待处理数据进行batch批处理。其中,batch批处理的具体方法请参考上述实施例,本实施例不再赘述。进行批处理后可以得到待处理数据包括的至少一个待处理子数据。电子设备将待处理子数据输入到待处理子数据的类别各自对应的预训练模型中,得到待处理数据对应的向量信息。举例来说,若待处理数据经批处理后得到待处理子数据包括视频数据和音频数据,则将视频数据输入到视频塔预训练模型中,音频数据输入到音频塔预训练模型中,分别得到视频数据对应的向量信息和音频数据对应的向量信息。其中,预训练模型为采用图2出示的模型训练方法得到的预训练模型,其具体训练方法请参考上述实施例,在本实施例中不再赘述。

S603、根据所述向量信息提取所述待处理数据携带的目标信息。

具体地,在获取向量信息后,为了避免过拟合,先对向量信息进行正则化处理,电子设备中的编码器将处理后的向量信息传递给解码器,由解码器基于T5(Transfer Text-to-Text Transformer,T5)模型根据待处理数据对应的向量信息提取目标信息。

图7出示了一种解码器的结构示意图。其中,解码器的作用主要是基于T5模型训练得到的用于提取信息的预训练模型对编码器生成的向量信息进行目标信息的提取。当解码器生成待处理数据对应的向量信息后,将向量信息传递给解码器,解码器收到向量信息后将向量信息输入到用于提取信息的预训练模型中,该模型对向量信息进行处理生成待处理数据对应的目标信息。其中,T5模型是一种可以将所有的自然语言处理任务都转化成Text-to-Text(文本到文本)任务的模型,该模型采用的是Transformer结构,采用Transformer结构的模型具有极强的特征抽取能力。自然处理任务可以包括但不限于是:文本翻译任务、文本分类任务、文本生成任务、自动摘要任务。其中,文本翻译任务包括将输入的文本对应的语言翻译成指定语言的文本。文本分类任务包括基于某种标准对输入的文本进行自动分类。例如,根据语义特征对输入的词语进行分类。文本生成任务及自动摘要任务与本申请实施例中提供的信息提取方法的目的相似,其主要目的均为提取待处理数据的目标信息。基于T5模型训练得到的用于提取信息的预训练模型的方法包括:创建自监督任务(如语言建模或填充缺失词),利用大量样本数据对模型进行预训练,得到用于提取信息的预训练模型,接着利用少量的包括多种不同类别的原始数据及根据原始数据生成的目标信息的数据,对上述用于提取信息的预训练模型进行微调,具体包括调整预训练模型中包含的所有参数,通过不断调整该模型可以达到优化模型的目的,从而提高模型效果。经过微调后的用于提取信息的预训练模型即可用于提取目标信息。需要说明的是,由于T5模型是基于英文样本数据进行预训练的,因此,本申请实施例中可以使用多国语言版MT5(MultilingualT5,MT5)对模型进行训练。

图8出示了一种基于预训练模型提取信息方法的整体框架示意图,图9出示了一种电子设备在提取信息过程中界面显示示意图。如图8所示,基于预训练模型进行信息提取的整体框架包括编码器和解码器,编码器的主要作用是利用模型训练方法得到的预训练模型获取待处理数据对应的向量信息,解码器的主要作用是根据编码器得到的向量信息提取待处理数据对应的目标信息。举例来说,当用户在电子设备中输入任意一条数据时,由电子设备对数据进行处理,确定该条数据中包括视频数据和音频数据两种类别的数据,分别根据视频数据和音频数据对应的预训练模型获取视频数据对应的视频向量信息及音频数据对应的音频向量信息,再对视频向量信息及音频向量信息进行特征融合处理,处理后得到该条数据的向量信息。编码器获取向量信息后,将向量信息发送给解码器,解码器根据预先训练好的基于T5模型的预训练模型对待处理数据的向量信息进行解码,根据向量信息提取待处理数据的目标信息。如9所示,根据本申请提供的信息提取方法,当用户在电子设备上的指定位置上传待提取信息的数据A时,系统内部编码器和解码器经过如上述信息提取方法的处理,可以提取出数据A的目标信息,得到图9中B所示的目标信息为“一封珍贵的家书”的内容,并将该内容显示在电子设备屏幕上提供给用户。

本申请提供的信息提取方法,当用户输入待提取信息的数据时,电子设备根据预先训练好的预训练模型提取待提取信息的数据的向量信息,解码器根据向量信息提取待提取信息的数据对应的目标信息,通过将数据转化成向量,再根据向量提取信息的方式,解决了当前的信息提取方法由于人工编写等方式准确性不高而导致提取的信息质量低、并且信息提取的效率低的问题。

请参考图10所示,图10出示了另一种信息提取方法的流程图。其中,方法包括:

S1001、获取待处理数据。

具体地,用户将待处理数据上传至电子设备中。电子设备获取待处理子数据。其中,待处理数据包括至少一种类别的待处理子数据。待处理数据的类别请参考上述实施例,本实施例不再赘述。

S1002、将至少一种类别的待处理子数据输入到各个待处理子数据的类别各自对应的预训练模型,得到待处理子数据各自对应的向量信息。

具体地,若某个待处理数据包括两种待处理子数据,分别为视频数据和音频数据。电子设备获取待处理子数据后,分别将视频数据输入到视频数据对应的预训练模型中,将音频数据输入到音频数据对应的预训练模型中,分别得到视频数据对应的向量信息和音频数据对应的向量信息。其中,预训练模型为根据上述实施例中模型训练方法训练得到的预训练模型。根据预训练模型获取向量信息的具体方法请参考上述实施例,本实施不再赘述。

S1003、对待处理子数据各自对应的向量信息进行特征融合操作,得到待处理数据对应的向量信息。

具体地,电子设备对获取的待处理子数据对应的向量信息进行特征融合操作。其中,特征融合操作包括以下至少一项:拼接操作和池化操作。对于拼接操作,具体拼接方法包括:将至少两个待处理子数据的向量信息拼接成一个向量,拼接后得到向量即为待处理数据对应的向量信息。其中,拼接后的向量的格式可以包括但不限于是列表格式。对于池化操作,具体包括两种方法,第一种是sum方法,该方法具体包括:对所有待处理子数据的向量进行一一对应相加,得到相加后的向量信息即为待处理数据对应的向量信息。第二种是average方法,该方法具体包括:对所有待处理子数据的向量进行求均值操作,得到的向量即为待处理数据对应的向量。举例来说,若某个待处理数据包括两个待处理子数据,且两个待处理子数据对应的向量分别为(z,a)、(z,b),当采用拼接操作对向量进行特征融合时,融合后的向量为(z_a,z_b)。当采用池化操作进行特征融合时,若采用sum方法,则融合后的向量为(z+z,a+b);若采用average方法,则融合后的向量为((z+z)/2,(a+b)/2)。

S1004、根据向量信息提取待处理数据携带的目标信息。

具体地,在获取向量信息后,电子设备中的编码器将处理后的向量信息传递给解码器,由解码器基于T5模型根据待处理数据对应的向量信息提取目标信息。其中,基于T5模型进行信息提取的过程请参考上述实施例,本实施例不再赘述。

本申请实施例提供的根据待处理子数据得到待处理数据的向量信息的方法,通过将待处理子数据输入到预训练模型中,得到每一个待处理子数据对应的向量信息,再对向量信息进行特征融合处理,得到待处理数据对应的向量信息,通过提取待处理数据每一个类别的待处理子数据对应的向量信息,再将待处理数据包括的多个待处理子数据的向量进行融合处理,使最终得到的待处理数据的向量更加精确,侧面提高了后续进行信息提取时生成目标信息的准确性。

请参考图11所示,图11出示了另一种根据待处理子数据确定待处理数据对应的向量的方法的流程示意图。其中,方法包括:

S1101、获取待处理数据。

具体地,用户将待处理数据上传至电子设备中。电子设备获取待处理子数据。其中,待处理数据包括至少一种类别的待处理子数据。待处理数据的类别请参考上述实施例,本实施例不再赘述。

S1102、将至少两种类别的待处理子数据输入到各个待处理子数据的类别各自对应的预训练模型。

具体地,若某个待处理数据包括两种待处理子数据,分别为视频数据和音频数据。电子设备获取待处理子数据后,分别将视频数据输入到视频数据对应的预训练模型中,将音频数据输入到音频数据对应的预训练模型中。其中,预训练模型为根据上述实施例中模型训练方法训练得到的预训练模型。

S1103、确定至少两种类别的待处理子数据之间的相似度。

具体地,电子设备根据预训练模型得到上述待处理数据中包含的视频数据及音频数据的相似度。其中,相似度用于表征子数据对中不同类别的子数据之间的相似程度,具体可以表征不同类别的子数据来源于同一个原始数据的可能性。其中,相似子数据对的距离越近,相似度越高,各个子数据在向量表示空间中的距离越近,损失函数的损失值越小;相似子数据对的距离越远,相似度越低,各个子数据在向量表示空间中的距离越远,损失函数的损失值越大。不相似子数据对的相似度越高,各个子数据在向量表示空间中的距离越远,损失函数的损失值越小;不相似子数据对的相似度越低,各个子数据在向量表示空间中的距离越近,损失函数的损失值越大。举例来说,现有两个子数据对,分别为(视频A,音频A)、(视频A,音频B)。电子设备经分析后可以确定,第一个子数据对中的子数据视频及音频均来源于数据A,后一个子数据对中的子数据视频来源于数据A,音频来源于数据B。因此,第一个子数据对中视频数据及音频数据之间的相似度大于第二个子数据对中视频数据及音频数据之间的相似度。

S1104、根据相似度及向量表示空间生成待处理子数据各自对应的向量信息。

具体地,电子设备在确定子数据对中各个不同类别的子数据之间的相似度后,再结合每一个待处理子数据的类别各自对应的向量表示空间,生成待处理子数据各自对应的向量信息。

S1105、对待处理子数据各自对应的向量信息进行特征融合操作,得到待处理数据对应的向量信息。

具体地,具体地,电子设备对获取的待处理子数据对应的向量信息进行特征融合操作。其中,特征融合操作包括以下至少一项:拼接操作和池化操作。其中,拼接操作和池化操作各自对应的具体的方法请参考上述实施例,本实施例不再赘述。

S1106、根据待处理数据对应的向量信息提取所述待处理数据携带的目标信息。

具体地,在获取向量信息后,电子设备中的编码器将处理后的向量信息传递给解码器,由解码器基于T5模型根据待处理数据对应的向量信息提取目标信息。其中,基于T5模型进行信息提取的过程请参考上述实施例,本实施例不再赘述。

本申请提供的另一种根据待处理子数据确定待处理数据对应的向量的方法的流程示意图,通过确定子数据对中不同类别的子数据之间的相似度,根据相似度及每一个子数据的类别对应的向量表示空间确定待处理子数据对应的向量信息,使生成的待处理子数据对应的向量信息更加准确,提高了后续根据向量信息提取目标信息的准确率,使得提取的信息更加快速准确。

请参考图12所示,基于模型训练方法,图12是本申请提供的一种模型训练装置的结构示意图,其中,本申请实施例中的模型提取装置的作用效果等同于上述实施例中提到的编码器,二者属于同一构思,均是用于执行本申请中的模型训练方法。该模型训练装置1200包括:

第一获取模块1201,用于获取N个样本数据;每个所述样本数据包括M种类别的子数据;其中,N个所述样本数据包括的所述M种类别的子数据对应M×N个子数据对,每个所述子数据对包括M个子数据,每个所述子数据所属的类别不同,每个子数据对包括的M个子数据之间对应一个关联关系,每个所述样本数据包括的M种类别的子数据相互关联,所述M和N均为大于或等于2的正整数;

训练模块1202,用于将所述M×N个子数据对输入到预设模型中进行训练,生成每种类别的子数据各自对应的预训练模型;其中,所述预设模型用于计算每个子数据对包括的M个子数据之间的相似度,并根据所述M×N个子数据对各自包括的M个子数据之间的相似度确定每一种数据类别各自对应的向量表示空间。

在一些实施例中,所述训练模块1202包括:

输入单元,用于将所述M×N个子数据对输入到预设模型中;

生成单元,用于根据所述M×N个子数据对包括的M个子数据之间的关联关系对所述预设模型进行训练,生成每种类别的子数据各自对应的预训练模型。

请参考图13所示,基于信息提取方法,图13是本申请提供的一种信息提取装置的结构示意图,其中,本申请实施例中的信息提取装置的作用效果等同于上述实施例中提到的解码器,二者属于同一构思,均是用于执行本申请中的信息提取方法。该信息提取装置1300包括:

第二获取模块1301,用于获取待处理数据,所述待处理数据包括至少一种类别的待处理子数据;

输出模块1302,用于将所述至少一种类别的待处理子数据输入到各个所述待处理子数据的类别各自对应的预训练模型中,得到所述待处理数据对应的向量信息;其中,所述预训练模型为采用权利要求1所述的模型训练方法得到的预训练模型;

提取模块1303,用于根据所述向量信息提取所述待处理数据携带的目标信息。

在一些实施例中,所述输出模块1302包括:

输入单元,用于将所述至少一种类别的待处理子数据输入到各个所述待处理子数据的类别各自对应的预训练模型中,得到所述待处理子数据各自对应的向量信息;

融合单元,用于对所述待处理子数据各自对应的向量信息进行特征融合操作,得到所述待处理数据对应的向量信息;其中,所述特征融合操作包括以下至少一项:拼接操作、池化操作。

在一些实施例中,所述提取模块1303包括:

处理单云,用于对所述向量信息进行正则化处理;

提取单元,用于根据处理后的向量信息提取所述待处理数据携带的目标信息。

在一些实施例中,所述待处理数据包括至少两种类别的待处理子数据;

所述装置还包括:

确定模块,用于在输出模块1302将所述至少一种类别的待处理子数据输入到各个所述待处理子数据的类别各自对应的预训练模型中之后,确定所述至少两种类别的待处理子数据之间的相似度;

所述输出模块1302具体用于:

根据所述相似度及向量表示空间生成所述待处理子数据各自对应的向量信息;其中,所述向量表示空间为采用权利要求1所述的模型训练方法得到的向量表示空间。

请参考图14所示,图14是本申请实施例中提供的另一种模型训练装置1400的结构示意图。其中,模型训练装置可以集成在电子设备10中。该模型训练装置1400至少可以包括:至少一个处理器1401,例如CPU,至少一个网络接口1404,用户接口1403,存储器1405,至少一个通信总线1402。其中,通信总线1402用于实现这些组件之间的连接通信。用户接口1403可以包括但不限于是摄像头、显示器、触摸屏、键盘、鼠标、摇杆等等。网络接口1404可选的可以包括标准的有线接口、无线接口(如WIFI接口),通过网络接口1404可以与服务器建立通信连接。存储器1402可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。如图14所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及程序指令。

需要说明的是,网络接口1404可以连接获取器、发射器或其他通信模块,其他通信模块可以包括但不限于WiFi模块、运营商网络通信模块等,可以理解,本申请实施例中模型训练装置也可以包括获取器、发射器和其他通信模块等。

处理器1401可以用于调用存储器1405中存储的程序指令,可以执行以下步骤:

获取N个样本数据;每个所述样本数据包括M种类别的子数据;其中,N个所述样本数据包括的所述M种类别的子数据对应M×N个子数据对,每个所述子数据对包括M个子数据,每个所述子数据所属的类别不同,每个子数据对包括的M个子数据之间对应一个关联关系,每个所述样本数据包括的M种类别的子数据相互关联,所述M和N均为大于或等于2的正整数;

将所述M×N个子数据对输入到预设模型中进行训练,生成每种类别的子数据各自对应的预训练模型;其中,所述预设模型用于计算每个子数据对包括的M个子数据之间的相似度,并根据所述M×N个子数据对各自包括的M个子数据之间的相似度确定每一种数据类别各自对应的向量表示空间。

可能地,处理器1401将所述M×N个子数据对输入到预设模型中进行训练,生成每种类别的子数据各自对应的预训练模型,具体执行:

将所述M×N个子数据对输入到预设模型中;

根据所述M×N个子数据对包括的M个子数据之间的关联关系对所述预设模型进行训练,生成每种类别的子数据各自对应的预训练模型。

请参考图15所示,图15是本申请实施例中提供的另一种信息提取装置1500的结构示意图。其中,信息提取装置可以集成在电子设备10中。该信息提取装置1500至少可以包括:至少一个处理器1501,例如CPU,至少一个网络接口1504,用户接口1503,存储器1505,至少一个通信总线1502。其中,通信总线1502用于实现这些组件之间的连接通信。用户接口1503可以包括但不限于是摄像头、显示器、触摸屏、键盘、鼠标、摇杆等等。网络接口1504可选的可以包括标准的有线接口、无线接口(如WIFI接口),通过网络接口1504可以与服务器建立通信连接。存储器1502可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。如图15所示,作为一种计算机存储介质的存储器1505中可以包括操作系统、网络通信模块、用户接口模块以及程序指令。

需要说明的是,网络接口1504可以连接获取器、发射器或其他通信模块,其他通信模块可以包括但不限于WiFi模块、运营商网络通信模块等,可以理解,本申请实施例中信息提取装置也可以包括获取器、发射器和其他通信模块等。

处理器1501可以用于调用存储器1505中存储的程序指令,可以执行以下步骤:

获取待处理数据,所述待处理数据包括至少一种类别的待处理子数据;

将所述至少一种类别的待处理子数据输入到各个所述待处理子数据的类别各自对应的预训练模型中,得到所述待处理数据对应的向量信息;其中,所述预训练模型为采用权利要求1所述的模型训练方法得到的预训练模型;

根据所述向量信息提取所述待处理数据携带的目标信息。

可能地,处理器1501将所述至少一种类别的待处理子数据输入到各个所述待处理子数据的类别各自对应的预训练模型中,得到所述待处理数据对应的向量信息,具体执行:

将所述至少一种类别的待处理子数据输入到各个所述待处理子数据的类别各自对应的预训练模型中,得到所述待处理子数据各自对应的向量信息;

对所述待处理子数据各自对应的向量信息进行特征融合操作,得到所述待处理数据对应的向量信息;其中,所述特征融合操作包括以下至少一项:拼接操作、池化操作。

可能地,处理器1501根据所述向量信息提取所述待处理数据携带的目标信息,具体执行:

对所述向量信息进行正则化处理;

根据处理后的向量信息提取所述待处理数据携带的目标信息。

可能地,所述待处理数据包括至少两种类别的待处理子数据;

所述处理器1501将所述至少一种类别的待处理子数据输入到各个所述待处理子数据的类别各自对应的预训练模型中之后,还用于执行:

确定所述至少两种类别的待处理子数据之间的相似度;

所述处理器1501得到所述待处理子数据各自对应的向量信息,具体执行:

根据所述相似度及向量表示空间生成所述待处理子数据各自对应的向量信息;其中,所述向量表示空间为采用权利要求1所述的模型训练方法得到的向量表示空间。

本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机或处理器上运行时,使得计算机或处理器执行上述任一个方法中的一个或多个步骤。上述模型训练装置及信息提取装置的各组成模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在所述计算机可读取存储介质中。

在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者通过所述计算机可读存储介质进行传输。所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(Digital SubscriberLine,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,数字通用光盘(Digital Video Disc,DVD)、或者半导体介质(例如,固态硬盘(solid state disk,SSD))等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,该程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。而前述的存储介质包括:只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可存储程序代码的介质。在不冲突的情况下,本实施例和实施方案中的技术特征可以任意组合。

以上所述的实施例仅仅是本申请的优选实施例方式进行描述,并非对本申请的范围进行限定,在不脱离本申请的设计精神的前提下,本领域普通技术人员对本申请的技术方案作出的各种变形及改进,均应落入本申请的权利要求书确定的保护范围内。

完整详细技术资料下载
上一篇:石墨接头机器人自动装卡簧、装栓机
下一篇:跨样本联邦分类建模方法及装置、存储介质、电子设备

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!

技术分类