数据处理方法、模型训练方法、装置及设备

文档序号:8556 发布日期:2021-09-17 浏览:28次 英文

数据处理方法、模型训练方法、装置及设备

技术领域

本申请涉及神经网络

技术领域

,尤其涉及一种数据处理方法、模型训练方法、装置及设备。

背景技术

随着神经网络技术的不断发展,神经网络模型已经广泛应用于各个领域,以解决各类问题,例如图像分类问题。

在样本数量匮乏场景下,存在类别丰富但数量很少的风险图片,称为长尾风险图片。为了提高神经网络模型的泛化性,以提高样本数量匮乏场景(即小样本场景)下神经网络模型的准确率,可以采用元学习(Meta Learning)技术来实现样本数量匮乏场景下神经网络模型的训练。并且,在采用元学习技术进行模型训练过程中,通常是以神经网络模型为整体,采用带标签的样本数据对整个神经网络模型进行训练的方式。然而,小样本(Few-shot)场景下,一标签对应的样本数量非常有限,神经网络模型基于带标签的样本数据所能够学习到的能力仅限于标签对应特征的识别能力,非常有限,从而导致其泛化性较差。

因此,小样本场景下,如何提高神经网络模型的泛化性以提高神经网络模型的准确率,成为目前亟待解决的问题。

发明内容

本申请实施例提供一种数据处理方法、模型训练方法、装置及设备,用以解决现有技术中如何提高神经网络模型的泛化性以提高神经网络模型的准确率的问题。

第一方面,本申请实施例提供一种数据处理方法,所述方法包括:

获取待处理图像;

将所述待处理图像输入训练好的神经网络模型进行处理,得到图像处理结果;所述训练好的神经网络模型是基于元学习技术对初始的神经网络模型训练获得,所述初始的神经网络模型包括基于自监督预训练的方式获得的特征提取网络。

第二方面,本申请实施例提供一种模型训练方法,所述方法包括:

基于第一训练样本集合,采用自监督学习技术对初始的特征提取网络中的网络参数进行优化,得到训练好的特征提取网络;

基于第二训练样本集合,采用元学习技术对初始的神经网络模型的模型参数进行优化,得到所述训练好的神经网络模型,所述初始的神经网络模型包括所述训练好的特征提取网络。

第三方面,本申请实施例提供一种数据处理方法,所述方法包括:

获取待处理对象;

将所述待处理对象输入训练好的神经网络模型进行处理,得到对象处理结果;所述训练好的神经网络模型是基于元学习技术对初始的神经网络模型训练获得,所述初始的神经网络模型包括基于自监督预训练的方式获得的特征提取网络。

第四方面,本申请实施例提供一种数据处理装置,所述装置包括:

获取模块,用于获取待处理图像;

处理模块,用于将所述待处理图像输入训练好的神经网络模型进行处理,得到图像处理结果;所述训练好的神经网络模型是基于元学习技术对初始的神经网络模型训练获得,所述初始的神经网络模型包括基于自监督预训练的方式获得的特征提取网络。

第五方面,本申请实施例提供一种模型训练装置,所述装置包括:

第一训练模块,用于基于第一训练样本集合,采用自监督学习技术对初始的特征提取网络中的网络参数进行优化,得到训练好的特征提取网络;

第二训练模块,用于基于第二训练样本集合,采用元学习技术对初始的神经网络模型的模型参数进行优化,得到所述训练好的神经网络模型,所述初始的神经网络模型包括所述训练好的特征提取网络。

第六方面,本申请实施例提供一种数据处理装置,所述装置包括:

获取模块,用于获取待处理对象;

处理模块,用于将所述待处理对象输入训练好的神经网络模型进行处理,得到对象处理结果;所述训练好的神经网络模型是基于元学习技术对初始的神经网络模型训练获得,所述初始的神经网络模型包括基于自监督预训练的方式获得的特征提取网络。

第七方面,本申请实施例提供一种计算机设备,包括:存储器、处理器;所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时实现如第一方面任一项所述的方法。

第八方面,本申请实施例提供一种计算机设备,包括:存储器、处理器;所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时实现如第二方面所述的方法。

第九方面,本申请实施例提供一种计算机设备,包括:存储器、处理器;所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时实现如第三方面所述的方法。

本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包含至少一段代码,所述至少一段代码可由计算机执行,以控制所述计算机执行如第一方面任一项所述的方法。

本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包含至少一段代码,所述至少一段代码可由计算机执行,以控制所述计算机执行如第二方面任一项所述的方法。

本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包含至少一段代码,所述至少一段代码可由计算机执行,以控制所述计算机执行如第三方面任一项所述的方法。

本申请实施例还提供一种计算机程序,当所述计算机程序被计算机执行时,用于实现如第一方面任一项所述的方法。

本申请实施例还提供一种计算机程序,当所述计算机程序被计算机执行时,用于实现如第二方面任一项所述的方法。

本申请实施例还提供一种计算机程序,当所述计算机程序被计算机执行时,用于实现如第三方面任一项所述的方法。

本申请实施例提供的数据处理方法、模型训练方法、装置及设备,通过将待处理图像输入训练好的神经网络模型进行处理,得到图像处理结果,其中,训练好的神经网络模型是基于元学习技术对初始的神经网络模型训练获得,初始的神经网络模型包括基于自监督预训练的方式获得的特征提取网络,实现了通过采用自监督学习技术对特征提取网络进行预训练,使得预训练获得的特征提取网络能够学习到样本图像自身的特征,而非标签对应的特征,提高了训练好的神经网络模型中特征提取网络的泛化性,从而提高了神经网络模型的泛化性,由此提高了神经网络模型的准确率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1-图2为本申请实施例的应用场景示意图;

图3为本申请一实施例提供的数据处理方法的流程示意图;

图4为本申请实施例提供的对神经网络模型训练的流程示意图;

图5为本申请实施例提供的对特征分类网络进行预训练的示意图;

图6为本申请实施例提供的基于支持集和查询集进行神经网络模型训练的示意图;

图7为本申请另一实施例提供的数据处理方法的流程示意图;

图8为本申请一实施例提供的模型训练方法的流程示意图;

图9为本申请一实施例提供的数据处理装置的结构示意图;

图10为本申请一实施例提供的计算机设备的结构示意图;

图11为本申请另一实施例提供的数据处理装置的结构示意图;

图12为本申请另一实施例提供的计算机设备的结构示意图;

图13为本申请一实施例提供的模型训练装置的结构示意图;

图14为本申请又一实施例提供的计算机设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义,“多种”一般包含至少两种,但是不排除包含至少一种的情况。

应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。

取决于语境,如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。

另外,下述各方法实施例中的步骤时序仅为一种举例,而非严格限定。

为了方便本领域技术人员理解本申请实施例提供的技术方案,下面先对技术方案实现的技术环境进行说明。

相关技术中针对小样本场景比较常用的数据处理方法所使用的神经网络模型是以神经网络模型为整体,采用带标签的样本数据对整个神经网络模型进行训练得到,由于小样本场景下,一标签对应的样本数量非常有限,神经网络模型基于带标签的样本数据所能够学习到的能力仅限于标签对应特征的识别能力,非常有限,从而导致其泛化性较差,因此相关技术中亟需一种能够提高神经网络模型的泛化性以提高神经网络模型的准确率的数据处理方法。

基于类似于上文所述的实际技术需求,本申请提供的数据处理方法可以利用技术化的手段提高小样本场景下,神经网络模型的泛化性。

下面通过两个示例性的业务场景具体说明本申请各个实施例提供的数据处理方法。

场景一

在一个场景中,如图1所示,数据获取装置11可以采集数据,例如图像数据、文本数据、语音数据等,可以理解的是,数据获取装置的具体类型可以与数据类型对应,例如对于图像数据数据采集装置11具体可以为图像获取装置。在不同应用领域,图像获取装置的类型可以不同,所采集的图像数据的具体类型也可以不同。例如,在医疗领域,图像获取装置具体可以为医学成像装置,所采集的图像数据具体可以为医学图像数据,当然,在其他领域图像获取装置还可以为其他类型的用于获取图像的装置,本申请对此不做限定。

数据获取装置11可以与数据处理装置12相耦合,图1仅是示例性的耦合方式,数据获取装置11与数据处理装置12还可以集成于同一设备中。数据采集装置101所采集的数据可以作为待处理对象由数据处理装置进行处理,数据处理装置12可以利用本申请以下任一实施例提供方法对待处理对象进行处理,以得到针对待处理对象的对象处理结果。

需要说明的是,在实际应用中,所述待处理对象具体可以是能够基于神经网络模型对其进行处理的任意类型对象。示例性的,待处理对象具体可以为待处理图像,待处理语音、待处理文本等。以待处理对象为待处理图像为例,该对象处理结果例如可以为图像分类结果,以待处理对象为待处理语音为例,该对象处理结果例如可以为语音分类结果,以待处理对象为待处理文本为例,该对象处理结果例如可以为文本分类结果。当然,在其他实施例中,待处理对象还可以为其他类型对象,待处理对象的对象处理结果还可以为其他类型结果。

在数据处理装置12得到对象处理结果之后,如图1所示,可以通过输出装置13对对象处理结果进行输出,以使用户可以获知所述对象处理结果。其中,输出装置13例如可以显示器、扬声器等。当然,在其他实施例中,输出装置13还可以为其他类型装置,本申请对此不做限定。

场景二

在另一个场景中,还可以将数据获取装置11采集到的数据作为待处理对象上传至服务器进行处理。本场景比较适用于便携式场景中,可以利用便携式的数据获取装置11在家里、办公室等任意场所即可采集得到待处理对象,图2中的便携式数据获取装置11仅是示例性的。如图2所示,数据获取装置101可以与数据收发装置14相耦合,数据获取装置101与数据收发装置14还可以集成于同一设备中。数据获取装置101在采集得到待处理对象之后,数据收发装置14可以将待处理对象发送至服务器15。服务器15可以包括云服务器、分布式服务器等任何形式的数据处理服务器。服务器15在接收到待处理对象之后,可以利用本申请各个实施例提供的数据处理方法对待处理对象进行处理,以得到对象处理结果。

在获得对象处理结果之后,如图2所示,服务器15可以将对象处理结果发送给数据收发装置14。数据收发装置14在接收到对象处理结果之后,可以通过输出装置对对象处理结果进行输出,输出装置例如可以是显示器,所述显示器例如可以是用户的手机、电脑等客户端显示器。

需要说明的是,图1-图2所示的应用场景仅为本申请提供的数据处理方法的场景举例,并不作为限制。本申请提供的数据处理方法可以应用于任意基于神经网络模型进行对象处理的场景。

下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。

需要说明的是,为了便于说明,图3中主要以待处理图像作为待处理对象为例进行说明。

图3为本申请一实施例提供的数据处理方法的流程示意图,本实施例的执行主体可以为图1中的数据处理装置12或者图2中的服务器。如图3所示,本实施例的方法可以包括:

步骤301,获取待处理图像;

步骤302,将所述待处理图像输入训练好的神经网络模型进行处理,得到图像处理结果;所述训练好的神经网络模型是基于元学习技术对初始的神经网络模型训练获得,所述初始的神经网络模型包括基于自监督预训练的方式获得的特征提取网络。

需要说明的是,为了便于说明,下面主要以神经网络模型对待处理图像进行分类处理,即图像处理结果为分类结果为例进行说明。

本申请实施例中,可以利用图像获取装置采集待处理图像,图像获取装置例如可以为摄像头、医学成像装置等。当然,在其他实施例中,图像获取装置具体还可以为其他类型装置,本申请对此不做限定。

本申请实施例中,在得到所述待处理图像之后,可以将所述待处理图像输入训练好的神经网络模型进行处理,得到图像处理结果。其中,所述训练好的神经网络模型是基于元学习技术对初始的神经网络模型训练获得,所述初始的神经网络模型包括基于自监督预训练的方式获得的特征提取网络。

本申请实施例中,如图4所示,先采用自监督学习技术训练得到特征提取网络,然后采用元学习技术对包括训练得到的特征提取网络的神经网络模型进行训练,得到训练好的用于对待处理图像进行处理的神经网络模型。图4中神经网络模型除了包括特征提取网络之外还可以包括对特征提取网络所提取特征进行进一步处理的其他网络,对于图像分类场景,所述其他网络具体可以为用于根据待分类图像的图像特征确定待分类图像的分类结果。从而,实现了对于神经网络模型中的特征提取网络先采用自监督学习方式进行预训练,再以整个神经网络模型为整体采用元学习技术进行训练的模型训练方式。

其中,特征提取网络用于提取图像特征。自监督学习(self-supervisedlearning)是从无标签数据中自行学习,无需标注数据的学习方式,能够实现基于无标签的样本图像进行学习。通过采用自监督学习技术对特征提取网络进行预训练,使得预训练获得的特征提取网络能够学习到样本图像自身的特征,而非标签对应的特征,提高了训练好的神经网络模型中特征提取网络的泛化性,从而提高了神经网络模型的泛化性,由此提高了神经网络模型的准确率。

本申请实施例中,所述训练好的神经网络模型可以按照下述步骤A和步骤B训练得到。步骤A,基于第一训练样本集合,采用自监督学习技术对初始的特征提取网络中的网络参数进行优化,得到训练好的特征提取网络。步骤B,基于第二训练样本集合,采用元学习技术对初始的神经网络模型的模型参数进行优化,得到所述训练好的神经网络模型,所述初始的神经网络模型包括所述训练好的特征提取网络。

本申请实施例中,在进行自监督学习时,为了能够更好的学习到单个样本图像自身的特征,可以对样本图像进行预处理,并采用样本图像及其预处理图像作为训练样本对特征提取网络进行自监督学习的训练方式。或者,可以对同一样本图像进行不同的预处理,并采用不同预处理分别得到的预处理图像作为训练样本对特征提取网络进行自监督学习的训练方式。以下主要以后者为例进行具体说明。

示例性的,步骤A具体可以包括如下步骤A1-步骤A4。步骤A1,对第一训练样本集合中的多个样本图像分别进行第一预处理和第二预处理,得到各样本图像的第一子样本图像和第二子样本图像;步骤A2,将所述样本图像的第一子样本图像和第二子样本图像分别输入至初始的特征提取网络,以分别提取所述第一子样本图像和所述第二子图像的样本特征;步骤A3,基于所述第一子样本图像和所述第二子样本图像的样本特征确定第一损失函数的损失值;步骤A4,对所述特征提取网络的网络参数进行迭代调整,直至所述第一损失函数的损失值满足预设要求。

本申请实施例中,第一训练样本集合中可以包括多个样本图像。针对多个样本图像中的各样本图像,可以分别进行第一预处理和第二预处理,得到个样本图像的第一子样本图像和第二子样本图像。其中,对一样本图像进行第一预处理所得到的子样本图像可以记为第一子样本图像,对该样本图像进行第二预处理所得到的子样本图像可以记为第二子样本图像。第一预处理和第二预处理为不同的预处理方式。第一预处理和第二预处理的类型可以相同,预处理的类型例如可以为改变图像大小,色彩扰动、图片旋转、区域采样等。当然,在其他实施例中,预处理具体还可以为其他类型,本申请对此不做限定。以预处理的类型为区域采样为例,如图4所示,在对样本图像X进行第一预处理之后可以得到第一子样本图像Xa,对样本图像X进行第二预处理之后可以得到第二子样本图像Xb。需要说明的是,样本图像X可以表示第一训练样本集合中的任一样本图像。

在获得第一子样本图像、第二子样本图像之后,可以构建初始的特征提取网络。所述特征提取网络具体可以为支持自监督学习的网络,在本申请中,特征提取网络选用增强多尺度深度信息最大值(Augmented Multiscale Deep InfoMax,AMDIM)网络达到了最好的效果。其中,在特征提取网络为AMDIM网络情况下,特征提取网络的结构例如可以如下表1所示。

表1

表1中,ndf是网络的输出信道参数(output channels’parameter);ndepth用于控制模型的深度(model’s depth);nrkhs是嵌入维度(embedding dimension);conv2_x到conv6_x中的每个卷积块包含2个深度卷积层。

需要说明的是,表1中给出的特征提取网络的结构仅为举例,在其他实施例中,特征提取网络还可以采用其他结构,本申请对此不做限定。

在获得第一子样本图像、第二子样本图像并构建初始的特征提取网络之后,如图5所示,可以将样本图像X的第一子样本图像Xa和第二子样本图像Xb分别输入初始的特征提取网络中,以分别提取第一子样本图像Xa和第二子样本图像Xb的样本特征。需要说明的是,图5中上下两块虚线框所示的特征提取网络表示同一特征提取网络,第一子样本图像Xa和第二子样本图像Xb共享同一特征提取网络进行处理。

本申请实施例中,如图5所示,通过初始的特征提取网络所提取的样本特征可以包括局部特征(Local Feature)和图像全局特征(Image Global Feature),其中,局部特征可以是指通过特征提取网络的中间层提取获得的特征,图像全局特征可以是指通过特征提取网络的输出层提取获得的特征。

基于此,示例性的,第一损失函数可以包括损失函数F1,损失函数F1可以用于表示第一子样本图像Xa的全局特征与第二子样本图像Xb的局部特征的差异程度,其关系可以如图5中标号为1的虚线双向箭头所示,差异程度越大可以表示损失函数F1的损失值越大,以使得第一子样本图像Xa的全局特征可以接近于第二子样本图像Xb的局部特征。

示例性的,第一损失函数还可以包括损失函数F2,损失函数F2可以用于表示第二子样本图像Xb的全局特征与第一子样本图像Xa的局部特征的差异程度,其关系可以如图5中标号为2的虚线双向箭头所示,差异程度越大可以表示损失函数F2的损失值越大,以使得第二子样本图像Xb的全局特征可以接近于第一子样本图像Xa的局部特征。

示例性的,第一损失函数还可以包括损失函数F3,损失函数F3可以用于表示第一子样本图像Xa的局部特征与第二子样本图像Xb的局部特征的差异程度,其关系可以如图5中标号为3的虚线双向箭头所示,差异程度越大可以表示损失函数F3的损失值越大,以使得第一子样本图像Xa的局部特征可以接近于第二子样本图像Xb的局部特征。

当然,在其他实施例中,第一损失函数还可以包括其他含义的损失函数,本申请对此不作限定。

本申请实施例中,在通过步骤A训练获得训练好的特征提取网络之后,进一步的可以执行步骤B。需要说明的是,所述第一训练样本集合与所述第二训练样本集合相同,即可以使用同一训练集合训练特征提取网络以及包括训练好的特征提取网络的神经网络模型,有利于简化实现。或者,所述第一训练样本集合与所述第二训练样本集合中的样本图像不同,且所述第一训练样本集合的样本数量远大于所述第二训练样本集合的样本数量,有利于进一步提高特征提取网络的泛化性。

元学习也可以称为学会学习,其思想是利用已有的先验知识能够快速适应新的学习任务,元学习思想的提出为少样本学习提供了新的思路,基于元学习的少样本学习方法引起了广泛关注。需要说明的是,现有元学习图像分类的方法大致可分为两种:基于度量的图像分类方法和基于梯度的图像分类方法。其中,基于度量的图像分类方法旨在最小化图像的类内距离,同时最大化图像类间距离,经典算法如匹配网络(Matching Network),关系网络(Relation Network)和原型网络(Prototypical Network)。

本申请实施例中主要以原型网络为例进行具体说明。其中,原形网络对于每个类别只需要很少的样本图像,原形网络将每个类别对应的多个样本图像映射到一个空间当中,根据一个类对应的多个样本特征来表示该类的原型(prototype),也即该类的描述。使用欧式距离(euclidean distance)或余弦距离(cosinedistance)作为距离度量,训练使得本类别图像到本类原形的距离为最近,到其他类原形的距离较远。测试时,对待分类样本图像到各个类别的原形的距离做归一化指数softmax处理,来判断待分类样本图像的类别标签。

基于此,在进行训练之前,可以根据样本图像的图像类别分配元训练集(MetaTrain Set)和元测试集(Meta Test Set),元训练集和元测试集中图像类别互不重合。其中,元训练集用于神经网络模型的训练阶段,以对神经网络模型进行训练,元测试集用于神经功能网络模型的测试阶段,以对基于元训练集训练获得的神经网络模型进行测试,元训练集即为前述的第二训练样本集合。在分配元训练集和元测试集之前,可以先对待分配的样本图像进行标注,标注内容为图像所对应的类别,比如(fig1000,dog)用于表示图像fig1000的类别为狗。

在获得元训练集之后,进一步可以基于元训练集分得到多个子任务,每个子任务包括一支持集(Support Set)和一查询集(Query Set),支持集和查询集中的样本图像是从训练集抽取获得,使用子任务来训练神经网络模型。例如:支持集中包括N个样本类别,每个样本类别中有M个样本图像,即N-way-M-shot模式;相应的,查询集中也应包括这N个样本类别,且每个样本类别中包括M个与支持集中互不相交的样本图像。可通过多次随机采样,得到多个子任务来训练神经网络模型,例如:采样600次。其中,N大于1,M大于或等于1。

本申请实施例中,在获得多个子任务之后,可以基于该多个子任务实现初始的神经网络模型的训练。以下为了便于描述将查询集中的样本图像记为待分类样本图像,并以基于单个子任务进行模型训练为例进行具体描述。

针对所述多个子任务中的一子任务,具体可以采用如下步骤B1-步骤B3进行模型训练。步骤B1,将所述子任务的支持集中的多个样本图像分别输入初始的神经网络模型中,确定所述支持集对应多个样本类别中各样本类别的描述信息。具体的,可以通过初始的神经网络模型中的特征提取网络提取支持集中多个样本图像分别的样本特征,进一步的,可以通过特征提取网络之后的网络如图3中的其他网络,实现根据支持集中多个样本图像分别的样本特征确定支持集对应多个样本类别中各样本类别的描述信息。

然后,在步骤B2中,可以将所述子任务的查询集中多个待分类样本图像分别输入所述初始的神经网络模型中,得到所述待分类样本图像的样本特征与所述多个样本类别分别的描述信息的距离。具体的,可以通过初始的神经网络模型中的特征提取网络提取查询集中多个待分类样本图像分别的样本特征,进一步的,可以通过特征提取网络之后的网络如图4中的其他网络,实现根据查询集中多个待分类样本图像分别的样本特征确定所述待分类样本图像的样本特征与所述多个样本类别分别的描述信息的距离。

之后,在步骤B3中,根据所述距离确定第二损失函数的损失值,对所述初始的神经网络模型的网络参数进行迭代调整,直至所述第二损失函数的损失值满足预设要求。例如可以采用cross-entropy loss作为第二损失函数以计算损失值。此外,还可加入正则化来规范网络参数的训练,以此来微调(fine-tune)神经网络模型中的网络参数。正则化可防止过拟合。

基于支持集和查询集进行神经网络模型训练的实现方式例如可以如图6所示。图6中,样本图像1为查询集中的样本图像即待分类样本图像,其对应分类为鸟;样本图像2-样本图像4为该查询集对应支持集中的样本图像,其中,样本图像2对应分类为鸭、样本图像3对应分类为狗,样本图像4对应分类为鸟。如图6所示,四张样本图像首先分别经过预训练的特征提取网络进行处理,得到四张样本图像分别的样本特征(这里的样本特征具体可以对应图5中的图像全局特征),其中,样本图像1的样本特征为样本特征1,样本图像2的样本特征为样本特征2,样本图像3的样本特征为样本特征3,样本图像4的样本特征为样本特征4。在获得四张样本图像分别的样本特征之后,进一步的通过其他网络(例如,度量模块(metric module))进行处理之后,可以得到样本图像1的预测结果,即样本图像1的样本特征分别与样本图像2、3、4的描述信息之间的距离0.1、0.1、0.8,这里,距离越大可以表示样本图像1的类别是对应样本类别的概率越大,距离越小可以表示样本图像1的类别是对应样本类别的概率越小。由于距离0.1、0.1、0.8,与样本图像真实的类别一致,因此距离0.1、0.1、0.8可以认为针对样本图像1-样本图像4的组合,第二损失函数的损失值已满足预设要求。之后,可以进一步根据其他样本图像的组合对神经网络模型继续进行训练。

需要说明的是,上述步骤B1-步骤B4中的子任务具体可以是多个子任务中第一个用于进行模型训练的子任务。可以理解的是,假设按照子任务1、子任务2、子任务3、子任务4的顺序对模型分别进行训练,则子任务2是在子任务1训练得到模型基础上的进一步训练,子任务3是在子任务2训练得到模型基础上的进一步训练,……,依次类推,直到完成所有子任务的训练,从而完成神经网络模型的训练。

通过本申请实施例提供的数据处理方法,将待处理图像输入训练好的神经网络模型进行处理,得到图像处理结果,其中,训练好的神经网络模型是基于元学习技术对初始的神经网络模型训练获得,初始的神经网络模型包括基于自监督预训练的方式获得的特征提取网络,实现了通过采用自监督学习技术对特征提取网络进行预训练,使得预训练获得的特征提取网络能够学习到样本图像自身的特征,而非标签对应的特征,提高了训练好的神经网络模型中特征提取网络的泛化性,从而提高了神经网络模型的泛化性,由此提高了神经网络模型的准确率。

图7为本申请另一实施例提供的数据处理方法的流程示意图,本实施例的执行主体可以为图1中的数据处理装置12或者图2中的服务器。如图7所示,本实施例的方法可以包括:

步骤701,获取待处理对象;

步骤702,将所述待处理对象输入训练好的神经网络模型进行处理,得到对象处理结果;所述训练好的神经网络模型是基于元学习技术对初始的神经网络模型训练获得,所述初始的神经网络模型包括基于自监督预训练的方式获得的特征提取网络。

本申请实施例中,所述待处理对象具体可以为能够基于神经网络模型对其进行处理的任意类型对象。以神经网络模型进行图像处理为例,待处理对象具体可以为待输入图像;以神经网络模型进行语音处理为例,待处理对象具体可以为待处理语音;以神经网络模型进行文本处理为例,待处理对象具体可以为待处理文本。

可选的,所述训练好的神经网络模型按照下述方式训练得到:

基于第一训练样本集合,采用自监督学习技术对初始的特征提取网络中的网络参数进行优化,得到训练好的特征提取网络;

基于第二训练样本集合,采用元学习技术对初始的神经网络模型的模型参数进行优化,得到所述训练好的神经网络模型,所述初始的神经网络模型包括所述训练好的特征提取网络。

可选的,所述基于第一训练样本集合,采用自监督学习技术对初始的特征提取网络中的网络参数进行优化,得到训练好的特征提取网络,包括:

对第一训练样本集合中的多个样本对象分别进行第一预处理和第二预处理,得到各样本对象的第一子样本对象和第二子样本对象;

将所述样本对象的第一子样本对象和第二子样本对象分别输入至初始的特征提取网络,以分别提取所述第一子样本对象和所述第二子对象的样本特征;

基于所述第一子样本对象和所述第二子样本对象的样本特征确定第一损失函数的损失值;

对所述特征提取网络的网络参数进行迭代调整,直至所述第一损失函数的损失值满足预设要求。

可选的,所述基于第二训练样本集合,采用元学习技术对初始的神经网络模型的模型参数进行优化,得到所述训练好的神经网络模型,包括:

根据所述第二训练样本集合生成用于元学习的多个子任务,各子任务包括一支持集和一查询集;所述支持集和所述查询集中包括的样本对象不相交,但样本对象的样本类别相同;

针对所述多个子任务中的一子任务,将所述子任务的支持集中的多个样本对象分别输入初始的神经网络模型中,确定所述支持集对应多个样本类别中各样本类别的描述信息;将所述子任务的查询集中多个待分类样本对象分别输入所述初始的神经网络模型中,得到所述待分类样本对象的样本特征与所述多个样本类别分别的描述信息的距离;基于所述距离确定第二损失函数的损失值;对所述初始的神经网络模型的网络参数进行迭代调整,直至所述第二损失函数的损失值满足预设要求;

其中,所述训练好的神经网络模型是通过基于所述多个子任务分别进行训练获得。

可选的,所述第一训练样本集合与所述第二训练样本集合相同。

可选的,所述第一训练样本集合与所述第二训练样本集合中的样本对象不同,且所述第一训练样本集合的样本数量远大于所述第二训练样本集合的样本数量。

可选的,所述特征提取网络包括增强多尺度深度信息最大值AMDIM网络。

需要说明的是,本实施例中,在待处理对象为待处理图像之外其他类型对象情况下其数据处理方式的具体实现方式,与前述图3所示实施例中针对待处理图像的数据处理的具体实现方式类似,具体内容可以参见图3所示实施例的相关内容,在此不再赘述。

通过本申请实施例提供的数据处理方法,将待处理对象输入训练好的神经网络模型进行处理,得到对象处理结果,其中,训练好的神经网络模型是基于元学习技术对初始的神经网络模型训练获得,初始的神经网络模型包括基于自监督预训练的方式获得的特征提取网络,实现了通过采用自监督学习技术对特征提取网络进行预训练,使得预训练获得的特征提取网络能够学习到样本对象自身的特征,而非标签对应的特征,提高了训练好的神经网络模型中特征提取网络的泛化性,从而提高了神经网络模型的泛化性,由此提高了神经网络模型的准确率。

图8为本申请一实施例提供的模型训练方法的流程示意图;本实施例提供的方法可以由图1、图2之外的其他设备执行,在该其他设备训练获得训练好的神经网络模型之后,可以将训练好的神经网络模型部署至图1中的数据处理装置12或者图2中的服务器。如图8所示,本实施例的方法可以包括:

步骤801,基于第一训练样本集合,采用自监督学习技术对初始的特征提取网络中的网络参数进行优化,得到训练好的特征提取网络;

步骤802,基于第二训练样本集合,采用元学习技术对初始的神经网络模型的模型参数进行优化,得到所述训练好的神经网络模型,所述初始的神经网络模型包括所述训练好的特征提取网络。

需要说明的是,步骤801、步骤802的具体说明可以参见前述实施例的相关描述,在此不再赘述。

通过本申请实施例提供的模型训练方法,实现了先采用自监督学习技术训练得到特征提取网络,然后采用元学习技术对包括训练得到的特征提取网络的神经网络模型进行训练,得到训练好的用于对待处理图像进行处理的神经网络模型,使得训练好的神经网络模型是基于元学习技术对初始的神经网络模型训练获得,初始的神经网络模型包括基于自监督预训练的方式获得的特征提取网络,从而提高了神经网络模型的泛化性,由此提高了神经网络模型的准确率。

图9为本申请一实施例提供的数据处理装置的结构示意图;参考附图9所示,本实施例提供了一种数据处理装置,该装置可以执行上述图3所示的数据处理方法,具体的,该数据处理装置90可以包括:

获取模块91,用于获取待处理图像;

处理模块92,用于将所述待处理图像输入训练好的神经网络模型进行处理,得到图像处理结果;所述训练好的神经网络模型是基于元学习技术对初始的神经网络模型训练获得,所述初始的神经网络模型包括基于自监督预训练的方式获得的特征提取网络。

可选的,所述训练好的神经网络模型按照下述方式训练得到:

基于第一训练样本集合,采用自监督学习技术对初始的特征提取网络中的网络参数进行优化,得到训练好的特征提取网络;

基于第二训练样本集合,采用元学习技术对初始的神经网络模型的模型参数进行优化,得到所述训练好的神经网络模型,所述初始的神经网络模型包括所述训练好的特征提取网络。

可选的,所述基于第一训练样本集合,采用自监督学习技术对初始的特征提取网络中的网络参数进行优化,得到训练好的特征提取网络,包括:

对第一训练样本集合中的多个样本图像分别进行第一预处理和第二预处理,得到各样本图像的第一子样本图像和第二子样本图像;

将所述样本图像的第一子样本图像和第二子样本图像分别输入至初始的特征提取网络,以分别提取所述第一子样本图像和所述第二子图像的样本特征;

基于所述第一子样本图像和所述第二子样本图像的样本特征确定第一损失函数的损失值;

对所述特征提取网络的网络参数进行迭代调整,直至所述第一损失函数的损失值满足预设要求。

可选的,所述基于第二训练样本集合,采用元学习技术对初始的神经网络模型的模型参数进行优化,得到所述训练好的神经网络模型,包括:

根据所述第二训练样本集合生成用于元学习的多个子任务,各子任务包括一支持集和一查询集;所述支持集和所述查询集中包括的样本图像不相交,但样本图像的样本类别相同;

针对所述多个子任务中的一子任务,将所述子任务的支持集中的多个样本图像分别输入初始的神经网络模型中,确定所述支持集对应多个样本类别中各样本类别的描述信息;将所述子任务的查询集中多个待分类样本图像分别输入所述初始的神经网络模型中,得到所述待分类样本图像的样本特征与所述多个样本类别分别的描述信息的距离;基于所述距离确定第二损失函数的损失值;对所述初始的神经网络模型的网络参数进行迭代调整,直至所述第二损失函数的损失值满足预设要求;

其中,所述训练好的神经网络模型是通过基于所述多个子任务分别进行训练获得。

可选的,所述第一训练样本集合与所述第二训练样本集合相同。

可选的,所述第一训练样本集合与所述第二训练样本集合中的样本图像不同,且所述第一训练样本集合的样本数量远大于所述第二训练样本集合的样本数量。

可选的,所述特征提取网络包括增强多尺度深度信息最大值AMDIM网络。

图9所示装置可以执行图3所示实施例的方法,本实施例未详细描述的部分,可参考对图3所示实施例的相关说明。该技术方案的执行过程和技术效果参见图3所示实施例中的描述,在此不再赘述。

在一个可能的实现中,图9所示数据处理装置的结构可实现为一计算机设备。如图10所示,该计算机设备可以包括:处理器101和存储器102。其中,存储器102用于存储支持计算机设备执行上述图3所示实施例中提供的数据处理方法的程序,处理器101被配置为用于执行存储器102中存储的程序。

程序包括一条或多条计算机指令,其中,一条或多条计算机指令被处理器101执行时能够实现如下步骤:

获取待处理图像;

将所述待处理图像输入训练好的神经网络模型进行处理,得到图像处理结果;所述训练好的神经网络模型是基于元学习技术对初始的神经网络模型训练获得,所述初始的神经网络模型包括基于自监督预训练的方式获得的特征提取网络。

可选的,处理器101还用于执行前述图3所示实施例中的全部或部分步骤。

其中,计算机设备的结构中还可以包括通信接口103,用于计算机设备与其他设备或通信网络通信。

图11为本申请另一实施例提供的数据处理装置的结构示意图;参考附图11所示,本实施例提供了一种数据处理装置,该装置可以执行上述图7所示的数据处理方法,具体的,该数据处理装置110可以包括:

获取模块111,用于获取待处理对象;

处理模块112,用于将所述待处理对象输入训练好的神经网络模型进行处理,得到对象处理结果;所述训练好的神经网络模型是基于元学习技术对初始的神经网络模型训练获得,所述初始的神经网络模型包括基于自监督预训练的方式获得的特征提取网络。

图11所示装置可以执行图7所示实施例的方法,本实施例未详细描述的部分,可参考对图7所示实施例的相关说明。该技术方案的执行过程和技术效果参见图7所示实施例中的描述,在此不再赘述。

在一个可能的实现中,图11所示数据处理装置的结构可实现为一计算机设备。如图12所示,该计算机设备可以包括:处理器121和存储器122。其中,存储器122用于存储支持计算机设备执行上述图7所示实施例中提供的数据处理方法的程序,处理器121被配置为用于执行存储器122中存储的程序。

程序包括一条或多条计算机指令,其中,一条或多条计算机指令被处理器121执行时能够实现如下步骤:

获取待处理对象;

将所述待处理对象输入训练好的神经网络模型进行处理,得到对象处理结果;所述训练好的神经网络模型是基于元学习技术对初始的神经网络模型训练获得,所述初始的神经网络模型包括基于自监督预训练的方式获得的特征提取网络。

可选的,处理器121还用于执行前述图7所示实施例中的全部或部分步骤。

其中,计算机设备的结构中还可以包括通信接口123,用于计算机设备与其他设备或通信网络通信。

图13为本申请一实施例提供的模型训练装置的结构示意图;参考附图13所示,本实施例提供了一种模型训练装置,该装置可以执行上述的模型训练方法,具体的,该模型训练装置130可以包括:

第一训练模块131,用于基于第一训练样本集合,采用自监督学习技术对初始的特征提取网络中的网络参数进行优化,得到训练好的特征提取网络;

第二训练模块132,用于基于第二训练样本集合,采用元学习技术对初始的神经网络模型的模型参数进行优化,得到所述训练好的神经网络模型,所述初始的神经网络模型包括所述训练好的特征提取网络。

图13所示装置可以执行图8所示实施例的方法,本实施例未详细描述的部分,可参考对图8所示实施例的相关说明。该技术方案的执行过程和技术效果参见图8所示实施例中的描述,在此不再赘述。

在一个可能的实现中,图13所示模型训练装置的结构可实现为计算机设备。如图14所示,该计算机设备可以包括:处理器141和存储器142。其中,存储器142用于存储支持计算机设备执行上述图8所示实施例中提供的模型训练方法的程序,处理器141被配置为用于执行存储器142中存储的程序。

程序包括一条或多条计算机指令,其中,一条或多条计算机指令被处理器141执行时能够实现如下步骤:

基于第一训练样本集合,采用自监督学习技术对初始的特征提取网络中的网络参数进行优化,得到训练好的特征提取网络;

基于第二训练样本集合,采用元学习技术对初始的神经网络模型的模型参数进行优化,得到所述训练好的神经网络模型,所述初始的神经网络模型包括所述训练好的特征提取网络。

可选的,处理器141还用于执行前述图8所示实施例中的全部或部分步骤。

其中,计算机设备的结构中还可以包括通信接口143,用于计算机设备与其他设备或通信网络通信。

另外,本申请实施例提供了一种计算机存储介质,用于储存计算机设备所用的计算机软件指令,其包含用于执行上述图3所示方法实施例所涉及的程序。

本申请实施例提供了一种计算机存储介质,用于储存计算机设备所用的计算机软件指令,其包含用于执行上述图7所示方法实施例所涉及的程序。

本申请实施例提供了一种计算机存储介质,用于储存计算机设备所用的计算机软件指令,其包含用于执行上述图8所示方法实施例所涉及的程序。

以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助加必需的通用硬件平台的方式来实现,当然也可以通过硬件和软件结合的方式来实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以计算机产品的形式体现出来,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程设备的处理器以产生一个机器,使得通过计算机或其他可编程设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。

最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

完整详细技术资料下载
上一篇:石墨接头机器人自动装卡簧、装栓机
下一篇:图像注册方法、装置、电子设备

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!