一种基于模型蒸馏的图像类别识别方法、装置、存储介质及终端
技术领域
本发明涉及计算机视觉
技术领域
,特别涉及一种基于模型蒸馏的图像类别识别方法、装置、存储介质及终端。背景技术
近年来,深度神经网络使得很多计算机视觉任务的性能达到了前所未有的高度。神经网络的模型结构越复杂,参数越多,网络能学习到的知识就越丰富,学习效果也越好。然而,高额的存储空间以及计算资源使得大网络模型难以应用在各类移动平台,因此,设计更加轻量化且兼顾性能的网络模型成为了计算机视觉算法落地应用的关键研究之一。
在现有技术中,模型轻量化通常采用模型压缩方法通过对大模型进行参数裁剪、权重分解或者采用模型蒸馏等方法,减小模型对于计算空间和时间的消耗。然而,现有技术中模型训练时未能有效利用类别之间分类映射向量的先验关系,从而,当利用训练出的模型进行图像分类时,分类结果不够准确。
发明内容
本申请实施例提供了一种基于模型蒸馏的图像类别识别方法、装置、存储介质及终端。为了对披露的实施例的一些方面有一个基本的理解,下面给出了简单的概括。该概括部分不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念,以此作为后面的详细说明的序言。
第一方面,本申请实施例提供了一种基于模型蒸馏的图像类别识别方法,该方法包括:
获取待分类目标图像;
将待分类目标图像输入预先训练的学生模型中,输出目标图像对应的多个类别概率值;
其中,预先训练的学生模型基于模型蒸馏法训练生成,模型蒸馏法训练生成是基于预先训练的教师模型内全连接层的不同类别分类映射向量之间的相似度训练生成,不同分类映射向量之间的相似度为不同分类映射向量之间夹角的余弦值;
基于多个类别概率值识别待分类目标图像的目标类别。
可选的,基于多个类别概率值识别待分类目标图像的目标类别,包括:
选择多个类别概率值中的最大类别概率值;
识别选择的最大类别概率值对应的目标类别;
将目标类别确定为待分类目标图像的所属类别。
可选的,预先训练的学生模型中至少包括特征提取层、全连接层以及归一化层;
将待分类目标图像输入预先训练的学生模型中,输出目标图像对应的多个类别概率值,包括:
将待分类目标图像输入特征提取层进行特征提取,生成目标特征;
将目标特征输入全连接层,输出目标图像对应的多个类别置信度;
将多个类别置信度输入归一化层,输出目标图像对应的多个类别概率值。
可选的,按照下述步骤生成预先训练的教师模型,包括:
采集多种类型的图像集生成模型训练样本;
创建教师模型;
将模型训练样本输入教师模型中进行训练后,生成训练后的教师模型;
将训练后的教师模型确定为预先训练的教师模型。
可选的,按照下述步骤生成预先训练的学生模型,包括:
针对预先训练的教师模型内全连接层的不同类别分类映射向量构建第一相似度矩阵Steacher∈Rk×k,k为类别数,R为实数;
创建学生模型;其中,学生模型的参数量小于教师模型的参数量;
针对学生模型内全连接层的不同类别分类映射向量构建第二相似度矩阵Sstudent∈Rk×k;
根据第一相似度矩阵Steacher∈Rk×k与第二相似度矩阵Steacher∈Rk×k构造学生模型的目标损失函数;
将目标损失函数关联至学生模型上,生成关联函数后的学生模型;
从模型训练样本中获取第n图像,并将第n图像输入关联函数后的学生模型中进行训练;
当模型的迭代训练次数小于预设值时,继续执行从模型训练样本中获取第n+1图像的步骤,并当n+1大于模型训练样本时,对模型训练样本中图像的顺序进行随机排列,并重置n=1。
可选的,针对预先训练的教师模型内全连接层的不同类别分类映射向量构建第一相似度矩阵,包括:
计算预先训练的教师模型内全连接层的不同类别分类映射向量之间夹角的余弦值,生成第一相似度矩阵;
以及,
计算学生模型内全连接层的不同类别分类映射向量之间夹角的余弦值,生成第二相似度矩阵;
其中,相似度矩阵计算公式为:
Steacher(i,j)=cosine(Si,Sj),其中,Steacher(i,j)表示类别i的分类映射向量Si与类别j的分类映射向量Sj之间分类映射向量夹角的余弦值。
可选的,目标损失函数的计算公式为:
其中,λ为相似度矩阵损失函数的权重,Ldistill为学生模型的蒸馏损失,Ldistill的计算公式为:Ldistill=∑i-pi×logqi,p和q分别为教师模型与学生模型的归一化层输出的向量;
归一化层可定义为:其中,向量Z为全连接层的输出的向量,qi表示第i个类别的概率值,Zi表示全连接层输出向量的第i维,Zj表示全连接层输出向量的第j维,T是控制输出概率平滑度的参数。
第二方面,本申请实施例提供了一种基于模型蒸馏的图像类别识别装置,该装置包括:
图像获取模块,用于获取待分类目标图像;
概率值输出模块,用于将待分类目标图像输入预先训练的学生模型中,输出目标图像对应的多个类别概率值;
其中,预先训练的学生模型基于模型蒸馏法训练生成,模型蒸馏法训练生成是基于预先训练的教师模型内全连接层的不同类别分类映射向量之间的相似度训练生成,不同分类映射向量之间的相似度为不同分类映射向量之间夹角的余弦值;
类别识别模块,用于基于多个类别概率值识别待分类目标图像的目标类别。
第三方面,本申请实施例提供一种计算机存储介质,计算机存储介质存储有多条指令,指令适于由处理器加载并执行上述的方法步骤。
第四方面,本申请实施例提供一种终端,可包括:处理器和存储器;其中,存储器存储有计算机程序,计算机程序适于由处理器加载并执行上述的方法步骤。
本申请实施例提供的技术方案可以包括以下有益效果:
在本申请实施例中,基于模型蒸馏的图像类别识别装置首先获取待分类目标图像并输入预先训练的学生模型中,然后输出多个类别概率值,其中,预先训练的学生模型基于模型蒸馏法训练生成,模型蒸馏法训练生成是基于预先训练的教师模型内全连接层的不同类别分类映射向量之间的相似度训练生成,不同分类映射向量之间的相似度为不同分类映射向量之间夹角的余弦值,最后基于多个类别概率值识别待分类目标图像的目标类别。因此,本申请实施例通过采用基于预先训练的教师模型内全连接层的不同类别分类映射向量之间的相似度指导学生模型进行训练,使得学生模型也能学到和教师模型相似区分度的特征,由于学生模型结构简单以及参数少,从而提升了硬件平台的运行速度,进一步提高了图像分类效率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是本申请实施例提供的一种基于模型蒸馏的图像类别识别方法的流程示意图;
图2是本申请实施例提供的一种基于模型蒸馏的图像类别识别过程的过程示意框图;
图3是本申请实施例提供的一种基于模型蒸馏的图像类别识别装置的装置示意图;
图4是本申请实施例提供的一种终端的结构示意图。
具体实施方式
以下描述和附图充分地示出本发明的具体实施方案,以使本领域的技术人员能够实践它们。
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
在本发明的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。此外,在本发明的描述中,除非另有说明,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
下面将结合附图1-附图2,对本申请实施例提供的基于模型蒸馏的图像类别识别方法进行详细介绍。该方法可依赖于计算机程序实现,可运行于基于冯诺依曼体系的基于模型蒸馏的图像类别识别装置上。该计算机程序可集成在应用中,也可作为独立的工具类应用运行。其中,本申请实施例中的基于模型蒸馏的图像类别识别装置可以为用户终端,包括但不限于:个人电脑、平板电脑、手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其它处理设备等。在不同的网络中用户终端可以叫做不同的名称,例如:用户设备、接入终端、用户单元、用户站、移动站、移动台、远方站、远程终端、移动设备、用户终端、终端、无线通信设备、用户代理或用户装置、蜂窝电话、无绳电话、个人数字处理(personal digital assistant,PDA)、5G网络或未来演进网络中的终端设备等。
请参见图1,为本申请实施例提供了一种基于模型蒸馏的图像类别识别方法的流程示意图。如图1所示,本申请实施例的方法可以包括以下步骤:
S101,获取待分类目标图像;
其中,待分类的目标图像是用来测试学生模型性能的图像或者学生模型应用在分类应用场景时获取到的图像。
通常,当待分类的目标图像是用来测试学生模型性能的图像时,待分类的目标图像可以是从测试样本中获取的,也可以是从用户终端里获取到的图像,还可以是从云端下载到的图像。当待分类的目标图像是学生模型应用在分类应用场景时获取到的图像时,待分类的图像可以是通过图像采集设备实时采集的图像。
在一种可能的实现方式中,当基于教师模型训练的学生模型训练结束后,并将训练结束的学生模型部署在实际应用场景时,物体传感器或者物体监测算法当检测到有物体进入摄像头监视区域后,触发图像采集摄像的拍照功能采集进入监视区域的目标图像,最后将目标图像确定为待分类目标图像。
在另一种可能的实现方式中,当基于教师模型训练的学生模型训练结束后,需要检测训练完成的学生模型的图像分类性能,用户通过用户终端从样本测试集或者本地图库或者云端下载任何一个带物体图像,将该图像确定为待分类目标图像。
S102,将待分类目标图像输入预先训练的学生模型中,输出目标图像对应的多个类别概率值;其中,预先训练的学生模型基于模型蒸馏法训练生成,模型蒸馏法训练生成是基于预先训练的教师模型内全连接层的不同类别分类映射向量之间的相似度训练生成,不同分类映射向量之间的相似度为不同分类映射向量之间夹角的余弦值;
其中,模型蒸馏的方法中,算法先训练一个精度较高的大模型,称为教师模型。然后利用教师模型中学到的知识,去指导训练一个参数量较少的学生模型。学生模型通过学习教师模型中对分类有益的信息,从而提高自己的性能。由于学生模型参数量少,运行速度快,因此可以方便地部署在各类硬件平台上。
通常,教师模型与学生模型都是通过神经网络创建的,该神经网络优选卷积神经网络。
在全连接分类层中,越相似的类别,映射向量越相似,即向量之间具有越小的夹角。越不相似的类别,其分类映射向量也越不相似。比如,ImageNet数据集中包含狗、狼、飞机等类别。通过分析现有的在ImageNet上训练好的大模型,我们发现,狗和狼的分类映射向量夹角较小,而狗和飞机的映射向量夹角较大。因此,分类映射向量的相似度可以作为一种度量类别相似性的指标。
我们希望在学生模型在训练的过程中,可以学习到教师网络中的类别之间的相似度,以更好地对数据分布进行建模。即,如果类别A和类别B在教师模型中具有较高的相似度,那么,在学生模型中,则希望类别A和类别B的相似度依然能够得到保持。如果类别A和类别B在教师模型中具有较低的相似度,那么,在学生模型中,类别A和类别B依然不相似。即希望学生模型分类分类层中,类别映射向量之间的相似度能够与教师模型中的保持一致。
在本申请实施例中,在生成预先训练的教师模型时,首先采集多种类型的图像集生成模型训练样本,然后创建教师模型,再将模型训练样本输入教师模型中进行训练后,生成训练后的教师模型,最后将训练后的教师模型确定为预先训练的教师模型。
在本申请实施例中,在生成预先训练的学生模型时,首先针对预先训练的教师模型内全连接层的不同类别分类映射向量构建第一相似度矩阵Steacher∈Rk×k,k为类别数,R为实数;再创建学生模型,其中,学生模型的参数量小于教师模型的参数量,然后针对学生模型内全连接层的不同类别分类映射向量构建第二相似度矩阵Sstudent∈Rk×k,再根据第一相似度矩阵Steacher∈Rk×k与第二相似度矩阵Steacher∈Rk×k构造学生模型的目标损失函数,其次将目标损失函数关联至学生模型上,生成关联函数后的学生模型,最后从模型训练样本中获取第n图像,并将第n图像输入关联函数后的学生模型中进行训练,以及当模型的迭代训练次数小于预设值时,继续执行从模型训练样本中获取第n+1图像的步骤,并当n+1大于模型训练样本时,对模型训练样本中图像的顺序进行随机排列,并重置n=1。
具体的,目标损失函数的计算公式为: 其中,λ为相似度矩阵损失函数的权重,Ldistill为学生模型的蒸馏损失,Ldistill的计算公式为:Ldistill=∑i-pi×logqi,p和q分别为教师模型与学生模型的归一化层输出的向量;归一化层可定义为:其中,向量Z为全连接层的输出的向量,qi表示第i个类别的概率值,Zi表示全连接层输出向量的第i维,Zj表示全连接层输出向量的第j维,T是控制输出概率平滑度的参数。
进一步的,在针对预先训练的教师模型内全连接层的不同类别分类映射向量构建第一相似度矩阵Steacher时,首先计算预先训练的教师模型内全连接层的不同类别分类映射向量之间夹角的余弦值,生成第一相似度矩阵;以及,计算学生模型内全连接层的不同类别分类映射向量之间夹角的余弦值,生成第二相似度矩阵;其中,第一余弦值集合中各余弦值计算公式为:Steacher(i,j)=cosine(Si,Sj),其中,Steacher(i,j)表示类别i的分类映射向量Si与类别j的分类映射向量Sj之间分类映射向量夹角的余弦值。
在一种可能的实现方式中,在基于步骤S101获取到待分类目标图像后,将待分类目标图像输入预先训练的学生模型中进行处理时,预先训练的学生模型中至少包括特征提取层、全连接层以及归一化层,首先将待分类目标图像输入特征提取层进行特征提取,生成目标特征,然后将目标特征输入全连接层,输出目标图像对应的多个类别置信度,最后将多个类别置信度输入归一化层,输出目标图像对应的多个类别概率值。
例如,该图像通过预先训练的学生模型进行处理完成后输出的多个概率值为:动物类型概率23%、人体类型概率67%、其他类型概率为10%,从输出的概率可以知道,最大概率为人体类型概率67%,因此该图像中的物体为人体类型。
S103,基于多个类别概率值识别待分类目标图像的目标类别。
在一种可能的实现方式中,在得到待分类图像的多个类别概率值后,首先选择多个类别概率值中的最大概率值,然后识别选择的最大概率值对应的目标类别,最后将目标类别确定为待分类目标图像的所属类别。
例如图2所示,图2是本申请提供的基于模型蒸馏的图像类别识别过程的过程示意图,首先通过获取一个目标图像,然后将该目标图像输入预先训练的学生模型中,经过模型处理后输入概率值1、概率值2、概率值3以及概率值n,其次从输出的多个概率中选择概率值最大的概率值,并将概率值最大的概率值对应的类别确定为图像的最终所属类别。
在本申请实施例中,基于模型蒸馏的图像类别识别装置首先获取待分类目标图像并输入预先训练的学生模型中,然后输出多个类别概率值,其中,预先训练的学生模型基于模型蒸馏法训练生成,模型蒸馏法训练生成是基于预先训练的教师模型内全连接层的不同类别分类映射向量之间的相似度训练生成,不同分类映射向量之间的相似度为不同分类映射向量之间夹角的余弦值,最后基于多个类别概率值识别待分类目标图像的目标类别。因此,本申请实施例通过采用基于预先训练的教师模型内全连接层的不同类别分类映射向量之间的相似度指导学生模型进行训练,使得学生模型也能学到和教师模型相似区分度的特征,由于学生模型结构简单以及参数少,从而提升了硬件平台的运行速度,进一步提高了图像分类效率。
下述为本发明装置实施例,可以用于执行本发明方法实施例。对于本发明装置实施例中未披露的细节,请参照本发明方法实施例。
请参见图3,其示出了本发明一个示例性实施例提供的基于模型蒸馏的图像类别识别装置的结构示意图。该基于模型蒸馏的图像类别识别装置可以通过软件、硬件或者两者的结合实现成为终端的全部或一部分。该装置1包括图像获取模块10、概率值输出模块20、类别识别模块30。
图像获取模块10,用于获取待分类目标图像;
概率值输出模块20,用于将待分类目标图像输入预先训练的学生模型中,输出目标图像对应的多个类别概率值;
其中,预先训练的学生模型基于模型蒸馏法训练生成,模型蒸馏法训练生成是基于预先训练的教师模型内全连接层的不同类别分类映射向量之间的相似度训练生成,不同分类映射向量之间的相似度为不同分类映射向量之间夹角的余弦值;
类别识别模块30,用于基于多个类别概率值识别待分类目标图像的目标类别。
需要说明的是,上述实施例提供的基于模型蒸馏的图像类别识别装置在执行基于模型蒸馏的图像类别识别方法时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的基于模型蒸馏的图像类别识别装置与基于模型蒸馏的图像类别识别方法实施例属于同一构思,其体现实现过程详见方法实施例,这里不再赘述。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
在本申请实施例中,基于模型蒸馏的图像类别识别装置首先获取待分类目标图像并输入预先训练的学生模型中,然后输出多个类别概率值,其中,预先训练的学生模型基于模型蒸馏法训练生成,模型蒸馏法训练生成是基于预先训练的教师模型内全连接层的不同类别分类映射向量之间的相似度训练生成,不同分类映射向量之间的相似度为不同分类映射向量之间夹角的余弦值,最后基于多个类别概率值识别待分类目标图像的目标类别。因此,本申请实施例通过采用基于预先训练的教师模型内全连接层的不同类别分类映射向量之间的相似度指导学生模型进行训练,使得学生模型也能学到和教师模型相似区分度的特征,由于学生模型结构简单以及参数少,从而提升了硬件平台的运行速度,进一步提高了图像分类效率。
本发明还提供一种计算机可读介质,其上存储有程序指令,该程序指令被处理器执行时实现上述各个方法实施例提供的基于模型蒸馏的图像类别识别方法。
本发明还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述各个方法实施例的基于模型蒸馏的图像类别识别方法。
请参见图4,为本申请实施例提供了一种终端的结构示意图。如图4所示,终端1000可以包括:至少一个处理器1001,至少一个网络接口1004,用户接口1003,存储器1005,至少一个通信总线1002。
其中,通信总线1002用于实现这些组件之间的连接通信。
其中,用户接口1003可以包括显示屏(Display)、摄像头(Camera),可选用户接口1003还可以包括标准的有线接口、无线接口。
其中,网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。
其中,处理器1001可以包括一个或者多个处理核心。处理器1001利用各种借口和线路连接整个电子设备1000内的各个部分,通过运行或执行存储在存储器1005内的指令、程序、代码集或指令集,以及调用存储在存储器1005内的数据,执行电子设备1000的各种功能和处理数据。可选的,处理器1001可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable Logic Array,PLA)中的至少一种硬件形式来实现。处理器1001可集成中央处理器(Central Processing Unit,CPU)、图像处理器(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示屏所需要显示的内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器1001中,单独通过一块芯片进行实现。
其中,存储器1005可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。可选的,该存储器1005包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器1005可用于存储指令、程序、代码、代码集或指令集。存储器1005可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等;存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图4所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及基于模型蒸馏的图像类别识别应用程序。
在图4所示的终端1000中,用户接口1003主要用于为用户提供输入的接口,获取用户输入的数据;而处理器1001可以用于调用存储器1005中存储的基于模型蒸馏的图像类别识别应用程序,并具体执行以下操作:
获取待分类目标图像;
将待分类目标图像输入预先训练的学生模型中,输出目标图像对应的多个类别概率值;
其中,预先训练的学生模型基于模型蒸馏法训练生成,模型蒸馏法训练生成是基于预先训练的教师模型内全连接层的不同类别分类映射向量之间的相似度训练生成,不同分类映射向量之间的相似度为不同分类映射向量之间夹角的余弦值;
基于多个类别概率值识别待分类目标图像的目标类别。
在一个实施例中,处理器1001在执行基于多个类别概率值识别待分类目标图像的目标类别时,具体执行以下操作:
选择多个类别概率值中的最大类别概率值;
识别选择的最大类别概率值对应的目标类别;
将目标类别确定为待分类目标图像的所属类别。
在一个实施例中,处理器1001在执行将待分类目标图像输入预先训练的学生模型中,输出目标图像对应的多个类别概率值时,具体执行以下操作:
将待分类目标图像输入特征提取层进行特征提取,生成目标特征;
将目标特征输入全连接层,输出目标图像对应的多个类别置信度;
将多个类别置信度输入归一化层,输出目标图像对应的多个类别概率值。
在一个实施例中,处理器1001在执行生成预先训练的教师模型时,具体执行以下操作:
采集多种类型的图像集生成模型训练样本;
创建教师模型;
将模型训练样本输入教师模型中进行训练后,生成训练后的教师模型;
将训练后的教师模型确定为预先训练的教师模型。
在一个实施例中,处理器1001在执行生成预先训练的学生模型时,具体执行以下操作:
针对预先训练的教师模型内全连接层的不同类别分类映射向量构建第一相似度矩阵Steacher∈Rk×k,k为类别数,R为实数;
创建学生模型;其中,学生模型的参数量小于教师模型的参数量;
针对学生模型内全连接层的不同类别分类映射向量构建第二相似度矩阵Sstudent∈Rk×k;
根据第一相似度矩阵Steacher∈Rk×k与第二相似度矩阵Steacher∈Rk×k构造学生模型的目标损失函数;
将目标损失函数关联至学生模型上,生成关联函数后的学生模型;
从模型训练样本中获取第n图像,并将第n图像输入关联函数后的学生模型中进行训练;
当模型的迭代训练次数小于预设值时,继续执行从模型训练样本中获取第n+1图像的步骤,并当n+1大于模型训练样本时,对模型训练样本中图像的顺序进行随机排列,并重置n=1。
在一个实施例中,处理器1001在执行针对预先训练的教师模型内全连接层的不同类别分类映射向量构建第一相似度矩阵时,具体执行以下操作:
计算预先训练的教师模型内全连接层的不同类别分类映射向量之间夹角的余弦值,生成第一相似度矩阵;
以及,
计算学生模型内全连接层的不同类别分类映射向量之间夹角的余弦值,生成第二相似度矩阵;
其中,第一余弦值集合中各余弦值计算公式为:
Steacher(i,j)=cosine(Si,Sj),其中,Steacher(i,j)表示类别i的分类映射向量Si与类别j的分类映射向量Sj之间分类映射向量夹角的余弦值。
在本申请实施例中,基于模型蒸馏的图像类别识别装置首先获取待分类目标图像并输入预先训练的学生模型中,然后输出多个类别概率值,其中,预先训练的学生模型基于模型蒸馏法训练生成,模型蒸馏法训练生成是基于预先训练的教师模型内全连接层的不同类别分类映射向量之间的相似度训练生成,不同分类映射向量之间的相似度为不同分类映射向量之间夹角的余弦值,最后基于多个类别概率值识别待分类目标图像的目标类别。因此,本申请实施例通过采用基于预先训练的教师模型内全连接层的不同类别分类映射向量之间的相似度指导学生模型进行训练,使得学生模型也能学到和教师模型相似区分度的特征,由于学生模型结构简单以及参数少,从而提升了硬件平台的运行速度,进一步提高了图像分类效率。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,基于模型蒸馏的图像类别识别的程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,的存储介质可为磁碟、光盘、只读存储记忆体或随机存储记忆体等。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。