场景识别方法、训练方法、装置、电子设备及程序产品
技术领域
本发明涉及计算机
技术领域
,尤其涉及一种场景识别方法、训练方法、装置、电子设备及程序产品。背景技术
场景识别是计算机视觉
技术领域
的一个重要分支,已广泛应用于各个领域。随着卷积神经网络(Convolutional Neural Network,简称CNN)在图像分类任务中的突出表现,越来越多的场景识别基于卷积神经网络实现。实际的室内场景中存在大量无关信息及干扰信息,因此对室内场景识别的研究具有重要意义。在现有技术中,通常基于卷积神经网络模型对获取到的待识别场景的彩色图像与深度图像分别进行全局特征提取,并采用级联处理或元素级别的加法实现上述两种图像的融合,得到多模态特征进而得到场景识别结果。
然而,现有方法中忽略了待识别场景的彩色图像与深度图像的局部特征以及两种图像之间的语义差异,导致场景识别的准确度低。
发明内容
本发明实施例提供一种场景识别方法、训练方法、装置、电子设备及程序产品,以解决现有方法中忽略了待识别场景的彩色图像与深度图像的局部特征以及两种图像之间的语义差异,导致场景识别的准确度低的技术问题。
第一方面,本发明实施例提供一种场景识别方法,所述方法包括:
获取待识别场景的彩色图像与深度图像;
利用特征提取算法对彩色图像与深度图像分别进行特征提取,获得彩色图像对应的第一全局特征与第一局部特征,以及深度图像对应的第二全局特征与第二局部特征;
对所述第一全局特征、第二全局特征、第一局部特征以及第二局部特征进行融合,得到待识别场景的多模态特征;
对所述待识别场景的多模态特征进行场景识别,得到所述待识别场景的识别结果。
在一种可能的实施方式中,所述利用特征提取算法对彩色图像与深度图像分别进行特征提取,获得彩色图像对应的第一全局特征与第一局部特征,以及深度图像对应的第二全局特征与第二局部特征,包括:
对所述彩色图像和所述深度图像分别进行基于卷积的特征提取,得到所述彩色图像的第一高维特征与所述深度图像的第二高维特征;
分别对所述第一高维特征与第二高维特征进行特征变换,得到所述彩色图像的第一全局特征和所述深度图像的第二全局特征;
基于空间注意力机制对所述第一高维特征和所述第二高维特征分别进行特征压缩及映射,得到所述第一局部特征和所述第二局部特征。
在一种可能的实施方式中,所述基于空间注意力机制对所述第一高维特征和所述第二高维特征分别进行特征压缩及映射,得到所述第一局部特征和所述第二局部特征,包括:
利用空间注意力算法对所述第一高维特征和第二高维特征分别进行计算,得到第一高维特征对应的空间注意力图以及第二高维特征对应的空间注意力图;
对第一高维特征对应的空间注意力图和第二高维特征对应的空间注意力图分别进行沿通道方向的特征映射,得到所述第一局部特征和第二局部特征。
在一种可能的实施方式中,所述对所述第一全局特征、第二全局特征、第一局部特征以及第二局部特征进行融合,得到待识别场景的多模态特征,包括:
利用GCN算法对第一局部特征与第二局部特征进行基于语义的特征融合,得到最终局部特征;
对所述最终局部特征、第一全局特征以及第二全局特征进行融合,得到待识别场景的多模态特征。
在一种可能的实施方式中,所述利用GCN算法对第一局部特征与第二局部特征进行基于语义的特征融合,得到最终局部特征,包括:
基于第一局部特征与第二局部特征,分别构建第一图结构和第二图结构,其中,所述第一图结构用于表示彩色图像中各物体节点之间的位置关联关系,第二图结构用于表示深度图像中各物体节点之间的位置关联关系;
根据第一图结构中的节点的特征与第二图结构中的节点的特征,对第一图结构中的各节点的特征进行融合,得到第一最终局部特征;
根据第二图结构中的节点的特征与第一图结构中的节点的特征,对第二图结构中的各节点的特征进行融合,得到第二最终局部特征;
将所述第一最终局部特征与第二最终局部特征进行级联处理以及特征变换,得到最终局部特征。
第二方面,本发明实施例提供一种场景识别模型的训练方法,包括:
获取训练数据集,所述训练数据集中包括训练场景的至少一组彩色训练图像、深度训练图像以及场景类别标签;
利用所述训练数据集对预设的场景识别模型进行训练,得到训练后的场景识别模型,所述训练后的场景识别模型用于根据第一方面任一项所述的场景识别方法对所述彩色训练图像与深度训练图像进行处理。
在一种可能的实施方式中,所述利用所述训练数据集对预设的场景识别模型进行训练,包括:
将所述彩色训练图像、深度训练图像输入至预设的场景识别模型,以使所述预设的场景识别模型对所述彩色训练图像、深度训练图像分别进行特征提取,获得彩色训练图像对应的第一全局训练特征与第一局部训练特征,以及深度训练图像对应的第二全局训练特征与第二局部训练特征;以及,对所述第一全局训练特征、第二全局训练特征、第一局部训练特征以及第二局部训练特征进行融合,得到训练场景的多模态训练特征;
根据基于所述多模态训练特征与场景类别标签的交叉熵损失函数对所述预设的场景识别模型进行调参处理,直至完成训练。
在一种可能的实施方式中,所述根据基于所述多模态训练特征与场景类别标签的交叉熵损失函数对所述预设的场景识别模型进行调参处理,直至完成训练,包括:
基于交叉熵损失函数计算所述多模态训练特征与场景类别标签的交叉熵损失;
判断所述交叉熵损失是否小于预设阈值;
若是,则训练完成,得到训练后的场景识别模型;
若否,则根据所述交叉熵损失对所述预设的场景识别模型进行模型参数调整,并从所述训练数据集中选出下一组彩色训练图像、深度训练图像以及场景类别标签,利用所述下一组彩色训练图像、深度训练图像以及场景类别标签对模型参数调整后的场景识别模型进行训练,直至训练完成。
第三方面,本发明实施例提供一种场景识别装置,包括:
第一获取模块,用于获取待识别场景的彩色图像与深度图像;
提取模块,用于利用特征提取算法对彩色图像与深度图像分别进行特征提取,获得彩色图像对应的第一全局特征与第一局部特征,以及深度图像对应的第二全局特征与第二局部特征;
融合模块,用于对所述第一全局特征、第二全局特征、第一局部特征以及第二局部特征进行融合,得到待识别场景的多模态特征;
执行模块,用于对所述待识别场景的多模态特征进行场景识别,得到所述待识别场景的识别结果。
第四方面,本发明实施例提供一种场景识别模型的训练装置,包括:
第二获取模块,用于获取训练数据集,所述训练数据集中包括训练场景的至少一组彩色训练图像、深度训练图像以及场景类别标签;
训练模块,用于利用所述训练数据集对预设的场景识别模型进行训练,得到训练后的场景识别模型,所述训练后的场景识别模型用于根据第一方面任一项所述的场景识别方法对所述彩色训练图像与深度训练图像进行处理。
第五方面,本发明实施例提供一种电子设备,包括:存储器和至少一个处理器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如第一方面任一项所述的场景识别方法,或,执行如第二方面任一项所述的场景识别模型的训练方法。
第六方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如第一方面任一项所述的方法,或,实现如第二方面任一项所述的方法。
第七方面,本发明实施例提供一种计算机程序产品,包括计算机指令,该计算机指令被处理器执行时实现第一方面任一项所述的方法,或,实现第二方面任一项所述的方法。
本发明实施例提供的场景识别方法、训练方法、装置、电子设备及程序产品,通过获取待识别场景的彩色图像与深度图像,利用特征提取算法对彩色图像与深度图像分别进行特征提取,获得彩色图像对应的第一全局特征与第一局部特征,以及深度图像对应的第二全局特征与第二局部特征,对上述全局特征以及局部特征进行融合,得到待识别场景的多模态特征,并对待识别场景的多模态特征进行场景识别,得到所述待识别场景的识别结果,能够通过分别提取彩色图像与深度图像的第一局部特征与第二局部特征,并对上述局部特征与全局特征进行融合,提高场景识别的准确度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的场景识别方法的场景图;
图2为本发明实施例提供的一种场景识别方法的流程示意图;
图3为本发明实施例提供的一种场景识别方法的数据流示意图;
图4为本发明实施例提供的一种场景识别模型的训练方法的流程示意图;
图5为本发明实施例提供的一种场景识别装置的结构示意图;
图6为本发明实施例提供的一种场景识别模型的训练装置的结构示意图;
图7为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
场景识别是计算机视觉技术领域的一个重要分支,已广泛应用于各个领域,其目的是对给定的图片或视频赋予一个场景类别标签,例如公园、厨房、教室等。随着卷积神经网络在图像分类任务中的突出表现,越来越多的场景识别基于卷积神经网络实现。
针对室内场景识别,在现有技术中,通常基于卷积神经网络模型对获取到的室内场景的彩色图像与深度图像分别进行全局特征提取,并采用级联处理或元素级别的加法实现上述两种图像的融合,得到多模态特征进而得到场景识别结果,即得到对应的场景类别标签。
然而实际的室内场景中存在大量无关信息及干扰信息,且室内场景类别之间存在着较大的类内差异以及较小的类间差异,例如,教室场景与会议室场景均包括桌子与椅子等,存在较小的类间差异,因此仅提取待识别场景的彩色图像与深度图像的全局特征无法准确将上述两种场景区别。
现有的场景识别方法忽略了待识别场景的彩色图像与深度图像中的局部特征,以及两种图像之间的语义差异,导致降低了场景识别的准确度。
为了解决上述问题,发明人首先想到,在对待识别场景的彩色图像与深度图像进行全局特征提取的基础上,利用空间注意力机制提取上述两种图像中重要的局部特征,并利用图结构连接上述局部特征,进而基于图卷积网络(Graph Convolutional Network,简称GCN)算法对上述两种图像的局部特征进行融合,可以减小两种图像之间的语义差别,进而提高场景识别的准确度。
本发明实施例所涉及的场景可以为多种场景,特别的,针对室内场景的识别有着较为突出的效果,其中,室内场景具体可以为室内环境下的场景,例如,家庭环境下对厨房的类型进行识别,或,学校环境下对教室的类型进行识别。
图1为本发明实施例的场景识别方法的场景图。如图1所示,本发明实施例提供的场景识别方法对应的应用场景中包括:终端设备1与服务器2。
其中,终端设备1具体可为可用于采集图像或拍摄视频等具有视频图像采集功能的硬件设备,其包括但不限于监控摄像头、照相机、具备摄像功能的智能手机、具备摄像功能的平板电脑等。通过网络,终端设备1可将采集得到的待识别场景的图像或视频等发送至服务器2,以供其按照预设的处理逻辑进行相应处理。
服务器2具体可以为设置在云端的服务器或者服务器集群,其服务器或服务器集群中布设有训练完成的场景识别模型。当终端设备1将采集得到的待识别场景的图像或视频发送至服务器2时,服务器2中布设的训练完成的场景识别模型将对待识别场景的图像或视频进行场景识别处理,得到待识别场景的识别结果。
例如,在使用时,终端设备1将采集得到的待识别场景的图像上传至服务器2,服务器2通过训练完成的场景识别模型可将用户选中的待识别场景的图像进行场景识别处理,得到该待识别场景的识别结果,并将上述识别结果反馈给终端设备1。
图2为本发明实施例提供的一种场景识别方法的流程示意图。本发明实施例中方法的执行主体可以为电子设备。如图2所示,本实施例中的方法,可以包括:
步骤201、获取待识别场景的彩色图像与深度图像。
本实施例中,待识别场景的彩色图像以及深度图像是指预先采集获得的包括有室内场景的待识别的彩色图像以及深度图像。需要说明的是,其采集获得的渠道可为多种,其中包括但不限于从已有视频中截取获得,利用深度相机及其自带的色彩传感器采集获得、利用互联网资源获得等。由于本实施例涉及的为对图像中室内场景的识别,无论采用什么样的获得方式,待识别场景中均应包括有室内场景。
上述彩色图像与深度图像可以提供不同的信息,例如,彩色图像可以提供颜色、纹理等信息,深度图像可以提供空间位置等信息。
步骤202、利用特征提取算法对彩色图像与深度图像分别进行特征提取,获得彩色图像对应的第一全局特征与第一局部特征,以及深度图像对应的第二全局特征与第二局部特征。
本实施例中,上述特征提取算法可以为ResNet101算法、VGG算法或AlexNet算法等。通过上述特征提取算法,可使得彩色图像与深度图像中的全局特征与局部特征被提取出来。
示例性的,待识别场景可以为教室场景,该场景中可能包括桌子、椅子、黑板等物体,其中,彩色图像对应的第一全局特征可以为教室场景中所有物体的整体属性信息,例如所有物体的颜色、纹理及形状特征等,第一局部特征可以为教室场景中抽取的局部区域中的特征,即局部区域中包含的关键物体的颜色、纹理及形状特征等。深度图像对应的第二全局特征可以为教室场景中所有物体的空间几何信息,例如所有物体的摆放位置等,第二局部特征可以为教室场景中抽取的局部区域中的特征,即局部区域中包含的关键物体的空间几何信息,例如教室场景中桌子和椅子等通常都朝向一个方向摆放,而在会议室场景中椅子通常围绕中间的桌子摆放。
步骤203、对所述第一全局特征、第二全局特征、第一局部特征以及第二局部特征进行融合,得到待识别场景的多模态特征。
本实施例中,上述融合方法可以为基于级联处理、元素级别的加法或GCN算法的融合方法。可以同时对得到的第一全局特征、第二全局特征、第一局部特征以及第二局部特征进行融合,还可以先对第一局部特征与第二局部特征进行融合,得到融合后的局部特征,再对融合后的局部特征、第一全局特征与第二全局特征进行融合。
步骤204、对所述待识别场景的多模态特征进行场景识别,得到所述待识别场景的识别结果。
本实施例中,上述待识别场景的识别结果为待识别场景的场景类别标签,例如,待识别场景为教室场景,则对该待识别场景的多模态特征进行场景识别后,得到待识别场景的识别结果应为教室场景。
多模态特征为多维向量,确定该多维向量中数值最大的位置,则将该位置对应的场景类别标签作为待识别场景的识别结果。
本实施例提供的场景识别方法,通过获取待识别场景的彩色图像与深度图像,利用特征提取算法对上述彩色图像与深度图像分别进行特征提取,获得彩色图像对应的第一全局特征与第一局部特征,以及深度图像对应的第二全局特征与第二局部特征,并对上述各特征进行融合,得到待识别场景的多模态特征,进而对待识别场景的多模态特征进行场景识别,最终得到待识别场景的识别结果,能够通过分别提取彩色图像与深度图像的第一局部特征与第二局部特征,并对上述局部特征与全局特征进行融合,提高场景识别的准确度。
为更有效提取彩色图像与深度图像的局部特征,同时为减小彩色图像与深度图像之间的语义差异,实现两种图像更好的融合,本实施例在上述实施例提供的技术方案的基础上,通过空间注意力机制提取彩色图像与深度图像的局部特征,并利用GCN算法对彩色图像与深度图像的局部特征进行融合,以减小两种图像之间的语义差异。
图3为本发明实施例提供的一种场景识别方法的数据流示意图。如图3所示,获取待识别场景的彩色图像与深度图像后,对所述彩色图像和所述深度图像分别进行基于卷积的特征提取,得到所述彩色图像的第一高维特征与所述深度图像的第二高维特征。
其中,分别将彩色图像与深度图像输入预设的特征提取网络,进行基于卷积的特征提取,得到第一高维特征与第二高维特征,第一高维特征与第二高维特征的尺寸均为(B,C,H,W),其中,B表示批处理的大小,即同一批次处理彩色图像或深度图像的个数,C表示特征通道的数量,H表示特征的高度,W表示特征的宽度。
进一步的,分别对所述第一高维特征与第二高维特征进行特征变换,得到所述彩色图像的第一全局特征和所述深度图像的第二全局特征。其中,利用预设的特征提取网络的两层全连接层分别对第一高维特征与第二高维特征进行特征变换,得到第一全局特征和第二全局特征。
利用空间注意力算法对所述第一高维特征和第二高维特征分别进行计算,得到第一高维特征对应的空间注意力图以及第二高维特征对应的空间注意力图;对第一高维特征对应的空间注意力图和第二高维特征对应的空间注意力图分别进行沿通道方向的特征映射,得到所述第一局部特征和第二局部特征。
其中,分别将第一高维特征与第二高维特征输入预设的计算空间注意力机制的模型,利用空间注意力算法分别对第一高维特征及第二高维特征进行特征压缩,得到第一高维特征对应的空间注意力图以及第二高维特征对应的空间注意力图,其中,第一高维特征对应的空间注意力图与第二高维特征对应的空间注意力图的尺寸均为(B,H,W)。
进一步的,根据第一高维特征与第一高维特征对应的空间注意力图计算得到第一最终特征图,根据第二高维特征与第二高维特征对应的空间注意力图计算得到第二最终特征图。
第一最终特征图与第二最终特征图计算公式分别为:
式中,为第一最终特征图,为第二最终特征图,Fr为第一高维特征,Fd为第二高维特征,SAr为第一高维特征对应的空间注意力图,SAd为第二高维特征对应的空间注意力图。
其中,第一最终特征图与第二最终特征图的尺寸均为(B,C,H,W)。
选取第一高维特征对应的空间注意力图中的数值最大的K个位置,映射到第一最终特征图中,即确定第一最终特征图中的K个位置,其中,K为大于1的整数,并取上述各位置上沿通道方向的向量作为第一局部特征,即作为第一最终特征图中的节点。类似的,选取第二高维特征对应的空间注意力图中的数值最大的K个位置,映射到第二最终特征图中,即确定第二最终特征图中的K个位置,并取上述各位置上沿通道方向的向量作为第二局部特征,即作为第二最终特征图中的节点,利用空间注意力机制得到第一局部特征与第二局部特征可以避免密集采样导致的噪声干扰。
示例性的,可以选取第一高维特征对应的空间注意力图中的数值最大的16个位置,并根据第一高维特征对应的空间注意力图与第一最终特征图的映射关系确定第一最终特征图中的16个位置,进而确定第一最终特征图中的16个节点,类似的,可以确定第二最终特征图中的16个节点。
进一步的,基于第一局部特征与第二局部特征,分别构建第一图结构和第二图结构,其中,所述第一图结构用于表示彩色图像中各物体节点之间的位置关联关系,第二图结构用于表示深度图像中各物体节点之间的位置关联关系;根据第一图结构中的节点的特征与第二图结构中的节点的特征,对第一图结构中的各节点的特征进行融合,得到第一最终局部特征;根据第二图结构中的节点的特征与第一图结构中的节点的特征,对第二图结构中的各节点的特征进行融合,得到第二最终局部特征;将所述第一最终局部特征与第二最终局部特征进行级联处理以及特征变换,得到最终局部特征。
其中,第一局部特征对应第一最终特征图中的节点,根据第一最终特征图中的节点以及节点之间的关系构建第一图结构,根据第二局部特征图中的节点以及节点之间的关系构建第二图结构。
示例性的,为保持第一图结构的有效性,将与第一高维特征对应的空间注意力图中的数值最大的位置对应的第一最终特征图中的节点作为第一图结构中的主中心节点,将与第一高维特征对应的空间注意力图中的数值次大的3个位置对应的第一最终特征图中的3个节点作为次中心节点,将第一最终特征图中的其余12个节点作为叶节点。同时为保证第一图结构的均衡性,将上述3个次中心节点分别与主中心节点相连,将各次中心节点分别与不同的4个叶节点相连,以构建得到第一图结构Gr=(Vr,Er),其中,Vr表示第一图结构中的节点的集合,Er表示第一图结构中的节点之间的连接关系。类似的,根据上述方法构建得到第二图结构Gd=(Vd,Ed),其中,Vd表示第二图结构中的节点的集合,Ed表示第二图结构中的节点之间的连接关系。
进一步的,为减小两种图像之间的语义差异,还可以将第一图结构中的主中心节点与第二图结构中的主中心节点相连,并按照第一高维特征对应的空间注意力图中位置的数值由大到小的顺序以及第二高维特征对应的空间注意力图中位置的数值由大到小的顺序,将对应的第一图结构中的3个次中心节点分别与对应的第二图结构中的3个次中心节点两两相连。
具体的,根据与第一图结构中的当前节点相连的邻居节点的特征对第一图结构中的当前节点的特征进行注意力权重的计算,其中,上述邻居节点为与第一图结构中的当前节点相连的第一图结构中的其他节点以及第二图结构中的节点,对该注意力权重进行规范化处理,得到规范化处理后的注意力权重。
注意力权重计算公式为:
eij=wT(Cat(W'hi,W'hj)) (3)
eij′=wT(Cat(W'hi,W'hj')) (4)
规范化处理公式为:
αij=soft max(eij) (5)
αij'=soft max(eij') (6)
式中,i为第一图结构中的当前节点,j为与第一图结构中的当前节点相连的第一图结构中的其他节点,j'为与第一图结构中的当前节点相连的第二图结构中的节点,相应的,hi为第一图结构中的当前节点的特征,其中,hi的尺寸为C维,hj为与第一图结构中的当前节点相连的第一图结构中的其他节点的特征,hj'为与第一图结构中的当前节点相连的第二图结构中的节点的特征,eij为第一注意力权重,eij'为第二注意力权重,αij为规范化处理后的第一注意力权重,αij'为规范化处理后的第二注意力权重,W'为共享参数的线性映射,wT为用于将级联后的特征映射为实数的线性映射。
第一图结构中的当前节点的特征的融合公式为:
式中,l+1表示下一次迭代,l表示本次迭代,即下一次迭代中节点的特征可根据本次迭代中节点的特征计算得到。其中,迭代次数根据经验进行预设。根据公式(7)分别对第一图结构中的各节点的特征进行融合后,得到融合后的第一图结构中的节点的集合
类似的,根据上述方法对第二图结构中的各节点的特征进行融合,进而得到融合后的第二图结构中的节点的集合
进一步的,融合后的第一图结构中的节点的集合的尺寸为(B,K,C),对其进行线性映射,使其尺寸变为(B,K,N),其中,N表示场景类别标签的个数,利用全连接层对线性映射后的第一图结构中的节点进行特征变换,得到第一最终局部特征。
类似的,根据上述方法得到第二最终局部特征。
将第一最终局部特征与第二最终局部特征进行级联处理,并利用全连接层对级联处理后的结果进行特征变换,得到最终局部特征。
对所述最终局部特征、第一全局特征以及第二全局特征进行融合,得到待识别场景的多模态特征。
具体的,将最终局部特征、第一全局特征以及第二全局特征进行级联处理,得到待识别场景的多模态特征。其中,上述多模态特征为N维向量,其尺寸为(B,N)。
对所述待识别场景的多模态特征进行场景识别,得到所述待识别场景的识别结果。
本实施例提供的场景识别方法,通过获取待识别场景的彩色图像与深度图像,分别对上述两种图像进行全局特征的提取,得到第一全局特征与第二全局特征,以及通过空间注意力机制对上述两种图像进行局部特征的提取,得到第一局部特征以及第二局部特征,并基于该第一局部特征与第二局部特征分别构建第一图结构与第二图结构,基于GCN算法分别对第一图结构与第二图结构中的各节点的特征进行融合,以实现第一局部特征与第二局部特征的融合,得到最终局部特征,进而实现最终局部特征与全局特征的级联处理,得到待识别场景的多模态特征,并根据该多模态特征得到待识别场景的识别结果,能够通过空间注意力机制有效提取彩色图像与深度图像的第一局部特征与第二局部特征,并利用GCN算法对该第一局部特征与第二局部特征进行融合,可以减小两种图像之间的语义差距,进而提高场景识别的准确度。
图4为本发明实施例提供的一种场景识别模型的训练方法的流程示意图。本发明实施例中方法的执行主体可以为电子设备。如图4所示,本实施例中的方法,可以包括:
步骤401、获取训练数据集,所述训练数据集中包括训练场景的至少一组彩色训练图像、深度训练图像以及场景类别标签。
步骤402、利用所述训练数据集对预设的场景识别模型进行训练,得到训练后的场景识别模型。
本实施例中,训练数据集可以为SUN RGBD数据集或NYU Depth v2数据集等。训练数据集中包括若干组训练场景,每组训练场景中包括若干个训练场景,每个训练场景有其对应的彩色训练图像、深度训练图像以及场景类别标签。
其中可选的,执行利用所述训练数据集对预设的场景识别模型进行训练的步骤,具体可包括:将所述彩色训练图像、深度训练图像输入至预设的场景识别模型,以使所述预设的场景识别模型对所述彩色训练图像、深度训练图像分别进行特征提取,获得彩色训练图像对应的第一全局训练特征与第一局部训练特征,以及深度训练图像对应的第二全局训练特征与第二局部训练特征;以及,对所述第一全局训练特征、第二全局训练特征、第一局部训练特征以及第二局部训练特征进行融合,得到训练场景的多模态训练特征;根据基于所述多模态训练特征与场景类别标签的交叉熵损失函数对所述预设的场景识别模型进行调参处理,直至完成训练。
其中,本实施例中所涉及的部分场景识别模型的训练方法的具体实现过程和原理可以参见前述实施例,本实施例不再进行赘述。
与前述实施例不同的是,在本实施例中还将根据交叉熵损失函数对预设的场景识别模型进行调参处理,其中可选的,执行根据基于所述多模态训练特征与场景类别标签的交叉熵损失函数对所述预设的场景识别模型进行调参处理,直至完成训练的步骤,具体可包括:基于交叉熵损失函数计算所述多模态训练特征与场景类别标签的交叉熵损失;判断所述交叉熵损失是否小于预设阈值;若是,则训练完成,得到训练后的场景识别模型;若否,则根据所述交叉熵损失对所述预设的场景识别模型进行模型参数调整,并从所述训练数据集中选出下一组彩色训练图像、深度训练图像以及场景类别标签,利用所述下一组彩色训练图像、深度训练图像以及场景类别标签对模型参数调整后的场景识别模型进行训练,直至训练完成。
具体来说,将得到的多模态训练特征与场景类别标签带入交叉熵损失函数,得到交叉熵损失,若该交叉熵损失小于预设阈值,则表明交叉熵损失达到一个稳定值,此时训练完成,得到训练后的场景识别模型。若该交叉熵损失大于或等于预设阈值,则表明交叉熵损失未达到一个稳定值,根据交叉熵损失对预设的场景识别模型进行模型参数调整,得到模型参数调整后的场景识别模型,其中,上述模型参数包括卷积层包含的参数或全连接层包含的参数等。
进一步的,利用从训练数据集中选出的下一组彩色训练图像、深度训练图像以及场景类别标签对模型参数调整后的场景识别模型进行训练,直至训练完成,得到训练后的场景识别模型。
本实施例提供的场景识别模型的训练方法,通过获取包括至少一组彩色训练图像、深度训练图像以及场景类别标签的训练数据集,利用该训练数据集,基于前述场景识别方法得到训练场景的多模态训练特征,并根据基于多模态训练特征与场景类别标签的交叉熵损失函数对预设的场景识别模型进行调参处理,直至完成训练,能够得到训练后的场景识别模型,且利用该训练后的场景识别模型进行的场景识别的准确度高。
图5为本发明实施例提供的一种场景识别装置的结构示意图。如图5所示,本实施例提供的场景识别装置,可以包括:第一获取模块51、提取模块52、融合模块53与执行模块54。
第一获取模块51,用于获取待识别场景的彩色图像与深度图像;
提取模块52,用于利用特征提取算法对彩色图像与深度图像分别进行特征提取,获得彩色图像对应的第一全局特征与第一局部特征,以及深度图像对应的第二全局特征与第二局部特征;
融合模块53,用于对所述第一全局特征、第二全局特征、第一局部特征以及第二局部特征进行融合,得到待识别场景的多模态特征;
执行模块54,用于对所述待识别场景的多模态特征进行场景识别,得到所述待识别场景的识别结果。
在一种可选的实现方式中,所述提取模块52具体用于:
对所述彩色图像和所述深度图像分别进行基于卷积的特征提取,得到所述彩色图像的第一高维特征与所述深度图像的第二高维特征;
分别对所述第一高维特征与第二高维特征进行特征变换,得到所述彩色图像的第一全局特征和所述深度图像的第二全局特征;
基于空间注意力机制对所述第一高维特征和所述第二高维特征分别进行特征压缩及映射,得到所述第一局部特征和所述第二局部特征。
在一种可选的实现方式中,所述提取模块52在基于空间注意力机制对所述第一高维特征和所述第二高维特征分别进行特征压缩及映射,得到所述第一局部特征和所述第二局部特征时,还具体用于:
利用空间注意力算法对所述第一高维特征和第二高维特征分别进行计算,得到第一高维特征对应的空间注意力图以及第二高维特征对应的空间注意力图;
对第一高维特征对应的空间注意力图和第二高维特征对应的空间注意力图分别进行沿通道方向的特征映射,得到所述第一局部特征和第二局部特征。
在一种可选的实现方式中,所述融合模块53具体用于:
利用GCN算法对第一局部特征与第二局部特征进行基于语义的特征融合,得到最终局部特征;
对所述最终局部特征、第一全局特征以及第二全局特征进行融合,得到待识别场景的多模态特征。
在一种可选的实现方式中,所述融合模块53在利用GCN算法对第一局部特征与第二局部特征进行基于语义的特征融合,得到最终局部特征时,还具体用于:
基于第一局部特征与第二局部特征,分别构建第一图结构和第二图结构,其中,所述第一图结构用于表示彩色图像中各物体节点之间的位置关联关系,第二图结构用于表示深度图像中各物体节点之间的位置关联关系;
根据第一图结构中的节点的特征与第二图结构中的节点的特征,对第一图结构中的各节点的特征进行融合,得到第一最终局部特征;
根据第二图结构中的节点的特征与第一图结构中的节点的特征,对第二图结构中的各节点的特征进行融合,得到第二最终局部特征;
将所述第一最终局部特征与第二最终局部特征进行级联处理以及特征变换,得到最终局部特征。
本实施例提供的场景识别装置,可以执行上述场景识别方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
图6为本发明实施例提供的一种场景识别模型的训练装置的结构示意图。如图6所示,本实施例提供的场景识别模型的训练装置,可以包括:第二获取模块61与训练模块62。
第二获取模块61,用于获取训练数据集,所述训练数据集中包括训练场景的至少一组彩色训练图像、深度训练图像以及场景类别标签。
训练模块62,用于利用所述训练数据集对预设的场景识别模型进行训练,得到训练后的场景识别模型。
在一种可选的实现方式中,所述训练模块62具体用于:
将所述彩色训练图像、深度训练图像输入至预设的场景识别模型,以使所述预设的场景识别模型对所述彩色训练图像、深度训练图像分别进行特征提取,获得彩色训练图像对应的第一全局训练特征与第一局部训练特征,以及深度训练图像对应的第二全局训练特征与第二局部训练特征;以及,对所述第一全局训练特征、第二全局训练特征、第一局部训练特征以及第二局部训练特征进行融合,得到训练场景的多模态训练特征;
根据基于所述多模态训练特征与场景类别标签的交叉熵损失函数对所述预设的场景识别模型进行调参处理,直至完成训练。
在一种可能的实现方式中,所述训练模块62在根据基于所述多模态训练特征与场景类别标签的交叉熵损失函数对所述预设的场景识别模型进行调参处理,直至完成训练时,还具体用于:
基于交叉熵损失函数计算所述多模态训练特征与场景类别标签的交叉熵损失;
判断所述交叉熵损失是否小于预设阈值;
若是,则训练完成,得到训练后的场景识别模型;
若否,则根据所述交叉熵损失对所述预设的场景识别模型进行模型参数调整,并从所述训练数据集中选出下一组彩色训练图像、深度训练图像以及场景类别标签,利用所述下一组彩色训练图像、深度训练图像以及场景类别标签对模型参数调整后的场景识别模型进行训练,直至训练完成。
本实施例提供的场景识别模型的训练装置,可以执行上述场景识别模型的训练方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
图7为本发明实施例提供的一种电子设备的结构示意图。如图7所示,本实施例提供的电子设备,包括:存储器71和至少一个处理器72;
所述存储器71存储计算机执行指令;
所述至少一个处理器72执行所述存储器71存储的计算机执行指令,使得所述至少一个处理器72执行上述任一实施例所述的场景识别方法,或,上述任一实施例所述的场景识别模型的训练方法。
其中,存储器71和处理器72可以通过总线73连接。
本实施例提供的电子设备的具体实现原理和效果可以参见图1-图4所示实施例对应的相关描述和效果,此处不做过多赘述。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上述任一实施例所述的场景识别方法,或,上述任一实施例所述的场景识别模型的训练方法。
本发明实施例还提供一种计算机程序产品,包括计算机指令,该计算机指令被处理器执行时,实现如上述任一实施例所述的场景识别方法,或,上述任一实施例所述的场景识别模型的训练方法。
其中,计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求书指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求书来限制。
- 上一篇:石墨接头机器人自动装卡簧、装栓机
- 下一篇:基于智能仪表的过程趋势分析预测方法