手势识别方法及装置、存储介质、电子设备
技术领域
本发明涉及计算机领域,具体而言,涉及一种手势识别方法及装置、存储介质、电子设备。
背景技术
相关技术中,手势是一种非语言的交流形式,可用于多个领域例如聋哑人之间的交流,机器人控制,人机交互(HCI,Human Computer Interaction), 家庭自动化和医疗应用。
相关技术中,手势识别已采用许多不同的技术,其主要分为三大类:一、模板匹配技术将待识别手势的特征参数与预先存储的模板特征参数进行匹配,通过测量两者之间的相似度来完成识别任务。比如将待识别手势和模板手势的边缘图像变换到欧式距离空间,求出它们的Hausdorff距离(豪斯多夫距离,用来度量空间中真子集之间的距离)或修正Hausdorff。用该距离值代表待识别手势和模板手势的相似度。识别结果取与最小距离值对应的模板手势。二、统计分析技术通过统计样本特征向量来确定分类器的基于概率统计理论的分类方法。对于每幅图像提取出指尖和重心特征,然后计算出距离和夹角,对于不同手势分别进行距离和夹角的统计,得到其分布的数字特征,根据基于最小错误率的贝叶斯决策得到用于分割不同手势的距离和夹角的值。得到分类器以后,对于采集的手势图像进行分类识别。三、神经网络技术这种技术具有自组织和自学习能力,具有分布性特点,能有效的抗噪声和处理不完整模式以及具有模式推广能力。采用这种技术,在识别前都需要一对神经网络的训练(学习)阶段。对于模板匹配技术,需要大量的人工设计特征操作,且在不同的环境背景下,所考虑的特征较为多样,导致工程量较大,系统实现复杂。对于统计分析技术,允许其定义不同手势类别特点的特征集,估计一个局部最优的线性分辨器,根据手势图像中提取的大量特征识别相应的手势类别,但其学习的效率不高,随着样本量的不断增大,算法识别率的提高不明显。基于深度学习的方法被证明可以很准确地提取特征进行运算,并取得较高的识别准确率。但由于一些场景中,手被遮挡和手的姿态方向多变性使得图片中手相关的信息丢失,导致手势识别准确率不高。针对相关技术中存在的上述问题,目前尚未发现有效的解决方案。
发明内容
本发明实施例提供了一种手势识别方法及装置、存储介质、电子设备。
根据本申请实施例的一个方面,提供了一种手势识别方法,包括:获取待识别的手势图片;将所述手势图片依次输入多层特征提取网络,并采用所述多层特征提取网络输出的多张第一类特征图生成多张不同尺寸的第二类特征图;基于所述多张第二类特征图采用多尺度检测模块输出手势类别信息和手势关键点信息。
进一步,将所述手势图片依次输入多层特征提取网络包括:将所述手势图片输入第一特征提取网络,得到第一尺寸的第一特征图;将所述第一特征图输入第二特征提取网络,得到第二尺寸的第二特征图;将所述第二特征图输入第三特征提取网络,得到第三尺寸的第三特征图;其中,所述第一尺寸大于所述第二尺寸,所述第二尺寸大于所述第三尺寸。
进一步,采用所述多层特征提取网络输出的多张第一特征图生成多张不同尺寸的第二类特征图包括:采用所述第三特征图和所述第二特征图生成第二尺寸的第四特征图,采用所述第二特征图和所述第一特征图生成第一尺寸的第五特征图;将所述第三特征图,所述第四特征图,所述第五特征图输出为所述多张不同尺寸的第二类特征图。
进一步,采用所述第三特征图和所述第二特征图生成第二尺寸的第四特征图包括:对所述第三特征图进行上采样至所述第二特征图一样的尺寸;对上采样后的第三特征图与所述第二特征图进行矩阵加和,得到第四特征图;和/或,采用所述第二特征图和所述第一特征图生成第一尺寸的第五特征图;对所述第二特征图进行上采样至所述第一特征图一样的尺寸;对上采样后的第二特征图与所述第一特征图进行矩阵加和,得到第五特征图。
进一步,基于所述多张第二类特征图采用多尺度检测模块输出手势类别信息和手势关键点信息包括:针对N张第二类特征图中的每张第二类特征图,将所述第二类特征图输入多尺度检测模块,输出M个不同尺寸的第三类特征图,其中,每张第二类特征图对应一个多尺度检测模块,M为所述多尺度检测模块的尺度数量;针对所述多张第二类特征图中的每张第二类特征图的M个第三类特征图,将M个第三类特征图进行尺寸对齐,生成最大尺寸的识别图片;采用所述识别图片生成手势类别信息和手势关键点信息,其中,所述手势类别信息用于表征所述手势图片所表征的语义文本。
进一步,与N张第二类特征图分别对应的N个多尺度检测模块均是相同的多尺度检测模块,每个多尺度检测模块均包括一个3x3卷积因子,两个3x3卷积因子,三个3x3卷积因子。
进一步,将M个第三类特征图进行尺寸对齐,生成最大尺寸的识别图片,包括:将所述第六特征图和所述第七特征图分别进行上采样处理至第六尺寸,其中,M=3,M个第三类特征图包括:第四尺寸的第六特征图,第五尺寸的第七特征图,第六尺寸的第八特征图,第六尺寸大于第五尺寸,第五尺寸大于第四尺寸;将上采样处理后的第六特征图,上采样处理后的第七特征图,以及所述第八特征图输出为识别图片。
根据本申请实施例的另一个方面,还提供了一种手势识别装置,包括:获取模块,用于获取待识别的手势图片;提取模块,用于将所述手势图片依次输入多层特征提取网络,并采用所述多层特征提取网络输出的多张第一类特征图生成多张不同尺寸的第二类特征图;检测模块,用于基于所述多张第二类特征图采用多尺度检测模块输出手势类别信息和手势关键点信息。
进一步,所述提取模块包括:第一提取单元,用于将所述手势图片输入第一特征提取网络,得到第一尺寸的第一特征图;第二提取单元,用于将所述第一特征图输入第二特征提取网络,得到第二尺寸的第二特征图;第三提取单元,用于将所述第二特征图输入第三特征提取网络,得到第三尺寸的第三特征图;其中,所述第一尺寸大于所述第二尺寸,所述第二尺寸大于所述第三尺寸。
进一步,所述提取模块包括:生成单元,用于采用所述第三特征图和所述第二特征图生成第二尺寸的第四特征图,采用所述第二特征图和所述第一特征图生成第一尺寸的第五特征图;输出单元,用于将所述第三特征图,所述第四特征图,所述第五特征图输出为所述多张不同尺寸的第二类特征图。
进一步,所述生成单元包括:第一采样单元,用于对所述第三特征图进行上采样至所述第二特征图一样的尺寸;第一加和单元,用于对上采样后的第三特征图与所述第二特征图进行矩阵加和,得到第四特征图;和/或,第二采样单元,用于对所述第二特征图进行上采样至所述第一特征图一样的尺寸;第二加和单元,用于对上采样后的第二特征图与所述第一特征图进行矩阵加和,得到第五特征图。
进一步,所述检测模块包括:第一处理单元,用于针对N张第二类特征图中的每张第二类特征图,将所述第二类特征图输入多尺度检测模块,输出M个不同尺寸的第三类特征图,其中,每张第二类特征图对应一个多尺度检测模块,M为所述多尺度检测模块的尺度数量;第二处理单元,用于针对所述多张第二类特征图中的每张第二类特征图的M个第三类特征图,将M个第三类特征图进行尺寸对齐,生成最大尺寸的识别图片;生成单元,用于采用所述识别图片生成手势类别信息和手势关键点信息,其中,所述手势类别信息用于表征所述手势图片所表征的语义文本。
进一步,与N张第二类特征图分别对应的N个多尺度检测模块均是相同的多尺度检测模块,每个多尺度检测模块均包括一个3x3卷积因子,两个3x3卷积因子,三个3x3卷积因子。
进一步,所述第二处理单元包括:采样子单元,用于将所述第六特征图和所述第七特征图分别进行上采样处理至第六尺寸,其中,M=3,M个第三类特征图包括:第四尺寸的第六特征图,第五尺寸的第七特征图,第六尺寸的第八特征图,第六尺寸大于第五尺寸,第五尺寸大于第四尺寸;输出子单元,用于将上采样处理后的第六特征图,上采样处理后的第七特征图,以及所述第八特征图输出为识别图片。
根据本申请实施例的另一方面,还提供了一种存储介质,该存储介质包括存储的程序,程序运行时执行上述的步骤。
根据本申请实施例的另一方面,还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;其中:存储器,用于存放计算机程序;处理器,用于通过运行存储器上所存放的程序来执行上述方法中的步骤。
本申请实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述方法中的步骤。
通过本发明,获取待识别的手势图片,将手势图片依次输入多层特征提取网络,并采用多层特征提取网络输出的多张第一类特征图生成多张不同尺寸的第二类特征图,基于多张第二类特征图采用多尺度检测模块输出手势类别信息和手势关键点信息,基于深度学习的方法训练需要大量数据,通过采用多层特征提取网络和特征图之间的转换,避免了数据少导致神经网络容易出现过拟合,在实际生活场景较为复杂的识别场景中,采用采用多尺度检测模块输出手势类别信息和手势关键点信息,避免了在手势检测过程中手被遮挡和手的姿态方向的多变性导致手势识别检测准确率降低,提高了复杂场景的鲁棒性,解决了相关技术手势识别率低的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明实施例的一种计算机的硬件结构框图;
图2是根据本发明实施例的一种手势识别方法的流程图;
图3是本发明实施例进行特征提取的示意图;
图4是本发明实施例进行特征检测的示意图;
图5是本发明实施例输出的识别图片的示意图;
图6是根据本发明实施例的一种手势识别装置的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
本申请实施例一所提供的方法实施例可以在服务器、计算机、或者类似的运算装置中执行。以运行在计算机上为例,图1是本发明实施例的一种计算机的硬件结构框图。如图1所示,计算机可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,可选地,上述计算机还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述计算机的结构造成限定。例如,计算机还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的一种手势识别方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算机。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输设备106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机的通信供应商提供的无线网络。在一个实例中,传输设备106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
在本实施例中提供了一种手势识别方法,图2是根据本发明实施例的一种手势识别方法的流程图,如图2所示,该流程包括如下步骤:
步骤S202,获取待识别的手势图片;
本实施例的手势图片包括手部区域和背景区域,可以通过摄像头采集。
步骤S204,将手势图片依次输入多层特征提取网络,并采用多层特征提取网络输出的多张第一类特征图生成多张不同尺寸的第二类特征图;
在本实施例中,多层特征提取网络的每层特征提取网络分别输出一张第一类特征图,每层特征提取网络的提取方式,类型不同,多张第一类特征图。
步骤S206,基于多张第二类特征图采用多尺度检测模块输出手势类别信息和手势关键点信息。
在一些示例中,在基于多张第二类特征图采用多尺度检测模块输出手势类别信息和手势关键点信息之后,还可以判断手势类别信息与手势关键点信息之间的匹配度,若手势类别信息与手势关键点信息之间的匹配度大于预设值,则删除重复的手势关键点信息,判断手势类别信息与手势关键点信息之间的匹配度包括:定位手势关键点信息中多个关键像素点,确定与每个关键像素点相邻的相邻像素点,连接任意两组关键像素点和相邻像素点,得到手势轨迹,通过预设映射表查找与该手势轨迹匹配的手语信息,判断手势关键点信息与手语信息之间的匹配度。
通过上述步骤,获取待识别的手势图片,将手势图片依次输入多层特征提取网络,并采用多层特征提取网络输出的多张第一类特征图生成多张不同尺寸的第二类特征图,基于多张第二类特征图采用多尺度检测模块输出手势类别信息和手势关键点信息,基于深度学习的方法训练需要大量数据,通过采用多层特征提取网络和特征图之间的转换,避免了数据少导致神经网络容易出现过拟合,在实际生活场景较为复杂的识别场景中,采用采用多尺度检测模块输出手势类别信息和手势关键点信息,避免了在手势检测过程中手被遮挡和手的姿态方向的多变性导致手势识别检测准确率降低,提高了复杂场景的鲁棒性,解决了相关技术手势识别率低的技术问题。
在本实施例的一个实施方式中,将手势图片依次输入多层特征提取网络包括:将手势图片输入第一特征提取网络,得到第一尺寸的第一特征图;将第一特征图输入第二特征提取网络,得到第二尺寸的第二特征图;将第二特征图输入第三特征提取网络,得到第三尺寸的第三特征图;其中,第一尺寸大于第二尺寸,第二尺寸大于第三尺寸。
在另一个实施例中,将手势图片依次输入多层特征提取网络包括:将手势图片输入第一特征提取网络,得到第一尺寸的第一特征图;将手势图片输入第二特征提取网络,得到第二尺寸的第二特征图;将手势图片输入第三特征提取网络,得到第三尺寸的第三特征图;其中,第一尺寸大于第二尺寸,第二尺寸大于第三尺寸。
在一些示例中,采用多层特征提取网络输出的多张第一特征图生成多张不同尺寸的第二类特征图包括:采用第三特征图和第二特征图生成第二尺寸的第四特征图,采用第二特征图和第一特征图生成第一尺寸的第五特征图;将第三特征图,第四特征图,第五特征图输出为多张不同尺寸的第二类特征图。
在一个示例中,采用第三特征图和第二特征图生成第二尺寸的第四特征图包括:对第三特征图进行上采样(upsampling)至第二特征图一样的尺寸;对上采样后的第三特征图与第二特征图进行矩阵加和,得到第四特征图。在另一方面,采用第二特征图和第一特征图生成第一尺寸的第五特征图包括:对第二特征图进行上采样至第一特征图一样的尺寸;对上采样后的第二特征图与第一特征图进行矩阵加和,得到第五特征图。
对第二特征图进行上采样至第一特征图一样的尺寸:采用内插值方法,即在第二特征图基础上在像素点之间采用合适的插值算法插入新的元素,至第一特征图一样的尺寸。
插值算法分类:为了克服传统方法的不足,本实施例提出了基于边缘的图像插值算法,对插值图像的边缘有一定的增强,使得图像的视觉效果更好,本实施例的边缘保护的插值方法可以分为两类:基于原始低分辨图像边缘的方法和基于插值后高分辨率图像边缘的方法。基于原始低分辨率图像边缘的方法:(1)首先检测低分辨率图像(第二特征图)的边缘,然后根据检测的边缘将像素分类处理,对于平坦区域的像素,采用像素块插值;对于边缘区域的像素,采用像素点插值,以达到保持边缘细节的目的。(2)基于插值后高分辨率图像边缘的方法这类插值方法:首先采用传统方法插值低分辨率图像(第二特征图),然后检测高分辨率图像的边缘,最后对边缘及附近像素进行特殊处理,以去除模糊,增强图像的边缘。本实施例还提出了基于区域的图像插值算法:首先将原始低分辨率图像分割成不同区域,然后将插值点映射到低分辨率图像,判断其所属区域,最后根据插值点的邻域像素设计不同的插值公式,计算插值点的值。
图3是本发明实施例进行特征提取的示意图,将包含手势区域的手势图片送入特征提取网络,在每通过一个卷积层(特征层)后得到一个对应特征图,将提取的对应特征图进行融合。如图3所示,缺陷图片通过特征提取网络后得到3个特征图:特征图1、特征图2、特征图3。在常规化的目标检测方法中,主要提取最后一层特征图(特征图3)进行解码和后处理操作。这样做有一个明显的缺陷,即小物体本身具有的像素信息较少,在下采样过程中极易丢失,最终导致小物体难以检测到。为了解决这种物体大小差异明显的问题,本实施例采用了将多层特征图融合的方式来得到供解码使用的特征图。如图3所示,将特征图3进行上采样至特征图2一样的尺寸再进行矩阵加和得到特征图4,将特征图2上采样至特征图1一样的分辨率尺寸再进行矩阵加和得到特征图5至此,我们可以得到供后面处理的3个特征图:特征图3,特征图4,特征图5。在得到以上特征后再进行预测,即可提高手势识别算法中对小手的检测准确率。
在本实施例的一个实施方式中,基于多张第二类特征图采用多尺度检测模块输出手势类别信息和手势关键点信息包括:针对N张第二类特征图中的每张第二类特征图,将第二类特征图输入多尺度检测模块,输出M个不同尺寸的第三类特征图,其中,每张第二类特征图对应一个多尺度检测模块,M为多尺度检测模块的尺度数量;针对多张第二类特征图中的每张第二类特征图的M个第三类特征图,将M个第三类特征图进行尺寸对齐,生成最大尺寸的识别图片;采用识别图片生成手势类别信息和手势关键点信息,其中,手势类别信息用于表征手势图片所表征的语义文本。
可选的,多张第二类特征图对应的多尺度检测模块为相同的多尺度检测模块。
在一些示例中,根据识别图片识别出手势图片中的目标器官,根据所述目标器官的关节分布轨迹在所述识别图片中查找手势关键点。
可选的,语义文本可以是“好的”“OK”“再见”等。
可选的,与N张第二类特征图分别对应的N个多尺度检测模块均是相同的多尺度检测模块,每个多尺度检测模块均包括一个3x3卷积因子,两个3x3卷积因子,三个3x3卷积因子。
在一些示例中,将M个第三类特征图进行尺寸对齐,生成最大尺寸的识别图片,包括:将第六特征图和第七特征图分别进行上采样处理至第六尺寸,其中,M=3,M个第三类特征图包括:第四尺寸的第六特征图,第五尺寸的第七特征图,第六尺寸的第八特征图,第六尺寸大于第五尺寸,第五尺寸大于第四尺寸;将上采样处理后的第六特征图,上采样处理后的第七特征图,以及第八特征图输出为识别图片。在一个示例中,将将上采样处理后的第六特征图,上采样处理后的第七特征图,以及第八特征图进行像素点叠加之后,输出识别图片。
图4是本发明实施例进行特征检测的示意图,在得到以上3张特征图(第三特征图,第四特征图,第五特征图)后,分别将三个特征图送入设计好的多尺度检测模块。多尺度检测模块分别由一个3x3卷积模块,两个3x3卷积模块,三个3x3卷积模块组成,三个模块的感受野分别是3x3,5x5,7x7。感受野表示输出特征图上像素点映射在输入图片上的大小,感受野越大则特征图上包含的语义信息则越多,通过神经网络得到的预测越准确。将通过一个3x3卷积的特征图和通过两个3x3卷积的特征图分别上采样至经过三个3x3卷积的特征图大小,进行最终的手势类别和手的关键点检测,图5是本发明实施例输出的识别图片的示意图,输出的识别图片包括“OK”和手的21个关键点坐标,以此通过关键点检测任务,提高手势识别任务的准确率。
本实施例提供了一种多任务学习的方法,将手势检测任务和手的关键点检测任务联合起来,以手的关键点信息来补充手势识别的信息,使得神经网络能找到不同任务中的特征信息间相互联系来提高单任务学习的性能。此外,多任务学习可以一定程度缓解数据量过小,网络过拟合问题,最终提高手势识别的准确率。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例2
在本实施例中还提供了一种手势识别装置,用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图6是根据本发明实施例的一种手势识别装置的结构框图,如图6所示,该装置包括:获取模块60,提取模块62,检测模块64,其中,
获取模块60,用于获取待识别的手势图片;
提取模块62,用于将所述手势图片依次输入多层特征提取网络,并采用所述多层特征提取网络输出的多张第一类特征图生成多张不同尺寸的第二类特征图;
检测模块64,用于基于所述多张第二类特征图采用多尺度检测模块输出手势类别信息和手势关键点信息。
可选的,所述提取模块包括:第一提取单元,用于将所述手势图片输入第一特征提取网络,得到第一尺寸的第一特征图;第二提取单元,用于将所述第一特征图输入第二特征提取网络,得到第二尺寸的第二特征图;第三提取单元,用于将所述第二特征图输入第三特征提取网络,得到第三尺寸的第三特征图;其中,所述第一尺寸大于所述第二尺寸,所述第二尺寸大于所述第三尺寸。
可选的,所述提取模块包括:生成单元,用于采用所述第三特征图和所述第二特征图生成第二尺寸的第四特征图,采用所述第二特征图和所述第一特征图生成第一尺寸的第五特征图;输出单元,用于将所述第三特征图,所述第四特征图,所述第五特征图输出为所述多张不同尺寸的第二类特征图。
可选的,所述生成单元包括:第一采样单元,用于对所述第三特征图进行上采样至所述第二特征图一样的尺寸;第一加和单元,用于对上采样后的第三特征图与所述第二特征图进行矩阵加和,得到第四特征图;和/或,第二采样单元,用于对所述第二特征图进行上采样至所述第一特征图一样的尺寸;第二加和单元,用于对上采样后的第二特征图与所述第一特征图进行矩阵加和,得到第五特征图。
可选的,所述检测模块包括:第一处理单元,用于针对N张第二类特征图中的每张第二类特征图,将所述第二类特征图输入多尺度检测模块,输出M个不同尺寸的第三类特征图,其中,每张第二类特征图对应一个多尺度检测模块,M为所述多尺度检测模块的尺度数量;第二处理单元,用于针对所述多张第二类特征图中的每张第二类特征图的M个第三类特征图,将M个第三类特征图进行尺寸对齐,生成最大尺寸的识别图片;生成单元,用于采用所述识别图片生成手势类别信息和手势关键点信息,其中,所述手势类别信息用于表征所述手势图片所表征的语义文本。
可选的,与N张第二类特征图分别对应的N个多尺度检测模块均是相同的多尺度检测模块,每个多尺度检测模块均包括一个3x3卷积因子,两个3x3卷积因子,三个3x3卷积因子。
可选的,所述第二处理单元包括:采样子单元,用于将所述第六特征图和所述第七特征图分别进行上采样处理至第六尺寸,其中,M=3,M个第三类特征图包括:第四尺寸的第六特征图,第五尺寸的第七特征图,第六尺寸的第八特征图,第六尺寸大于第五尺寸,第五尺寸大于第四尺寸;输出子单元,用于将上采样处理后的第六特征图,上采样处理后的第七特征图,以及所述第八特征图输出为识别图片。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
实施例3
本发明的实施例还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,获取待识别的手势图片;
S2,将所述手势图片依次输入多层特征提取网络,并采用所述多层特征提取网络输出的多张第一类特征图生成多张不同尺寸的第二类特征图;
S3,基于所述多张第二类特征图采用多尺度检测模块输出手势类别信息和手势关键点信息。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
本发明的实施例还提供了一种电子设备,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子设备还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,获取待识别的手势图片;
S2,将所述手势图片依次输入多层特征提取网络,并采用所述多层特征提取网络输出的多张第一类特征图生成多张不同尺寸的第二类特征图;
S3,基于所述多张第二类特征图采用多尺度检测模块输出手势类别信息和手势关键点信息。
可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。