基于多视角图像的手势姿态预测方法及系统

文档序号:8445 发布日期:2021-09-17 浏览:32次 英文

基于多视角图像的手势姿态预测方法及系统

技术领域

本公开涉及图像处理

技术领域

,特别涉及一种基于多视角图像的手势姿态预测方法及系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的

背景技术

,并不必然构成现有技术。

手势是一种无声的语言。手势具有极强的信息表达和传递功能,人们在生活中借用手势,来表达各种各样的感情。随着人工智能的不断发展,人们还可以与计算机之间进行手势互动。借助手势与计算机进行人机交互,使得计算机可以执行所设定的命令。使用手势进行人机交互具有操作便利、脱离实体接触、可进行远距离控制、交互操作更加丰富自然等很多优势,在智能家居、智能交通、生物医疗、休闲娱乐、军工器械等诸多领域都发挥了很大作用。因此,对手势姿态的识别和估计研究十分必要。

由于人的手势拥有非常多的自由度,这也使得手势在三维空间中可以做出非常多的姿态,因此也导致了手势自遮挡的问题,另外计算机难以仅通过二维图像来获取物体的三维信息,使得计算机很难仅使用手势的二维图像直接进行姿态角度的预测。

发明人发现,目前,在手势姿态预测的相关技术中,大多借助深度相机采集的深度图片来实现手势姿态的估计,其优点是所采集图像包含物体的深度信息,但多数深度相机对光线敏感,存在易受日光影响的缺点,经常应用在室内,室外体验较差。

发明内容

为了解决现有技术的不足,本公开提供了一种基于多视角图像的手势姿态预测方法及系统,采用多视角的手势图片进行训练,大大减少了手势因遮挡所产生的预测误差,对多个视角的手势图像分别建立预测模型,并对预测结果取均值作为最终预测结果,提高了手势姿态预测的精确度。

为了实现上述目的,本公开采用如下技术方案:

本公开第一方面提供了一种基于多视角图像的手势姿态预测方法。

一种基于多视角图像的手势姿态预测方法,包括以下过程:

获取至少两个视角的手势图像数据;

根据获取的各个视角手势图像和各个视角对应的预设姿态预测模型,得到各个手势图像预测角度;

以各个手势图像预测角度的平均值为最终手势角度;

其中,预设姿态预测模型的训练中,计算第k个卷积神经网络在训练集上的最大误差、每个样本的相对误差、第k个卷积神经网络的回归误差率和弱学习器的权重系数,根据得到的最大误差、相对误差、回归误差率和弱学习器的权重系数进行样本权重更新。

进一步的,采用Adaboost算法结合卷积神经网络,构建姿态预测模型;

卷积神经网络采用Resnet或Alexnet模型作为基学习器,设置迭代次数和学习率,选取均方误差函数为损失函数,使用梯度下降方法对模型参数进行更新和优化,拟合一个姿态预测模型,训练得到第k个卷积神经网络的基学习器。

更进一步的,迭代K次后,得到K个的卷积神经网络回归预测模型,并且得到K个基学习器的权重系数,选取各个弱学习器权重的中位数,采用权重中位数对应的弱学习器作为预测模型的强学习器,根据得到的强学习器得到最终的姿态预测模型。

进一步的,更新后的样本权重为:

其中,Wki为原样本权重,αk为弱学习器的权重系数,eki为样本的相对误差。进一步的,采用Bagging算法构建姿态预测模型;

卷积神经网络采用Resnet或Alexnet模型作为基学习器,设置迭代次数和学习率,选取均方误差函数为损失函数,使用梯度下降方法对模型参数进行更新和优化,拟合一个姿态预测模型,训练得到第k个卷积神经网络的基学习器。

更进一步的,迭代K次后,得到K个的卷积神经网络回归预测模型,K个卷积神经网络预测模型为基学习器,使用Bagging算法对基学习器进行综合,使用K个卷积神经网络基学习器的预测平均值作为姿态预测模型的输出。

进一步的,预设姿态预测模型的训练中,手势图像类型包括有光照下的彩色图像以及无光照下的红外灰度图像,将白天拍摄的彩色图像处理为灰度图像;

手势图像内容至少包含裸手、佩戴半指手套和佩戴全指手套的不同情况下的手势图像。

本公开第二方面提供了一种基于多视角图像的手势姿态预测系统。

一种基于多视角图像的手势姿态预测系统,包括:

数据获取模块,被配置为:获取至少两个视角的手势图像数据;

姿态预测模块,被配置为:根据获取的各个视角手势图像和各个视角对应的预设姿态预测模型,得到各个手势图像预测角度;

姿态确定模块,被配置为:以各个手势图像预测角度的平均值为最终手势角度;

其中,预设姿态预测模型的训练中,计算第k个卷积神经网络在训练集上的最大误差、每个样本的相对误差、第k个卷积神经网络的回归误差率和弱学习器的权重系数,根据得到的最大误差、相对误差、回归误差率和弱学习器的权重系数进行样本权重更新。

本公开第三方面提供了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现如本公开第一方面所述的基于多视角图像的手势姿态预测方法中的步骤。

本公开第四方面提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如本公开第一方面所述的基于多视角图像的手势姿态预测方法中的步骤。

与现有技术相比,本公开的有益效果是:

1、本公开所述的方法、系统、介质或电子设备,使用多视角摄像头采集的手势图片进行训练,可以大大减少手势因遮挡所产生的预测误差,对各个视角的手势图像分别建立预测模型,并对预测结果取均值作为最终预测结果,提高了手势姿态预测的精确度。

2、本公开所述的方法、系统、介质或电子设备,相比现有技术中使用的深度相机,优选的使用的是两个最为普通的一种昼夜两用摄像头组成的双视角摄像头,结构简单、节约了成本,更加经济和便利。

3、本公开所述的方法、系统、介质或电子设备,优选的使用昼夜两用摄像头,可以在白天有光照时拍摄彩色图像,夜晚无光照时拍摄红外灰度图,因此,不受时间限制,可以实现全天时的手势姿态预测使用,并且可以在室外使用。

4、本公开所述的方法、系统、介质或电子设备,不局限于对完全裸露的手指进行预测,也可建立包含裸手、佩戴半指手套、佩戴全指手套的灰度图和红外灰度图的手势数据集,扩大了对手势姿态预测的范围,可用于对手势预测的特殊环境。

5、本公开所述的方法、系统、介质或电子设备,与基于图像深度信息、需要对手势轮廓区域进行分割以及手势关键点匹配的方法相比,降低了训练模型的复杂程度,提高了训练和预测的速度。

6、本公开所述的方法、系统、介质或电子设备,在卷积神经网络的基础上,又结合了集成学习的思想,对手势姿态预测算法进行了提升,提高了预测的精度。

本公开附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本公开的实践了解到。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。

图1为本公开实施例1提供的手势姿态预测方法的流程示意图。

图2为本公开实施例1提供的使用卷积神经网络和Adaboost集成算法构建深度集成手势姿态回归预测模型的结构图。

图3为本公开实施例1提供的使用卷积神经网络和Bagging集成算法构建深度集成手势姿态回归预测模型的结构图。

图4为本公开实施例1提供的可穿戴手势姿态预测系统和预测方法的训练阶段的示意图一;

其中,M1为双视角摄像头,M2为头戴虚拟视觉设备,M3为无线传输模块,M4为系统的控制器,M5为姿态传感器。

图5为本公开实施例1提供的可穿戴手势姿态预测系统和预测方法的预测阶段的示意图二;

其中,M1为双视角摄像头,M2为头戴虚拟视觉设备,M3为无线传输模块,M4为系统控制器。

图6为本公开实施例1提供的右手笛卡尔坐标系手型预测示意图。

图7为本公开实施例2提供的可穿戴手势姿态预测系统构成模块图。

具体实施方式

下面结合附图与实施例对本公开作进一步说明。

应该指出,以下详细说明都是示例性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。

实施例1:

本公开实施例1提供了一种基于多视角摄像头的手势姿态预测方法,区别于以往基于包含深度信息的深度图像对手势姿态预测的方法,本实施例采用的是多视角摄像头拍摄的普通图像的训练集,可实现对任意手势的预测。

本实施例优选的采用双目摄像头进行手势预测,如图1所示,对预设手势使用卷积神经网络作为基学习器进行回归预测,结合集成学习算法,建立了一种深度集成手势姿态预测模型,该方法主要包括模型的训练和预测两个阶段。

本实施例针对右手笛卡尔坐标系手势,对所提出的手势姿态预测系统和方法做详细的说明,具体的,主要包括如下技术方案:

步骤1:系统搭建连接,将系统控制器M4与可穿戴的双视角摄像头M1、头戴虚拟视觉设备M2以及无线数据传输装置M3建立连接。

步骤2:确定所要预测姿态的手势,本实施例所要预测姿态的手势为右手笛卡尔坐标系手型,针对对该手型建立包含角度数据手势图像数据集。其具体步骤如下:

步骤2.1:图4为本实施例提出的可穿戴双视角摄像头的手势姿态预测系统和方法训练阶段的示意图,如图4所示,保持所要预测的右手笛卡尔坐标系手势并将姿态传感器贴于手掌内侧,使姿态传感器的X、Y、Z轴正方向分别与右手食指、中指和拇指方向保持一致,建立姿态传感器的坐标轴与手势之间的对应关系。

步骤2.2:由系统控制器M4控制双视角摄像头M1采集左右两个视角的右手笛卡尔坐标系手势图像,与此同时,控制器实时采集姿态传感器M5输出的角度数据,并以姿态传感器输出的角度数据对图像进行命名,其中α、β、γ分别为右手笛卡尔坐标系手势三指在空间中的角度数据。

步骤2.3:变换预设手势在空间中的不同角度,重复步骤2.1和2.2,采集20000张手势图像和角度数据。所采集的手势图像类型应包含有光照下的彩色图像以及无光照下的红外灰度图像,所采集的手势图像内容应包含裸手、佩戴半指手套和佩戴全指手套的不同情况下的手势图像,可以扩大手势姿态预测的广泛性以及对手势预测场景的适应性。

步骤2.4:对上述步骤所采集的带有姿态角度数据的手势图像进行整理,将拍摄的所有彩色图像处理为灰度图像,使数据集中仅包含灰度图像和红外灰度图像这两种数据类型相同的单通道图像,处理后即完成了数据集的建立。

步骤3:使用步骤2建立的笛卡尔坐标系手势图像数据集训练深度集成手势姿态预测模型,该预测模型是以卷积神经网络为基学习器进行回归预测,结合集成学习的思想,训练得到多个卷积神经网络基学习器,采用集成学习的组合策略,将各个基学习器的输出结果进行综合,得到一个深度集成手势姿态预测模型。在本实施例所述的方法中所使用的是一种昼夜两用摄像头组成的双视角摄像头,采集的是包含左右两个视角的手势图像,因此,可对左右两个视角的手势图像分别建立深度集成手势姿态预测模型,并对两个预测模型预测输出结果的均值作为最终预测数据。

在一些实施方案中,集成学习可使用Adaboost算法,如图2所示,结合卷积神经网络,构建深度集成手势姿态预测模型,其具体步骤如下:

步骤3.1.1:将步骤2建立的笛卡尔坐标系手势图像数据集使用留出法按照8:2比例划分为训练集S和测试集T,其中训练集S包含16000张手势和角度数据,测试集包含4000张手势图像和对应的角度数据。

训练集样本xi表示手势二维图像,表示该手势当前的角度数据,其中分别为手指对应xyz三轴的角度。

步骤3.1.2:对训练集S中所有的左视角手势图像样本分配一个初始样本权重W(1)=(W11,W12,..,W1m),其中,m=16000,

步骤3.1.3:对带有W(1)权重的样本集训练卷积神经网络回归预测模型,可使用卷积神经网络的经典模型结构Resnet或Alexnet模型作为对手势实现回归预测的基学习器。将图像输入到卷积神经网络结构中,设置迭代次数100次,学习率设置为0.001,选取均方误差函数为损失函数,使用梯度下降方法对模型参数进行更新和优化,拟合一个手势姿态预测模型,训练得到第一个卷积神经网络基学习器。

步骤3.1.4:在该实施例中模型预测估计的为xyz轴三轴的角度,计算第一个卷积神经网络在训练集上的最大误差,取三个角度误差均值的最大值为最大误差:

其中,f1(xαi),f1(xβi),f1(xγi)分别表示第一个预测模型对第i个样本预测的x、y、z轴的角度;

计算每个样本的相对误差:

计算第一个卷积神经网络的回归误差率:

计算弱学习的系数:

步骤3.1.5:根据步骤3.1.4计算的数据更新样本权重:

其中,使用带有新的样本权重的训练集训练得到第二个卷积神经网络回归预测模型。

步骤3.1.6:重复以上步骤,迭代k次,训练得到k个卷积神经网络回归预测模型,按照集成学习的组合策略,这里首先取k个弱学习器权重的中位数,然后采用权重中位数所对应的弱学习器作为该预测模型的强学习器,生成最终的强回归器F(x),得到一个基于左视角手势图像的深度集成手势回归预测模型FL(x)。

步骤3.1.7:按照以上步骤,使用同样的方法,可以获得基于右视角手势图像的深度集成手势姿态预测模型FR(x)。

在其它一些实施方式中,步骤3还可使用集成学习中的Bagging算法构建深度集成手势姿态预测模型,图3为本发明中使用卷积神经网络和Bagging集成算法构建深度集成手势姿态回归预测模型的结构图,其具体步骤如下:

步骤3.2.1:将步骤2的笛卡尔坐标系手势图像数据集使用留出法按照一定比例划分为训练集S和测试集T,其中训练集S包含16000张手势和角度数据,测试集包含4000张手势图像和对应的角度数据。

训练集样本xi表示手势二维图像,表示该手势当前的角度数据,其中分别为手指对应xyz三轴的角度。

步骤3.2.2:对训练集S中的左视角手势图像使用自助采样法抽取样本,即进行均匀的、有放回的随机抽取16000次。

步骤3.2.3:加载抽取的手势图像和手势的角度数据,对手势图像进行提高饱和度、对比度、剪裁等预处理操作。

步骤3.2.4:对抽取的样本数据训练卷积神经网络回归预测模型,这里可使用卷积神经网络的经典模型结构Resnet或Alexnet等模型作为对手势实现回归预测的基学习器。将图像输入到卷积神经网络结构中,设置迭代次数100次,学习率设置为0.001,选取均方误差函数为损失函数,使用梯度下降方法对模型参数进行更新和优化,拟合一个手势姿态预测模型,训练得到一个卷积神经网络基学习器f1(x)。

步骤3.2.5:重复步骤3.2.1、3.2.2、3.2.3和3.2.4的操作,一共训练得到20个不同的卷神经网络预测模型fk(x)。

步骤3.2.6:以步骤3.2.5中训练得到的20个卷积神经网络预测模型为基学习器,使用Bagging算法对其进行综合,使用20个卷积神经网络基学习器的预测平均值作为深度集成手势姿态预测模型的输出,即得到一个基于左视角手势图像的深度集成手势姿态预测模型FL(x)。

步骤3.2.7:重复步骤3.2,同样可以获得基于右视角手势图像的深度集成手势姿态预测模型FR(x)。

步骤4:操作步骤1、2、3后即完成了模型的训练阶段,获得了基于左视角手势图像训练的深度集成手势姿态模型FL(x)和基于右视角手势图像训练的深度集成手势姿态预测模型FR(x)。在得到训练好的预测模型后,如图5预测阶段示意图所示,预测阶段不必再使用姿态传感器采集角度数据,模型可以直接通过手势的二维图像直接预测其姿态角度数据,预测阶段的具体步骤如下:

步骤4.1:由系统控制器控制双视角摄像头对所要预测的笛卡尔坐标系手势拍摄左右两个视角的图像。如果是在有光照下拍摄的彩色图像,需将彩色图像处理为单通道的灰度图像等其它预处理操作,获得符合深度集成手势姿态预测模型输入要求的图像。

步骤4.2:将处理后的左视角的手势图像输入到训练好的深度集成手势姿态预测模型FL(x)中进行预测,输出得到左视角图像的预测角度数据 将处理后的右视角的手势图像输入到训练好的深度集成手势姿态预测模型FR(x)中进行预测,输出得到右视角图像的预测角度数据对左右两个视角的深度集成手势姿态预测模型的预测结果再取均值作为对手势的姿态预测最终结果可使预测结果更加精确,所述的预测数据结果可由下式描述:

步骤5:在虚拟视觉设备M2上虚拟显示所拍摄的手势图像,并且显示深度集成手势姿态预测模型输出的角度数据方便工作人员观察预测结果且更加形象直观。同时,模型预测输出的角度数据通过无线传输模块M3传输给从端机器人,以实现对从端机器人相应的控制操作。

本实施例提供了一种基于双视角摄像头的手势姿态预测方法,区别于以往基于包含深度信息的深度图像对手势姿态预测的方法,本实施例仅仅使用双视角摄像头拍摄的手势的左右两个视角的普通二维图像,即可实现对手势的预测。

该预测方法是对预设手型建立了一种深度集成手势姿态预测模型,该预测方法主要包括模型的训练和预测两个阶段。训练之前,需要对预设手势建立包含角度数据的二维图像数据集。

数据集图像包括使用双视角的摄像头在白天有光照情况下拍摄的手势彩色图像和和夜晚无光照情况下拍摄的红外灰度图像,并将白天拍摄的彩色图像处理为灰度图像,使数据集中图像均为数据格式一致的单通道图像;采集的图像内容应包含裸手、佩戴半指手套以及佩戴全指手套等不同情况下的手势图像。

使用卷积神经网络作为基学习器进行回归预测,结合集成学习的算法,建立一种深度集成手势姿态预测模型。通过训练获得预测模型之后,其预测阶段就是对深度集成手势姿态预测模型输入手势的二维图像,输出即为手势当前的角度姿态数据。

值得注意的是,本实施例的手型仅仅是示例手型,该预测方法可实现对任何一种手型的姿态预测,具体的手型,可根据具体的需要自行设定,对其建立带有角度数据的二维图像数据集,训练得到相应的深度集成手势姿态预测模型即可实现对手势的姿态预测。

实施例2:

本公开实施例2提供了一种基于双视角摄像头的可穿戴的手势姿态预测系统,解决了计算机仅通过二维手势图像预测其空间姿态存在困难的问题,可实现对任何一种手势在空间中不同角度姿态的预测。

本实施例以一种名为右手笛卡尔坐标系手势的典型手势为例,如图6所示,即右手的拇指、食指和中指三指两两垂直的姿态,预测得到该手势的拇指、食指和中指在空间的角度数据针对该手型对手势姿态预测系统和预测方法做进一步的说明。

图7为该可穿戴手势姿态预测系统的模块图,图4和图5分别为可穿戴双视角摄像头的手势姿态预测系统和方法的训练和预测两个阶段的示意图。

如图4和图5所示,该系统主要包括系统控制器M4、可穿戴双视角摄像头M1、姿态传感器M5、无线传输模块M3和头戴虚拟视觉设备M2。

如图7所示,在该系统中,系统的控制器可采用某种嵌入式控制器,控制器中载入了对预设手势事先训练好的深度集成手势姿态预测模型,控制器用来实时采集可穿戴双视角摄像头拍摄的左右两个视角的手势图像数据,通过将采集的手势图像输入到事先训练好的深度集成手势姿态预测模型中可实现手势姿态的预测,并将预测结果传输给头戴虚拟视觉设备,以方便操作人员查看手势预测结果。

其中,所述的可穿戴的双视角摄像头,是一种昼夜两用摄像头组成的双视角摄像头,用于采集手势姿态左右双视角的手势图像。所述的昼夜两用摄像头可在白天有光照情况下拍摄彩色图像,夜晚无光照情况下拍摄红外灰度图像,可以全天时的使用,并可以应用在室外。头戴虚拟视觉设备,可以显示虚拟手势图像以及手势角度姿态数据,方便工作人员观察预测结果且更加形象直观。

具体的预测方法参见实施例1,这里不再赘述。

实施例3:

本公开实施例3提供了一种基于多视角图像的手势姿态预测系统,包括:

数据获取模块,被配置为:获取至少两个视角的手势图像数据;

姿态预测模块,被配置为:根据获取的各个视角手势图像和各个视角对应的预设姿态预测模型,得到各个手势图像预测角度;

姿态确定模块,被配置为:以各个手势图像预测角度的平均值为最终手势角度;

其中,预设姿态预测模型的训练中,计算第k个卷积神经网络在训练集上的最大误差、每个样本的相对误差、第k个卷积神经网络的回归误差率和弱学习器的权重系数,根据得到的最大误差、相对误差、回归误差率和弱学习器的权重系数进行样本权重更新。

所述系统的工作方法与实施例1提供的相同,这里不再赘述。

实施例4:

本公开实施例4提供了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现如本公开实施例1所述的基于多视角图像的手势姿态预测方法中的步骤。

实施例5:

本公开实施例5提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如本公开实施例1所述的基于多视角图像的手势姿态预测方法中的步骤。

本领域内的技术人员应明白,本公开的实施例可提供为方法、系统、或计算机程序产品。因此,本公开可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAccessMemory,RAM)等。

以上所述仅为本公开的优选实施例而已,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。

完整详细技术资料下载
上一篇:石墨接头机器人自动装卡簧、装栓机
下一篇:一种基于CNN-SVM的事件相关电位信号分类方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!