基于贝叶斯定理的车辆多模态交互方法
技术领域
本发明涉及人机交互
技术领域
,具体为汽车人机交互领域与智能算法领域,特别涉及一种多模态交互的方法。背景技术
随着信息时代的快速发展,人机交互在人们的生活和工作中扮演着越来越重要的角色,汽车内的信息娱乐功能也得到了巨大的提高,从之前单一的收音机功能到导航、上网功能,再到现在以语音交互为主的智能辅助功能。新技术的快速发展使得驾驶员的出行体验不断提高,也对驾驶员的要求不断提高,驾驶员需要不断加强对汽车的认知,才能准确的使用到相关技术发明,使得学习成本不断增加。
在如今现有的汽车HMI领域中,驾驶员一般是通过按键触摸和语音系统与汽车进行交互。由于点触式与汽车进行交互的过程十分繁琐,驾驶员在驾驶过程中通常难以准确的通过此方法达到目的,在行进过程中还容易造成各种安全问题,触摸点击的交互使用频率很低。而对于语音交互系统而言,由于车内通常还会存在各类噪音,如风噪、发动机噪声等,这些噪音会对车内语音识别系统造成干扰,继而导致车内语音识别系统无法准确判断用户意图,降低用户使用体验。除噪音外,驾驶员的方言或口音等多种影响因素同样会对语音识别的准确度造成影响。
专利《多模态深度融合机载座舱人机交互方法》公开号:CN 109933272 A,提出通过对飞行员的触摸控制指令或语音输入确定其意图完成相应操作,但只是基于对飞行员指令的被动接受,并没有主动检测到如飞行员员疲劳、注意力不集中等信息。
发明内容
本发明提供一种基于贝叶斯定理的车辆多模态交互方法,以提高汽车交互系统的有效性与可靠性。
本发明采取的技术方案是,包括下列步骤:
步骤1:多传感器综合采集多模态行为信息:
通过姿态检测专用摄像头拍摄驾驶员的行为动作,获得驾驶员进行不同操作时的姿态变化;通过前置摄像头拍摄驾驶员面部照片,获得驾驶员表情信息;通过眼动仪传感器捕捉眨眼的动作,判断驾驶人员疲劳程度;通过车载智能语音系统得到驾驶员语音信息,获得驾驶员具体指令;
步骤2:特征提取:
对传感器采集信息的数据进行特征提取,形成对驾驶员人体行为的底层表达;并从所述特征出发,进一步对各信息进行数字化表示,确定其与贝叶斯网络节点之间的对应关系,并确定取值;
步骤3:基于现实数据的贝叶斯网络搭建及训练:
获取过往现实情景下车辆行驶时的多传感器采集数据,对其进行特征提取并结合驾驶员的真实行为意图构建训练数据集,利用训练数据集中的样本搭建并训练贝叶斯网络,确定其网络结构和概率分布,得到训练好的贝叶斯网络,从而建立特征和用户行为意图之间的映射关系,实现多种特征与单一结果判定一一对应的映射关系;
步骤4:将获取到的多模态特征信息输入基于现实数据搭建的贝叶斯网络,得到用户的真实意图;
步骤5:根据推断出的用户意图,反馈执行装置通过视觉、听觉、触觉等多模态对用户进行合适的反馈。
所述步骤1中,通过姿态检测专用摄像头拍摄驾驶员的行为动作,获得驾驶员进行不同操作时的姿态变化;通过前置摄像头拍摄驾驶员面部照片,获得驾驶员表情信息;通过眼动仪传感器捕捉眨眼的动作,判断驾驶人员疲劳程度;通过车载智能语音系统得到驾驶员语音信息,获得驾驶员具体指令;
所述步骤2中,姿态检测专用摄像头可以通过人体骨骼跟踪技术实时地处理并得到操作者的骨骼模型以及骨骼模型中关键节点的三维坐标数据,开车时人们大多使用上肢的肢体语言,通过上半身运动来传达自己的真实意图,选取左手手腕关节点、右手手腕关节点、左手手肘关节点、右手手肘关节点、左肩关节点、右肩关节点以及头部关节点七个关节点作为关键点,获取其三维坐标数据,然后对坐标数据进行检测处理,将每个点的活动范围都分为9个区域,用0-8表示,当某个关键点的坐标落入某个区域时我们就用该区域的数字来表示,将处理后的七个关键点数据保存到特征E1,E2,E3,E4,E5,E6,E7中,它们的取值都为0-8;
前置摄像头拍摄的用户面部照片通过训练好的深度卷积神经网络识别表情E8,不同的表情在E8中用不同的数字表示。
眼动仪传感器可以通过数据分析,获得特征PERCLOS即单位时间内眼睛闭合时间所占的百分率、特征BF即眨眼频率和特征MECD即一定时间内,最长一次眼部闭合持续的时间,用于专注和疲劳程度检测,对PERCLOS特征、BF特征和特征MECD分别进行离散化处理,划分为五档,分别用数字0-4来表示并保存在特征E9、E10和E11中;
车载智能语音系统通过麦克风获取语音信息并通过自然语言识别转为相应的文本描述信息,再将预先设定的关键词信息提取到E12中,不同的语音信息在E12中用不同的数字表示。
所述步骤3中,获取过往现实情景下车辆行驶时的多传感器采集数据,对其进行特征提取并结合驾驶员的真实行为意图构建训练数据集,利用数据集中的样本构建并训练贝叶斯网络,确定其网络结构和概率分布,得到训练好的贝叶斯网络,从而建立特征和用户行为意图之间的映射关系,实现多种特征与单一结果判定一一对应的映射关系;
贝叶斯网络是一种复杂的因果关系网络,一个贝叶斯网络可以看成一个二元组B=<G,P>,其中G为网络结构,G=<X,A>是一个有向无环图(DAG),X代表节点,A代表节点之间的弧,每一个节点表示一个变量,即一个事件,各变量之间的弧表示事件发生的直接因果关系;P为概率分布,P中的元素代表节点X的条件概率密度。求得网络结构G和概率分布P就成功构建了贝叶斯网络;
其中网络结构G采用K2算法确定,K2算法根据贪婪搜索方法不断向网络中添加弧,获得新的网络结构并对其打分,最后得到分数最高的网络结构,并将其确定为我们所求贝叶斯网络的网络结构,其假定各个贝叶斯网络结构具有相等的先验概率,对贝叶斯网络结构进行启发式搜索,按照节点变量的次序,搜索各个节点的父节点集,并且通过增加父节点的方式提高局部贝叶斯网络结构的评分,使最终得到的贝叶斯网络结构达到评分最大化,D为已知的数据集,P(G,D)为给定数据集下某一网络结构评分,假设N=X1,X2,…,Xn为贝叶斯网络结构中的所有节点,且Xi∈{xi1,xi2,...,xiri},ri≥2,i=1,2,...,n,其中Xi共有ri种可能的取值xi1,xi2,...,xiri,Nijk为数据集合D中变量Xi取第k个值,其父节点集取第j个值的组合的数目,且假设各变量节点的先验概率分布服从均匀分布,C为常数,则K2评分方法表示为:
概率分布P采用EM算法确定,因为采集到的数据不一定完备,选择非完备数据的EM算法,EM算法分为E步和M步,E步利用公式(2),通过网络结构和参数计算样本中缺省数据的期望充分统计因子,M步通过公式(3),利用期望充分统计因子完备化缺省的数据集,重新估计当前模型的最优参数,最终求得贝叶斯网络的概率分布,其中Z为当前已获知数据,z为缺失数据,θ为概率分布,角标i为第i个数据,Qi(Z(i))为第i个样本对应的权重;
Qi(Z(i))=P(z(i)|Z(i),θ) (2)
所述步骤4中,将步骤2中的E1至E12输入步骤3中基于现实数据搭建的贝叶斯网络,如附图3所示,获得驾驶员行为的后验概率,具体公式为:
其中E=(E1,E2,…,E12)=(获取的多模态信息),c是驾驶员的行为意图,P(E|c)为用户行为意图为c时用户行为E发生的概率,则P(c|E)即为用户行为E发生时用户行为意图为c的概率;
根据最大后验概率判定逻辑,选择后验概率P(c|E)最大的c作为诊断判定结果。即认为当采集到多模态信息E时,用户的行为意图为c;
所述步骤5中,将经过贝叶斯分析的用户行为意图发送给相应的内容服务商或相应执行模块,即反馈执行装置;反馈执行装置通过听觉、视觉、触觉等多种方式根据用户的需要对用户进行合适的反馈,其中,听觉反馈包括语音反馈、音乐反馈;视觉反馈包括图像反馈、视频反馈等;触觉反馈包括震动反馈、超声波反馈。
本发明的有益效果是:信号的采集采用多传感器采集,通过声音和驾驶员行为信息两类信息综合得出结论,判断驾驶员的状态或者意图,相较于现有技术,这种数据采集方式可靠性更高,通过贝叶斯公式计算后得出的结果与实际情况更加接近,针对反馈执行装置,通过如语音提示、文字提示、震动等涵盖视觉听觉触觉的较为全面的反馈执行方式,为用户提供了更为精准的反馈。
附图说明
图1是本发明的整体系统示意图;
图2是本发明的多模态交互示意图;
图3是本发明的贝叶斯网络示意图。
具体实施方式
下面将参照附图来描述本发明的具体实施方式,虽然附图显示了本发明的示例性实施例,但是本领域的相关技术人员应当理解的是,这些实施案例仅用于解释本发明的技术性原理,而非旨在限制本发明的保护范围。
如图1所示;包括下列步骤:
步骤1:多传感器综合采集多模态行为信息:
通过姿态检测专用摄像头拍摄驾驶员的行为动作,获得驾驶员进行不同操作时的姿态变化;通过前置摄像头拍摄驾驶员面部照片,获得驾驶员表情信息;通过眼动仪传感器捕捉眨眼的动作,判断驾驶人员疲劳程度;通过车载智能语音系统得到驾驶员语音信息,获得驾驶员具体指令;
步骤2:特征提取:
对传感器采集信息的数据进行特征提取,形成对驾驶员人体行为的底层表达;并从所述特征出发,进一步对各信息进行数字化表示,确定其与贝叶斯网络节点之间的对应关系,并确定取值;
步骤3:基于现实数据的贝叶斯网络搭建及训练:
获取过往现实情景下车辆行驶时的多传感器采集数据,对其进行特征提取并结合驾驶员的真实行为意图构建训练数据集,利用训练数据集中的样本搭建并训练贝叶斯网络,确定其网络结构和概率分布,得到训练好的贝叶斯网络,从而建立特征和用户行为意图之间的映射关系,实现多种特征与单一结果判定一一对应的映射关系;
步骤4:将获取到的多模态特征信息输入基于现实数据搭建的贝叶斯网络,得到用户的真实意图;
步骤5:根据推断出的用户意图,反馈执行装置通过视觉、听觉、触觉等多模态对用户进行合适的反馈。
所述步骤1中,通过姿态检测专用摄像头拍摄驾驶员的行为动作,获得驾驶员进行不同操作时的姿态变化;通过前置摄像头拍摄驾驶员面部照片,获得驾驶员表情信息;通过眼动仪传感器捕捉眨眼的动作,判断驾驶人员疲劳程度;通过车载智能语音系统得到驾驶员语音信息,获得驾驶员具体指令;
所述步骤2中,姿态检测专用摄像头可以通过人体骨骼跟踪技术实时地处理并得到操作者的骨骼模型以及骨骼模型中关键节点的三维坐标数据,开车时人们大多使用上肢的肢体语言,通过上半身运动来传达自己的真实意图,选取左手手腕关节点、右手手腕关节点、左手手肘关节点、右手手肘关节点、左肩关节点、右肩关节点以及头部关节点七个关节点作为关键点,获取其三维坐标数据,然后对坐标数据进行检测处理,将每个点的活动范围都分为9个区域,用0-8表示,当某个关键点的坐标落入某个区域时我们就用该区域的数字来表示,将处理后的七个关键点数据保存到特征E1,E2,E3,E4,E5,E6,E7中,它们的取值都为0-8;
前置摄像头拍摄的用户面部照片通过训练好的深度卷积神经网络识别表情E8,不同的表情在E8中用不同的数字表示。
眼动仪传感器可以通过数据分析,获得特征PERCLOS即单位时间内眼睛闭合时间所占的百分率、特征BF即眨眼频率和特征MECD即一定时间内,最长一次眼部闭合持续的时间,用于专注和疲劳程度检测,对PERCLOS特征、BF特征和特征MECD分别进行离散化处理,划分为五档,分别用数字0-4来表示并保存在特征E9、E10和E11中;
车载智能语音系统通过麦克风获取语音信息并通过自然语言识别转为相应的文本描述信息,再将预先设定的关键词信息提取到E12中,不同的语音信息在E12中用不同的数字表示。
所述步骤3中,获取过往现实情景下车辆行驶时的多传感器采集数据,对其进行特征提取并结合驾驶员的真实行为意图构建训练数据集,利用数据集中的样本构建并训练贝叶斯网络,确定其网络结构和概率分布,得到训练好的贝叶斯网络,从而建立特征和用户行为意图之间的映射关系,实现多种特征与单一结果判定一一对应的映射关系;
贝叶斯网络是一种复杂的因果关系网络,一个贝叶斯网络可以看成一个二元组B=<G,P>,其中G为网络结构,G=<X,A>是一个有向无环图(DAG),X代表节点,A代表节点之间的弧,每一个节点表示一个变量,即一个事件,各变量之间的弧表示事件发生的直接因果关系;P为概率分布,P中的元素代表节点X的条件概率密度。求得网络结构G和概率分布P就成功构建了贝叶斯网络;
其中网络结构G采用K2算法确定,K2算法根据贪婪搜索方法不断向网络中添加弧,获得新的网络结构并对其打分,最后得到分数最高的网络结构,并将其确定为我们所求贝叶斯网络的网络结构,其假定各个贝叶斯网络结构具有相等的先验概率,对贝叶斯网络结构进行启发式搜索,按照节点变量的次序,搜索各个节点的父节点集,并且通过增加父节点的方式提高局部贝叶斯网络结构的评分,使最终得到的贝叶斯网络结构达到评分最大化,D为已知的数据集,P(G,D)为给定数据集下某一网络结构评分,假设N=X1,X2,…,Xn为贝叶斯网络结构中的所有节点,且Xi∈{xi1,xi2,...,xiri},ri≥2,i=1,2,...,n,其中Xi共有ri种可能的取值xi1,xi2,...,xiri,Nijk为数据集合D中变量Xi取第k个值,其父节点集取第j个值的组合的数目,且假设各变量节点的先验概率分布服从均匀分布,C为常数,则K2评分方法表示为:
概率分布P采用EM算法确定,因为采集到的数据不一定完备,选择非完备数据的EM算法,EM算法分为E步和M步,E步利用公式(2),通过网络结构和参数计算样本中缺省数据的期望充分统计因子,M步通过公式(3),利用期望充分统计因子完备化缺省的数据集,重新估计当前模型的最优参数,最终求得贝叶斯网络的概率分布,其中Z为当前已获知数据,z为缺失数据,θ为概率分布,角标i为第i个数据,Qi(Z(i))为第i个样本对应的权重;
Qi(Z(i))=P(z(i)|Z(i),θ) (2)
所述步骤4中,将步骤2中的E1至E12输入步骤3中基于现实数据搭建的贝叶斯网络,如附图3所示,获得驾驶员行为的后验概率,具体公式为:
其中E=(E1,E2,…,E12)=(获取的多模态信息),c是驾驶员的行为意图,P(E|c)为用户行为意图为c时用户行为E发生的概率,则P(c|E)即为用户行为E发生时用户行为意图为c的概率;
根据最大后验概率判定逻辑,选择后验概率P(c|E)最大的c作为诊断判定结果。即认为当采集到多模态信息E时,用户的行为意图为c;
所述步骤5中,将经过贝叶斯分析的用户行为意图发送给相应的内容服务商或相应执行模块,即反馈执行装置;反馈执行装置通过听觉、视觉、触觉等多种方式根据用户的需要对用户进行合适的反馈,其中,听觉反馈包括语音反馈、音乐反馈;视觉反馈包括图像反馈、视频反馈等;触觉反馈包括震动反馈、超声波反馈,具体分为模糊决断,主动反馈,危险提示三类;
模糊决断即用户提出模糊需求时,系统判断用户需求做出进一步决断并询问用户。如用户说:“放一首周杰伦的歌”,系统得到指令并根据采集到的数据认为用户处于困倦状态,根据贝叶斯网络行为意图数据集中表情识别E8为高兴时所选择的音乐,做出选择并询问:“来一首欢快的牛仔男孩可以吗?”
主动反馈即根据采集用户信息主动做出判断并询问用户。当姿态检测专用摄像头检测到用户动作为手快速挥舞时,根据贝叶斯推断得到用户意图:“用户很热,需要降温”,主动发出提示:“是否需要打开空调?”,根据用户回答选择是否打开空调。
危险提示即检测到用户过度疲劳或有危险行为时,根据贝叶斯推断得出用户此时处于危险状态,通过座椅震动、屏幕闪烁、语音警报等多模态行为提醒用户。例如,当用户处于过度疲劳时,眼动仪检测到用户处于长时间闭眼状态,根据贝叶斯推断得出用户此时大概率处于过度疲劳状态,此时通过方向盘震动、屏幕闪烁并发出提示:“您此时处于困倦状态,需要立即将车停到安全区域并进行休息”来提醒用户安全驾车。