基于视频图像面部表情和语音的多模态儿童情绪识别融合模型
技术领域
本发明涉及情感识别、语音处理和图像处理
技术领域
,具体为基于视频图像面部表情和语音的多模态儿童情绪识别融合模型。背景技术
情绪是人内心世界的外在表达方式,是以个体意愿和需求为媒介的一种心理活动。所以,情绪调节与儿童青少年心理健康密切相关。但由于儿童在情感发泄以及应对不同情感作出合理举措的能力远不如成年人,所以对于监护人来说,难以发现儿童的情感状况,使得无法及时帮助儿童宣泄情绪以及进行情绪疏导。从而可能会导致幼儿和青少年产生情绪障碍,带来焦虑症,心理健康等问题。
当前比较好的情绪识别解决方案是采取人机交互的方式,即通过对儿童在不同情绪下的语音或面部表情进行分析筛选出有效特征,并使用这些特征来训练相关的模型,得到识别模型。但这些方法没有考虑到儿童声音较为较为尖锐,频率较高的问题,并且忽略了儿童面部纹理较成年人更加细微。因此,克服上述儿童情绪识别方法中存在的问题,是当前急需解决的。
发明内容
本发明的目的在于提供一种基于视频图像面部表情和语音的多模态儿童情绪识别融合模型,以解决上述背景技术中提出的问题。
为实现上述目的,本发明所采用的技术方案是:一种基于视频图像面部表情和语音的多模态儿童情绪识别融合模型,包括以下步骤:
步骤(A),将面部表情训练数据经过Gabor增强人脸纹理;
步骤(B),将稠密连接卷积神经网络在纹理增强后的面部表情训练数据上进行训练,以得到图像情绪识别模型;
步骤(C),将语音数据训练数据集的MFCC特征与GFCC进行特征融合;
步骤(D),将融合特征输入至卷积神经网络(CNN)和门控循环单元(GRU)网络融合构成模型CGRU以及SVM中进行训练,并将CGRU与SVM构成集成学习,得到语音情绪识别模型。
步骤(E),将所述图像情绪识别模型以及所述语音情绪识别模型进行决策融合,得到双模态儿童情绪识别模型。
前述的基于视频图像面部表情和语音的多模态儿童情绪识别融合模型,步骤(A),将将面部表情训练数据经过Gabor增强人脸纹理,包括以下步骤,
(A1),构建Gabor滤波器,所述Gabor滤波器具有2,3,4,5,6,7这六个不同波长取值,每个波长的滤波器设计0,π/4,2π/4,3π/4这4个方向;
(A2),将面部表情训练数据和构建的Gabor滤波器进行卷积,得到纹理增强后的Gabor图像;
前述的基于视频图像面部表情和语音的多模态儿童情绪识别融合模型,其特征在于:步骤(B),将纹理增强后的面部表情训练数据输入至稠密连接卷积神经网络进行训练,以得到图像情绪识别模型,包括以下步骤:
(B1),获取纹理增强后的训练样本,所述训练样本包括共5582张面部表情图像;
(B2),使用稠密卷积神经网络对所述训练样本进行训练,以得到图像情绪识别模型,所述稠密卷积神经网络包含4个稠密块,每个稠密块包含的瓶颈层分别为6,12,24和16。
前述的基于视频图像面部表情和语音的多模态儿童情绪识别融合模型,其特征在于:步骤(C),将语音数据训练数据集的MFCC特征与GFCC进行特征融合,包括以下步骤:
(C1),将语音情绪数据进行预处理,所述预处理包括归一化、预加重以及分帧加窗;
(C2),提取所述语音情绪数据的MFCC特征和GFCC特征;
(C3),将MFCC与GFCC进行融合。
前述的基于视频图像面部表情和语音的多模态儿童情绪识别融合模型,其特征在于:步骤(C3),将MFCC与GFCC进行融合中,具体融合公式如公式(1)所示:
Mmix=[(MMFCC),(MGFCC)] (1)
其中MMFCC表示提取出的MFCC特征,MGFCC表示提取出的GFCC特征,Mmix表示融合特征。
前述的基于视频图像面部表情和语音的多模态儿童情绪识别融合模型,其特征在于:步骤(D),将融合特征输入至卷积神经网络(CNN)和门控循环单元(GRU)网络融合构成模型CGRU以及SVM中进行训练,并将CGRU与SVM构成集成学习,得到语音情绪识别模型,包括以下步骤:
(D1),使用对频率域具有不错捕捉能力的卷积神经网络(CNN)和具有良好时序特征提取能力的门控循环单元(GRU)网络融合构成CGRU;
(D2),获取的MFCC与GFCC的融合特征集;
(D3),使用所述训练样本分别对CGRU以及SVM进行训练,分别得到CGRU模型以及SVM模型;
(D4),将CGRU模型以及SVM模型进行集成学习,得到语音情绪识别模型。
前述的基于视频图像面部表情和语音的多模态儿童情绪识别融合模型,其特征在于:步骤(E),将所述图像情绪识别模型以及所述语音情绪识别模型进行决策融合,以得到双模态儿童情绪识别模型,具体决策融合公式为公式(2)所示:
其中,E表示识别的情绪的结果,Pm代表视频图像通道上的分类结果,Pv表示语音通道的分类结果,α和β表示两者的权值,取α=0.62,β=0.38。
本发明的有益效果是:本发明提供的一种基于视频图像面部表情和语音的多模态儿童情绪识别融合模型包括:面部表情模态上,利用Gabor滤波对图片进行处理,增强儿童细微的面部表情纹理特征;将纹理增强后的面部表情数据使用可以提取出更多的细微的隐式特征的DenseNet进行训练构建面部表情识别模型;语音模态上,将对高频语音信号具有较高的鲁棒性的GFCC和对低频语音信号具有高抗噪性的MFCC构成融合特征;再输入至卷积神经网络(CNN)和门控循环单元(GRU)网络融合构成模型CGRU以及SVM中进行训练;接着将CGRU与SVM构成集成学习以得到语音情绪识别模型;最后,将面部表情模态与语音模态依据权值准则在决策层进行融合,得到多模态儿童情绪识别模型。本发明提供的技术方案,解决了儿童面部纹理细微,语音频率过高的问题,并且有效的提高了儿童情绪识别的准确率,有较强的推广价值。
附图说明
图1为本发明流程流程示意框图。
图2为本发明构建的CGRU结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明提供一种技术方案:构建基于视频图像面部表情和语音的多模态儿童情绪识别融合模型,包括以下步骤:
步骤(A),将面部表情训练数据经过Gabor增强人脸纹理,包括以下步骤,
(A1),构建Gabor滤波器,所述Gabor滤波器具有2,3,4,5,6,7这六个不同波长取值,每个波长的滤波器设计0,π/4,2π/4,3π/4这4个方向;
(A2),将面部表情训练数据和构建的Gabor滤波器进行卷积,得到纹理增强后的Gabor图像;
步骤(B),将稠密连接卷积神经网络在纹理增强后的面部表情训练数据上进行训练,以得到图像情绪识别模型,包括以下步骤:
(B1),获取纹理增强后的训练样本,所述训练样本包括共5582张面部表情图像;
(B2),构建瓶颈层,瓶颈层由批标准化(Batch Normalization,BN),激活函数,1×1的卷积层,BN,激活函数,3×3的卷积层组成。
(B3),构建过渡层,过渡层由一个1×1卷积和一个2×2的均值池化层构成。
(B4),所述的稠密卷积神经网络由卷积层、稠密块、过渡层(Transition Layer)、池化层(Pooling)、全局池化层(Global Average Poolin)和输出层组成,共有十层,前两层由一个7×7的卷积层和一个3×3的最大池化层构成。之后由稠密块和过渡层交替堆叠,整个DenseNet由N个稠密块组成,每个稠密块都包含M个瓶颈层用于基本构建操作和特征图拼接融合操作。取N=4,M=[6,12,24,16],总计116个卷积操作,每个稠密块的输出通道数为256,512,1024,1024。每个稠密块后接一个过渡层用于压缩特征通道数,以缓解特征通道数过多造成的信息冗余。经过压缩后,特征通道依次为128,256,512,最后一层稠密块不进行压缩。最终经过一个全局池化层后连接分类输出层输出情绪分类,完成面部表情识别模型构建。
步骤(C),将语音数据训练数据集的MFCC特征与GFCC进行特征融合,包括以下步骤:
(C1),将语音情绪数据进行归一化所述预处理包括、预加重以及分帧加窗;
(C2),提取所述语音情绪数据的MFCC特征和GFCC特征;
(C3),将MFCC与GFCC进行融合。如公式(1)所示:Mmix=[(MMFCC),(MGFCC)] (1)
其中MMFCC表示提取出的MFCC特征,MGFCC表示提取出的GFCC特征,Mmix表示融合特征。
步骤(D),将融合特征输入至卷积神经网络(CNN)和门控循环单元(GRU)网络融合构成模型CGRU以及SVM中进行训练,并将CGRU与SVM构成集成学习,得到语音情绪识别模型,包括以下步骤:
(D1),构建卷积神经网络,首先构建3个由3×3的卷积层、BN层,激活函数构成的模块,之后连接一个1×1卷积层对通道数进行调整,最后与MaxPooling层连接完成卷积模块的操作。
(D2),将三个GRU模块连接构成GRU网络。
(D2),将卷积模块连接dropout层,接着与GRU网络模型连接,最后利用Flatten层将提取的多维特征转换为一维后输入全连接层,完成CGRU模型的构建。
(D4),使用所述训练样本分别对CGRU以及SVM进行训练,分别得到CGRU模型以及SVM模型;
(D5),将CGRU模型以及SVM模型进行集成学习,得到语音情绪识别模型。
步骤(E),将所述图像情绪识别模型以及所述语音情绪识别模型进行决策融合,以得到双模态儿童情绪识别模型,具体决策融合公式为公式(2)所示:
其中,E表示识别的情绪的结果,Pm代表视频图像通道上的分类结果,Pv表示语音通道的分类结果,α和β表示两者的权值,取α=0.62,β=0.38。
对不同模型和方法的性能对比如表1所示。在语音模态上,GFCC和MFCC的融合特征对语音识别率有一定的提高,所述CGRU+SVM的识别方法较LSTM在准确率上有所提高;在面部表情模态上,提出的Gabor+DenseNet模型识别准确率达到了79.6%,在识别准确率上优于其余识别模型;融合模态最终准确可达83.4%,准确率优于其他单模态识别模型。因此,在儿童情绪识别上,多模态融合策略的识别准确率较单模态有一定的提升。
表1不同方法识别结果对比
上面对本发明进行了示范性描述,本发明具体实现并不受上述方式的限制,任何熟悉本技术领域的技术人员在本申请揭露的计算范围内,可轻易想到变化和替换,改变数据集、情感类别数量、权值参数等方式都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
- 上一篇:石墨接头机器人自动装卡簧、装栓机
- 下一篇:基于一致性训练的半监督三维形状识别方法