本发明公开了一种基于视频图像面部表情和语音的多模态儿童情绪识别模型,涉及情绪识别领域。在视频图像模态上,将面部表情训练数据使用Gabor滤波增强人脸纹理,然后将纹理增强后面部表情训练数据在稠密卷积神经网络(D)上进行训练,得到视频图像模态情绪识别模型;在语音模态上,将训练数据集的GFCC特征与MFCC特征进行融合,再输入至语音模态模型中进行训练,语音模态使用CGRU网络,CGRU网络由卷积神经网络(CNN)、门控循环单元(GRU)网络融合;最后将CGRU与SVM连接,得到语音情绪识别模型。视频图像模态识别结果和语音模态识别结果依据权值准则在决策层进行融合,实现多模态儿童情绪识别。本发明提供的技术方案,有效的提高儿童情绪识别的准确率,有较强的推广价值。