语音情绪识别方法、装置、电子设备及存储介质

文档序号:9825 发布日期:2021-09-17 浏览:49次 英文

语音情绪识别方法、装置、电子设备及存储介质

技术领域

本发明涉及人工智能

技术领域

,具体涉及一种语音情绪识别方法、装置、电子设备及存储介质。

背景技术

在进行语音情绪识别时,传统的语音情绪识别使用的是单一的语料库,也就是使用相同来源的测试集和训练集进行模型训练。

然而,由于在实际应用中,说话人常常具有不同的文化和语言背景,若采用单一的语料库,无法应对交叉语料库和多语种的场景,导致训练得到的语音情绪识别模型的泛化能力差,进而导致情绪识别的准确率低。

因此,有必要提出一种可以提高语音情绪识别模型的泛化能力,及快速准确的情绪识别的方法。

发明内容

鉴于以上内容,有必要提出一种语音情绪识别方法、装置、电子设备及存储介质,通过对小样本数据集进行语音数据扩充,扩充了小样本数据集的数据分布,增强了模型中的神经网络的鲁棒性,提高了语音情绪识别模型的泛化能力及情绪识别的准确率。

本发明的第一方面提供一种语音情绪识别方法,所述方法包括:

从预设的多个语音情绪语料库中获取语音样本数据集,其中,所述语音样本数据集中包括大样本数据集和小样本数据集;

对所述小样本数据集进行语音数据扩充,得到目标小样本数据集;

将所述大样本数据集和所述目标小样本数据集进行融合,得到目标样本数据集;

根据所述目标样本数据集训练语音情绪识别模型;

获取待识别语音数据;

将所述待识别语音数据输入至训练好的语音情绪识别模型中,得到所述待识别语音数据的情绪识别结果。

可选地,所述语音情绪识别模型包括:

密连接神经网络、与所述密连接神经网络连接的长短期记忆网络、与所述长短期记忆网络连接的高速神经网络、及与所述高速神经网络连接的Softmax层,其中,所述密连接神经网络包括:第一密集块、与所述第一密集块连接的第一传递层、与所述第一传递层连接的第二密集块、与所述第二密集块连接的第二传递层及与所述第二传递层连接的第三密集块,所述第一传递层包含有批标准化层、与所述批标准化层连接的卷积层及与所述卷积层连接的平均池化层,所述第二传递层与所述第一传递层网络结构相同。

可选地,所述将所述待识别语音数据输入至训练好的语音情绪识别模型中,得到所述待识别语音数据的情绪识别结果包括:

将所述待识别语音数据输入至密连接神经网络中,得到局部语音特征;

将所述局部语音特征输入至长短期记忆网络中,通过所述长短期记忆网络对所述局部语音特征进行上下文本聚合,得到全局语音特征;

将所述局部语音特征和所述全局语音特征输入至高速神经网络中,得到目标语音特征;

对所述目标语音特征输入至Softmax层中进行归一化计算,得到每个目标语音特征的情绪标签预测值;

根据所述每个目标语音特征的情绪标签预测值和每个目标语音特征的情绪标签真实值,计算每个目标语音特征对应的均方差损失值,并根据每个目标语音特征对应的均方差损失值进行情绪识别,得到所述待识别语音数据的情绪识别结果。

可选地,所述将所述待识别语音数据输入至密连接神经网络中,得到局部语音特征包括:

将所述待识别语音数据输入至所述第一密集块中,得到第一语音特征;

将所述第一语音特征输入至所述第一传递层,在所述第一传递层中对所述第一语音特征进行批量归一化处理,将批量归一化处理后的第一语音特征输入至所述卷积层中进行卷积计算,并将卷积计算得到的第一语音特征输入至所述平均池化层中,提取最大的第一语音特征输入至所述第二密集块中,得到第二语音特征;

将所述第二语音特征输入至所述第二传递层,在所述第二传递层中对所述第二语音特征进行批量归一化处理,将批量归一化处理后的第二语音特征输入至所述卷积层中进行卷积计算,并将卷积计算得到的第二语音特征输入至所述平均池化层中,提取最大的第二语音特征输入至所述第三密集块中,得到第三语音特征;

合并所述第一语音特征、所述第二语音特征及所述第三语音特征,得到局部语音特征。

可选地,所述对所述小样本数据集进行语音数据扩充,得到目标小样本数据集包括:

从每个所述小样本数据集中的识别出每个语音数据的语速、语调及噪音;

对每个所述小样本数据集中的每个语音数据的语速、语调及噪音分别进行语音数据增强,得到第一小样本数据集;

将第一小样本数据集与所述小样本数据集进行融合,得到第二小样本数据集;

在所述第二小样本数据集中随机添加高斯白噪声,得到第三小样本数据集;

提取每个所述第三小样本数据集中的语音特征集,根据所述语音特征集生成连续时间的频谱图,对所述频谱图进行时频域掩膜,得到目标小样本数据集。

可选地,所述对每个所述小样本数据集中的每个语音数据的语速、语调及噪音分别进行语音数据增强,得到第一小样本数据集包括:

对每个所述小样本数据集中的每个语音数据的语速乘以预设的语速增强阈值,得到新语速对应的每个所述小样本数据集中的每个语音数据;

对每个所述小样本数据集中的每个语音数据的语调乘以预设的语调增强阈值,得到新语调对应的每个所述小样本数据集中的每个语音数据;

对每个所述小样本数据集中的每个语音数据的噪音乘以预设的噪音增强阈值,得到新噪音对应的每个所述小样本数据集中的每个语音数据;

合并所述新语速、新语调及新噪音对应的每个所述小样本数据集中的每个语音数据,得到第一小样本数据集。

可选地,所述根据所述目标样本数据集训练语音情绪识别模型包括:

将所述目标样本数据集输入至语音情绪识别模型中进行训练,得到每个语音特征的情绪标签预测值;

根据所述每个语音特征的情绪标签预测值和每个语音特征的情绪标签真实值,计算均方差损失值,并根据所述均方差损失值更新所述语音情绪识别模型中的模型参数,训练所述更新后的语音情绪识别模型。

本发明的第二方面提供一种语音情绪识别装置,所述装置包括:

第一获取模块,用于从预设的多个语音情绪语料库中获取语音样本数据集,其中,所述语音样本数据集中包括大样本数据集和小样本数据集;

数据扩充模块,用于对所述小样本数据集进行语音数据扩充,得到目标小样本数据集;

融合模块,用于将所述大样本数据集和所述目标小样本数据集进行融合,得到目标样本数据集;

训练模块,用于根据所述目标样本数据集训练语音情绪识别模型;

第二获取模块,用于获取待识别语音数据;

输入模块,用于将所述待识别语音数据输入至训练好的语音情绪识别模型中,得到所述待识别语音数据的情绪识别结果。

本发明的第三方面提供一种电子设备,所述电子设备包括处理器和存储器,所述处理器用于执行所述存储器中存储的计算机程序时实现所述的语音情绪识别方法。

本发明的第四方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述的语音情绪识别方法。

综上所述,本发明所述的语音情绪识别方法、装置、电子设备及存储介质,一方面,考虑到语料库中的规模不对等,通过从大的语音情绪语料库中获取大样本数据集及从小的语音情绪语料库中获取小样本数据集,并对小样本数据集进行语音数据扩充,扩充了小样本数据集的数据分布,增强了后续训练得到的语音情绪识别模型中的神经网络的鲁棒性,在面对抗攻击和应对交叉预料库时将会有更好的表现,同时确保了大样本数据集和小样本数据集的训练样本集的均衡性,避免后续采用所述大样本数据集和所述小样本数据集进行语音情绪识别模型训练时出现训练模型过拟合的现象,提高了语音情绪识别模型的泛化能力;另一方面,通过将所述密连接神经网络的第一密集块输出的第一语音特征、第二密集块输出的第二语音特征及第三密集块输出的第三语音特征,和所述长短期记忆网络输出的全局语音特征进行合并输入至高速神经网络中,缓解了高速神经网络中梯度消失的问题,确保通过高速神经网络提取到的目标语音特征的准确率,进而提高了情绪识别的准确率;最后,将进行语音扩充后的小样本数据集与大样本数据集进行融合,确保了后续语音情绪识别模型的训练样本集的丰富性,进而提高了训练得到的语言情绪识别模型的高效性。

附图说明

图1是本发明实施例一提供的语音情绪识别方法的流程图。

图2是本发明实施例二提供的语音情绪识别装置的结构图。

图3是本发明实施例三提供的电子设备的结构示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施例对本发明进行详细描述。需要说明的是,在不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。

除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。

实施例一

图1是本发明实施例一提供的语音情绪识别方法的流程图。

在本实施例中,所述语音情绪识别方法可以应用于电子设备中,对于需要进行语音情绪识别的电子设备,可以直接在电子设备上集成本发明的方法所提供的语音情绪识别的功能,或者以软件开发工具包(Software Development Kit,SDK)的形式运行在电子设备中。

如图1所示,所述语音情绪识别方法具体包括以下步骤,根据不同的需求,该流程图中步骤的顺序可以改变,某些可以省略。

S11,从预设的多个语音情绪语料库中获取语音样本数据集,其中,所述语音样本数据集中包括大样本数据集和小样本数据集。

本实施例中,语音情绪语料库中包含有不同语言对应的语音情绪语料库和不同场景对应的语音情绪语料库,可以从预设的多个语音情绪语料库中获取语音样本数据集。

示例性地,针对不同语言对应的语音情绪语料库,例如,英语和汉语为用户广泛使用的语言,故采集到的英语语音语料和汉语语音语料较多,进而创建的英语语音情绪语料库和汉语语音情绪语料库为大的语音情绪语料库,而针对小语言语种,例如,韩语、日语等,使用的用户较少,采集到的语音语料相对较少,进而创建的语音情绪语料库为小的语音情绪语料库。

示例性地,针对不同的场景对应的语音情绪语料库,例如,针对医院就诊的场景,由于生病无可避免,医院每天都会有就诊病人,故在医院采集的语音语料较多,创建的语音情绪语料库为大的语音情绪语料库,针对智能家居场景,人与智能家居交互的语音较少,故采集到的语音语料较少,创建的语音情绪语料库为小的语音情绪语料库。

本实施例中,从所述大的语音情绪语料库中获取大样本数据集,从小的语音情绪语料库中获取小样本数据集。

S12,对所述小样本数据集进行语音数据扩充,得到目标小样本数据集。

本实施例中,考虑到语料库中的规模不对等,通过从大的语音情绪语料库中获取大样本数据集及从小的语音情绪语料库中获取小样本数据集,并对小样本数据集进行语音数据扩充,扩充了小样本数据集的数据分布,增强了后续训练得到的语音情绪识别模型中的神经网络的鲁棒性,在面对抗攻击和应对交叉预料库时将会有更好的表现,同时确保了大样本数据集和小样本数据集的训练样本集的均衡性,避免后续采用所述大样本数据集和所述小样本数据集进行语音情绪识别模型训练时出现训练模型过拟合的现象,提高了语音情绪识别模型的泛化能力。

在一个可选的实施例中,所述对所述小样本数据集进行语音数据扩充,得到目标小样本数据集包括:

从每个所述小样本数据集中的识别出每个语音数据的语速、语调及噪音;

对每个所述小样本数据集中的每个语音数据的语速、语调及噪音分别进行语音数据增强,得到第一小样本数据集;

将第一小样本数据集与所述小样本数据集进行融合,得到第二小样本数据集;

在所述第二小样本数据集中随机添加高斯白噪声,得到第三小样本数据集;

提取每个所述第三小样本数据集中的语音特征集,根据所述语音特征集生成连续时间的频谱图,对所述频谱图进行时频域掩膜,得到目标小样本数据集。

进一步地,所述对每个所述小样本数据集中的每个语音数据的语速、语调及噪音分别进行语音数据增强,得到第一小样本数据集包括:

对每个所述小样本数据集中的每个语音数据的语速乘以预设的语速增强阈值,得到新语速对应的每个所述小样本数据集中的每个语音数据;

对每个所述小样本数据集中的每个语音数据的语调乘以预设的语调增强阈值,得到新语调对应的每个所述小样本数据集中的每个语音数据;

对每个所述小样本数据集中的每个语音数据的噪音乘以预设的噪音增强阈值,得到新噪音对应的每个所述小样本数据集中的每个语音数据;

合并所述新语速、新语调及新噪音对应的每个所述小样本数据集中的每个语音数据,得到第一小样本数据集。

本实施例中,为了确保大样本数据集和小样本数据集的均衡性,对小样本数据集进行语音数据扩充,在进行语音数据扩充过程中,针对每个语音数据的语速、语调及噪音进行语音数据增强,对语音增强后的第一小样本数据集和原始小样本数据集进行融合后,添加高斯白噪声进行二次语音数据增强,并对二次语音数据增强后的每个小样本数据集提取语音特征集,进行三次语音数据增强,本实施例通过对小样本数据集进行多次语音数据增强,确保了进行语音数据扩充后的小样本数据集与大样本数据集的均衡性。

S13,将所述大样本数据集和所述目标小样本数据集进行融合,得到目标样本数据集。

本实施例中,将进行语音扩充后的小样本数据集与大样本数据集进行融合,确保了后续语音情绪识别模型的训练样本集的丰富性,进而提高了训练得到的语言情绪识别模型的高效性。

S14,根据所述目标样本数据集训练语音情绪识别模型。

本实施例中,可以预先构建语音情绪识别模型,在获取到目标样本数据集之后,根据所述目标样本数据集训练语音情绪识别模型。

在一个可选的实施例中,所述语音情绪识别模型包括:

密连接神经网络、与所述密连接神经网络连接的长短期记忆网络、与所述长短期记忆网络连接的高速神经网络、及与所述高速神经网络连接的Softmax层,其中,所述密连接神经网络包括:第一密集块、与所述第一密集块连接的第一传递层、与所述第一传递层连接的第二密集块、与所述第二密集块连接的第二传递层及与所述第二传递层连接的第三密集块,所述第一传递层包含有批标准化层、与所述批标准化层连接的卷积层及与所述卷积层连接的平均池化层,所述第二传递层与所述第一传递层网络结构相同。

本实施例中,由于数据具有时序关系,传统的循环神经网络由于自身结构的原因会产生长期依赖问题,本实施例通过在构建的语音情绪识别模型中采用长短期记忆网络处理数据,通过长短期记忆网络的门控结构控制数据的传输,保留数据长期信息,并控制数据交互,在一定程度上解决传统循环神经网络结构所存在的长期依赖问题,使得构建的语音情绪识别模型能够充分利用数据的上下语境信息,同时,在构建的语音情绪识别模型中采用高速神经网络,由于高速神经网络一部分语音数据经过非线性变换,而剩余语音数据直接通过,在进行语音情绪识别模型训练时,可以加快语音情绪识别模型的收敛速度,进而提高了语音情绪识别模型的训练效率。

在一个可选的实施例中,所述根据所述目标样本数据集训练语音情绪识别模型包括:

将所述目标样本数据集输入至语音情绪识别模型中进行训练,得到每个语音特征的情绪标签预测值;

根据所述每个语音特征的情绪标签预测值和每个语音特征的情绪标签真实值,计算均方差损失值,并根据所述均方差损失值更新所述语音情绪识别模型中的模型参数,训练所述更新后的语音情绪识别模型。

本实施例中,为了确保语音情绪识别模型情绪识别的准确率,在构建语言情绪识别模型中,融合了三种网络结构:密连接神经网络、长短期记忆网络和高速神经网络,通过密连接神经网络提取语音的时间特征,即局部语音特征,通过长短期记忆网络进行上下文本聚合,提取语音的全局语音特征,最后,通过高速神经网络对所述局部语音特征和所述全局语音特征进行特征信息,确保提取的语言特性的准确性。

S15,获取待识别语音数据。

本实施例中,在进行语音情绪识别时,通过客户端发起语音情绪识别请求至服务端,具体地,所述客户端可以是智能手机、IPAD或者其他现有的智能设备,所述服务端可以为语音情绪识别子系统,在语音情绪识别过程中,如所述客户端可以向语音情绪识别子系统发送语音情绪识别请求,所述语音情绪识别子系统用于接收所述客户端发送的语音情绪识别请求,并解析所述语音情绪识别请求,获取待识别语音数据。

S16,将所述待识别语音数据输入至训练好的语音情绪识别模型中,得到所述待识别语音数据的情绪识别结果。

本实施例中,在获取到待识别语音数据之后,将所述待识别语音数据输入至训练好的语言情绪识别模型中进行语音情绪识别,并接收所述语音情绪识别模型输出的情绪识别结果。

具体地,所述情绪包括喜欢、开心、伤心、愤怒、失望等其他情绪。

在一个可选的实施例中,所述将所述待识别语音数据输入至训练好的语音情绪识别模型中,得到所述待识别语音数据的情绪识别结果包括:

将所述待识别语音数据输入至密连接神经网络中,得到局部语音特征;

将所述局部语音特征输入至长短期记忆网络中,通过所述长短期记忆网络对所述局部语音特征进行上下文本聚合,得到全局语音特征;

将所述局部语音特征和所述全局语音特征输入至高速神经网络中,得到目标语音特征;

对所述目标语音特征输入至Softmax层中进行归一化计算,得到每个目标语音特征的情绪标签预测值;

根据所述每个目标语音特征的情绪标签预测值和每个目标语音特征的情绪标签真实值,计算每个目标语音特征对应的均方差损失值,并根据每个目标语音特征对应的均方差损失值进行情绪识别,得到所述待识别语音数据的情绪识别结果。

进一步地,所述将所述待识别语音数据输入至密连接神经网络中,得到局部语音特征包括:

将所述待识别语音数据输入至所述第一密集块中,得到第一语音特征;

将所述第一语音特征输入至所述第一传递层,在所述第一传递层中对所述第一语音特征进行批量归一化处理,将批量归一化处理后的第一语音特征输入至所述卷积层中进行卷积计算,并将卷积计算得到的第一语音特征输入至所述平均池化层中,提取最大的第一语音特征输入至所述第二密集块中,得到第二语音特征;

将所述第二语音特征输入至所述第二传递层,在所述第二传递层中对所述第二语音特征进行批量归一化处理,将批量归一化处理后的第二语音特征输入至所述卷积层中进行卷积计算,并将卷积计算得到的第二语音特征输入至所述平均池化层中,提取最大的第二语音特征输入至所述第三密集块中,得到第三语音特征;

合并所述第一语音特征、所述第二语音特征及所述第三语音特征,得到局部语音特征。

本实施例中,通过将所述密连接神经网络的第一密集块输出的第一语音特征、第二密集块输出的第二语音特征及第三密集块输出的第三语音特征,和所述长短期记忆网络输出的全局语音特征进行合并输入至高速神经网络中,缓解了高速神经网络中梯度消失的问题,确保通过高速神经网络提取到的目标语音特征的准确率,进而提高了情绪识别的准确率。

综上所述,本实施所述的语音情绪识别方法,一方面,考虑到语料库中的规模不对等,通过从大的语音情绪语料库中获取大样本数据集及从小的语音情绪语料库中获取小样本数据集,并对小样本数据集进行语音数据扩充,扩充了小样本数据集的数据分布,增强了后续训练得到的语音情绪识别模型中的神经网络的鲁棒性,在面对抗攻击和应对交叉预料库时将会有更好的表现,同时确保了大样本数据集和小样本数据集的训练样本集的均衡性,避免后续采用所述大样本数据集和所述小样本数据集进行语音情绪识别模型训练时出现训练模型过拟合的现象,提高了语音情绪识别模型的泛化能力;另一方面,通过将所述密连接神经网络的第一密集块输出的第一语音特征、第二密集块输出的第二语音特征及第三密集块输出的第三语音特征,和所述长短期记忆网络输出的全局语音特征进行合并输入至高速神经网络中,缓解了高速神经网络中梯度消失的问题,确保通过高速神经网络提取到的目标语音特征的准确率,进而提高了情绪识别的准确率;最后,将进行语音扩充后的小样本数据集与大样本数据集进行融合,确保了后续语音情绪识别模型的训练样本集的丰富性,进而提高了训练得到的语言情绪识别模型的高效性。

实施例二

图2是本发明实施例二提供的语音情绪识别装置的结构图。

在一些实施例中,所述语音情绪识别装置20可以包括多个由程序代码段所组成的功能模块。所述语音情绪识别装置20中的各个程序段的程序代码可以存储于电子设备的存储器中,并由所述至少一个处理器所执行,以执行(详见图1描述)语音情绪识别的功能。

本实施例中,所述语音情绪识别装置20根据其所执行的功能,可以被划分为多个功能模块。所述功能模块可以包括:第一获取模块201、数据扩充模块202、融合模块203、训练模块204、第二获取模块205及输入模块206。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机可读指令段,其存储在存储器中。在本实施例中,关于各模块的功能将在后续的实施例中详述。

第一获取模块201,用于从预设的多个语音情绪语料库中获取语音样本数据集,其中,所述语音样本数据集中包括大样本数据集和小样本数据集。

本实施例中,语音情绪语料库中包含有不同语言对应的语音情绪语料库和不同场景对应的语音情绪语料库,可以从预设的多个语音情绪语料库中获取语音样本数据集。

示例性地,针对不同语言对应的语音情绪语料库,例如,英语和汉语为用户广泛使用的语言,故采集到的英语语音语料和汉语语音语料较多,进而创建的英语语音情绪语料库和汉语语音情绪语料库为大的语音情绪语料库,而针对小语言语种,例如,韩语、日语等,使用的用户较少,采集到的语音语料相对较少,进而创建的语音情绪语料库为小的语音情绪语料库。

示例性地,针对不同的场景对应的语音情绪语料库,例如,针对医院就诊的场景,由于生病无可避免,医院每天都会有就诊病人,故在医院采集的语音语料较多,创建的语音情绪语料库为大的语音情绪语料库,针对智能家居场景,人与智能家居交互的语音较少,故采集到的语音语料较少,创建的语音情绪语料库为小的语音情绪语料库。

本实施例中,从所述大的语音情绪语料库中获取大样本数据集,从小的语音情绪语料库中获取小样本数据集。

数据扩充模块202,用于对所述小样本数据集进行语音数据扩充,得到目标小样本数据集。

本实施例中,考虑到语料库中的规模不对等,通过从大的语音情绪语料库中获取大样本数据集及从小的语音情绪语料库中获取小样本数据集,并对小样本数据集进行语音数据扩充,扩充了小样本数据集的数据分布,增强了后续训练得到的语音情绪识别模型中的神经网络的鲁棒性,在面对抗攻击和应对交叉预料库时将会有更好的表现,同时确保了大样本数据集和小样本数据集的训练样本集的均衡性,避免后续采用所述大样本数据集和所述小样本数据集进行语音情绪识别模型训练时出现训练模型过拟合的现象,提高了语音情绪识别模型的泛化能力。

在一个可选的实施例中,所述数据扩充模块202对所述小样本数据集进行语音数据扩充,得到目标小样本数据集包括:

从每个所述小样本数据集中的识别出每个语音数据的语速、语调及噪音;

对每个所述小样本数据集中的每个语音数据的语速、语调及噪音分别进行语音数据增强,得到第一小样本数据集;

将第一小样本数据集与所述小样本数据集进行融合,得到第二小样本数据集;

在所述第二小样本数据集中随机添加高斯白噪声,得到第三小样本数据集;

提取每个所述第三小样本数据集中的语音特征集,根据所述语音特征集生成连续时间的频谱图,对所述频谱图进行时频域掩膜,得到目标小样本数据集。

进一步地,所述对每个所述小样本数据集中的每个语音数据的语速、语调及噪音分别进行语音数据增强,得到第一小样本数据集包括:

对每个所述小样本数据集中的每个语音数据的语速乘以预设的语速增强阈值,得到新语速对应的每个所述小样本数据集中的每个语音数据;

对每个所述小样本数据集中的每个语音数据的语调乘以预设的语调增强阈值,得到新语调对应的每个所述小样本数据集中的每个语音数据;

对每个所述小样本数据集中的每个语音数据的噪音乘以预设的噪音增强阈值,得到新噪音对应的每个所述小样本数据集中的每个语音数据;

合并所述新语速、新语调及新噪音对应的每个所述小样本数据集中的每个语音数据,得到第一小样本数据集。

本实施例中,为了确保大样本数据集和小样本数据集的均衡性,对小样本数据集进行语音数据扩充,在进行语音数据扩充过程中,针对每个语音数据的语速、语调及噪音进行语音数据增强,对语音增强后的第一小样本数据集和原始小样本数据集进行融合后,添加高斯白噪声进行二次语音数据增强,并对二次语音数据增强后的每个小样本数据集提取语音特征集,进行三次语音数据增强,本实施例通过对小样本数据集进行多次语音数据增强,确保了进行语音数据扩充后的小样本数据集与大样本数据集的均衡性。

融合模块203,用于将所述大样本数据集和所述目标小样本数据集进行融合,得到目标样本数据集。

本实施例中,将进行语音扩充后的小样本数据集与大样本数据集进行融合,确保了后续语音情绪识别模型的训练样本集的丰富性,进而提高了训练得到的语言情绪识别模型的高效性。

训练模块204,用于根据所述目标样本数据集训练语音情绪识别模型。

本实施例中,可以预先构建语音情绪识别模型,在获取到目标样本数据集之后,根据所述目标样本数据集训练构建好的语音情绪识别模型。

在一个可选的实施例中,所述语音情绪识别模型包括:

密连接神经网络、与所述密连接神经网络连接的长短期记忆网络、与所述长短期记忆网络连接的高速神经网络、及与所述高速神经网络连接的Softmax层,其中,所述密连接神经网络包括:第一密集块、与所述第一密集块连接的第一传递层、与所述第一传递层连接的第二密集块、与所述第二密集块连接的第二传递层及与所述第二传递层连接的第三密集块,所述第一传递层包含有批标准化层、与所述批标准化层连接的卷积层及与所述卷积层连接的平均池化层,所述第二传递层与所述第一传递层网络结构相同。

本实施例中,由于数据具有时序关系,传统的循环神经网络由于自身结构的原因会产生长期依赖问题,本实施例通过在构建的语音情绪识别模型中采用长短期记忆网络处理数据,通过长短期记忆网络的门控结构控制数据的传输,保留数据长期信息,并控制数据交互,在一定程度上解决传统循环神经网络结构所存在的长期依赖问题,使得构建的语音情绪识别模型能够充分利用数据的上下语境信息,同时,在构建的语音情绪识别模型中采用高速神经网络,由于高速神经网络一部分语音数据经过非线性变换,而剩余语音数据直接通过,在进行语音情绪识别模型训练时,可以加快语音情绪识别模型的收敛速度,进而提高了语音情绪识别模型的训练效率。

在一个可选的实施例中,所述训练模块204根据所述目标样本数据集训练语音情绪识别模型包括:

将所述目标样本数据集输入至语音情绪识别模型中进行训练,得到每个语音特征的情绪标签预测值;

根据所述每个语音特征的情绪标签预测值和每个语音特征的情绪标签真实值,计算均方差损失值,并根据所述均方差损失值更新所述语音情绪识别模型中的模型参数,训练所述更新后的语音情绪识别模型。

本实施例中,为了确保语音情绪识别模型情绪识别的准确率,在构建语言情绪识别模型中,融合了三种网络结构:密连接神经网络、长短期记忆网络和高速神经网络,通过密连接神经网络提取语音的时间特征,即局部语音特征,通过长短期记忆网络进行上下文本聚合,提取语音的全局语音特征,最后,通过高速神经网络对所述局部语音特征和所述全局语音特征进行特征信息,确保提取的语言特性的准确性。

第二获取模块205,用于获取待识别语音数据。

本实施例中,在进行语音情绪识别时,通过客户端发起语音情绪识别请求至服务端,具体地,所述客户端可以是智能手机、IPAD或者其他现有的智能设备,所述服务端可以为语音情绪识别子系统,在语音情绪识别过程中,如所述客户端可以向语音情绪识别子系统发送语音情绪识别请求,所述语音情绪识别子系统用于接收所述客户端发送的语音情绪识别请求,并解析所述语音情绪识别请求,获取待识别语音数据。

输入模块206,用于将所述待识别语音数据输入至训练好的语音情绪识别模型中,得到所述待识别语音数据的情绪识别结果。

本实施例中,在获取到待识别语音数据之后,将所述待识别语音数据输入至训练好的语言情绪识别模型中进行语音情绪识别,并接收所述语音情绪识别模型输出的情绪识别结果。

具体地,所述情绪包括喜欢、开心、伤心、愤怒、失望等其他情绪。

在一个可选的实施例中,所述输入模块206将所述待识别语音数据输入至训练好的语音情绪识别模型中,得到所述待识别语音数据的情绪识别结果包括:

将所述待识别语音数据输入至密连接神经网络中,得到局部语音特征;

将所述局部语音特征输入至长短期记忆网络中,通过所述长短期记忆网络对所述局部语音特征进行上下文本聚合,得到全局语音特征;

将所述局部语音特征和所述全局语音特征输入至高速神经网络中,得到目标语音特征;

对所述目标语音特征输入至Softmax层中进行归一化计算,得到每个目标语音特征的情绪标签预测值;

根据所述每个目标语音特征的情绪标签预测值和每个目标语音特征的情绪标签真实值,计算每个目标语音特征对应的均方差损失值,并根据每个目标语音特征对应的均方差损失值进行情绪识别,得到所述待识别语音数据的情绪识别结果。

进一步地,所述将所述待识别语音数据输入至密连接神经网络中,得到局部语音特征包括:

将所述待识别语音数据输入至第一密集块中,得到第一语音特征;

将所述第一语音特征输入至第一传递层,在所述第一传递层中对所述第一语音特征进行批量归一化处理,将批量归一化处理后的第一语音特征输入至卷积层中进行卷积计算,并将卷积计算得到的第一语音特征输入至平均池化层中,提取最大的第一语音特征输入至第二密集块中,得到第二语音特征;

将所述第二语音特征输入至第二传递层,在所述第二传递层中对所述第二语音特征进行批量归一化处理,将批量归一化处理后的第二语音特征输入至卷积层中进行卷积计算,并将卷积计算得到的第二语音特征输入至平均池化层中,提取最大的第二语音特征输入至第三密集块中,得到第三语音特征;

合并所述第一语音特征、所述第二语音特征及所述第三语音特征,得到局部语音特征。

本实施例中,通过将所述密连接神经网络的第一密集块输出的第一语音特征、第二密集块输出的第二语音特征及第三密集块输出的第三语音特征,和所述长短期记忆网络输出的全局语音特征进行合并输入至高速神经网络中,缓解了高速神经网络中梯度消失的问题,确保通过高速神经网络提取到的目标语音特征的准确率,进而提高了情绪识别的准确率。

综上所述,本实施所述的语音情绪识别装置,一方面,考虑到语料库中的规模不对等,通过从大的语音情绪语料库中获取大样本数据集及从小的语音情绪语料库中获取小样本数据集,并对小样本数据集进行语音数据扩充,扩充了小样本数据集的数据分布,增强了后续训练得到的语音情绪识别模型中的神经网络的鲁棒性,在面对抗攻击和应对交叉预料库时将会有更好的表现,同时确保了大样本数据集和小样本数据集的训练样本集的均衡性,避免后续采用所述大样本数据集和所述小样本数据集进行语音情绪识别模型训练时出现训练模型过拟合的现象,提高了语音情绪识别模型的泛化能力;另一方面,通过将所述密连接神经网络的第一密集块输出的第一语音特征、第二密集块输出的第二语音特征及第三密集块输出的第三语音特征,和所述长短期记忆网络输出的全局语音特征进行合并输入至高速神经网络中,缓解了高速神经网络中梯度消失的问题,确保通过高速神经网络提取到的目标语音特征的准确率,进而提高了情绪识别的准确率;最后,将进行语音扩充后的小样本数据集与大样本数据集进行融合,确保了后续语音情绪识别模型的训练样本集的丰富性,进而提高了训练得到的语言情绪识别模型的高效性。

实施例三

参阅图3所示,为本发明实施例三提供的电子设备的结构示意图。在本发明较佳实施例中,所述电子设备3包括存储器31、至少一个处理器32、至少一条通信总线33及收发器34。

本领域技术人员应该了解,图3示出的电子设备的结构并不构成本发明实施例的限定,既可以是总线型结构,也可以是星形结构,所述电子设备3还可以包括比图示更多或更少的其他硬件或者软件,或者不同的部件布置。

在一些实施例中,所述电子设备3是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的电子设备,其硬件包括但不限于微处理器、专用集成电路、可编程门阵列、数字处理器及嵌入式设备等。所述电子设备3还可包括客户设备,所述客户设备包括但不限于任何一种可与客户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、数码相机等。

需要说明的是,所述电子设备3仅为举例,其他现有的或今后可能出现的电子产品如可适应于本发明,也应包含在本发明的保护范围以内,并以引用方式包含于此。

在一些实施例中,所述存储器31用于存储程序代码和各种数据,例如安装在所述电子设备3中的语音情绪识别装置20,并在电子设备3的运行过程中实现高速、自动地完成程序或数据的存取。所述存储器31包括只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable Read-Only Memory,PROM)、可擦除可编程只读存储器(ErasableProgrammable Read-Only Memory,EPROM)、一次可编程只读存储器(One-timeProgrammable Read-Only Memory,OTPROM)、电子擦除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

在一些实施例中,所述至少一个处理器32可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述至少一个处理器32是所述电子设备3的控制核心(Control Unit),利用各种接口和线路连接整个电子设备3的各个部件,通过运行或执行存储在所述存储器31内的程序或者模块,以及调用存储在所述存储器31内的数据,以执行电子设备3的各种功能和处理数据。

在一些实施例中,所述至少一条通信总线33被设置为实现所述存储器31以及所述至少一个处理器32等之间的连接通信。

尽管未示出,所述电子设备3还可以包括给各个部件供电的电源(比如电池),可选的,电源可以通过电源管理装置与所述至少一个处理器32逻辑相连,从而通过电源管理装置实现管理充电、放电、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备3还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。

应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。

上述以软件功能模块的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,电子设备,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分。

在进一步的实施例中,结合图2,所述至少一个处理器32可执行所述电子设备3的操作装置以及安装的各类应用程序(如所述的语音情绪识别装置20)、程序代码等,例如,上述的各个模块。

所述存储器31中存储有程序代码,且所述至少一个处理器32可调用所述存储器31中存储的程序代码以执行相关的功能。例如,图2中所述的各个模块是存储在所述存储器31中的程序代码,并由所述至少一个处理器32所执行,从而实现所述各个模块的功能以达到语音情绪识别的目的。

示例性的,所述程序代码可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器31中,并由所述处理器32执行,以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令段,该指令段用于描述所述程序代码在所述电子设备3中的执行过程。例如,所述程序代码可以被分割成第一获取模块201、数据扩充模块202、融合模块203、训练模块204、第二获取模块205及输入模块206。

在本发明的一个实施例中,所述存储器31存储多个计算机可读指令,所述多个计算机可读指令被所述至少一个处理器32所执行以实现语音情绪识别的功能。

具体地,所述至少一个处理器32对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。

在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,既可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或,单数不排除复数。本发明中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

完整详细技术资料下载
上一篇:石墨接头机器人自动装卡簧、装栓机
下一篇:一种语音情感识别方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!