百科技术库 各行业技术资料 - 百科资料网
欢迎来到百科技术库 各行业技术资料 - 百科资料网! [免费注册] | [登录] 微信快捷登录 QQ登录 微博登录 | 帮助中心 各行业技术应有尽有!
全国服务热线 13310018778

栏目导航

最新技术
基于局部卷积块注意力网络的语音端点检测方法及系统
本发明属于语音信号处理领域,提供了一种基于局部卷积块注意力网络的语音端点检测方法及系统。该方法包括,获取语音数据的声谱图数据;利用局部敏感哈希算法为声谱图数据中的每一帧数据提取N个近邻帧,得到帧级的局部声谱图数据;将局部声谱图数据输入局部卷积块注意力网络中,经过卷积模块进行特征提取,在每个卷积块之后依次通过通道注意力模块、频谱注意力模块以及时间注意力模块进行注意力操作,得到增强的数据;将增强的数据输入分类器中,进行语音/非语音帧检测,得到预测结果。
健康智能检测方法、装置、电子设备及可读存储介质
本申请公开了一种健康智能检测方法、装置、电子设备及可读存储介质,其方法包括获取音频信号,并对所述音频信号进行预处理,得到检测信号;将所述检测信号转化为矩阵数字矩阵;将得到的矩阵数字矩阵作为检测样本,输入健康智能检测模型中,以获取检测结果;其中,所述健康智能检测模型是采用迁移学习和卷积神经网络对训练样本进行训练得到的。本申请由于卷积神经网络各组件或部分组件基于迁移学习进行了重新训练,显著提升了对人们健康检测的准确度;且本申请中的健康智能检测模型为分类模型,计算量小,可将其部署于人们的移动终端中,使用方便,极大程度上提升了用户的使用感受。
一种语音情感识别方法
本发明涉及一种语音情感识别方法,通过首先对于输入的音频信号进行片段化操作,然后通过音频特征提取方法提取能够表达情感信息的特征,然后使用函数对每种特征进行计算初步拼接融合,融合后的特征输入到构建的一维卷积神经网络模型进行训练识别。采用多特征融合弥补了单一特征的单一化和表达能力有限的不足,多种表达情绪特征再融合的方法,可以从不同的角度、层次获取语音情感信息,对语音情感信息进行更加全面的描述,这样不但使系统得到更高的识别率,同时提高了系统鲁棒性;音频信号片段化识别可以更加精准的掌握情绪变化,避免了整条音频识别只返回概率最大标签而忽略其中情绪变动的问题。
语音情绪识别方法、装置、电子设备及存储介质
本发明涉及人工智能技术领域,提供一种语音情绪识别方法、装置、电子设备及存储介质,所述方法包括:对小样本数据集进行语音数据扩充,得到目标小样本数据集;将大样本数据集和目标小样本数据集进行融合,得到目标样本数据集;根据目标样本数据集训练构建好的语音情绪识别模型;获取待识别语音数据;将待识别语音数据输入至训练好的语音情绪识别模型中,得到待识别语音数据的情绪识别结果。本发明通过对小样本数据集进行语音数据扩充,扩充了小样本数据集的数据分布,增强了模型中的神经网络的鲁棒性,提高了语音情绪识别模型的泛化能力及情绪识别的准确率。
语音分离方法及装置
本发明实施例提供了一种语音分离方法及装置,方法包括将获取的目标带噪音频信号分解到预设频域范围中的M个频点,得到M个频点的分解信号,基于人耳听觉感知特性,将M个频点的分解信号合并到P个预设频率子带中,每间隔预设时长,对每个预设频率子带包括的频点的分解信号进行分帧处理,得到每个预设频率子带对应的N个起止时间段的分析单元,估算P个预设频率子带对应的同一个起止时间段的P个分析单元中,每个分析单元对应的目标比值,基于P个目标比值,对同一个起止时间段对应的目标带噪音频信号进行噪声消除处理,得到同一个起止时间段对应的目标语音信号。降低目标语音信号的畸变,提高语音质量效果。
一种语音降噪训练数据的处理方法及其装置、训练方法
本发明提供了一种语音降噪训练数据的处理方法及其装置、训练方法,该处理方法包括:接收待处理的语音降噪训练数据;将语音降噪训练数据进行分帧;计算每帧语音降噪训练数据单元的第一均方根值;计算多帧语音降噪训练数据单元中的最大均方根值;根据最大均方根值对每帧语音降噪训练数据单元的第一均方根值进行归一化处理;依次判断每帧语音降噪训练数据单元的第二均方根值是否小于噪音阈值;如果该帧语音降噪训练数据单元的第二均方根值小于噪音阈值,则该帧语音降噪训练数据单元为噪声帧;否则,该帧语音降噪训练数据单元为语音帧。以每帧语音降噪训练数据的时域均方根值为依据,进行语音激活检测,简化语音激活检测的算法,提高运算效率。
一种语音识别方法及其相关设备
本申请公开了一种语音识别方法及其相关设备,该方法包括:在获取到当前语音段和该当前语音段对应的参考语音后,先依据待使用状态数据和该当前语音段对应的参考语音,对该当前语音段进行编码处理,得到该当前语音段的语音编码和该当前语音段的编码状态数据;再对该当前语音段的语音编码进行解码处理,得到该当前语音段对应的语音文本,并利用该当前语音段的编码状态数据,更新该待使用状态数据。如此能够实现边采集用户语音边进行语音识别的目的,可以提高语音识别的实时性。又因当前语音段的历史语音信息(也就是,待使用状态数据)在历史语音识别过程中已计算过,使得在当前轮语音识别过程中直接使用即可,如此有利于提高语音识别的实时性。
一种语音合成方法、装置和用于语音合成的装置
本发明实施例提供了一种语音合成方法、装置和用于语音合成的装置。其中的方法包括:获取音频训练数据,音频训练数据包括不同音色特征以及不同情感特征的音频数据;根据音频训练数据训练语音合成模型,所述语音合成模型包括不同音色特征的音频训练数据训练得到的音色模型参数,以及不同情感特征的音频训练数据训练得到的韵律模型参数;将待合成的文本数据、至少一个说话人标识、以及情感标识输入语音合成模型,通过语音合成模型输出语音合成数据,语音合成数据包含说话人标识对应的音色特征以及情感标识对应的情感特征。本发明实施例可以合成不同音色特征以及不同情感特征组合的目标音频,可以扩展语音合成模型的适用范围。
一种语音合成方法、装置和用于语音合成的装置
本发明实施例提供了一种语音合成方法、装置和用于语音合成的装置。其中的方法包括:获取文本数据、至少一个说话人标识、以及风格标识;将所述文本数据、所述至少一个说话人标识、以及所述风格标识输入语音合成模型,所述语音合成模型根据所述文本数据、所述说话人标识对应的音色模型参数、以及所述风格标识对应的韵律模型参数进行语音合成,得到合成语音数据;所述语音合成模型包括不同音色特征的音频训练数据训练得到的音色模型参数,以及不同风格特征的音频训练数据训练得到的韵律模型参数。本发明实施例可以合成不同音色不同风格的目标音频,扩展语音合成模型的适用范围,降低对训练数据的要求以及降低训练数据的采集成本。
一种端到端实时语音合成方法
一种端到端实时语音合成方法,通过对音频和文本数据进行预处理,整理成平行语料,通过词嵌入转换成特征向量,输入到基于高斯混合模型注意力机制的序列到序列生成模型,以生成预测的梅尔谱;将梅尔谱进行归一化处理,输入到基于生成对抗网络的声码器后端,经过对抗训练来提升合成语音的质量,最后输出合成语音。本发明方法在保证合成语音的质量的同时,可以提高注意力机制的对齐速度,并且在长语音的合成中表现优秀;通过对音频进行分频带编码,可以提高模型的训练速度,降低语音生成时耗,同时使用多尺度短时傅里叶变换损失函数,提高合成语音的质量与实时率。