百科技术库 各行业技术资料 - 百科资料网
欢迎来到百科技术库 各行业技术资料 - 百科资料网! [免费注册] | [登录] 微信快捷登录 QQ登录 微博登录 | 帮助中心 各行业技术应有尽有!
全国服务热线 13310018778

栏目导航

最新技术
语音合成方法、装置、电子设备以及计算机可读存储介质
本发明的实施例提供了一种语音合成方法、装置、电子设备以及计算机可读存储介质,方法包括:确定待合成文本;将待合成文本转化为待合成国际音标对应的第一ID序列和国际音标对应的声调ID;确定用户选择的目标对象的ID和标准对象的ID;输入至语音合成模型中语音合成模型,依据待合成文本的待合成国际音标序列,预测每个待合成国际音标的时长,语音合成模型根据待合成国际音标对应的第一ID序列、国际音标对应的声调ID、每个待合成国际音标的时长、目标对象的ID以及标准对象的ID进行处理,输出待合成文本的声学特征。能够使得对象在合成非本土语言的时候,能够使用本土说话人,即标准对象的韵律,最终得到更好的语音合成自然度。
一种端到端实时语音合成方法
一种端到端实时语音合成方法,通过对音频和文本数据进行预处理,整理成平行语料,通过词嵌入转换成特征向量,输入到基于高斯混合模型注意力机制的序列到序列生成模型,以生成预测的梅尔谱;将梅尔谱进行归一化处理,输入到基于生成对抗网络的声码器后端,经过对抗训练来提升合成语音的质量,最后输出合成语音。本发明方法在保证合成语音的质量的同时,可以提高注意力机制的对齐速度,并且在长语音的合成中表现优秀;通过对音频进行分频带编码,可以提高模型的训练速度,降低语音生成时耗,同时使用多尺度短时傅里叶变换损失函数,提高合成语音的质量与实时率。