百科技术库 各行业技术资料 - 百科资料网
欢迎来到百科技术库 各行业技术资料 - 百科资料网! [免费注册] | [登录] 微信快捷登录 QQ登录 微博登录 | 帮助中心 各行业技术应有尽有!
全国服务热线 13310018778

栏目导航

最新技术
基于局部卷积块注意力网络的语音端点检测方法及系统
本发明属于语音信号处理领域,提供了一种基于局部卷积块注意力网络的语音端点检测方法及系统。该方法包括,获取语音数据的声谱图数据;利用局部敏感哈希算法为声谱图数据中的每一帧数据提取N个近邻帧,得到帧级的局部声谱图数据;将局部声谱图数据输入局部卷积块注意力网络中,经过卷积模块进行特征提取,在每个卷积块之后依次通过通道注意力模块、频谱注意力模块以及时间注意力模块进行注意力操作,得到增强的数据;将增强的数据输入分类器中,进行语音/非语音帧检测,得到预测结果。
一种语音合成方法、装置和用于语音合成的装置
本发明实施例提供了一种语音合成方法、装置和用于语音合成的装置。其中的方法包括:获取音频训练数据,音频训练数据包括不同音色特征以及不同情感特征的音频数据;根据音频训练数据训练语音合成模型,所述语音合成模型包括不同音色特征的音频训练数据训练得到的音色模型参数,以及不同情感特征的音频训练数据训练得到的韵律模型参数;将待合成的文本数据、至少一个说话人标识、以及情感标识输入语音合成模型,通过语音合成模型输出语音合成数据,语音合成数据包含说话人标识对应的音色特征以及情感标识对应的情感特征。本发明实施例可以合成不同音色特征以及不同情感特征组合的目标音频,可以扩展语音合成模型的适用范围。
一种语音合成方法、装置和用于语音合成的装置
本发明实施例提供了一种语音合成方法、装置和用于语音合成的装置。其中的方法包括:获取文本数据、至少一个说话人标识、以及风格标识;将所述文本数据、所述至少一个说话人标识、以及所述风格标识输入语音合成模型,所述语音合成模型根据所述文本数据、所述说话人标识对应的音色模型参数、以及所述风格标识对应的韵律模型参数进行语音合成,得到合成语音数据;所述语音合成模型包括不同音色特征的音频训练数据训练得到的音色模型参数,以及不同风格特征的音频训练数据训练得到的韵律模型参数。本发明实施例可以合成不同音色不同风格的目标音频,扩展语音合成模型的适用范围,降低对训练数据的要求以及降低训练数据的采集成本。
语音合成方法、装置、电子设备以及计算机可读存储介质
本发明的实施例提供了一种语音合成方法、装置、电子设备以及计算机可读存储介质,方法包括:确定待合成文本;将待合成文本转化为待合成国际音标对应的第一ID序列和国际音标对应的声调ID;确定用户选择的目标对象的ID和标准对象的ID;输入至语音合成模型中语音合成模型,依据待合成文本的待合成国际音标序列,预测每个待合成国际音标的时长,语音合成模型根据待合成国际音标对应的第一ID序列、国际音标对应的声调ID、每个待合成国际音标的时长、目标对象的ID以及标准对象的ID进行处理,输出待合成文本的声学特征。能够使得对象在合成非本土语言的时候,能够使用本土说话人,即标准对象的韵律,最终得到更好的语音合成自然度。