百科技术库 各行业技术资料 - 百科资料网
欢迎来到百科技术库 各行业技术资料 - 百科资料网! [免费注册] | [登录] 微信快捷登录 QQ登录 微博登录 | 帮助中心 各行业技术应有尽有!
全国服务热线 13310018778

栏目导航

最新技术
一种TTS系统性能测试方法、装置、设备及介质
本申请公开了一种TTS系统性能测试方法、装置、设备及介质,应用于语音合成技术领域,用以解决现有技术的TTS系统性能测试方法存在的准确度较低的问题。具体为:获取TTS系统对输入文本的文本预测结果和语音预测结果;基于文本预测结果,确定TTS系统的文本处理性能测试结果;基于语音预测结果,确定TTS系统的语音转换性能测试结果;基于文本处理性能测试结果和语音转换性能测试结果,确定TTS系统的综合性能测试结果。这样,采用文本处理和语音转换两个方面的客观指标对TTS系统的性能进行测试,不仅可以实现对TTS系统性能的全方位测试,还可以提高TTS系统性能测试的准确度。
人机交互方法、装置、存储介质及终端设备
本申请公开了一种人机交互方法、装置、存储介质及终端设备,属于人工智能技术领域。该方法应用于终端设备,终端设备集成有语音交互组件、N个业务组件和接入方提供的自定义声学模型;该语音交互组件中封装有与语音交互相关的SDK;N个业务组件是由接入方根据自身产品需求在开发方提供的业务组件集合中选择的;一个业务组件用于为终端设备提供至少一项服务,包括:通过语音交互组件接收自定义声学模型采集的音频数据;通过语音交互组件,将音频数据发送至服务器,该音频数据用于指示服务器执行音频处理并生成响应数据;通过语音交互组件,将服务器返回的响应数据下发至第一业务组件。本申请为接入方实现灵活以及简便地智能语音交互提供了可能。
情感语音合成方法、装置、设备及存储介质
本申请为语音合成技术领域,本申请提供了一种情感语音合成方法、装置、设备及存储介质,其中,所述方法包括:获取情感语音合成片段,对情感语音合成片段设置同步标记;以情感语音合成片段的同步标记为中心,选择预设时长的时间窗对情感语音合成片段进行加窗处理,得到多段语音信号;依据预设的情感语音合成规则调整同步标记,得到目标同步标记;根据目标同步标记将多段语音信号进行拼接,得到合成语音。本申请利用情感语音合成片段,通过基音同步分析、基音同步修改、基音同步合成等方式合成语音,提高合成效果;同时无需获取文本情感分类标签,降低了合成成本。
语音合成方法、装置、电子设备以及计算机可读存储介质
本发明的实施例提供了一种语音合成方法、装置、电子设备以及计算机可读存储介质,方法包括:确定待合成文本;将待合成文本转化为待合成国际音标对应的第一ID序列和国际音标对应的声调ID;确定用户选择的目标对象的ID和标准对象的ID;输入至语音合成模型中语音合成模型,依据待合成文本的待合成国际音标序列,预测每个待合成国际音标的时长,语音合成模型根据待合成国际音标对应的第一ID序列、国际音标对应的声调ID、每个待合成国际音标的时长、目标对象的ID以及标准对象的ID进行处理,输出待合成文本的声学特征。能够使得对象在合成非本土语言的时候,能够使用本土说话人,即标准对象的韵律,最终得到更好的语音合成自然度。
语音合成方法和装置、电子设备及存储介质
本申请实施例提供的语音合成方法和装置、电子设备及存储介质,涉及语音合成技术领域。语音合成方法包括:首先,获取待处理语音数据的对数梅尔能量谱;其次,将待处理语音数据的对数梅尔能量谱输入预设的语音合成模型,得到第一合成音频,其中,预设的语音合成模型根据训练数据的对数梅尔能量谱进行训练得到。通过上述方法,可以实现通过对数梅尔能量谱就可以得到合成音频,避免了现有技术中语音合成方法需要的参数量较多,所导致的语音合成效率低的问题。
一种端到端实时语音合成方法
一种端到端实时语音合成方法,通过对音频和文本数据进行预处理,整理成平行语料,通过词嵌入转换成特征向量,输入到基于高斯混合模型注意力机制的序列到序列生成模型,以生成预测的梅尔谱;将梅尔谱进行归一化处理,输入到基于生成对抗网络的声码器后端,经过对抗训练来提升合成语音的质量,最后输出合成语音。本发明方法在保证合成语音的质量的同时,可以提高注意力机制的对齐速度,并且在长语音的合成中表现优秀;通过对音频进行分频带编码,可以提高模型的训练速度,降低语音生成时耗,同时使用多尺度短时傅里叶变换损失函数,提高合成语音的质量与实时率。
一种智能语音的交互方法、装置和系统
本申请公开了一种智能语音的交互方法、装置和系统,该方法应用于便携式智能设备,包括:在与目标底座连接的情况下,获取目标底座的标识信息,根据标识信息确定与目标底座对应的目标应用场景;接收语音信号,并获取与语音信号对应的处理指令;基于处理指令以及目标应用场景执行对应的目标操作。由于用户可以携带便携式智能设备至任一场景,且在任一场景中,便携式智能设备均可以通过目标底座的标识信息识别该场景,并进行在该场景下的智能语音交互,因此,可以实现通过同一设备在不同场景下进行智能语音交互的目的,此外,由于可以共用同一套软硬件设备实现不同场景下的智能语音交互,因此,可以保障不同场景下智能语音交互体验的一致性。
基于人工智能的音频生成方法、装置、设备及存储介质
本申请提供了一种基于人工智能的音频生成方法、装置、电子设备及计算机可读存储介质;涉及人工智能技术;方法包括:对文本对应的音素序列进行编码处理,得到音素序列的上下文表征;基于音素序列中的每个音素对应的第一帧隐含状态,确定第一帧隐含状态相对于上下文表征的对齐位置;当对齐位置对应上下文表征中的非末尾位置时,基于上下文表征以及第一帧隐含状态进行解码处理,得到第二帧隐含状态;基于第一帧隐含状态以及第二帧隐含状态进行合成处理,得到文本对应的音频数据。通过本申请,能够提高音频合成的准确性。
语音合成方法、系统、设备及存储介质
本申请实施例提供一种语音合成方法、系统、设备及存储介质。在本申请实施例中,提供一种多通道线性预测网络声码器,支持多通道输入,通过获取待合成文本在多个通道上的声学特征,利用该多通道线性预测网络声码器可合成出该待合成文本对应的语音信号;其中,基于线性预测进行语音合成可保证语音合成质量,与此同时,借助于多通道的优势可提高语音合成效率。