百科技术库 各行业技术资料 - 百科资料网
欢迎来到百科技术库 各行业技术资料 - 百科资料网! [免费注册] | [登录] 微信快捷登录 QQ登录 微博登录 | 帮助中心 各行业技术应有尽有!
全国服务热线 13310018778

栏目导航

最新技术
音频卡顿检测方法、装置、计算机设备和存储介质
本申请涉及一种音频卡顿检测方法、装置、计算机设备和存储介质,方法包括:在待检测应用程序的运行过程中,获取调用音频解码函数的时间信息;所述音频解码函数用于所述待检测应用程序中对音频进行解码;根据相邻两次调用所述音频解码函数的时间信息,确定所述音频解码函数对应的单帧音频处理时间;基于所述单帧音频处理时间对所述待检测应用程序进行音频卡顿检测,确定所述待检测应用程序是否发生音频卡顿。上述方法,仅在待检测应用程序的运行过程中检测音频解码函数的调用时间信息,即只需在音频的接收端进行操作即可完成对待检测应用程序的音频卡顿检测,简化了音频卡顿的检测过程的操作流程。
音频编码方法、装置、设备以及计算机可读存储介质
本发明公开了一种音频编码方法、装置、设备以及计算机可读存储介质,所述方法包括:将第一终端的待编码的音频信息发送至第二终端;获取所述第二终端发送的所述音频信息的语音损伤信息;根据所述语音损伤信息确定所述音频信息的平均意见MOS值;根据所述MOS值对应的编码码率对所述音频信息进行编码。本发明保证了编码后的音频信息的音频质量。
车内含噪语音数据生成方法、装置以及设备
本发明公开了一种车内含噪语音数据生成方法、装置以及设备,本发明的构思在于预先采集纯实景车噪及纯人声声源以构造出车用语音素材库,该车用语音素材库中的音频资源用于与用户所提需求结合,分别得到符合用户期望的车内含噪语音数据的两个独立元素,纯人声声源以及纯实景车噪,然后将匹配出的纯人声声源以及纯实景车噪进行通道融合,生成用户所需的目标车内含噪语音数据。本发明实现了对语音素材的复用,解决了当前实车实景人工录制方式费时、费力、高成本等弊端,并有效提升了车用交互语音数据样本的制作效率。
一种语音识别方法及其相关设备
本申请公开了一种语音识别方法及其相关设备,该方法包括:在获取到当前语音段和该当前语音段对应的参考语音后,先依据待使用状态数据和该当前语音段对应的参考语音,对该当前语音段进行编码处理,得到该当前语音段的语音编码和该当前语音段的编码状态数据;再对该当前语音段的语音编码进行解码处理,得到该当前语音段对应的语音文本,并利用该当前语音段的编码状态数据,更新该待使用状态数据。如此能够实现边采集用户语音边进行语音识别的目的,可以提高语音识别的实时性。又因当前语音段的历史语音信息(也就是,待使用状态数据)在历史语音识别过程中已计算过,使得在当前轮语音识别过程中直接使用即可,如此有利于提高语音识别的实时性。
一种编码器及采用该编码器的基于局部生成式注意力机制的端到端语音识别系统
本发明为一种编码器及采用该编码器的基于局部生成式注意力机制的端到端语音识别系统,本发明属于端到端语音识别技术,用低复杂度的生成式注意力计算代替点积式的注意力机制,减少了计算复杂度,同时提高了语音识别的正确率;所提出一种基于DSA的语音识别模型来减少计算复杂度。我们进一步提出了局部DSA,将DSA的注意范围限制在当前语音帧周围的若干帧之内。本发明将LDSA与SA结合起来让模型具有同时提取局部和全局信息的能力。在Ai-shell1普通话语音识别语料库上的实验结果显示,所提出的LDSA-Transformer实现了6.49%的字符错误率。相比于SA-Transformer,LDSA-Transformer正确率更高,计算复杂度更低。所提出的组合注意力方法在参数量和计算复杂度与SA-Transformer大致相同的情况下,取得了显著优于后者的正确率。
一种语音处理方法、装置、电子设备及存储介质
本公开关于一种语音处理方法、装置、电子设备及存储介质,所述方法包括:对待转换语音信息进行语音识别,得到所述待转换语音信息中包含的音素特征信息;将所述音素特征信息,以及目标对象的标记信息输入到语音转换模型的语音编码模块进行信息编码耦合,得到语音编码耦合信息;将所述语音编码耦合信息输入到语音转换模型的语音解码模块进行信息解码,得到与所述音素特征信息对应的目标声学特征信息;基于所述目标声学特征信息生成已转换语音信息。本公开能够解决相关技术中语音转换的说话人音色有限且固定,无法满足用户个性化语音转换需求的问题。