百科技术库 各行业技术资料 - 百科资料网
欢迎来到百科技术库 各行业技术资料 - 百科资料网! [免费注册] | [登录] 微信快捷登录 QQ登录 微博登录 | 帮助中心 各行业技术应有尽有!
全国服务热线 13310018778

栏目导航

最新技术
语音降噪方法、装置及设备
本发明涉及一种语音降噪方法、装置及设备,其中方法包括:采集连续音频信号,并将音频信号分割为多个语音音素;将语音音素与音素模型库的音素模型进行匹配,将匹配度最高的音素模型作为被选择的输出音素模型;对输出因素模型按照采集所得音素的响度变化和持续长度进行波形修正后输出。与现有技术相比,本发明采用预先建立针对个人的语音音素模型库,然后将采集的到音频分割为多个语音音素,最后根据采集到的语音音素对标准语音音素模型进行波形修正后播放,可以在强度相似的更加复杂的语音环境中实现个人语音提取,达到降噪的效果。
语音识别处理方法、装置、电子设备及存储介质
本申请提供了一种语音识别处理方法、装置、电子设备及计算机可读存储介质;涉及语音技术中的自动语音识别;方法包括:对多媒体文件中的语音进行语音识别,以得到包括多个词语的语句,其中,所述多个词语用于作为初始识别结果;根据与每个所述词语的识别确定程度对应的显示方式,显示包括所述多个词语的所述语句;显示至少一个所述词语的候选词语;响应于选择操作,根据被选中的候选词语替换所述语句中与所述被选中的候选词语处于相同位置的词语。通过本申请,能够在语音识别过程中提高获得符合用户需求的识别结果的效率。
一种语音识别方法、装置、电子设备及存储介质
本申请提供一种语音识别方法、装置、电子设备及存储介质,属于计算机技术领域,涉及语音识别技术,在网约车订单履约过程中,监听车辆内的语音信号,若监听到目标词汇,则提取目标词汇对应的目标语音的语音特征,根据目标语音的语音特征,确定发出目标语音的目标对象。本申请可以确定使用不文明用语的是司机还是乘客,进而可以对司机和乘客进行约束。
一种二值化神经网络语音唤醒方法及系统
本发明涉及一种二值化神经网络语音唤醒方法及系统。该方法包括:获取待识别音频文件;并提取待识别音频文件的语音特征;根据语音特征和语音唤醒模型,确定待识别音频文件的识别结果;语音唤醒模型通过训练后的二值化的深度可分离卷积神经网络进行建立;语音唤醒模型具体的识别过程为:利用所述第一卷积层对输入进行量化处理;根据量化后的语音特征与网络层的二值量化参数权重以及网络层修正因子做卷积乘法,并将卷积后的数据与第一卷积层的偏置系数做加法;将第一卷积层的输出作为第二卷积层的输入;并将第一卷积层替换为第二卷积层,返回量化的步骤,直至输出识别结果。本发明能够在保证识别准确度的基础上,降低功耗。
一种编码器及采用该编码器的基于局部生成式注意力机制的端到端语音识别系统
本发明为一种编码器及采用该编码器的基于局部生成式注意力机制的端到端语音识别系统,本发明属于端到端语音识别技术,用低复杂度的生成式注意力计算代替点积式的注意力机制,减少了计算复杂度,同时提高了语音识别的正确率;所提出一种基于DSA的语音识别模型来减少计算复杂度。我们进一步提出了局部DSA,将DSA的注意范围限制在当前语音帧周围的若干帧之内。本发明将LDSA与SA结合起来让模型具有同时提取局部和全局信息的能力。在Ai-shell1普通话语音识别语料库上的实验结果显示,所提出的LDSA-Transformer实现了6.49%的字符错误率。相比于SA-Transformer,LDSA-Transformer正确率更高,计算复杂度更低。所提出的组合注意力方法在参数量和计算复杂度与SA-Transformer大致相同的情况下,取得了显著优于后者的正确率。
一种伪造音频的检测方法及其检测系统和存储介质
本申请公开了一种伪造音频的检测方法、伪造音频的检测系统和计算机可读存储介质,该方法包括:获取待测音频和真实音频;提取待测音频和真实音频中属于共用音素状态的音频部分,其中,共用音素状态为待测音频和真实音频中均存在的音素状态,音频部分包括属于待测音频的第一音频部分和属于真实音频的第二音频部分;基于第一音频部分和第二音频部分之间的特征相似度,确定待测音频是否为伪造音频。通过上述方式,本申请能够提高对音频真伪检测的准确度,从而实现有效地鉴别音频的真假。
发音特征处理方法、装置、服务器及介质
本申请实施例公开了一种发音特征处理方法、装置、计算机设备及介质,属于语音处理技术领域。该方法包括:获取文本数据和文本数据对应的语音数据,语音数据中包括多个语音片段;对文本数据和语音数据进行识别,得到每个语音片段的第一发音特征;将每个语音片段的第一发音特征与其他语音片段的第一发音特征进行融合,得到每个语音片段的融合特征;分别根据每个语音片段的融合特征,对每个语音片段的第一发音特征进行调整,得到每个语音片段的第二发音特征。该方法实现了对第一发音特征的噪声补偿,使得到的第二发音特征能够更加准确地表示语音片段的发音特征,提高了语音数据的发音特征的准确率。
基于神经网络模型的数据识别方法、装置、设备及介质
本申请实施例提供了一种基于神经网络模型的数据识别方法、装置、设备及介质,该方法涉及人工智能技术领域,该方法包括:获取待识别数据;基于待识别数据,通过各特征提取层,提取得到待识别数据分别对应于各特征提取层的输出特征;基于各特征提取层的输出特征,通过注意力网络,得到各特征提取层的权重,并基于各特征提取层的权重、以及各特征提取层的输出特征,得到待识别数据对应的数据特征;基于待识别数据对应的数据特征,得到待识别数据对应的识别结果。在本申请实施例中,注意力网络可以在特征提取层之间建立更加直接的连接,此时将有利于特征提取层之间梯度的传播,可以缓解梯度消失的问题。
发音检测方法、装置及计算机可读介质
本申请的实施例基于人工智能中的语音技术和机器学习方法,提供了一种发音检测方法、装置及计算机可读介质。该发音检测方法包括:从待检测的语音音频中提取音频帧特征;基于所述音频帧特征与预设第一语言中的第一语音音素之间的匹配度,生成第一后验概率,并基于所述音频帧特征与预设第二语言中的第二语音音素之间的匹配度,生成第二后验概率;对所述第一后验概率和所述第二后验概率进行神经网络回归处理,生成所述语音音频中的音素对应于第二语言音素的概率得分。本申请实施例的技术方案可以得到精确的发音检测结果,提高发音检测的精确性和发音者的练习效率。
一种语音处理方法、装置、电子设备及存储介质
本公开关于一种语音处理方法、装置、电子设备及存储介质,所述方法包括:对待转换语音信息进行语音识别,得到所述待转换语音信息中包含的音素特征信息;将所述音素特征信息,以及目标对象的标记信息输入到语音转换模型的语音编码模块进行信息编码耦合,得到语音编码耦合信息;将所述语音编码耦合信息输入到语音转换模型的语音解码模块进行信息解码,得到与所述音素特征信息对应的目标声学特征信息;基于所述目标声学特征信息生成已转换语音信息。本公开能够解决相关技术中语音转换的说话人音色有限且固定,无法满足用户个性化语音转换需求的问题。