百科技术库 各行业技术资料 - 百科资料网
欢迎来到百科技术库 各行业技术资料 - 百科资料网! [免费注册] | [登录] 微信快捷登录 QQ登录 微博登录 | 帮助中心 各行业技术应有尽有!
全国服务热线 13310018778

栏目导航

最新技术
一种语音识别方法、装置、电子设备及存储介质
本申请提供一种语音识别方法、装置、电子设备及存储介质,属于计算机技术领域,涉及语音识别技术,在网约车订单履约过程中,监听车辆内的语音信号,若监听到目标词汇,则提取目标词汇对应的目标语音的语音特征,根据目标语音的语音特征,确定发出目标语音的目标对象。本申请可以确定使用不文明用语的是司机还是乘客,进而可以对司机和乘客进行约束。
关键词识别方法及装置、存储介质、计算机设备
一种关键词识别方法及装置、存储介质、计算机设备,所述方法包括:获取原始语音信号,对所述原始语音信号进行分帧处理以得到目标语音信号,所述目标语音信号包括多个按时间序列排布的语音帧,所述语音帧基于时域特征和频域特征表示;将所述目标语音信号输入关键词识别网络中进行关键词识别,得到所述目标语音信号中包含的关键词;所述关键词识别网络包括多个串联的卷积网络单元和分类器,前一卷积网络单元的输出特征为后一卷积网络单元的输入特征,每一卷积网络单元包括一个或多个卷积层;所述分类器用于对最后一个卷积网络单元的输出特征进行分类,得到所述目标语音信号中包含的关键词。能够在降低模型参数量的同时兼顾识别精度。
语音识别方法、装置及电子设备
本公开提供一种语音识别方法、装置及电子设备,所述方法包括:提取待识别语音的目标声纹特征;从预先训练的多个语音识别模型中获取与所述目标声纹特征对应的目标语音识别模型,所述多个语音识别模型分别与多个地理区域对应;基于所述目标语音识别模型对所述待识别语音进行语音识别,得到语音识别结果。本公开实施例能够提高语音识别效果。
一种二值化神经网络语音唤醒方法及系统
本发明涉及一种二值化神经网络语音唤醒方法及系统。该方法包括:获取待识别音频文件;并提取待识别音频文件的语音特征;根据语音特征和语音唤醒模型,确定待识别音频文件的识别结果;语音唤醒模型通过训练后的二值化的深度可分离卷积神经网络进行建立;语音唤醒模型具体的识别过程为:利用所述第一卷积层对输入进行量化处理;根据量化后的语音特征与网络层的二值量化参数权重以及网络层修正因子做卷积乘法,并将卷积后的数据与第一卷积层的偏置系数做加法;将第一卷积层的输出作为第二卷积层的输入;并将第一卷积层替换为第二卷积层,返回量化的步骤,直至输出识别结果。本发明能够在保证识别准确度的基础上,降低功耗。
一种编码器及采用该编码器的基于局部生成式注意力机制的端到端语音识别系统
本发明为一种编码器及采用该编码器的基于局部生成式注意力机制的端到端语音识别系统,本发明属于端到端语音识别技术,用低复杂度的生成式注意力计算代替点积式的注意力机制,减少了计算复杂度,同时提高了语音识别的正确率;所提出一种基于DSA的语音识别模型来减少计算复杂度。我们进一步提出了局部DSA,将DSA的注意范围限制在当前语音帧周围的若干帧之内。本发明将LDSA与SA结合起来让模型具有同时提取局部和全局信息的能力。在Ai-shell1普通话语音识别语料库上的实验结果显示,所提出的LDSA-Transformer实现了6.49%的字符错误率。相比于SA-Transformer,LDSA-Transformer正确率更高,计算复杂度更低。所提出的组合注意力方法在参数量和计算复杂度与SA-Transformer大致相同的情况下,取得了显著优于后者的正确率。
一种伪造音频的检测方法及其检测系统和存储介质
本申请公开了一种伪造音频的检测方法、伪造音频的检测系统和计算机可读存储介质,该方法包括:获取待测音频和真实音频;提取待测音频和真实音频中属于共用音素状态的音频部分,其中,共用音素状态为待测音频和真实音频中均存在的音素状态,音频部分包括属于待测音频的第一音频部分和属于真实音频的第二音频部分;基于第一音频部分和第二音频部分之间的特征相似度,确定待测音频是否为伪造音频。通过上述方式,本申请能够提高对音频真伪检测的准确度,从而实现有效地鉴别音频的真假。
发音特征处理方法、装置、服务器及介质
本申请实施例公开了一种发音特征处理方法、装置、计算机设备及介质,属于语音处理技术领域。该方法包括:获取文本数据和文本数据对应的语音数据,语音数据中包括多个语音片段;对文本数据和语音数据进行识别,得到每个语音片段的第一发音特征;将每个语音片段的第一发音特征与其他语音片段的第一发音特征进行融合,得到每个语音片段的融合特征;分别根据每个语音片段的融合特征,对每个语音片段的第一发音特征进行调整,得到每个语音片段的第二发音特征。该方法实现了对第一发音特征的噪声补偿,使得到的第二发音特征能够更加准确地表示语音片段的发音特征,提高了语音数据的发音特征的准确率。
基于神经网络模型的数据识别方法、装置、设备及介质
本申请实施例提供了一种基于神经网络模型的数据识别方法、装置、设备及介质,该方法涉及人工智能技术领域,该方法包括:获取待识别数据;基于待识别数据,通过各特征提取层,提取得到待识别数据分别对应于各特征提取层的输出特征;基于各特征提取层的输出特征,通过注意力网络,得到各特征提取层的权重,并基于各特征提取层的权重、以及各特征提取层的输出特征,得到待识别数据对应的数据特征;基于待识别数据对应的数据特征,得到待识别数据对应的识别结果。在本申请实施例中,注意力网络可以在特征提取层之间建立更加直接的连接,此时将有利于特征提取层之间梯度的传播,可以缓解梯度消失的问题。
发音检测方法、装置及计算机可读介质
本申请的实施例基于人工智能中的语音技术和机器学习方法,提供了一种发音检测方法、装置及计算机可读介质。该发音检测方法包括:从待检测的语音音频中提取音频帧特征;基于所述音频帧特征与预设第一语言中的第一语音音素之间的匹配度,生成第一后验概率,并基于所述音频帧特征与预设第二语言中的第二语音音素之间的匹配度,生成第二后验概率;对所述第一后验概率和所述第二后验概率进行神经网络回归处理,生成所述语音音频中的音素对应于第二语言音素的概率得分。本申请实施例的技术方案可以得到精确的发音检测结果,提高发音检测的精确性和发音者的练习效率。
一种语音处理方法、装置、电子设备及存储介质
本公开关于一种语音处理方法、装置、电子设备及存储介质,所述方法包括:对待转换语音信息进行语音识别,得到所述待转换语音信息中包含的音素特征信息;将所述音素特征信息,以及目标对象的标记信息输入到语音转换模型的语音编码模块进行信息编码耦合,得到语音编码耦合信息;将所述语音编码耦合信息输入到语音转换模型的语音解码模块进行信息解码,得到与所述音素特征信息对应的目标声学特征信息;基于所述目标声学特征信息生成已转换语音信息。本公开能够解决相关技术中语音转换的说话人音色有限且固定,无法满足用户个性化语音转换需求的问题。