百科技术库 各行业技术资料 - 百科资料网
欢迎来到百科技术库 各行业技术资料 - 百科资料网! [免费注册] | [登录] 微信快捷登录 QQ登录 微博登录 | 帮助中心 各行业技术应有尽有!
全国服务热线 13310018778

栏目导航

最新技术
一种语音识别方法及其相关设备
本申请公开了一种语音识别方法及其相关设备,该方法包括:在获取到当前语音段和该当前语音段对应的参考语音后,先依据待使用状态数据和该当前语音段对应的参考语音,对该当前语音段进行编码处理,得到该当前语音段的语音编码和该当前语音段的编码状态数据;再对该当前语音段的语音编码进行解码处理,得到该当前语音段对应的语音文本,并利用该当前语音段的编码状态数据,更新该待使用状态数据。如此能够实现边采集用户语音边进行语音识别的目的,可以提高语音识别的实时性。又因当前语音段的历史语音信息(也就是,待使用状态数据)在历史语音识别过程中已计算过,使得在当前轮语音识别过程中直接使用即可,如此有利于提高语音识别的实时性。
一种基于人工智能技术的民航管制语音识别系统
本发明涉及基于人工智能技术的民航管制语音识别系统,其包括:音频切分模块,与所述音频切分模块连接的人工智能语音识别模块;与所述人工智能语音识别模块连接的语音指令修正模块;与所述人工智能语音识别模块连接的人工审核模块;与所述语音指令修正模块连接的语音意图识别模块;与所述语音意图识别模块连接的管制指令评估模块;本发明能基于识别结果,判断飞机的管制场景、管制意图以及复诵正确性,辅助管制指令校验,提高管制工作的安全性。
一种语音识别方法、装置、电子设备及存储介质
本申请提供一种语音识别方法、装置、电子设备及存储介质,属于计算机技术领域,涉及语音识别技术,在网约车订单履约过程中,监听车辆内的语音信号,若监听到目标词汇,则提取目标词汇对应的目标语音的语音特征,根据目标语音的语音特征,确定发出目标语音的目标对象。本申请可以确定使用不文明用语的是司机还是乘客,进而可以对司机和乘客进行约束。
关键词识别方法及装置、存储介质、计算机设备
一种关键词识别方法及装置、存储介质、计算机设备,所述方法包括:获取原始语音信号,对所述原始语音信号进行分帧处理以得到目标语音信号,所述目标语音信号包括多个按时间序列排布的语音帧,所述语音帧基于时域特征和频域特征表示;将所述目标语音信号输入关键词识别网络中进行关键词识别,得到所述目标语音信号中包含的关键词;所述关键词识别网络包括多个串联的卷积网络单元和分类器,前一卷积网络单元的输出特征为后一卷积网络单元的输入特征,每一卷积网络单元包括一个或多个卷积层;所述分类器用于对最后一个卷积网络单元的输出特征进行分类,得到所述目标语音信号中包含的关键词。能够在降低模型参数量的同时兼顾识别精度。
语音识别方法、装置及电子设备
本公开提供一种语音识别方法、装置及电子设备,所述方法包括:提取待识别语音的目标声纹特征;从预先训练的多个语音识别模型中获取与所述目标声纹特征对应的目标语音识别模型,所述多个语音识别模型分别与多个地理区域对应;基于所述目标语音识别模型对所述待识别语音进行语音识别,得到语音识别结果。本公开实施例能够提高语音识别效果。
一种二值化神经网络语音唤醒方法及系统
本发明涉及一种二值化神经网络语音唤醒方法及系统。该方法包括:获取待识别音频文件;并提取待识别音频文件的语音特征;根据语音特征和语音唤醒模型,确定待识别音频文件的识别结果;语音唤醒模型通过训练后的二值化的深度可分离卷积神经网络进行建立;语音唤醒模型具体的识别过程为:利用所述第一卷积层对输入进行量化处理;根据量化后的语音特征与网络层的二值量化参数权重以及网络层修正因子做卷积乘法,并将卷积后的数据与第一卷积层的偏置系数做加法;将第一卷积层的输出作为第二卷积层的输入;并将第一卷积层替换为第二卷积层,返回量化的步骤,直至输出识别结果。本发明能够在保证识别准确度的基础上,降低功耗。
一种编码器及采用该编码器的基于局部生成式注意力机制的端到端语音识别系统
本发明为一种编码器及采用该编码器的基于局部生成式注意力机制的端到端语音识别系统,本发明属于端到端语音识别技术,用低复杂度的生成式注意力计算代替点积式的注意力机制,减少了计算复杂度,同时提高了语音识别的正确率;所提出一种基于DSA的语音识别模型来减少计算复杂度。我们进一步提出了局部DSA,将DSA的注意范围限制在当前语音帧周围的若干帧之内。本发明将LDSA与SA结合起来让模型具有同时提取局部和全局信息的能力。在Ai-shell1普通话语音识别语料库上的实验结果显示,所提出的LDSA-Transformer实现了6.49%的字符错误率。相比于SA-Transformer,LDSA-Transformer正确率更高,计算复杂度更低。所提出的组合注意力方法在参数量和计算复杂度与SA-Transformer大致相同的情况下,取得了显著优于后者的正确率。
语音纠正方法、装置及电子设备
本公开提供一种语音纠正方法、装置及电子设备,所述方法包括:提取待处理语音的目标声音特征;基于所述目标声音特征确定所述待处理语音所属的目标地理区域;从预先训练的多个语音纠正模型中获取与所述目标地理区域对应的目标语音纠正模型,所述多个语音纠正模型分别与多个地理区域对应;基于所述目标语音纠正模型对所述待处理语音进行语音纠正,输出纠正后的语音。本公开实施例能够提高语音纠正效果。
基于语音驱动的人脸动作合成方法、电子设备及存储介质
本发明实施例涉及计算机信息技术领域,公开了一种基于语音驱动的人脸动作合成方法、电子设备及存储介质。通过对待识别人脸动作的语音信号进行处理,得到所述语音信号对应的音频向量;将所述音频向量输入参数识别模型进行处理,输出所述待识别人脸动作对应的人脸肌肉运动参数;通过所述待识别人脸动作的人脸肌肉运动参数,控制人脸模型中按人脸肌肉分布划分的多个弹性体上的角点运动,得到待识别人脸动作结果。本方案可以普遍适用于包含多种角点数量的人物模型,且输出的人脸动作丰富,表情效果自然。