百科技术库 各行业技术资料 - 百科资料网
欢迎来到百科技术库 各行业技术资料 - 百科资料网! [免费注册] | [登录] 微信快捷登录 QQ登录 微博登录 | 帮助中心 各行业技术应有尽有!
全国服务热线 13310018778

栏目导航

最新技术
一种基于长时共振峰测量的语音同一性验证方法
本发明提供一种基于长时共振峰测量的语音同一性验证方法,已知一份来自同一说话人的语音文件,计算已知的语音文件中,任意两段语音的长时共振峰数据之间的距离,获得上限距离和下限距离,当采集到一份检材语音时,计算检材语音与已知语音文件的长时共振峰距离,若小于下限距离,则判断该检材语音与已知语音文件具有同一性;若大于上限距离,判断该检材语音与已知语音文件不具有同一性;若在上下限距离之间,则采用假设检验法来对同一性进行验证。本发明通过获取语音文件的长时共振峰,根据长时共振峰的距离,结合假设检验法,来进行语音同一性验证,能够提高验证的精度。
训练方法、声纹识别方法、装置和电子设备
本公开提供一种训练方法、声纹识别方法、装置和电子设备。所述训练方法包括:获取样本音频数据集,基于样本音频数据集训练声纹识别模型。样本音频数据集包括多个样本音频数据;声纹识别模型用于确定多个样本音频数据中每个样本音频数据对应的声纹特征。针对不同的声纹特征,声纹识别模型的损失函数含有不同的余量,且余量与声纹特征到该声纹特征所属类别的类别中心的距离相关联。本公开方法在损失函数中针对不同声纹特征引入不同的余量,从而提高声纹识别模型训练速度和识别准确率。
声纹识别模型的优化方法、装置、计算机设备及存储介质
本申请公开了声纹识别模型的优化方法、装置、计算机设备及存储介质,涉及人工智能技术领域,用于针对线上用户进行实时优化,提高了模型的准确率。方法包括:将预置的初始声纹识别模型分别部署到多个终端;获取目标终端发送的待识别语音数据;通过预置的历史存量数据对待识别语音数据进行声纹核身操作;当待识别语音数据通过声纹核身操作时,将多个匿名声纹向量确定为负样例数据并发送至目标终端,以使得目标终端进行梯度计算;获取多个关联终端发送的多个关联模型梯度,并采用联邦聚合平均算法对多个关联模型梯度和目标模型梯度进行聚合,得到聚合梯度;将聚合梯度发送到多个终端,以使得每个终端根据聚合梯度对初始声纹识别模型进行优化。
语音识别方法及智能家居系统、会议设备、计算设备
本申请公开了一种语音识别方法及智能家居系统、会议设备、计算设备。其中,该方法包括:采集至少一个目标对象的语音信息;将至少一个目标对象的语音信息输入至第一机器学习模型和第二机器学习模型,并将第一机器学习模型和第二机器学习模型中每个网络层的输出结果共同输入至目标机器学习模型进行分析,得到目标对象的身份信息和与身份信息对应的语音内容;输出语音内容。本申请解决了与短时文本无关任务对应的语音识别方案准确率较低的技术问题。
一种语音识别方法及其相关设备
本申请公开了一种语音识别方法及其相关设备,该方法包括:在获取到当前语音段和该当前语音段对应的参考语音后,先依据待使用状态数据和该当前语音段对应的参考语音,对该当前语音段进行编码处理,得到该当前语音段的语音编码和该当前语音段的编码状态数据;再对该当前语音段的语音编码进行解码处理,得到该当前语音段对应的语音文本,并利用该当前语音段的编码状态数据,更新该待使用状态数据。如此能够实现边采集用户语音边进行语音识别的目的,可以提高语音识别的实时性。又因当前语音段的历史语音信息(也就是,待使用状态数据)在历史语音识别过程中已计算过,使得在当前轮语音识别过程中直接使用即可,如此有利于提高语音识别的实时性。
语音识别处理方法、装置、电子设备及存储介质
本申请提供了一种语音识别处理方法、装置、电子设备及计算机可读存储介质;涉及语音技术中的自动语音识别;方法包括:对多媒体文件中的语音进行语音识别,以得到包括多个词语的语句,其中,所述多个词语用于作为初始识别结果;根据与每个所述词语的识别确定程度对应的显示方式,显示包括所述多个词语的所述语句;显示至少一个所述词语的候选词语;响应于选择操作,根据被选中的候选词语替换所述语句中与所述被选中的候选词语处于相同位置的词语。通过本申请,能够在语音识别过程中提高获得符合用户需求的识别结果的效率。
语音转换方法、装置、终端及存储介质
本申请属于终端技术领域,具体而言,涉及一种语音转换方法、装置、终端及存储介质。其中,一种语音转换方法,应用于发送终端,包括:获取语音信息,获取所述语音信息对应的文字信息、声音响度以及情绪特征;将所述语音信息、所述文字信息、所述声音响度以及所述情绪特征发送至接收终端,所述接收终端用于显示所述语音信息并在接收到针对所述语音信息的转换指令时显示所述文字信息、所述声音响度以及所述情绪特征。由于发送终端除了发送语音信息外,还发送了相应的文字信息以及情绪特征等信息,因此在接收者不方便收听语音信息时,让接收者看到文字信息的同时感受到发送者的声音响度和情绪特征,从而可以提高用户的使用体验。
智能语音通话方法、装置及系统
本发明适用于计算机领域,提供了一种智能语音通话方法、装置及系统,通过对客户端上传的通话语音进行分析,得到客户端使用者的问题需求,并判断问题需求是否为预先储备问题;当问题需求不是预先储备问题,根据问题需求驱动执行设备获取回复信息;智能语音通话系统具备根据问题需求向周围环境收集数据或者向周围工作人员求助的能力,将获取的回复信息进行整理,实时反馈给客户端。使得智能语音通话系统能够回答一些答案随环境随时变化的问题,提高智能语音通话系统与周围环境和周围工作人员的配合度,让智能语音通话系统更加智能化,工作范围得到进一步扩展。
语音唤醒方法、系统、设备及存储介质
本发明涉及语音唤醒领域,公开了一种语音唤醒方法、系统、设备及存储介质。所述语音唤醒方法包括:所述智能穿戴系统获取唤醒语音数据;对所述唤醒语音数据进行预处理,得到处理语音数据;判断所述处理语音数据是否为预置唤醒语音数据;若为唤醒语音,则将所述处理语音数据发送至所述智能操控系统;所述智能操控系统接收所述处理语音数据,对所述处理语音数据进行解析处理,得到操作指令,基于所述操作指令对内置软件进行操作处理。
一种基于人工智能技术的民航管制语音识别系统
本发明涉及基于人工智能技术的民航管制语音识别系统,其包括:音频切分模块,与所述音频切分模块连接的人工智能语音识别模块;与所述人工智能语音识别模块连接的语音指令修正模块;与所述人工智能语音识别模块连接的人工审核模块;与所述语音指令修正模块连接的语音意图识别模块;与所述语音意图识别模块连接的管制指令评估模块;本发明能基于识别结果,判断飞机的管制场景、管制意图以及复诵正确性,辅助管制指令校验,提高管制工作的安全性。