百科技术库 各行业技术资料 - 百科资料网
欢迎来到百科技术库 各行业技术资料 - 百科资料网! [免费注册] | [登录] 微信快捷登录 QQ登录 微博登录 | 帮助中心 各行业技术应有尽有!
全国服务热线 13310018778

栏目导航

最新技术
人机交互方法、装置、存储介质及终端设备
本申请公开了一种人机交互方法、装置、存储介质及终端设备,属于人工智能技术领域。该方法应用于终端设备,终端设备集成有语音交互组件、N个业务组件和接入方提供的自定义声学模型;该语音交互组件中封装有与语音交互相关的SDK;N个业务组件是由接入方根据自身产品需求在开发方提供的业务组件集合中选择的;一个业务组件用于为终端设备提供至少一项服务,包括:通过语音交互组件接收自定义声学模型采集的音频数据;通过语音交互组件,将音频数据发送至服务器,该音频数据用于指示服务器执行音频处理并生成响应数据;通过语音交互组件,将服务器返回的响应数据下发至第一业务组件。本申请为接入方实现灵活以及简便地智能语音交互提供了可能。
一种语音识别方法及其相关设备
本申请公开了一种语音识别方法及其相关设备,该方法包括:在获取到当前语音段和该当前语音段对应的参考语音后,先依据待使用状态数据和该当前语音段对应的参考语音,对该当前语音段进行编码处理,得到该当前语音段的语音编码和该当前语音段的编码状态数据;再对该当前语音段的语音编码进行解码处理,得到该当前语音段对应的语音文本,并利用该当前语音段的编码状态数据,更新该待使用状态数据。如此能够实现边采集用户语音边进行语音识别的目的,可以提高语音识别的实时性。又因当前语音段的历史语音信息(也就是,待使用状态数据)在历史语音识别过程中已计算过,使得在当前轮语音识别过程中直接使用即可,如此有利于提高语音识别的实时性。
语音识别处理方法、装置、电子设备及存储介质
本申请提供了一种语音识别处理方法、装置、电子设备及计算机可读存储介质;涉及语音技术中的自动语音识别;方法包括:对多媒体文件中的语音进行语音识别,以得到包括多个词语的语句,其中,所述多个词语用于作为初始识别结果;根据与每个所述词语的识别确定程度对应的显示方式,显示包括所述多个词语的所述语句;显示至少一个所述词语的候选词语;响应于选择操作,根据被选中的候选词语替换所述语句中与所述被选中的候选词语处于相同位置的词语。通过本申请,能够在语音识别过程中提高获得符合用户需求的识别结果的效率。
语音转换方法、装置、终端及存储介质
本申请属于终端技术领域,具体而言,涉及一种语音转换方法、装置、终端及存储介质。其中,一种语音转换方法,应用于发送终端,包括:获取语音信息,获取所述语音信息对应的文字信息、声音响度以及情绪特征;将所述语音信息、所述文字信息、所述声音响度以及所述情绪特征发送至接收终端,所述接收终端用于显示所述语音信息并在接收到针对所述语音信息的转换指令时显示所述文字信息、所述声音响度以及所述情绪特征。由于发送终端除了发送语音信息外,还发送了相应的文字信息以及情绪特征等信息,因此在接收者不方便收听语音信息时,让接收者看到文字信息的同时感受到发送者的声音响度和情绪特征,从而可以提高用户的使用体验。
一种基于人工智能技术的民航管制语音识别系统
本发明涉及基于人工智能技术的民航管制语音识别系统,其包括:音频切分模块,与所述音频切分模块连接的人工智能语音识别模块;与所述人工智能语音识别模块连接的语音指令修正模块;与所述人工智能语音识别模块连接的人工审核模块;与所述语音指令修正模块连接的语音意图识别模块;与所述语音意图识别模块连接的管制指令评估模块;本发明能基于识别结果,判断飞机的管制场景、管制意图以及复诵正确性,辅助管制指令校验,提高管制工作的安全性。
一种房间智能控制系统和方法
本发明提供了一种房间智能控制系统和方法,所述系统包括取电盒、远红外传感器和智能语音插座,取电盒与激光传感器和智能语音插座通信连接;取电盒,用于检测用户进出房间的次数,并根据检测结果判断房间内是否有人存在,并将其判断结果传输给远红外传感器;远红外传感器,用于接收取电盒的判断结果,并根据判断结果进行再次检测房间内是否有人存在,并将其检测结果传输给智能语音插座;智能语音插座,用于接收远红外传感器的检测结果,并根据检测结果输出控制指令,进而控制与智能语音插座连接的大功率耗电电器的开关,进而为酒店节省大量的电费,也为碳的减排做出贡献。
一种无感调度BI大屏的方法、装置及系统
本发明提供了一种无感调度BI大屏的方法、装置及系统,该方法通过Subox进行无感调度BI大屏,包括以下步骤:Subox接收用户输入的语音指令,并上传至ASR云服务;Subox接收ASR云服务返回的获取的所述语音指令的语义结果;Subox将获取的所述语义结果转换为对应的操作指令;Subox接收BI大屏需要播报的TTS文本,并进行TTS播报;其中,所述BI大屏需要播报的TTS文本,是基于所述操作指令获得的。本发明提供的方法,对已有BI无侵入,只需要接入指令下发MQTT和TTS播报MQTT消息,即可实现语音与BI之间交互以及对BI数据处理结果内容进行播报,让BI更智能化、人性化。
一种应用于测量仪器的语音控制系统及方法
本发明公开了一种应用于测量仪器的语音控制系统及方法,属于测量技术领域,本发明针对仪器参数资源需求,将仪器参数资源分类并定义了一套资源逻辑结构,奠定了语音转换的基础;本发明提出的语音信息到SCPI命令的转换方法,不依赖任何操作系统平台,所以可应用于多种类型的终端,并且有利于于测量仪器的推广使用。
语音交互方法、系统和终端
公开了一种语音交互方法、系统和终端。所述语音交互方法包括:呈现当前信息流;获取来自用户的语音输入;基于所述当前信息流和所述语音输入,确定后续信息流的呈现内容。所述信息流可以是包括含剧情分支的信息流,或是包括可操控虚拟化身的信息流。由此,本发明提供一种用户能够通过语音交互主动影响内容走向的方案。用户通过语音输入,能够决定当前信息流的后续走向,尤其是能够通过语音输入决定剧情类游戏的剧情分支,从而增强用户的沉浸感和参与感,提升游戏的可玩性。
一种编码器及采用该编码器的基于局部生成式注意力机制的端到端语音识别系统
本发明为一种编码器及采用该编码器的基于局部生成式注意力机制的端到端语音识别系统,本发明属于端到端语音识别技术,用低复杂度的生成式注意力计算代替点积式的注意力机制,减少了计算复杂度,同时提高了语音识别的正确率;所提出一种基于DSA的语音识别模型来减少计算复杂度。我们进一步提出了局部DSA,将DSA的注意范围限制在当前语音帧周围的若干帧之内。本发明将LDSA与SA结合起来让模型具有同时提取局部和全局信息的能力。在Ai-shell1普通话语音识别语料库上的实验结果显示,所提出的LDSA-Transformer实现了6.49%的字符错误率。相比于SA-Transformer,LDSA-Transformer正确率更高,计算复杂度更低。所提出的组合注意力方法在参数量和计算复杂度与SA-Transformer大致相同的情况下,取得了显著优于后者的正确率。