语音唤醒方法、系统、设备及存储介质
技术领域
本发明涉及语音唤醒领域,尤其涉及一种语音唤醒方法、系统、设备及存储介质。
背景技术
智能手机在生活中应用广阔,购物、聊天、听歌、看影视作品、导航、学习、阅读、工作都要在智能手机上完成,这使得智能手机在人们生活中的作用和地位极其重要。人们在使用手机时需要注意力集中,双手或者单手操作界面进行智能处理。
但是,在一些固定场景中,智能手机没办法进行操作,但又有智能手机操作需求。例如,在自行车骑行过程中,两轮车骑行过程中不可避免的会遇到手机来电话中断骑行或者需要手机地图进行导航引导,但是在骑行过程中用手触摸屏幕操作手机实际是比较危险情况,手机内置语音助手由于骑行时风噪较大基本无法使用语音操作。因此,某些场景下无法使用智能手机,但是又需要进行智能手机操作,需要解决这种应用场景的使用不便问题。
发明内容
本发明的主要目的在于解决某些场景下无法使用智能手机,但是又需要进行智能手机操作,导致智能手机操作不方便的技术问题。
本发明第一方面提供了一种语音唤醒方法,所述语音唤醒方法应用于语音唤醒系统,所述语音唤醒系统包括:智能穿戴系统和智能操控系统,所述语音唤醒方法包括:
所述智能穿戴系统获取唤醒语音数据;
对所述唤醒语音数据进行预处理,得到处理语音数据;
判断所述处理语音数据是否为预置唤醒语音数据;
若为唤醒语音,则将所述处理语音数据发送至所述智能操控系统;
所述智能操控系统接收所述处理语音数据,对所述处理语音数据进行解析处理,得到操作指令,基于所述操作指令对内置软件进行操作处理。
可选的,在本发明第一方面的第一种实现方式中,所述获取唤醒语音数据包括:
基于软件获取第一外界语音数据,基于硬件获取第二外界语音数据;
将所述第一外界语音数据和所述第二外界语音数据进行合并处理,得到回响语音数据;
对所述回响语音数据进行回音去重处理,生成唤醒语音数据。
可选的,在本发明第一方面的第二种实现方式中,所述对所述回响语音数据进行回音去重处理,生成唤醒语音数据包括:
对所述回响语音数据进行去重处理,得到去重数据;
对所述去重数据进行pcm编码处理,得到唤醒语音数据。
可选的,在本发明第一方面的第三种实现方式中,所述对所述唤醒语音数据进行预处理,得到处理语音数据包括:
对所述唤醒语音进行降噪处理,得到中转语音数据;
对所述中转语音数据进行增益处理,得到处理语音数据。
可选的,在本发明第一方面的第四种实现方式中,所述判断所述处理语音数据是否为预置唤醒语音数据包括:
对所述处理语音数据进行分帧处理,得到第一解析语音数据;
对所述第一解析语音数据进行加窗处理,得到第二解析语音数据;
对所述第二解析语音数据进行快速傅立叶变换处理,得到第三解析语音数据;
对所述第三解析语音数据进行特征提取处理,得到特征值;
根据预置隐马尔科夫模型,判断所述特征值是否为预置唤醒值。
可选的,在本发明第一方面的第五种实现方式中,所述对所述处理语音数据进行解析处理,得到操作指令包括:
根据预置语音识别神经网络,对所处理语音数据进行识别处理,得到识别值;
根据预置激活函数,对所述识别值激活处理,得到所述识别值对应的操作指令。
可选的,在本发明第一方面的第六种实现方式中,所述智能操控系统接收所述处理语音数据包括:
所述智能穿戴系统唤醒所述智能操控系统的蓝牙接收功能,基于所述蓝牙接收功能将所述处理语音数据传输至所述智能操控系统中。
本发明第二方面提供了一种语音唤醒系统,所述语音唤醒系统包括:
智能穿戴系统、智能操控系统;
所述智能穿戴系统用于获取唤醒语音数据;对所述唤醒语音数据进行预处理,得到处理语音数据;判断所述处理语音数据是否为预置唤醒语音数据;若为唤醒语音,则将所述处理语音数据发送至所述智能操控系统;
所述智能操控系统用于接收所述处理语音数据,对所述处理语音数据进行解析处理,得到操作指令,基于所述操作指令对内置软件进行操作处理。
本发明第三方面提供了一种语音唤醒设备,包括:存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互连;所述至少一个处理器调用所述存储器中的所述指令,以使得所述语音唤醒设备执行上述的语音唤醒方法。
本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述的语音唤醒方法。
在本发明实施例中,通过在穿戴系统与智能操作系统之间的信息传递,剔除了语音传输过程中的环境噪声影响,在利用蓝牙传输语音,在智能操作系统中执行语音数据,实现了在不易操作的应用场景中对智能手机的操作。
附图说明
图1为本发明实施例中语音唤醒方法的一个实施例示意图;
图2为本发明实施例中语音唤醒系统的一个实施例示意图;
图3为本发明实施例中语音唤醒设备的一个实施例示意图。
具体实施方式
本发明实施例提供了一种语音唤醒方法、系统、设备及存储介质。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1,本发明实施例中语音唤醒方法的一个实施例所述语音唤醒方法应用于语音唤醒系统,所述语音唤醒系统包括:智能穿戴系统和智能操控系统,所述语音唤醒方法包括:
101、所述智能穿戴系统获取唤醒语音数据;
在本实施例中,智能穿戴系统可以智能头盔、智能手环、智能手表,在接收采集时,负责声音信号的采集,其中包括麦克风信号,参考信号的采集,同事还存在对声音信号的重采样采集,最终编码为pcm数据。
进一步的,步骤101可以采取以下实现方式:
1011、基于软件获取第一外界语音数据,基于硬件获取第二外界语音数据;
1012、将所述第一外界语音数据和所述第二外界语音数据进行合并处理,得到回响语音数据;
1013、对所述回响语音数据进行回音去重处理,生成唤醒语音数据。
在1011-1013步骤中,同时获取麦克风信号和参考信号,蓝牙音乐播放的采样值一般为44.1k但是语音识别的音频采样值一般为16k需要重采样到16k,对于传统重采样需要的一般采用软件重采样,本方案使用硬件重采样,将44.1k的数据信号进行数模转化到模拟信号,然后重新进行模数转化到16k的数字信号,对比传统软件重采样的优势有声音保真度高、处理时效性高、不额外占用CPU资源等特点。
进一步的,在1013步骤还可以执行以下操作:
10131、对所述回响语音数据进行去重处理,得到去重数据;
10132、对所述去重数据进行pcm编码处理,得到唤醒语音数据。
在10131-10132步骤中,采集到麦克风信号和重采样后参考信号后将麦克风信号和参考信号按照每160ms一个数据块交替排列合并,相对于传统的立体声数据结构(左声道数据+右声道数据)这种合并方式在进行回音消除时能减少拆分次数,避免数据重行拆分提到数据处理效率。可选的,回声消除技术,采用回波抵消方法,也就是通过自适应方法估计回波信号的大小,然后在接收信号中减去此估计值以抵消回波。
102、对所述唤醒语音数据进行预处理,得到处理语音数据;
在本实施例中,声音预处理降噪,自动增益,传统预处理一般只有回音消除,而没有降噪和自动增益,本方案的预处理对比传统的优势在于能降低外部风噪,和环境噪音,提高了信噪比,调整了增益使得音量大小适中,提高了听觉感受。
优选的,在102步骤可以采用以下步骤:
1021、对所述唤醒语音进行降噪处理,得到中转语音数据;
1022、对所述中转语音数据进行增益处理,得到处理语音数据。
在1021-1022步骤中,规定了先进行降噪处理再进行增益处理,降噪方式可以采用常规的降噪算法,增益则是依据增益窗口对语音进行放大。自动增益控制是处理面对录音因为大量不同设置而导致音量变化。AGC提供了一种方式去调整参考音量。这在VOIP中是很有用的,因为不需再手动调节麦克风的增益。还有另外一个优点是麦克风增益在一个比较保守的水平,它更容易避免削波、失真。麦克风阵列或多路采样时,可能会有时延抖动问题,如在AEC技术中需要对声音数据在不同时延状态下进行回波抵消。
103、判断所述处理语音数据是否为预置唤醒语音数据;
在本实施例中,录音分发创造性的使用按需分配的方案,既依靠唤醒引擎的控制信号来决定是否需要将声分发到蓝牙传输模块传输到手机,这样能在非识别状态不需要录音的时候而不传输录音,减少蓝牙传输数据数据量,从而降低功耗。
优选的,在103步骤中可以采用以下步骤:
1031、对所述处理语音数据进行分帧处理,得到第一解析语音数据;
1032、对所述第一解析语音数据进行加窗处理,得到第二解析语音数据;
1033、对所述第二解析语音数据进行快速傅立叶变换处理,得到第三解析语音数据;
1034、对所述第三解析语音数据进行特征提取处理,得到特征值;
1035、根据预置隐马尔科夫模型,判断所述特征值是否为预置唤醒值。
在1031-1035步骤中,唤醒引擎将预处理后的声音进行分帧、加窗、FFT、提取特征值后再利用隐马尔科夫模型和标准的声学模型进行唤醒命中判断,再根据唤醒命中的唤醒词是否为启动手机语音识别的指令,如果为启动手机语音助手指令则需要在发送指令的同时,打开录音分发通过蓝牙传输模块将录音分发到手机的语音识别,进行语音识别。如果命中的唤醒词为快捷控制指令则只需要将控制指令发到手机,进行手机控制而不需要传输录音。
104、若为唤醒语音,则将所述处理语音数据发送至所述智能操控系统;
在本实施例中,录音分发创造性的使用按需分配的方案,既依靠唤醒引擎的控制信号来决定是否需要将声分发到蓝牙传输模块传输到手机,这样能在非识别状态不需要录音的时候而不传输录音,减少蓝牙传输数据数据量,从而降低功耗。对比传统唤醒模块本方案将唤醒和识别分离能实现远距离唤醒,唤醒不再额外占用CPU。
105、智能操控系统接收所述处理语音数据,对所述处理语音数据进行解析处理,得到操作指令,基于所述操作指令对内置软件进行操作处理。
在本实施例中,将智能操作系统可以是手机,手机与智能穿戴设备通过蓝牙传输将语音数据传输手机,处理语音数据时,可以采用传统的语音分析手段,也可以采用智能识别算法进行语音识别分析,通过分析得出的语音数据对应的操作指令,操作指令可以是打开摄像机、打开录音功能、打开导航app、设置导航路线、进行语音导航功能、回复社交软件信息等。
优选的,“智能操控系统接收所述处理语音数据”可以执行以下操作:
1051、所述智能穿戴系统唤醒所述智能操控系统的蓝牙接收功能,基于所述蓝牙接收功能将所述处理语音数据传输至所述智能操控系统中。
在1051步骤中,命中语音唤醒指令后通过蓝牙通信协议来启动手机原生语音助手。录音在经过前段预处理后通过蓝牙发送到手机进行语音识别。命中唤醒词(接听,挂断,播放,暂停等)时直接通过蓝牙模块发送相应的控制指令给到手机。实现语音通过智能头盔控制手机导航、接听拨打电话、播放音乐、发微信等。
优选的,“对所述处理语音数据进行解析处理,得到操作指令”可以执行以下操作:
1052、根据预置语音识别神经网络,对所处理语音数据进行识别处理,得到识别值;
1053、根据预置激活函数,对所述识别值激活处理,得到所述识别值对应的操作指令。
在1052-1053步骤中,语音识别神经网络可以是Text-CNN、RNN、mobileNetv3等一些可以识别语音数据的神经网络,在进行卷积、池化、剪切处理后,得到一个结果矩阵。
需要说明的是,该结果矩阵的输出内容是操作指令,并不需要先将语音数据转换为文字数据,再分析文字数据后生成文字数据对应的语音操作系统。还需要解释的,在处理结果矩阵时,激活函数是可以被训练调整为神经网络,即GAN对抗训练模型对分类器进行训练,使得激活函数分析结果更加精准。
在本发明实施例中,通过在穿戴系统与智能操作系统之间的信息传递,剔除了语音传输过程中的环境噪声影响,在利用蓝牙传输语音,在智能操作系统中执行语音数据,实现了在不易操作的应用场景中对智能手机的操作。
上面对本发明实施例中语音唤醒方法进行了描述,下面对本发明实施例中语音唤醒系统进行描述,请参阅图2,本发明实施例中语音唤醒系统一个实施例,所述语音唤醒系统包括:
智能穿戴系统201、智能操控系统202;
所述智能穿戴系统201用于获取唤醒语音数据;对所述唤醒语音数据进行预处理,得到处理语音数据;判断所述处理语音数据是否为预置唤醒语音数据;若为唤醒语音,则将所述处理语音数据发送至所述智能操控系统;
所述智能操控系统202用于接收所述处理语音数据,对所述处理语音数据进行解析处理,得到操作指令,基于所述操作指令对内置软件进行操作处理。
其中,所述智能穿戴系统201还可以具体用于:
基于软件获取第一外界语音数据,基于硬件获取第二外界语音数据;
将所述第一外界语音数据和所述第二外界语音数据进行合并处理,得到回响语音数据;
对所述回响语音数据进行回音去重处理,生成唤醒语音数据。
其中,所述智能穿戴系统201还可以具体用于:
对所述回响语音数据进行去重处理,得到去重数据;
对所述去重数据进行pcm编码处理,得到唤醒语音数据。
其中,所述智能穿戴系统201还可以具体用于:
对所述唤醒语音进行降噪处理,得到中转语音数据;
对所述中转语音数据进行增益处理,得到处理语音数据。
其中,所述智能穿戴系统201还可以具体用于:
对所述处理语音数据进行分帧处理,得到第一解析语音数据;
对所述第一解析语音数据进行加窗处理,得到第二解析语音数据;
对所述第二解析语音数据进行快速傅立叶变换处理,得到第三解析语音数据;
对所述第三解析语音数据进行特征提取处理,得到特征值;
根据预置隐马尔科夫模型,判断所述特征值是否为预置唤醒值。
其中,所述智能操控系统202还可以具体用于:
根据预置语音识别神经网络,对所处理语音数据进行识别处理,得到识别值;
根据预置激活函数,对所述识别值激活处理,得到所述识别值对应的操作指令。
其中,所述智能操控系统202还可以具体用于:
所述智能穿戴系统唤醒所述智能操控系统的蓝牙接收功能,基于所述蓝牙接收功能将所述处理语音数据传输至所述智能操控系统中。
在本发明实施例中,通过在穿戴系统与智能操作系统之间的信息传递,剔除了语音传输过程中的环境噪声影响,在利用蓝牙传输语音,在智能操作系统中执行语音数据,实现了在不易操作的应用场景中对智能手机的操作。
上面图2从模块化功能实体的角度对本发明实施例中的语音唤醒系统进行详细描述,下面从硬件处理的角度对本发明实施例中语音唤醒设备进行详细描述。
图3是本发明实施例提供的一种语音唤醒设备的结构示意图,该语音唤醒设备300可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(centralprocessing units,CPU)310(例如,一个或一个以上处理器)和存储器320,一个或一个以上存储应用程序333或数据332的存储介质330(例如一个或一个以上海量存储设备)。其中,存储器320和存储介质330可以是短暂存储或持久存储。存储在存储介质330的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对语音唤醒设备300中的一系列指令操作。更进一步地,处理器310可以设置为与存储介质330通信,在语音唤醒设备300上执行存储介质330中的一系列指令操作。
基于语音唤醒设备300还可以包括一个或一个以上电源340,一个或一个以上有线或无线网络接口350,一个或一个以上输入输出接口360,和/或,一个或一个以上操作系统331,例如Windows Serve,Mac OS X,Unix,Linux,FreeBSD等等。本领域技术人员可以理解,图3示出的语音唤醒设备结构并不构成对基于语音唤醒设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在计算机上运行时,使得计算机执行所述语音唤醒方法的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统或系统、单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
- 上一篇:石墨接头机器人自动装卡簧、装栓机
- 下一篇:智能语音通话方法、装置及系统