语音分离方法及装置
技术领域
本发明涉及计算机
技术领域
,特别是涉及一种语音分离方法及装置。背景技术
分离嘈杂噪声环境中的语音一直是语音系统应用中的难题及科学研究中的热点,特别是目标说话人距离较远、噪声种类多、噪声能量大、环境复杂混响强的远场音频更不容易分离出语音。
目前,采用麦克风阵列,增强远场及复杂噪声环境中的语音质量是一种普遍采用的方法。现有的多麦克风处理方法,主要是采用多传感器,对每一包括目标语音的带噪音频帧,通过能量、延时、声音特征等声源定位算法确定目标语音的来源方向,根据目标语音的来源方向,对带噪音频帧进行空间滤波,得到目标语音。然而,该类方法对信号频率敏感,对频域较宽的语音,会导致得到的语音的畸变较大,语音质量效果较差的问题。
发明内容
本发明实施例的目的在于提供一种语音分离方法及装置,以解决目前的语音分离方法导致得到的语音的畸变较大,语音质量效果较差的问题。具体技术方案如下:
在本发明实施的第一方面,首先提供了一种当前语音分离方法,包括:
将获取的目标带噪音频信号分解到预设频域范围中的M个频点,得到M个频点的分解信号;
基于人耳听觉感知特性,将所述M个频点的分解信号合并到P个预设频率子带中;
每间隔预设时长,对每个所述预设频率子带包括的频点的分解信号进行分帧处理,得到每个所述预设频率子带对应的N个起止时间段的分析单元;
估算所述P个预设频率子带对应的同一个起止时间段的P个分析单元中,每个分析单元对应的目标比值;
基于P个所述目标比值,对所述同一个起止时间段对应的目标带噪音频信号进行噪声消除处理,得到所述同一个起止时间段对应的目标语音信号;
其中,P、M为正整数,P小于M,N为大于等于2的整数,所述同一个起止时间段为N个起止时间段中的任意一个时间段,所述目标比值为第一比值或第二比值,所述第一比值为所述分析单元的语音能量与总能量的比值,所述第二比值为所述分析单元的噪音能量与所述总能量的比值。
在本发明实施的第二方面,还提供了一种语音分离装置,设置于区块链节点,包括:
分解模块,用于将获取的目标带噪音频信号分解到预设频域范围中的M个频点,得到M个频点的分解信号;
合并模块,用于基于人耳听觉感知特性,将所述M个频点的分解信号合并到P个预设频率子带中;
分帧模块,用于每间隔预设时长,对每个所述预设频率子带包括的频点的分解信号进行分帧处理,得到每个所述预设频率子带对应的N个起止时间段的分析单元;
估算模块,用于估算所述P个预设频率子带对应的同一个起止时间段的P个分析单元中,每个分析单元对应的目标比值;
处理模块,用于基于P个所述目标比值,对所述同一个起止时间段对应的目标带噪音频信号进行噪声消除处理,得到所述同一个起止时间段对应的目标语音信号;
其中,P、M为正整数,P小于M,N为大于等于2的整数,所述同一个起止时间段为N个起止时间段中的任意一个时间段,所述目标比值为第一比值或第二比值,所述第一比值为所述分析单元的语音能量与总能量的比值,所述第二比值为所述分析单元的噪音能量与所述总能量的比值。
本实施例提供的当前语音分离方法,将获取的目标带噪音频信号分解到预设频域范围中的M个频点,得到M个频点的分解信号,基于人耳听觉感知特性,将M个频点的分解信号合并到P个预设频率子带中,每间隔预设时长,对每个预设频率子带包括的频点的分解信号进行分帧处理,得到每个预设频率子带对应的N个起止时间段的分析单元,估算P个预设频率子带对应的同一个起止时间段的P个分析单元中,每个分析单元对应的目标比值,基于P个目标比值,对同一个起止时间段对应的目标带噪音频信号进行噪声消除处理,得到同一个起止时间段对应的目标语音信号。由于通过估算分析单元的噪声能量比或者语音能量比,得到目标语音信号,从而实现按照声音能量比值实现对带噪音频信号进行模糊化降噪处理,降低目标语音信号的畸变,提高语音质量效果。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的
具体实施方式
。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1为本发明实施例中提供的一种语音分离方法的步骤流程图;
图2为本发明实施例中提供的一种语音分离装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述。
参照图1,图1为本发明实施例中提供的一种语音分离方法的步骤流程图。该方法可以由计算机、服务器等电子设备执行。该方法包括如下步骤:
步骤101、将获取的目标带噪音频信号分解到预设频域范围中的M个频点,得到M个频点的分解信号。
本实施例中,可以通过麦克风阵列采集带噪音频信号,带噪音频信号指包括噪音和语音的音频信号。麦克风阵列可以包括2个麦克风、4个麦克风或6个麦克风。例如本实施例中采用由6个麦克风组成的环形麦克风阵列。其中,麦克风数量越多,采集到音频信号的信息越丰富,采集到的语音能量越多,降噪效果就越好。可以将麦克风阵列的多个麦克风采集的带噪音频信号进行对齐,再将对齐后的带噪音频信号进行相加,得到目标带噪音频信号。
其中,预设频域范围为根据麦克风阵列的采样频率确定的。例如麦克风阵列的采样频率f等于32k赫兹(Hz),则预设频域范围的最大频率等于二分之一的采样频率,即预设频域范围为0~16kHz。可以采用512个抽样点数的快速傅立叶变换(Fast FourierTransform,FFT),将获取的目标带噪音频信号分解到预设频域范围中的256个频点,两个相邻频点之间间隔的频域带宽相同。即采用512点FFT变换时,M等于抽样点数的二分之一即M等于256。也可以采用256点FFT、128点FFT。
步骤102、基于人耳听觉感知特性,将M个频点的分解信号合并到P个预设频率子带中。
人耳听觉感知特性包括人耳听觉对低频声音的分辨率高,对高频声音的分辨率低的特点,根据人耳听觉感知特性,将M个频点的分解信号合并到P个预设频率子带中,P的值例如等于16。例如将256个频点的分解信号合并到16个预设频率子带中。16个预设频率子带例如包括:直流信号(0Hz)、80Hz、156Hz、250Hz、366Hz、512Hz、693Hz、919Hz、1.2kHz、1.5kHz、2kHz、3.2kHz、4kHz、5.1kHz、6.3kHZ、8kHz。其中,16个预设频率子带的第1个预设频率子带为0Hz,16个预设频率子带的第2个预设频率子带为80Hz,以此类推。可以将频率为0-40Hz的频点的分解信号合并到0Hz,将频率为40Hz-118Hz的频点的分解信号合并到80Hz子带,将频率为118Hz到206Hz的频点的分解信号合并到156Hz子带,以此类推,从而实现将256个频点的分解信号合并到16个预设频率子带。
本实施例中,通过将M个频点的分解信号合并到P个预设频率子带中,预设频率子带的数量小于频点的数量,从而可以减少后续步骤的的计算复杂度和计算量。
通过步骤101和步骤102,从而实现将声音分解为小的时间频率单元,并对时间频率单元按人耳听觉域进行分类相加聚合。
步骤103、每间隔预设时长,对每个预设频率子带包括的频点的分解信号进行分帧处理,得到每个预设频率子带对应的N个起止时间段的分析单元。
预设时长例如为20毫秒,每间隔20毫秒,对每个预设频率子带包括的频点的分解信号进行分帧处理,得到16预设频率子带中每个预设频率子带对应的N个起止时间段的分析单元。若目标带噪音频信号的时长为1000毫秒,在每个预设频率子带对应50个起止时间段的分析单元。以第1个预设频率子带对应的50个起止时间段为例,50个起止时间段的第1个起止时间段为0~20毫秒,第2个起止时间段为20毫秒~40毫秒,第3个起止时间段为40毫秒~60毫秒,以此类推。由于一个起止时间段对应一个分析单元,因此每个预设频率子带对应N个分析单元。
步骤104、估算P个预设频率子带对应的同一个起止时间段的P个分析单元中,每个分析单元对应的目标比值。
其中,步骤104估算P个预设频率子带对应的同一个起止时间段的P个分析单元中,每个分析单元对应的目标比值,可以通过如下步骤实现:
提取P个分析单元中每个分析单元的声学特征;
将P个分析单元的P个声学特征输入目标模型,以通过目标模型输出P个分析单元中第i个分析单元对应的目标比值;
其中,1≤i≤P,目标模型为基于带噪音频信号样本的P个分析单元样本的P个声学特征样本,对预先构建的预设模型训练得到的。
声学特征例如包括MFCC声学特征、GFCC声学特征、PLP声学特征等,其中,梅尔倒谱系数(Mel-scale Frequency Cepstral Coefficients,MFCC)是在Mel标度频率域提取出来的倒谱参数,Mel标度描述了人耳频率的非线性特性。听觉滤波倒谱系数(Gammatonefrequency cepstral coefficients,GFCC)采用仿生听觉的时域非均匀多子带滤波器组提取声学能量特征。感知线性预测特征(Perceptual linear prediction,PLP)利用线性预测自回归模型获得倒谱系数。
目标模型为基于带噪音频信号样本的P个分析单元样本的P个声学特征样本,对预先构建的预设模型进行训练得到。预设模型例如为贝叶斯分类器、支持向量机(supportvector machine,SVM)分类器、深度神经网络(Deep Neural Networks,DNN)、循环神经网络(Recurrent Neural Network,RNN),可以采用深度学习算法,对大量声音库及噪声库中声音及两者混合得到的不同信噪比的声音中分析单元样本的声学特征进行学习,获得统计性的先验知识,以得到目标模型。训练得到目标模型后,在应用阶段,即可以采用训练得到的目标模型估算同一个时间段的每个分析单元对应的目标比值。例如可以采用具有3层门控循环单元(Gated Recurrent Unit,GRU)的循环神经网络(RNN)机器学习算法对声学特征进行深度学习,并用学习得到的模型,对带噪语音的分析单元进行噪声能量占比的估算或者语音能量占比的估算。
其中,第i个分析单元对应的目标比值为第i个目标比值,一个分析单元对应一个目标比值。目标比值为第一比值或第二比值,第一比值为分析单元的语音能量与总能量的比值,第二比值为分析单元的噪音能量与总能量的比值。第二比值也可以称为掩蔽值,是指需要掩蔽的噪声能量的比值。目标比值的取值范围为0~1。
本实施例中,P个预设频率子带对应的P个分析单元。第1个预设频率子带对应第1个分析单元,第2个预设频率子带对应第2个分析单元,第3个预设频率子带对应第3个分析单元,以此类推。例如共有16个预设频率子带的情况下,则共有16个第一比值,且第1个第一比值与第1个预设频率子带对应。
步骤105、基于P个目标比值,对同一个起止时间段对应的目标带噪音频信号进行噪声消除处理,得到同一个起止时间段对应的目标语音信号。
其中,P、M为正整数,P小于M,N为大于等于2的整数,同一个起止时间段为N个起止时间段中的任意一个时间段,
本实施例中,步骤105基于P个目标比值,对同一个起止时间段对应的目标带噪音频信号进行噪声消除处理,得到同一个起止时间段对应的目标语音信号,可以通过如下方式实现:
在目标比值为第一比值的情况下,将P个第一比值中第i个第一比值与目标预设频率子带包括的频点中每个频点对应的目标带噪音频信号的乘积,作为同一个起止时间段对应的频域语音信号,并对同一个起止时间段对应的频域语音信号进行时域变换,得到同一个起止时间段对应的目标语音信号;
或者,在目标模型输出第二比值的情况下,计算预设比值与第二比值的差值,并将P个差值中第i个差值与目标预设频率子带包括的频点中每个频点对应的目标带噪音频信号的乘积,作为同一个起止时间段对应的频域语音信号,并对同一个起止时间段对应的频域语音信号进行时域变换,得到同一个起止时间段对应的目标语音信号;
其中,j为大于等于1的整数,目标预设频率子带为第i个分析单元对应的预设频率子带。
例如,在目标比值为第一比值的情况下,则基于16个第一比值中第1个第一比值与第1个预设频率子带包括的频点中每个频点对应的目标带噪音频信号的乘积、第2个第一比值与第2个预设频率子带包括的频点中每个频点对应的目标带噪音频信号的乘积、第3个第一比值与第3个预设频率子带包括的频点中每个频点对应的目标带噪音频信号的乘积、……、第16个第一比值与第16个预设频率子带包括的频点中每个频点对应的目标带噪音频信号的乘积,得到同一个起止时间段例如第1个起止时间段对应的频域语音信号,并对第1个起止时间段对应的频域语音信号进行时域变换,得到第1个起止时间段对应的目标语音信号。按照此过程,同样可以得到第2个起止时间段对应的目标语音信号,第3个起止时间段对应的目标语音信号,以此类推。
本实施例中,通过步骤103至步骤105,实现对聚合后的单元进行噪声能量占比的估算或者语音能量占比的估算,根据噪声能量占比的估算或者语音能量占比的估算结果保留目标语音,掩蔽噪声。
由于现有技术中采用空间滤波分离语音的方案时,由于把宽带频域分成划分为多个频点处理,每个频点的增益不同,导致分离出的语音信号的畸变较大。
而本发明实施例提供的语音分离方法,通过将获取的目标带噪音频信号分解到预设频域范围中的M个频点,得到M个频点的分解信号,基于人耳听觉感知特性,将M个频点的分解信号合并到P个预设频率子带中,每间隔预设时长,对每个预设频率子带包括的频点的分解信号进行分帧处理,得到每个预设频率子带对应的N个起止时间段的分析单元,估算P个预设频率子带对应的同一个起止时间段的P个分析单元中,每个分析单元对应的目标比值,基于P个目标比值,对同一个起止时间段对应的目标带噪音频信号进行噪声消除处理,得到同一个起止时间段对应的目标语音信号。由于通过估算分析单元的噪声能量比或者语音能量比,得到目标语音信号,从而实现按照声音能量比值实现对带噪音频信号进行模糊化降噪处理,降低目标语音信号的畸变,提高语音质量效果。
需要说明的是,本发明实施例提供的语音分离方法,也不需要关注噪声是哪种类型的噪声,例如无需关注噪声是流水声、空调声音、扫地机声音等噪声类型。也无需估计噪声噪声的特点,例如无需估计噪声的频率、幅度值等,仅需估算能量比值,因此本发明实施例提供的方案,相对于现有技术采用的阻塞矩阵滤波器等对噪声和语音信号进行估计的方案而言,仅需估算能量比值,从而降低了计算量。并且,阻塞矩阵滤波器等对噪声和语音信号进行估计并不适用于非稳态时变噪声,进而噪声估计的误差较大,带来较低的噪声滤除效果及较大的语音损伤,而本实施例提供的方案,由于无需估计噪声和语音信号,因此,本实施例提供的方案,适用于非稳态时变噪声例如敲击键盘声音等,提高了非稳态时变噪声的滤除效果。
现有技术提供的空间滤波方案,需要确定语音的来源方向,当噪声的来源方向与语音的来源方向一致时,无法区分开语音和噪音。而本实施例提供的语音分离方法,无需依赖于语音的来源方向,因此,本实施例提供的方案,相对于空间滤波方案而言,即使噪音的来源方向与语音的来源方向一致,也能够分离出语音。
可选的,P个预设频率子带包括m个低频子带、n个中频子带和s个高频子带,中频子带的带宽大于低频子带的带宽,且小于高频子带的带宽。
结合上述举例介绍,本实施例中,中频子带的带宽大于低频子带的带宽,且小于高频子带的带宽,因此,低频子带对应的频点的个数小于中频子带对应的频点的个数,中频子带对应的频点个数小于高频子带对应的频点的个数。因此,低频子带对应的频点的权重大于中频子带对应的频点的权重,中频子带对应的频点的权重大于高频子带对应的频点的权重,从而实现保留更多的低频信号的细节信息,得到更多的语音能量,进而根据语音能量比值保留更多的目标语音信号,降低目标语音信号的畸变,掩蔽噪声。
可选的,步骤101在将获取的目标带噪音频信号分解到预设频域范围中的M个频点,得到M个频点的分解信号之前,还可以包括如下步骤:
获取麦克风阵列的多个麦克风采集的多个带噪音频信号,其中,麦克风阵列为由多个麦克风组成的环形阵列;
对多个带噪音频信号进行对齐,并对对齐后的多个带噪音频信号进行相加,以获取目标带噪音频信号。
本实施中,仿生听者面向说话人的行为,对多麦克风信号以相关性结合能量进行声音信号以对齐相加,获取多传感器中目标声音能量,从而消除随机噪声。
参照图2,图2为本发明实施例提供的一种语音分离装置的结构示意图,该装置200设置于,包括:
分解模块210,用于将获取的目标带噪音频信号分解到预设频域范围中的M个频点,得到M个频点的分解信号;
合并模块220,用于基于人耳听觉感知特性,将所述M个频点的分解信号合并到P个预设频率子带中;
分帧模块230,用于每间隔预设时长,对每个所述预设频率子带包括的频点的分解信号进行分帧处理,得到每个所述预设频率子带对应的N个起止时间段的分析单元;
估算模块240,用于估算所述P个预设频率子带对应的同一个起止时间段的P个分析单元中,每个分析单元对应的目标比值;
处理模块250,用于基于P个所述目标比值,对所述同一个起止时间段对应的目标带噪音频信号进行噪声消除处理,得到所述同一个起止时间段对应的目标语音信号;
其中,P、M为正整数,P小于M,N为大于等于2的整数,所述同一个起止时间段为N个起止时间段中的任意一个时间段,所述目标比值为第一比值或第二比值,所述第一比值为所述分析单元的语音能量与总能量的比值,所述第二比值为所述分析单元的噪音能量与所述总能量的比值。
本发明实施例提供的语音分离装置,通过将获取的目标带噪音频信号分解到预设频域范围中的M个频点,得到M个频点的分解信号,基于人耳听觉感知特性,将M个频点的分解信号合并到P个预设频率子带中,每间隔预设时长,对每个预设频率子带包括的频点的分解信号进行分帧处理,得到每个预设频率子带对应的N个起止时间段的分析单元,估算P个预设频率子带对应的同一个起止时间段的P个分析单元中,每个分析单元对应的目标比值,基于P个目标比值,对同一个起止时间段对应的目标带噪音频信号进行噪声消除处理,得到同一个起止时间段对应的目标语音信号。由于通过估算分析单元的噪声能量比或者语音能量比,得到目标语音信号,从而实现按照声音能量比值实现对带噪音频信号进行模糊化降噪处理,降低目标语音信号的畸变,提高语音质量效果。
可选的,所述估算模块240,具体包括:
提取单元,用于提取所述P个分析单元中每个分析单元的声学特征;
输出单元,用于将P个分析单元的P个声学特征输入目标模型,以通过所述目标模型输出所述P个分析单元中第i个分析单元对应的所述目标比值;
其中,1≤i≤P,所述目标模型为基于带噪音频信号样本的P个分析单元样本的P个声学特征样本,对预先构建的预设模型训练得到的。
可选的,所述处理模块250,具体用于在所述目标比值为第一比值的情况下,基于P个所述第一比值中第i个第一比值与目标预设频率子带包括的频点中每个频点对应的目标带噪音频信号的乘积,得到所述同一个起止时间段对应的频域语音信号,并对所述同一个起止时间段对应的频域语音信号进行时域变换,得到所述同一个起止时间段对应的目标语音信号;
或者,在所述目标模型输出所述第二比值的情况下,计算预设比值与所述第二比值的差值,并基于P个差值中第i个差值与所述目标预设频率子带包括的频点中每个频点对应的目标带噪音频信号的乘积,得到所述同一个起止时间段对应的频域语音信号,并对所述同一个起止时间段对应的频域语音信号进行时域变换,得到所述同一个起止时间段对应的目标语音信号;
其中,所述目标预设频率子带为所述第i个分析单元对应的预设频率子带。
可选的,所述P个预设频率子带包括m个低频子带、n个中频子带和s个高频子带,所述中频子带的带宽大于所述低频子带的带宽,且小于所述高频子带的带宽。
可选的,还包括:
第一获取模块,用于获取麦克风阵列的多个麦克风采集的多个带噪音频信号,其中,所述麦克风阵列为由所述多个麦克风组成的环形阵列;
第二获取模块,用于对所述多个带噪音频信号进行对齐,并对对齐后的多个带噪音频信号进行相加,以获取所述目标带噪音频信号。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域技术人员易于想到的是:上述各个实施例的任意组合应用都是可行的,故上述各个实施例之间的任意组合都是本发明的实施方案,但是由于篇幅限制,本说明书在此就不一一详述了。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
- 上一篇:石墨接头机器人自动装卡簧、装栓机
- 下一篇:一种天然气站场设备运行智能监测方法及系统