一种基于听觉谱特征提取的直升机声信号识别方法

文档序号:9821 发布日期:2021-09-17 浏览:53次 英文

一种基于听觉谱特征提取的直升机声信号识别方法

技术领域

本发明涉及直升机声信号识别,具体涉及一种基于听觉谱特征提取的直升机声信号识别方法。

背景技术

直升机因其独特的垂直起降、高机动性和低空突防能力,在灾难救治、局部打击和斩首行动中得到了越来多的应用。随着“黑飞”问题的逐渐突出和低空防御的日渐重要,如何对直升机进行探测、识别、定位和跟踪也引起了越来越多的关注和研究。直升机声信号,特别是其主桨和尾桨周期性扰动空气产生的强中低频噪声,是识别直升机的重要特征。

直升机声信号识别能在恶劣气象条件和高度遮挡情况下(如云雾、山岳和丛林等)有效弥补雷达、红外、光学等传统探测识别手段的不足,其关键环节是有效地提取出隐含在声信号中的能反应直升机目标类型的个性特征。典型的直升机声信号特征提取方法大致分为时域方法、频域方法、时频域方法和倒谱域方法等。时域特征提取直接对传声器采集得到的原始时域声信号进行统计分析,提取过零率、峰值位置、波形结构等多维特征,速度快,实时性好,但是低信噪比和复杂环境下,特征提取困难且识别性能迅速降低。其它的特征提取方法本质上均以频谱特性分析为基础,谱特征提取能力的提升对这些方法的性能改进具有重要意义。

发明内容

本发明的目的在于,针对上述问题,提出一种基于听觉谱特征提取的直升机声信号识别方法。

一种基于听觉谱特征提取的直升机声信号识别方法,包括如下步骤:

步骤1:分段加窗:将传声器采集的直升机原始声信号划分为长度为L的若干信号段,得到分段声信号;将所述分段声信号乘以窗函数,得到加窗声信号

步骤2:FFT分析:对步骤1中得到的加窗信号进行FFT分析,得到加窗声信号频谱,进而取加窗声信号频谱绝对值得到幅值谱;

步骤3:尺度变换:在频率分析范围内,计算听觉滤波器组在非线性频率尺度变换下的中心频率f i 为频率分析范围的下界频率,大于FFT分析的最低频率;为频率分析范围的上界频率,小于FFT分析的最高频率及奈奎斯特频率的最小值,为声信号采样频率;所述听觉滤波器组包括Mel滤波器组或Gammatone滤波器组;所述非线性尺度变换包括Mel尺度变换或ERB尺度变换或Bark尺度变换;

步骤4:听觉滤波:先根据步骤3求解得到的中心频率确定听觉滤波器的表达式,再用听觉滤波器组对步骤2中得到的幅值谱进行带通滤波处理,输出滤波处理后的幅值谱;

步骤5:对数压缩:对步骤4中的听觉滤波器组输出的幅值谱进行对数压缩;

步骤6:求取均值:求取步骤5中得到的对数压缩结果的均值得到最终的听觉谱特征;

步骤7:分类识别:按照上述步骤1-6分别求取训练集和测试集的听觉谱特征,先将训练集的听觉谱特征送入分类器进行训练,再将测试集的听觉谱特征送入分类器进行识别,确定直升机类型。

优选的,所述窗函数包括Hamming窗;窗函数为:

n为与分段声信号对应的离散时间点,;L为分段声信号的长度。

优选的,所述Mel尺度变换与中心频率的对应关系为:

其中,为频率分析范围的下界频率,为频率分析范围的上界频率,i表示滤波器的序号,,N为滤波器个数;表示中心频率对应的Mel尺度;为分析范围下界频率对应的Mel尺度,为分析范围上界频率对应的Mel尺度;

所述ERB尺度变换与中心频率的对应关系为:

其中,为频率分析范围的下界频率,为频率分析范围的上界频率,i表示滤波器的序号,,N为滤波器个数;表示中心频率对应的ERB尺度;为分析范围下界频率对应的ERB尺度,为分析范围上界频率对应的ERB尺度;

所述 Bark尺度变换与中心频率的对应关系为:

其中,为频率分析范围的下界频率,为频率分析范围的上界频率,i表示滤波器的序号,,N为滤波器个数;表示中心频率对应的Bark尺度;为分析范围下界频率对应的Bark尺度,为分析范围上界频率对应的Bark尺度。

由上述公式可知,进行逆变换即可反算出相应尺度下的中心频率

优选的,所述Mel滤波器的传递函数为:

其中,i表示滤波器的序号,i=1,…,N,N为滤波器个数;表示Mel滤波器的传递函数;为某一分析频率,

优选的,所述Gammatone滤波器的时域表达式为:

其中,为Gammatone滤波器的时域表达式,A为滤波器增益;m为滤波器阶数;为滤波器带宽;为中心频率,t为时间。

优选的,所述分类器包括基于欧式距离的最近邻分类器。

优选的,所述非线性频率尺度变换与听觉滤波器组组合得到听觉谱特征提取算法,包括M-M算法、E-M算法、B-M算法、M-G算、E-G算法和B-G算法;所述M-M算法是指Mel尺度变换和Mel滤波器组成的听觉谱特征提取算法;所述E-M算法是指ERB尺度变换和Mel滤波器组成的听觉谱特征提取算法;所述B-M算法是指Bark尺度变换和Mel滤波器组成的听觉谱特征提取算法;所述M-G算法是指Mel尺度变换和Gammatone滤波器组成的听觉谱特征提取算法;所述E-G算法是指ERB尺度变换和Gammatone滤波器组成的听觉谱特征提取算法;所述B-G算法是指Bark尺度变换和Gammatone滤波器组成的听觉谱特征提取算法。

优选的,所述分段声信号的长度L需使得FFT分析的频率分辨率与直升机的基频为同一数量级;为声信号采样频率,L为分段声信号长度。

优选的,所述听觉滤波器组中的滤波器个数N需使得尺度变换的最小频率分辨率与直升机的基频为同一数量级。

与现有技术相比,采用上述技术方案的有益效果为:将非线性频率尺度变换和听觉滤波器引入到FFT分析与对数压缩之间,借助听觉计算模型的非线性频率选择能力以及更强的中低频分辨率和分析处理能力,使不易察觉的声信号个性特征在若干分析频带内显露出来,提升直升机辨识的有效性和鲁棒性。

附图说明

图1是基于传统谱特征提取的直升机声信号识别流程。

图2是本发明的基于听觉谱特征提取的直升机声信号识别流程。

图3为非线性频率尺度变换中各滤波器对应的中心频率图。

图4为不同信噪比下的直升机声信号频谱图。

图5为基于本发明得出的不同分段长度下的识别率云图。

图6为基于本发明得出的不同下界频率时的识别率云图。

图7为基于本发明得出的不同上界频率时的识别率云图。

图8为基于本发明得出的不同滤波器个数时的识别率云图,非线性频率尺度变换采用Mel尺度,滤波器组采用Mel滤波器组。

图9为基于本发明得出的不同滤波器个数时的识别率云图,非线性频率尺度变换采用Mel尺度,滤波器组采用Gammatone滤波器组。

图10为基于本发明得出的不同滤波器个数时的识别率云图,非线性频率尺度变换采用ERB尺度,滤波器组采用Mel滤波器组。

图11为基于本发明得出的不同滤波器个数时的识别率云图,非线性频率尺度变换采用ERB尺度,滤波器组采用Gammatone滤波器组。

图12为基于本发明得出的不同滤波器个数时的识别率云图,非线性频率尺度变换采用Bark尺度,滤波器组采用Mel滤波器组。

图13为基于本发明得出的不同滤波器个数时的识别率云图,非线性频率尺度变换采用Bark尺度,滤波器组采用Gammatone滤波器组。

图14为尺度变换的最小频率分辨率及识别准确率随滤波器个数的变化图。

图15为尺度变换的频率分辨率随滤波器序号的变化图。

图16 为Mel滤波器和Gammatone滤波器的系数曲线随频率的变化图。

具体实施方式

下面结合附图对本发明作进一步描述。

如图1所示,基于传统谱特征提取的直升机声信号识别流程。对分段加窗的时域声信号数据进行快速傅里叶变换(FFT),并通过对数压缩得到声压级频谱,再求取各分段数据的频谱均值得到待识别的谱特征,最后送入分类器识别目标的类型,这种方法得到的频谱具有单一的分辨率为声信号采样频率,L为分段声信号长度。

如图2所示,一种基于听觉谱特征提取的直升机声信号识别方法,包括如下步骤:

步骤1:分段加窗:将传声器采集的直升机原始声信号划分为长度为L的若干信号段,得到分段声信号;将所述分段声信号乘以窗函数以减小分段信号首尾不连续引起的“频谱泄漏”,得到加窗声信号;为了避免相邻数据段之间信号的变化过大,通常设置50%的重叠区域;

步骤2:FFT分析:对步骤1中得到的加窗声信号进行FFT分析,得到加窗声信号频谱,进而取加窗声信号频谱绝对值得到幅值谱;

步骤3:尺度变换:在频率分析范围内,计算听觉滤波器组在非线性频率尺度变换下的中心频率为频率分析范围的下界频率,大于FFT分析的最低频率;为频率分析范围的上界频率,小于FFT分析的最高频率及奈奎斯特频率的最小值,为声信号采样频率;所述听觉滤波器组包括Mel滤波器组或Gammatone 滤波器组;所述非线性尺度变换包括Mel尺度变换或ERB尺度变换或Bark尺度变换;

步骤4:听觉滤波:先根据步骤3求解得到的中心频率f i 确定听觉滤波器的表达式,再用听觉滤波器组对步骤2中得到的幅值谱进行带通滤波处理,输出滤波处理后的幅值谱;

步骤5:对数压缩:对步骤4中的听觉滤波器组输出的幅值谱进行对数压缩,得到听觉谱的声压级表示;

步骤6:求取均值:求取步骤5中得到的对数压缩结果的均值得到最终的听觉谱特征;

步骤7:分类识别:按照上述步骤1-6分别求取训练集和测试集的听觉谱特征,先将训练集的听觉谱特征送入分类器进行训练,再将测试集的听觉谱特征送入分类器进行识别,确定直升机类型。

所述窗函数包括Hamming窗;所述窗函数为:

n为与分段声信号对应的离散时间点,;L为分段声信号的长度。

所述Mel尺度变换与中心频率的对应关系为:

其中,为频率分析范围的下界频率,为频率分析范围的上界频率,i表示滤波器的序号,,N为滤波器个数;表示中心频率对应的Mel尺度;为分析范围下界频率对应的Mel尺度,为分析范围上界频率对应的Mel尺度;

所述ERB尺度变换与中心频率的对应关系为:

其中,为频率分析范围的下界频率,为频率分析范围的上界频率,i表示滤波器的序号,,N为滤波器个数;表示中心频率对应的ERB尺度;为分析范围下界频率对应的ERB尺度,为分析范围上界频率对应的ERB尺度;

所述 Bark尺度变换与中心频率的对应关系为:

其中,为频率分析范围的下界频率,为频率分析范围的上界频率,i表示滤波器的序号,,N为滤波器个数;表示中心频率对应的Bark尺度;为分析范围下界频率对应的Bark尺度,为分析范围上界频率对应的Bark尺度。

由上述公式可知,利用非线性频率尺度变换与实际频率的关系式进行逆变换即可反算出相应尺度下的中心频率;非线性频率尺度变换与实际频率的关系式如下:

Mel尺度变换与实际频率的关系式为:

ERB尺度变换与实际频率的关系式为:

Bark尺度变换与实际频率的关系式为:

以频率分析范围[0, FS/2](FS=44100 Hz为直升机声信号的采样频率)、100个滤波器为例(每隔5个显示1个中心频率)求出了三种尺度变换下,每个滤波器对应的中心频率,如图3所示;由图3可知,尺度变换后的感知频率均与普通频率呈非线性关系,三种尺度变换具有不同的频率特性:在相同的滤波器编号下,Mel尺度对应的中心频率最高但变化更平缓,而 Bark尺度对应的中心频率较低但对应高频段的滤波器更陡峭。

需要说明的是,为了模拟人耳动态、非线性的冲激响应和幅频特性,采用Mel滤波器组或Gammatone滤波器组,是常用的带通听觉滤波器组。

所述Mel滤波器的传递函数为:

其中,i表示滤波器的序号,i=1,…,N,N为滤波器个数;表示Mel滤波器的传递函数;为某一分析频率,

所述Gammatone滤波器的时域表达式为:

其中,为Gammatone滤波器的时域表达式,A为滤波器增益;m为滤波器阶数;为滤波器带宽,为中心频率,t为时间;需要说明的是,当m=4时更能模拟人耳的听觉特性。

所述分类器采用基于欧式距离的最近邻分类器,但是不限于最近邻分类器。

所述非线性频率尺度变换与听觉滤波器组组合得到听觉谱特征提取算法,包括M-M算法、E-M算法、B-M算法、M-G算法、E-G算法和B-G算法。

需要说明的是,M-M算法是指Mel尺度变换和Mel滤波器组成的听觉谱特征提取算法;E-M算法是指ERB尺度变换和Mel滤波器组成的听觉谱特征提取算法;B-M算法是指Bark尺度变换和Mel滤波器组成的听觉谱特征提取算法;M-G算法是指Mel尺度变换和Gammatone滤波器组成的听觉谱特征提取算法;E-G算法是指ERB尺度变换和Gammatone滤波器组成的听觉谱特征提取算法;B-G算法是指Bark尺度变换和Gammatone滤波器组成的听觉谱特征提取算法。

所述分段声信号的长度L需使得FFT分析的频率分辨率与直升机的基频为同一数量级;为声信号采样频率,L为分段声信号长度。

所述听觉滤波器组中的滤波器个数N需使得尺度变换的最小频率分辨率与直升机的基频为同一数量级。

需要说明的是,尺度变换的最小频率分辨率与直升机的基频同一数量级还不够,需要与基频基本相当或还需要略小一些。如基频为20Hz,则最小频率分辨率需在10-25Hz左右。

实施例1

采用上述基于听觉谱特征提取的直升机声信号识别方法,考察在噪声环境下的有效性和鲁棒性。

首先,利用传声器采集得到10种不同型号直升机在野外飞行时主桨、尾桨和发动机等辐射的声信号数据,采样率和采样时间为HS=44100Hz和t=18s;再将每种型号直升机的声信号分为互不重叠的1s时间段的数据,得到共180段数据样本。

其次,从总样本中随机挑选50%数据作为训练集,剩下的50%数据作为测试集,即训练集和测试集的样本数均为90。

最后,在总样本中添加不同强度的高斯白噪声干扰,得到如图4所示的某段直升机声信号在不同信噪比下的功率谱密度图。

由图4可知,直升机声信号的能量集中在 1000 Hz 以下的中低频段,特别是旋翼噪声基频(约 20 Hz)及其谐波对应频率处具有尖锐的、高幅值的声能量。随着含噪数据的信噪比(Signal-to-Noise Ratio, SNR)从SNR=40 dB降低到SNR=-40dB,声信号频谱的幅值呈整体下降的趋势。当信噪比达到SNR=-20 dB和SNR=-40 dB时,高频段的声能量逐渐超过中低频段,从频谱中不再能明显感知到旋翼噪声基频及其谐波频率,直升机的个性特征逐渐淹没于噪声之中。

实施例2

采用上述基于听觉谱特征提取的直升机声信号识别方法,考察分段长度对直升机声信号识别有效性和鲁棒性的影响程度,得出如图5所示不同分段长度下的识别率云图。

如图5所示,给出了不同分段长度L下的识别率云图。从图5可知,随着信噪比的降低,识别率也逐渐降低;但在所有分段长度L下,SNR≥0dB时,识别准确率均在60%以上。另一方面,随着分段长度的增加,识别率呈增大的趋势;但并不是L越大越好,而是有个合适的中间值——高信噪比下,L=1024~4096时,识别准确率接近100%。其原因在于:分段长度较小时,分段数据中包含的有用信息较小且 FFT的频率分辨率较低,(见表 1,FS/ L值越大,频率分辨率越低),而典型直升机的基频通常只有几十Hz,这导致尺度变换前的频谱特性并不能有效地区分不同的直升机;尽管非线性尺度变换和听觉滤波能改善分辨率,但 FFT基础较差时亦不能明显提升识别率。另一方面,分段长度较大时,分段数据更容易由近似平稳变为非平稳,进而影响特征提取和识别性能。当L的长度使得频率分辨率FS/L与直升机基频同一量级时——即几十Hz,识别率较高。

表1,不同数据分段长度下的频率分辨率

L 频率分辨率
64 689.06
128 344.53
256 172.27
512 86.13
1024 43.07
2048 21.53
4096 10.77
8192 5.38
16384 2.69

需要说明的是,实施例2中非线性频率尺度变换采用Mel尺度,滤波器组采用Mel滤波器组。

实施例3

采用上述基于听觉谱特征提取的直升机声信号识别方法,考察频率分析范围对直升机声信号识别有效性和鲁棒性的影响程度,得出如图6-7所示不同频率分析范围下的识别率云图。

如图6-7所示,给出了不同频率分析范围的下界和上界设置下的识别率云图。从图中可以看出,频率下界对识别率的影响大于频率上界,尽管其最大参数变化范围2560 Hz远小于后者的最大参数变化范围12800 Hz。这印证了直升机声信号识别的主要特征是能量大、衰减慢、传播远的强中低频信号。从图 6中还可以看出,随着频率下界的增大,识别率呈降低的趋势,特别是大于1000 Hz后,识别率的下降非常明显。另一方面,随着频率上界的减小,识别率略有提升。其原因在于:当频率分析的下界增大时,中低频段的信号特征将被尺度变换和听觉滤波丢弃,数据中所蕴含的直升机个性特征逐渐减小,因此识别率下降;而频率分析的上界减小时,被丢弃的是容易受干扰影响的高频信号,而保留了中低频的有效信号,因此识别率并不会受太大的影响,反而略有提高。

需要说明的是,实施例3中非线性频率尺度变换采用Mel尺度,滤波器组采用Mel滤波器组。

实施例4

采用上述基于听觉谱特征提取的直升机声信号识别方法,考察滤波器个数对直升机声信号识别有效性和鲁棒性的影响程度,得出如图8-13所示,不同滤波器个数时,应用不同尺度变换和滤波器组的识别率云图。

由图8-13可知,识别准确率均随着滤波器个数的增加呈先迅速提高再逐渐平稳的趋势。

如图14所示,为尺度变换的最小频率分辨率及识别准确率随滤波器个数的变化情况,尺度变换的最小频率分辨率与识别率随滤波器个数的变化趋势刚好相反:随着滤波器个数从1增加到200,尺度变换的频率分辨率从 3000 Hz迅速减小到 100 Hz以内,并在很大的滤波器个数范围内稳定在几十Hz量级。这与听觉谱特征提取中引入非线性尺度变换的初衷——加强直升机声信号的中低频分辨率——是相符的:滤波器个数较少时,尺度变换自身的频率分辨率也较差,其与FFT频谱耦合时并不能提升频谱分析的分辨率;同时,滤波器个数少时,听觉滤波后得到的用于分类识别的听觉谱特征也少,因此识别准确率明显较低。另一方面,滤波器个数足够多时,尺度变换提升中低频分辨率及听觉滤波加强中低频分析的能力逐渐显现,因此识别率增加。

由图8-13还可以看出,整体而言,Bark尺度的识别率略优于ERB尺度,两者均优于Mel尺度;同时,Mel滤波器组的识别率优于Gammatone滤波器组。

如图15所示,为尺度变换的频率分辨率随滤波器序号的变化情况,滤波器个数N=100,由图可知在相同频率分析范围和滤波器个数时,Bark尺度以牺牲高频段的分辨率(滤波器序号大时分辨率值大)为代价,使得中低频分辨率低于ERB尺度和Mel尺度。Mel尺度的分辨率曲线整体比较平缓但多数情况下分辨率低于其它两个尺度变换。

如图16所示,为Mel滤波器和Gammatone滤波器的系数曲线随频率的变化情况,滤波器个数N=100,由图可知,三角形的Mel带通滤波器只在其相邻的两个滤波器中心频率之间具有大于0的系数,而类似gamma函数的Gammatone带通滤波器在其中心频率处具有最大的系数、中心频率两侧的系数曲线较陡但拖尾较长。更重要的是,在滤波器序号相同的情况下,Mel滤波器系数曲线更窄,从而使其具有更尖锐的频率选择能力。

需要说明的是,本发明提出了一种基于听觉谱特征提取的直升机声信号识别方法,将听觉模型引入谱特征提取中以改进其性能;基于三种非线性频率尺度变换(Mel尺度、ERB尺度和 Bark尺度)和两种听觉滤波器组(Mel滤波器和Gammatone滤波器),给出了六种具体的听觉谱特征提取算法:M-M算法、E-M算法、B-M算法、M-G算法、E-G算法和B-G算法。数值仿真实验验证了所提出算法的有效性和鲁棒性,并为算法的参数设置和进一步优化提供了指导:

(1)恰当选取数据分段长度 L和滤波器组个数N以使得频率分辨率与直升机的基频(约几十Hz)同一量级时,听觉谱特征提取的识别率和噪声鲁棒性较高;

(2)频率分析范围的下界对识别率和噪声鲁棒性的影响大于上界,一般可设置(信号的Nyquist频率)以减少参数;

(3)设计更接近于真实人耳听觉感知的计算模型,增强尺度变换的中低频分辨率以及听觉滤波器组的频率选择尖锐性,有助于提升识别性能。

本发明并不局限于前述的具体实施方式。本发明扩展到任何在本说明书中披露的新特征或任何新的组合,以及披露的任一新的方法或过程步骤或任何新的组合。如果本领域技术人员,在不脱离本发明的精神所做的非实质性改变或改进,都应该属于本发明权利要求保护的范围。

完整详细技术资料下载
上一篇:石墨接头机器人自动装卡簧、装栓机
下一篇:一种基于语音数据的质量评价方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!