一种基于长时共振峰测量的语音同一性验证方法
技术领域
本发明属于语音检测
技术领域
,具体涉及一种基于长时共振峰测量的语音同一性验证方法。背景技术
共振峰是声纹鉴定中重要的特征,其不仅为辅音和元音分辨提供了参考,同时还包含了发音人的个性特征。共振峰频率受声道长度的影响,声道变长会导致元音共振峰降低,另外声道各部分之间的比例大小也会影响共振峰的频率。
测量共振峰频率的方法有很多。其中,测量不同元音共振峰中心频率值的方法最经典。然而不同元音的共振峰频率之间以及不同共振峰之间没有充分的相关性,此特性降低了鉴定的准确性。研究共振峰的另一种方法是动态特性分析法,个体发音时会留下其特定运动方式的痕迹,这些痕迹反映了说话人的个性特征,但共振峰的动态性同时还受到音段和韵律语境的影响,该方法还需要进一步研究不同说话语境时的差异问题。
发明内容
本发明要解决的技术问题是:提供一种基于长时共振峰测量的语音同一性验证方法,能够提高验证的精度。
本发明为解决上述技术问题所采取的技术方案为:一种基于长时共振峰测量的语音同一性验证方法,本方法包括:
已知一份来自同一说话人的语音文件,计算已知的语音文件中,任意两段语音的长时共振峰数据之间的距离,获得上限距离和下限距离
当采集到一份检材语音时,计算该检材语音与所述已知的语音文件的长时共振峰距离D,并进行以下判断:
当判断该时段检材语音与已知语音文件具有同一性,即为同一说话人;
当判断该时段检材语音与已知语音文件不具有同一性,即为不同说话人;
当则采用假设检验法来对同一性进行验证。
按上述方法,所述的上限距离和下限距离的计算方法如下:
设所述已知的语音文件中,其中2段语音的4个长时共振峰测量数据为X1 和Y1,其中,
式中,xF11……xF1m为第一段语音第一频率下第一至第m个共振峰数据, xF21……xF2m为第一段语音第二频率下第一至第m个共振峰数据,xF31……xF3m为第一段语音第三频率下第一至第m个共振峰数据,xF41……xF4m为第一段语音第四频率下第一至第m个共振峰数据;yF11……yF1n为第二段语音第一频率下第一至第n个共振峰数据,yF21……yF2n为第二段语音第二频率下第一至第n 个共振峰数据,yF31……yF3n为第二段语音第三频率下第一至第n个共振峰数据, yF41……yF4n为第二段语音第四频率下第一至第n个共振峰数据;所述第一至第四频率为依次增大或依次减小的频率;
每一个长时共振峰测量数据矩阵的列数据组成一个共振峰矢量xi= [xF1i xF2ixF3i xF4i]、yi=[yF1i yF2i yF3i yF4i],针对第一段语音m个矢量和第二段语音n个矢量分别计算中心位置,令xc=[xF1c xF2c xF3c xF4c]为 X1矩阵的中心,令yc=[yF1c yF2c yF3c yF4c]为Y1矩阵的中心,根据聚类原理得到xc到xi的距离之和最小,因此通过求解如下最小问题得到xc和yc:
在xc和yc基础上,通过计算中心之间的欧氏距离来计算这两段语音的长时共振峰距离D*:
从所述已知的语音文件中分别对不同段语音按上述方法计算两两之间的距离,取最大值和最小值作为所述的上限距离和下限距离
按上述方法,所述的计算检材语音的长时共振峰距离D的方法,与所述已知的语音文件中两段语音的长时共振峰距离D*的方法相同。
按上述方法,所述的假设检验法为t检验法,具体如下:
设所述检材语音的4个长时共振峰测量数据为Z1,其中
式中,zF11……zF1j为检材语音第一频率下第一至第j个共振峰数据, zF21……zF2j为检材语音第二频率下第一至第j个共振峰数据,zF31……zF3j为检材语音第三频率下第一至第j个共振峰数据,ZF41……zF4j为检材语音第四频率下第一至第j个共振峰数据;
设xF21、xF22、xF23、……、xF2m服从形如N(u,σ2)的正态分布,zF21、zF22、 zF23……zF2j服从形如N(v,σ2)的正态分布,按照统计理论第二频率下共振峰数据服从如下分布:
其中xF2mean、Sx分别为xF21、xF22、xF23、……、xF2m的均值和标准差, zF2mean、Sz分别为zF21、zF22、zF23……zF2j的均值和标准差;
给定信度α,当
则判断该时段检材语音与已知语音文件具有同一性,否则判断该时段检材语音与已知语音文件不具有同一性。
一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述基于长时共振峰测量的语音同一性验证方法的步骤。
一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述基于长时共振峰测量的语音同一性验证方法的步骤。
本发明的有益效果为:通过获取语音文件的长时共振峰,根据长时共振峰的距离,结合假设检验法,来进行语音同一性验证,能够提高验证的精度。
附图说明
图1为不同说话语境下元音长时共振峰LTF2和LTF3频率。
图2为共振峰语谱图。
图3为共振峰F1-F3频率与时间曲线。
图4为共振峰F1-F3频率分布曲线。
图5为不同说话人长时共振峰LTF2和LTF3分布图。
图6为同一说话人长时共振峰LTF2和LTF3分布图。
图7为t检验置信区间分布图。
图8为本发明一实施例的方法流程图。
具体实施方式
下面结合具体实例和附图对本发明做进一步说明。
图1描述了多名测试人员在自然说话和阅读两种语境中LTF2和LTF3的频率变化情况,从图中可知两种语境中说话人的LTF2和LTF3频率均值变化非常小;LTF4受电话通信带宽的影响较严重,因此本发明选择LTF2和LTF3用于声纹鉴定依据。
如图2所示,针对待鉴定的语音文件利用线性预测分析技术和手动校正相结合确定元音共振峰F1-F4位置,其中按照频率从低到高的曲线依次为F1-F4,由于共振峰F4不稳定所以不作为鉴定依据,共振峰F1-F3频率随时间变化曲线如图3所示,根据各共振峰的频率和出现的概率可以绘制如图4所示长时共振峰 F1-F3频率分布曲线。从上述长时共振峰的频率分布特性可知,不同的说话人具有不同的LTF2和LTF3分布,图5描述了2名测试人员的元音LTF2和LTF3分布,其中两条实线分别为两名测试人员的LTF2分布,两条虚线分别为两名测试人员的LTF3分布。从图中可知2人的LTF2和LTF3不仅频率均值不同,且分布曲线所覆盖的区间和曲线形状也具有较大的差异。对于相同说话人在不同的语境中测量得到的元音LTF2和LTF3分布如图6所示,其中两条实线为相同说话人在不同语境中测量得到的元音LTF2分布,两条虚线为相同说话人在不同语境中测量得到的元音LTF3分布,从图可知不同语境下同一个说话人的长时共振峰 LTF2和LTF3不仅频率均值变化较小,且分布曲线的区间和形状均非常相近,因此可以利用概率统计的方法对测量得到的长时共振峰LTF2和LTF3数据进行假设检验,判断被检测的语音样本是否为目标说话人。
基于以上原理和研究,本发明提供一种基于长时共振峰测量的语音同一性验证方法,如图8所示,本方法包括:
S1、已知一份来自同一说话人的语音文件,计算已知的语音文件中,任意两段语音的长时共振峰数据之间的距离,获得上限距离和下限距离
所述的上限距离和下限距离的计算方法如下:
设所述已知的语音文件中,其中2段语音的4个长时共振峰测量数据为X1 和Y1,其中,
式中,xF11……xF1m为第一段语音第一频率下第一至第m个共振峰数据, xF21……xF2m为第一段语音第二频率下第一至第m个共振峰数据,xF31……xF3m为第一段语音第三频率下第一至第m个共振峰数据,xF41……xF4m为第一段语音第四频率下第一至第m个共振峰数据;yF11……yF1n为第二段语音第一频率下第一至第n个共振峰数据,yF21……yF2n为第二段语音第二频率下第一至第n 个共振峰数据,yF31……yF3n为第二段语音第三频率下第一至第n个共振峰数据, yF41……yF4n为第二段语音第四频率下第一至第n个共振峰数据;所述第一至第四频率为依次增大或依次减小的频率;
每一个长时共振峰测量数据矩阵的列数据组成一个共振峰矢量xi= [xF1ixF2ixF3ixF4i]、yi=[yF1i yF2i yF3i yF4i],针对第一段语音m个矢量和第二段语音n个矢量分别计算中心位置,令xc=[xF1c xF2c xF3c xF4c]为 X1矩阵的中心,令yc=[yF1c yF2c yF3c yF4c]为Y1矩阵的中心,根据聚类原理得到xc到xi的距离之和最小,因此通过求解如下最小问题得到xc和yc:
在xc和yc基础上,通过计算中心之间的欧氏距离来计算这两段语音的长时共振峰距离D*:
从所述已知的语音文件中分别对不同段语音按上述方法计算两两之间的距离,取最大值和最小值作为所述的上限距离和下限距离
S2、当采集到一份检材语音时,计算该检材语音与所述已知的语音文件的长时共振峰距离D,所述的计算检材语音的长时共振峰距离D的方法,与所述已知的语音文件中两段语音的长时共振峰距离D*的方法相同。
然后进行以下判断:当判断该时段检材语音与已知语音文件具有同一性,即为同一说话人;当判断该时段检材语音与已知语音文件不具有同一性,即为不同说话人;当则采用假设检验法来对同一性进行验证。
所述的假设检验法为t检验法,具体如下:
设所述检材语音的4个长时共振峰测量数据为Z1,其中
式中,zF11……zF1j为检材语音第一频率下第一至第j个共振峰数据, zF21……ZF2j为检材语音第二频率下第一至第j个共振峰数据,zF31……zF3j为检材语音第三频率下第一至第j个共振峰数据,ZF41……ZF4j为检材语音第四频率下第一至第j个共振峰数据;
设xF21、xF22、xF23、……、xF2m服从形如N(u,σ2)的正态分布,zF21、zF22、 zF23……zF2j服从形如N(v,σ2)的正态分布,按照统计理论第二频率下共振峰数据服从如下分布:
其中xF2mean、Sx分别为xF21、xF22、xF23、……、xF2m的均值和标准差, ZF2mean、Sz分别为zF21、zF22、ZF23……zF2j的均值和标准差。
存在如下2个假设,H0:u=v,H1:u≠v,若H0成立,则此时满足:
对H0、H1进行假设检验时,给定信度α,当
则判断该时段检材语音与已知语音文件具有同一性,即接受H0;否则判断该时段检材语音与已知语音文件不具有同一性,即拒绝H0。
如图7所示,当以置信水平为95%的概率认为两种检材是来自同一个说话人时,此时要求被检测的两份文件测量得到的长时共振峰满足如下不等式:
|xF2mean-zF2mean|<c
其中t0.05(m+j-2)为自由度为 m+j-2时信度α=0.05对应的t分布变量值。从图7中可知,若1α越大,则 H0成立的可信度就越大。由于t分布是关于纵轴对称,可令2β=1-α,则
在进行两份检材同一性假设检验时,为了确定β的合理取值范围,可采取与检材自己进行比对的方法来确定β的上下限当 则认为检材具有同一性;当则拒绝检材具有同一性;则需要结合距离D进行综合判断。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述基于长时共振峰测量的语音同一性验证方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述基于长时共振峰测量的语音同一性验证方法的步骤。
以上实施例仅用于说明本发明的设计思想和特点,其目的在于使本领域内的技术人员能够了解本发明的内容并据以实施,本发明的保护范围不限于上述实施例。所以,凡依据本发明所揭示的原理、设计思路所作的等同变化或修饰,均在本发明的保护范围之内。
- 上一篇:石墨接头机器人自动装卡簧、装栓机
- 下一篇:语音处理方法和系统、及语音交互设备和方法