语音信号处理方法、装置、存储介质及设备
技术领域
本申请涉及人工智能的语音
技术领域
,尤其涉及一种语音信号处理方法、装置、存储介质及设备。背景技术
语音分离技术是从语音信号中分离出有效语音信号,从而过滤掉背景干扰信号的技术,有效语音信号是指具有利用价值的信号;例如,在某个会议中,有效语音信号可以是指某个主要参会人员的讲话内容,根据有效语音信号有利于用户理解本次会议的主要内容,或者,在演唱会中,有效语音信号可以是指歌手的演唱语音信号,根据有效语音信号有利于为用户提供良好的听觉效果。因此,语音分离算法具有极大的实用价值。
目前主要采用时域处理方法对语音信号进行分离,能够分离出语音信号中部分有效语音信号,但是,所分离出的有效语音信号中仍然存在背景干扰信号,且导致部分有效语音信号丢失。
发明内容
本申请实施例所要解决的技术问题在于,提供一种语音信号处理方法、装置、存储介质及设备,可有效避免有效语音信号丢失,提高有效语音信号的信噪比。
本申请实施例一方面提供一种语音信号处理方法,包括:
获取待处理的原始语音信号;
对所述原始语音信号进行分离处理,得到所述原始语音信号中的有效语音信号;
对所述原始语音信号进行特征提取,得到所述原始语音信号的特征信息,并根据所述原始语音信号的特征信息生成所述有效语音信号的增强系数;
根据所述有效语音信号的增强系数以及所述原始语音信号,对所述有效语音信号进行增强处理,得到增强的目标语音信号。
其中,所述对所述原始语音信号进行特征提取,得到所述原始语音信号的特征信息,并根据所述原始语音信号的特征信息生成所述有效语音信号的增强系数,包括:
对所述原始语音信号进行划分处理,得到至少两个原始语音信号片段,以及对所述有效语音信号进行划分处理,得到至少两个有效语音信号片段,一个原始语音信号片段对应一个有效语音信号片段;
对所述至少两个原始语音信号片段中每个原始语音信号片段进行特征提取,得到所述每个原始语音信号片段的特征信息;
根据所述每个原始语音信号片段的特征信息生成所述至少两个有效语音信号片段中对应的有效语音信号片段的增强系数;
将所述至少两个有效语音信号片段中每个有效语音信号片段对应的增强系数,作为所述有效语音信号的增强系数。
其中,所述根据所述每个原始语音信号片段的特征信息生成所述至少两个有效语音信号片段中对应的有效语音信号片段的增强系数,包括:
根据所述每个原始语音信号片段的特征信息确定所述每个原始语音信号片段中所包括的有效语音信号的数据量占比;
采用所述数据量占比生成所述至少两个有效语音信号片段中对应的有效语音信号片段的增强系数。
其中,所述根据所述每个原始语音信号片段的特征信息确定所述每个原始语音信号片段中所包括的有效语音信号的数据量占比,包括:
根据所述每个原始语音信号片段的特征信息确定所述每个原始语音信号片段中所包括的有效语音信号的数据量;
获取所述原始语音信号的总数据量;
获取所述每个原始语音信号片段中所包括的有效语音信号的数据量与所述原始语音信号的总数据量之间的比值,得到所述每个原始语音信号片段中所包括的有效语音信号的数据量占比。
其中,所述至少两个原始语音信号片段中包括目标原始语音信号片段,所述至少两个有效语音信号片段中包括与所述目标原始语音信号片段对应的目标有效语音信号片段;
所述根据所述有效语音信号的增强系数以及所述原始语音信号,对所述有效语音信号进行增强处理,得到增强的目标语音信号,包括:
若所述目标有效语音信号片段的增强系数大于第一增强系数阈值,且小于第二增强系数阈值,则从所述目标原始语音信号片段中提取目标数据量的原始语音信号子片段,对所述原始语音信号子片段和所述目标有效语音信号片段进行融合处理,得到增强的目标有效语音信号片段;所述目标数据量是根据所述目标原始语音信号片段中所包括的有效语音信息的数据量占比确定的,所述第一增强系数阈值小于所述第二增强系数阈值;
若所述目标有效语音信号片段的增强系数大于或者等于所述第二增强系数阈值,则将所述目标原始语音信号片段作为增强的目标有效语音信号片段;
对所述增强的目标有效语音信号片段进行拼接,得到增强的目标语音信号。
其中,所述采用所述数据量占比生成所述至少两个有效语音信号片段中对应的有效语音信号片段的增强系数,包括:
若所述目标原始语音信息片段对应的数据量占比大于第一数据量占比阈值,且小于第二数据量占比阈值,则将第一增强系数确定为所述目标有效语音信息片段的增强系数;所述第一增强系数大于所述第一增强系数阈值,且小于所述第二增强系数阈值;
若所述目标原始语音信息片段对应数据量占比大于所述第二数据量占比阈值,则将第二增强系数确定为所述目标有效语音信息片段的增强系数;所述第二增强系数大于或者等于所述第二增强系数阈值。
其中,所述对所述原始语音信号进行分离处理,得到所述原始语音信号中的有效语音信号,包括:
根据所述原始语音信号的特征信息,对所述原始语音信号进行掩码处理,获得所述原始语音信号对应的掩码矩阵;
根据所述原始语音信号对应的掩码矩阵,从所述原始语音信号中分离出所述有效语音信号。
本申请实施例一方面提供一种语音信号装置,包括:
获取模块,用于获取待处理的原始语音信号;
分离处理模块,用于对所述原始语音信号进行分离处理,得到所述原始语音信号中的有效语音信号;
生成模块,用于对所述原始语音信号进行特征提取,得到所述原始语音信号的特征信息,并根据所述原始语音信号的特征信息生成所述有效语音信号的增强系数;
增强处理模块,用于根据所述有效语音信号的增强系数以及所述原始语音信号,对所述有效语音信号进行增强处理,得到增强的目标语音信号。
其中,上述生成模块包括:
划分处理单元,用于对所述原始语音信号进行划分处理,得到至少两个原始语音信号片段,以及对所述有效语音信号进行划分处理,得到至少两个有效语音信号片段,一个原始语音信号片段对应一个有效语音信号片段;
特征提取单元,用于对所述至少两个原始语音信号片段中每个原始语音信号片段进行特征提取,得到所述每个原始语音信号片段的特征信息;
生成单元,用于根据所述每个原始语音信号片段的特征信息生成所述至少两个有效语音信号片段中对应的有效语音信号片段的增强系数;
第一确定单元,用于将所述至少两个有效语音信号片段中每个有效语音信号片段对应的增强系数,作为所述有效语音信号的增强系数。
其中,上述生成单元具体用于:
根据所述每个原始语音信号片段的特征信息确定所述每个原始语音信号片段中所包括的有效语音信号的数据量占比;
采用所述数据量占比生成所述至少两个有效语音信号片段中对应的有效语音信号片段的增强系数。
其中,上述生成单元还具体用于:
根据所述每个原始语音信号片段的特征信息确定所述每个原始语音信号片段中所包括的有效语音信号的数据量;
获取所述原始语音信号的总数据量;
获取所述每个原始语音信号片段中所包括的有效语音信号的数据量与所述原始语音信号的总数据量之间的比值,得到所述每个原始语音信号片段中所包括的有效语音信号的数据量占比。
其中,所述至少两个原始语音信号片段中包括目标原始语音信号片段,所述至少两个有效语音信号片段中包括与所述目标原始语音信号片段对应的目标有效语音信号片段;
上述增强处理模块包括:
融合处理单元,用于若所述目标有效语音信号片段的增强系数大于第一增强系数阈值,且小于第二增强系数阈值,则从所述目标原始语音信号片段中提取目标数据量的原始语音信号子片段,对所述原始语音信号子片段和所述目标有效语音信号片段进行融合处理,得到增强的目标有效语音信号片段;所述目标数据量是根据所述目标原始语音信号片段中所包括的有效语音信息的数据量占比确定的,所述第一增强系数阈值小于所述第二增强系数阈值;
第二确定单元,用于若所述目标有效语音信号片段的增强系数大于或者等于所述第二增强系数阈值,则将所述目标原始语音信号片段作为增强的目标有效语音信号片段;
拼接单元,用于对所述增强的目标有效语音信号片段进行拼接,得到增强的目标语音信号。
其中,上述生成单元还具体用于:
若所述目标原始语音信息片段对应数据量占比大于第一数据量占比阈值,且小于第二数据量占比阈值,则将第一增强系数确定为所述目标有效语音信息片段的增强系数;所述第一增强系数大于所述第一增强系数阈值,且小于所述第二增强系数阈值;
若所述目标原始语音信息片段对应数据量占比大于所述第二数据量占比阈值,则将第二增强系数确定为所述目标有效语音信息片段的增强系数;所述第二增强系数大于或者等于所述第二增强系数阈值。
其中,分离处理模块包括:
掩码处理单元,用于根据所述原始语音信号的特征信息,对所述原始语音信号进行掩码处理,获得所述原始语音信号对应的掩码矩阵;
分离单元,用于根据所述原始语音信号对应的掩码矩阵,从所述原始语音信号中分离出所述有效语音信号。
本申请一方面提供了一种计算机设备,包括:处理器及存储器;
其中,上述存储器用于存储计算机程序,上述处理器用于调用上述计算机程序,以执行如下步骤:
获取待处理的原始语音信号;
对所述原始语音信号进行分离处理,得到所述原始语音信号中的有效语音信号;
对所述原始语音信号进行特征提取,得到所述原始语音信号的特征信息,并根据所述原始语音信号的特征信息生成所述有效语音信号的增强系数;
根据所述有效语音信号的增强系数以及所述原始语音信号,对所述有效语音信号进行增强处理,得到增强的目标语音信号。
本申请实施例一方面提供了一种计算机可读存储介质,上述计算机可读存储介质存储有计算机程序,上述计算机程序包括程序指令,上述程序指令当被处理器执行时,以执行如下步骤:
获取待处理的原始语音信号;
对所述原始语音信号进行分离处理,得到所述原始语音信号中的有效语音信号;
对所述原始语音信号进行特征提取,得到所述原始语音信号的特征信息,并根据所述原始语音信号的特征信息生成所述有效语音信号的增强系数;
根据所述有效语音信号的增强系数以及所述原始语音信号,对所述有效语音信号进行增强处理,得到增强的目标语音信号。
本申请实施例中,通过获取待处理的原始语音信号,对原始语音信号进行分离处理,得到原始语音信号中的有效语音信号,对原始语音信号进行特征提取,得到原始语音信号的特征信息,并根据原始语音信号的特征信息生成有效语音信号的增强系数。通过根据有效语音信号的增强系数以及原始语音信号,对有效语音信号进行增强处理,得到增强的目标语音信号;可有效避免有效语音信号的信息丢失,即减少有效语音信号的性能损伤;并减少有效语音信号中的背景干扰信号,可提升有效语音信号的信噪比。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请提供的一种语音信号处理系统的架构示意图;
图2是本申请提供的一种语音信号处理方法的流程示意图;
图3是本申请实施例提供的一种采用Conv-TasNet纯时域处理方法对语音信号进行分离方法的示意图;
图4是本申请实施例提供的一种对原始语音信号进行分离的示意图;
图5是本申请实施例提供的一种1*D卷积处理模块的示意图;
图6是本申请实施例提供的一种生成有效语音信号的增强系数方法的示意图;
图7是本申请实施例提供的一种获得增强的目标语音信号系统的示意图;
图8是本申请提供的另一种语音信号处理方法的流程示意图;
图9是本申请实施例提供的一种语音信号处理装置的结构示意图;
图10是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
其中,语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉,是未来人机交互的发展方向,其中语音成为未来最被看好的人机交互方式之一。本申请中,可以利用语音技术对原始语音信号进行分离处理,得到原始语音信号中的有效语音信号,然后对原始语音信号进行特征提取,得到原始语音信号的特征信息。并根据原始语音信号的特征信息生成上述有效语音信号的增强系数,根据有效语音信号的增强系数以及原始语音信号,对有效语音信号进行增强处理,得到增强的目标语音信号。这样,可以显著提升目标语言信息的信噪比,并减少分离后的目标语言信息的性能损伤。
请参见图1,图1是本申请实施例提供的一种语音信号处理系统的结构示意图。如图1所示,该语音信号处理系统可以包括服务器10和用户终端集群。该用户终端集群可以包括一个或者多个用户终端,这里将不对用户终端的数量进行限制。如图1所示,具体可以包括用户终端100a、用户终端100b、用户终端100c、…、用户终端100n。如图1所示,用户终端100a、用户终端100b、用户终端100c、…、用户终端100n可以分别与上述服务器10进行网络连接,以便于每个用户终端可以通过该网络连接与服务器10进行数据交互。
其中,该用户终端集群中的每个用户终端均可以包括:智能手机、平板电脑、笔记本电脑、桌上型电脑、可穿戴设备、智能家居、头戴设备等具有业务数处理功能的智能终端。应当理解,如图1所示的用户终端集群中的每个用户终端均可以安装有目标应用(即应用客户端),当该应用客户端运行于各用户终端中时,可以分别与上述图1所示的服务器10之间进行数据交互。
其中,如图1所示,服务器10可以是指用于对原始语音信号进行分离处理,得到原始语音信号中的有效语音信号,然后根据原始语音信号的特征信息生成上述有效语音信号的增强系数,根据有效语音信号的增强系数以及原始语音信号,对有效语音信号进行增强处理,得到增强的目标语音信号;该服务器10可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。
为便于理解,本申请实施例可以在图1所示的多个用户终端中选择一个用户终端作为目标用户终端。例如,本申请实施例可以将图1所示的用户终端100a作为目标用户终端,该目标用户终端中可以集成有具备该业务数据处理功能的目标应用(即应用客户端)。此时,该目标用户终端可以通过该应用客户端对应的业务数据平台与服务器10之间实现数据交互。如目标用户终端可以将原始语音信号发送至服务器10,服务器10可以原始语音信号进行分离处理,获得有效语音信号后,对有效语音信号进行增强处理,获得目标语音信号后,将目标语音信号发送至目标用户终端。
请参见图2,是本申请实施例提供的一种语音信号处理方法的流程示意图。该方法可由计算机设备来执行,该计算机设备可以是指图1中的服务器11或任一终端,如图2所示,该语音信号处理方法可以包括步骤S101-S104。
S101,获取待处理的原始语音信号。
获取待处理的原始语音信号,该原始语音信号可以是指语音获取模块录制获取得到的,如智能电视对主人的要求的语音进行录制获取得到的,或者,用户上传的对某个事物的解说的视频中的语音信号等等。
S102,对原始语音信号进行分离处理,得到原始语音信号中的有效语音信号。
得到原始语音信号后,由于原始语音信号中可能含有干扰语音信号,该干扰语音信号是指除有效语音信号外的其他信号,如将一段视频数据中目标用户所说的话,对应的语音信号作为有效语音信号,则其他车辆鸣笛声等等为干扰信号。其中,可以采用时频域处理和纯时域处理两种处理方法对原始语音信号进行分离,得到原始语音信号中的有效语音信号。其中,可以基于时频域处理方法,对原始语音信号中的有效语音信号与干扰信号进行分离处理,得到原始语音信号中的有效语音信号;也可以基于纯时域处理方法,对原始语音信号中的有效语音信号与干扰信号进行分离处理,得到原始语音信号中的有效语音信号,纯时域处理可以直接对原始语音信号进行处理,可以保留原始语音信号的相位信息,因此取得了更好的性能。时频域处理方法是指将原始语音信号变成以时间轴为坐标表示原始语音信号的关系以及将原始语音信号变为以频率轴为坐标表示出来,以此对原始语音信号进行分析,从中分离出有效语音信号。
可选的,根据原始语音信号的特征信息,对原始语音信号进行掩码处理,获得所述原始语音信号对应的掩码矩阵。根据原始语音信号对应的掩码矩阵,从原始语音信号中分离出有效语音信号。
可以根据原始语音信号的特征信息,即基于原始语音信号的特征信息来区分不同发音源的声音特征,进而构建对应于不同发音源的掩码矩阵,掩码矩阵中包含有每一个发音源分别对应的掩码向量,根据原始语音信号对应的掩码矩阵,从原始语音信号中分离出有效语音信号。即基于任一发音源对应的掩码向量对时域语音特征进行转换,即可得到该发音源对应的时域语音特征,从而将语音信号中对应于不同发音源的声音信号分离开来,得到不同发音源的声音信号作为语音分离结果并输出。
可选的,可以预先训练得到语音分离模型,具体可以通过如下方式训练得到语音分离模型:首先,获取候选语音分离模型、样本语音信号以及样本语音信号对应的标注语音分离结果。将样本语音信号输入候选语音分离模型中,对样本语音信号进行分离,得到预测语音分离结果。根据标注语音分离结果和预测语音分离结果计算模型损失值,并根据该模型损失值对候选语音分离模型进行调整,直到候选语音分离模型满足收敛条件,则将满足收敛条件的候选语音分离模型作为目标语音分离模型,根据该目标语音分离模型对原始语音信号进行分离处理。
如图3所示,为本申请实施例提供的一种采用Conv-TasNet纯时域处理方法对语音信号进行分离方法的示意图,如图3所示,Conv-TasNet纯时域处理方法是一种全卷积时域音频分离网络,主要分为Encoder(编码)、Separator(分离)和Decoder(解码)三部分组成,其中Encoder(编码)直接在时域对原始语音信号进行编码处理,将时域波形的片段转换为中间特征空间中的对应表示;Separator(分离)是由一系列的TCN(temporalconvolutional network)组成,利用编码器的输出来估计出一个Mask(掩码),该掩码作用在编码器输出上,可以起到过滤有用信号,去除干扰的作用。最后Decoder(解码)模块对Mask后的输出进行重构,得到分离后的有效语音信号。即将原始语音信号输入Conv-TasNet模型中后,Encoder编码模块将时域波形的片段转换为中间特征空间中的对应表示,对原始语音信号进行特征提取,获得该原始语音信号的特征信息。Separator分离模块根据Encoder编码模块输出的该原始语音信号的特征信息生成掩码矩阵,即得到单个语音的一个语谱图,该掩码作用在编码器输出上,可以起到过滤有用信号,去除干扰的作用。Decoder解码模块对生成掩码矩阵后的输出进行重构,即进行解码,得到分离后的有效语音信号。
如图4所示,为本申请实施例提供的一种对原始语音信号进行分离的示意图,如图4所示,可以将原始语音信号输入语音分离模型中后,进行编码模块中进行1*1卷积处理。然后将编码模块中的输出作为分离模型的输入,对原始语音信号进行1*1卷积处理和多次1*D卷积处理,对卷积处理后的原始语音信号进行分类,将有效语音信号分离处理。对分离处理的有效语音信号进行解码,得到原始语音信号中的有效语音信号。
如图5所示,为本申请实施例提供的一种1*D卷积处理模块的示意图,如图5所示,1*D卷积处理模块对其输入进行1*1卷积处理,然后将1*1卷积处理进行激活,以及标准化。然后再进行D卷积处理,将D卷积处理的内容进行激活、标准化,再进行1*1卷积处理,作为输出,以及进行跳跃连接,该跳跃连接是指skip connections,通常用于残差网络中,它的作用是指在比较深的网络中,解决在训练的过程中梯度爆炸和梯度消失问题。
S103,对原始语音信号进行特征提取,得到原始语音信号的特征信息,并根据原始语音信号的特征信息生成有效语音信号的增强系数。
可以对原始语音信号进行特征提取,得到原始语音信号的特征信息,该原始语音信号的特征信息包括该原始语音信号中有效语音信号的数据量占比、该原始语音信号中不同语音信号的数量以及该原始语音信号的种类(如录音室录取的配音演员的语音信号、恶劣天气中录取的记者的语音信号等等)。根据原始语音信号的特征信息生成有效语音信号的增强系数。
如图6所示,为本申请实施例提供的一种生成有效语音信号的增强系数方法的示意图,如图6所示,该一种生成有效语音信号的增强系数方法包括步骤S21-S24。
S21,可以对原始语音信号进行划分处理,得到至少两个原始语音信号片段,以及对有效语音信号进行划分处理,得到至少两个有效语音信号片段.
在一个可选的实施例中,一个原始语音信号片段对应一个有效语音信号片段,可以对原始语音信号进行划分处理,得到至少两个原始语音信号片段,如将原始语音信号划分为T个原始语音信号片段,T为大于等于2的正整数。其中,每个原始语音信号片段的长度可以相等,如每个原始语音信号片段的长度均为L,L为大于0的自然数,当然,每个原始语音信号的长度也可以不相等,本申请实施例不作限制。对原始语音信号进行分离处理,获得原始语音信号中的语音信号后,可以根据对原始语音信号划分的方法对有效语音信号进行划分,获得至少两个有效语音信号片段。其中,一个原始语音信号片段对应一个有效语音信号片段,即每个原始语音信号片段与对应的有效语音信号片段的长度以及位置信息相同,如至少两个原始语音信号片段中第三个原始语音信号片段与至少两个有效语音信号片段中第三个有效语音信号片段对应,第三个原始语音信号片段与第三个有效语音信号片段的长度和位置相同。
S22,对至少两个原始语音信号片段中每个原始语音信号片段进行特征提取,得到每个原始语音信号片段的特征信息。
对至少两个原始语音信号片段中每个原始语音信号片段进行特征提取,得到每个原始语音信号片段的特征信息,同样的,每个原始语音信号片段的特征信息包括原始语音信号片段中有效语音信号的数据量占比、原始有效语音信号片段中不同语音信号的数量以及原始语音信号片段的种类等等(如录音室录取的配音演员的语音信号、恶劣天气中录取的记者的语音信号等等)。
S23,根据每个原始语音信号片段的特征信息生成至少两个有效语音信号片段中对应的有效语音信号片段的增强系数。
S24,将至少两个有效语音信号片段中每个有效语音信号片段对应的增强系数,作为有效语音信号的增强系数。
然后根据每个原始语音信号片段的特征信息生成至少两个有效语音信号片段中对应的有效语音信号片段的增强系数,即可以根据原始语音信号片段中有效语音信号的数据量占比、原始语音信号片段中不同语音信号的数量以及原始语音信号片段的种类中的至少一种生成至少两个有效语音信号片段中对应的有效语音信号片段的增强系数。
可选的,根据每个原始语音信号片段的特征信息生成至少两个有效语音信号片段中对应的有效语音信号片段的增强系数时,可以根据每个原始语音信号片段的特征信息确定每个原始语音信号片段中所包括的有效语音信号的数据量占比,采用该数据量占比生成至少两个有效语音信号片段中对应的有效语音信号片段的增强系数。
可以根据每个原始语音信号片段的特征信息确定每个原始语音信号片段中所包括的有效语音信号的数据量占比,该数据量占比是指每个原始语音信号片段中有效语音信号的多少。若原始语音信号片段中有效语音信号越多,则对应的数据量占比越大,若原始语音信号片段中有效语音信号越少,则对应的数据量占比越小。采用该数据量占比生成至少两个有效语音信号片段中对应的有效语音信号片段的增强系数,该增强系数是指有效语音信号的信噪比高低,若有效语音信号的信噪比越高,则有效语音信号对应的增强系数越高,对有效语音信号进行增强处理强度可以减少;若有效语音信号的信噪比越低,则说明有效语音信号的增强系数越低,对有效语音信号进行增强处理强度可以增加。该增强系数用于确定是否需要从原始语音信号中提取出部分原始语音信号融合至有效语音信号中,增强有效语音信号的性能。若原始语音信号片段中有效语音信号的数据量占比越大,则对应的有效语音信号片段的增强系数越大;若原始语音信号片段中有效语音信号的数据量占比越小,则对应的有效语音信号片段的增强系数越小。由于原始语音信号中每个位置的语音信号所包含的有效语音信号的数据量不一样,即原始语音信号中每个位置所混杂干扰信号的程度不一样,因此对原始语音信号进行划分,得到至少两个原始语音信号片段,再根据每个原始语音信号片段的特征信息生成对应有效语音信号片段的增强系数,这样可以更准确的对有效语音信号片段进行增强处理,提高增强处理后的目标语音信号的信噪比和提高增强处理后的目标语音信号的性能。
可选的,可以根据原始语音信号片段中不同语音信号的数量生成至少两个有效语音信号片段中对应的有效语音信号片段的增强系数。若不同语音信号的数量越多,这说明该原始语音信号越混杂,则增强系数就会越小;若不同语音信号的数量越少,这说明该原始语音信号干净,则增强系数就会越大。还可以根据原始语音信号片段的种类生成至少两个有效语音信号片段中对应的有效语音信号片段的增强系数,如在录音室录取的配音演员的语音信号比较干净,没有过多的干扰信号,则对应的增强系数越大,在恶劣天气中录取的记者的语音信号比较混杂,干扰信号较多,则对应的增强系数较低等等。
获得至少两个有效语音信号片段中每个有效语音信号片段的增强系数后,将至少两个有效语音信号片段中每个有效语音信号片段对应的增强系数,作为有效语音信号的增强系数。
可选的,根据每个原始语音信号片段的特征信息确定每个原始语音信号片段中所包括的有效语音信号的数据量占比时,可以根据每个原始语音信号片段的特征信息确定每个原始语音信号片段中所包括的有效语音信号的数据量。然后获取原始语音信号的总数据量,获取每个原始语音信号片段中所包括的有效语音信号的数据量与原始语音信号的总数据量之间的比值,得到每个原始语音信号片段中所包括的有效语音信号的数据量占比。
可以根据每个原始语音信号片段的特征信息确定每个原始语音信号片段中所包括的有效语音信号的数据量,然后再获取原始语音信号的总数据量。然后计算每个原始语音信号片段中所包括的有效语音信号的数据量与原始语音信号的总数据量之间的比值,便可以得到每个原始语音信号片段中所包括的有效语音信号的数据量占比。这样可以更准确的知道每个原始语音信号片段中所包含有效语音信号的数据量占比,再根据每个原始语音信号片段中所包含有效语音信号的数据量占比,生成增强系数,对原始语音信号片段对应的有效语音信号片段进行增强处理,可以提高增强处理后的目标语音信号的信噪比和提高增强处理后的目标语音信号的性能。
S104,根据有效语音信号的增强系数以及原始语音信号,对有效语音信号进行增强处理,得到增强的目标语音信号。
得到有效语音信号的增强系数后,可以根据该有效语音信号的增强系数以及原始语音信号,对有效语音信号进行增强处理,得到增强的目标语音信号。这样,可以提高增强处理后的目标语音信号的信噪比,以及减少有效语音信号从原始语音信号中分离后的性能损伤,即提高增强处理后的目标语音信号的性能。
可选的,若目标有效语音信号片段的增强系数大于第一增强系数阈值,且小于第二增强系数阈值,则从目标原始语音信号片段中提取目标数据量的原始语音信号子片段,对原始语音信号子片段和目标有效语音信号片段进行融合处理,得到增强的目标有效语音信号片段。目标数据量是根据目标原始语音信号片段中所包括的有效语音信息的数据量占比确定的,第一增强系数阈值小于第二增强系数阈值;若目标有效语音信号片段的增强系数大于或者等于第二增强系数阈值,则将目标原始语音信号片段作为增强的目标有效语音信号片段。然后对增强的目标有效语音信号片段进行拼接,得到增加的目标语音信号。
其中,至少两个原始语音信号片段中包括目标原始语音信号片段,目标原始语音信号片段为至少两个原始语音信号片段中的任意一个原始语音信号片段,至少两个有效语音信号片段中包括与目标原始语音信号片段对应的目标有效语音信号片段。若目标有效语音信号片段的增强系数大于第一增强系数阈值,且小于第二增强系数阈值,则说明该目标有效语音信号片段对应的目标原始语音信号片段中包含一定数据量的有效语音信号和一定数据量的干扰信号,即目标原始语音信号片段为混合语音信号。由于目标有效语音信号片段是从目标原始语音信号片段中分离处理的,存在性能损伤的问题,因此可以从目标原始语音信号片段中提取目标数据量的原始语音信号子片段,对原始语音信号子片段和目标有效语音信号片段进行融合处理,得到增强的目标有效语音信号片段。这样,可以显著提升分离后的目标有效语音信号片段的信噪比,以及减少分离后的目标有效语音信号片段的性能损伤。目标数据量是根据目标原始语音信号片段中所包括的有效语音信息的数据量占比确定的,第一增强系数阈值小于第二增强系数阈值。
若目标有效语音信号片段的增强系数大于或者等于第二增强系数阈值,则说明该目标有效语音信号片段对应的目标原始语音信号片段只包含有效语音信号,即目标原始语音信号片段为纯干净语音信号。由于目标原始语音信号片段中没有任何的干扰信号,目标有效语音信号片段是从目标原始语音信号片段中分离出来的,目标有效语音信号片段同样会存在性能损伤的问题。因此可以将目标原始语音信号片段作为增强的目标有效语音信号片段,这样,增强的目标有效语音信号片段就不会存在性能损伤的问题。获得至少两个有效语音信号片段中每个有效语音信号片段的增强的目标有效语音信号片段后,然后对每个有效语音信号片段的增强的目标有效语音信号片段进行拼接,得到增强的目标语音信号。
可选的,采用数据量占比生成至少两个有效语音信号片段中对应的有效语音信号片段的增强系数时,若目标原始语音信息片段对应数据量占比大于第一数据量占比阈值,且小于第二数据量占比阈值,则将第一增强系数确定为目标有效语音信息片段的增强系数。第一增强系数大于所述第一增强系数阈值,且小于所述第二增强系数阈值。若目标原始语音信息片段对应数据量占比大于第二数据量占比阈值,则将第二增强系数确定为目标有效语音信息片段的增强系数,第二增强系数大于或者等于第二增强系数阈值。
其中,若目标原始语音信息片段对应数据量占比大于第一数据量占比阈值,且小于第二数据量占比阈值,则说明该目标有效语音信号片段对应的目标原始语音信号片段中包含一定数据量的有效语音信号和一定数据量的干扰信号,即目标原始语音信号片段为混合语音信号。则可以将第一增强系数确定为目标有效语音信息片段的增强系数,第一增强系数大于所述第一增强系数阈值,且小于所述第二增强系数阈值。若目标原始语音信息片段对应数据量占比大于第二数据量占比阈值,则说明该目标有效语音信号片段对应的目标原始语音信号片段只包含有效语音信号,即目标原始语音信号片段为纯干净语音信号。则将可以第二增强系数确定为目标有效语音信息片段的增强系数,第二增强系数大于或者等于第二增强系数阈值。若目标原始语音信息片段对应数据量占比小于第一数据量占比阈值,则说明目标原始语音信号片段中不包含有效语音信号,只包含干扰信号,则可以输出全零信号,该全零信号没有任何信号信息。这样可以完全去除干扰信号,可以提高目标语音信号的信噪比。
例如,第一数据量占比阈值可以是指0,第二数据量占比阈值可以是指1,若目标原始语音信息片段对应数据量占比大于第一数据量占比阈值,且小于第二数据量占比阈值,则说明目标原始语音信号片段中不只有有效语音信号,还包含其他语音信号,为混合语音信号。则可以将第一增强系数确定为目标有效语音信息片段的增强系数,第一增强系数大于所述第一增强系数阈值,且小于所述第二增强系数阈值。第一增强系数的阈值可以根据目标原始语音信号片段中有效语音信号的数据量占比确定。如可以根据目标原始语音信号片段中有效语音信号的数据量占比越高,则第一增强系数的阈值越高;目标原始语音信号片段中有效语音信号的数据量占比越低,则第一增强系数的阈值越低。目标有效语音信息片段的增强系数为第二增强系数时,则说明目标原始语音信号片段中只包含有效语音信号。
如图7所示,为本申请实施例提供的一种获得增强的目标语音信号系统的示意图,如图7所示,该一种获得增强的目标语音信号系统包括两个模块。其中,模块一是一个语音分离模型,其输入是原始语音信号X,长度为N,即包含N个采样点。对该原始语音信号进行分离处理,输出为分离后的有效语音信号S,同样长度为N。其中,模块一的语音分离模块可以为ConvTasNet网络。模块二包括四个部分,即分段部分、编码部分、自注意力网络部分、分类部分。首选,分段部分对输入的原始语音信号进行划分处理,获得至少两个原始语音信号片段,如将原始语音信号划分为互不交叠的T个长度为L的原始语音信号片段,其中T=N/L,即得到了一个T*L维的原始语音信号X。然后对分离得到的有效语音信号进行划分,得到至少两个有效语音信号片段,如根据对原始语音信号划分的方法对有效语音信号进行划分,得到互不交叠的T个长度为L的片段,其中T=N/L,即可以得到T*L维的有效语音信号S。然后,将至少两个原始语音信号输入编码部分,即将原始语音信号X送入一个由1D-Conv组成的编码器进行编码处理。该编码器中的一维卷积网络的卷积核大小为L,stride也为L,即做不交叠的卷积操作,输入channel(频道)数为1,输出channel(频道)数为D,表示编码后特征的维度,则处理后可以得到一个T*D维的编码特征,即一个原始语音信号片段可以得到1*D维的编码特征,从而获取到至少两个原始语音信号片段中每个原始语音信号片段的特征信息。
然后,将至少两个原始语音信号片段的编码特征输入自注意力网络(SelfAttention网络),其中在第一层self attention层之前加入position encoding(位置编码)操作,以加入位置信息,并在最后一层self attention层之后加入输出为3的Linear(线性)层和一层Softmax(分类)层,即输出为T*3维的特征,其中每一维分别代表有效语音信号、原始语音信号、全零信号的加权比例系数;该自注意力网络部分起到的作用是利用整个原始语音信号的信息,来学习得到T个原始语音信号片段中每一个原始语音信号片段对应的加权系数(即对应目标有效语音信号片段的加权系数、目标原始语音信号片段的加权系数、全零信号的加权系数),来起到门控机制的作用,对应目标有效语音信号片段的加权系数是指增强系数。最后将分段部分得到至少两个原始语音信号片段和有效语音信号片段,分别按照自注意力网络中得到的加权系数进行加权求和后,得到增强的目标语音信号。这样,在输入的原始语音信号为混合语音信号时,则可以对原始语音信号进行分离,获得原始语音信号中的有效语音信号,再根据原始语音信号中有效语音信号的数据量占比确定有效语音信号的增强系数。根据该增强系数从原始语音信号中提取目标数据量的原始语音信号,对有效语音信号与目标数据量的原始语音信号进行融合,得到增强后的目标语音信号,对分离后的有效语音信号进行一定程度的修复,可以有效提高分离后有效语音信号的信噪比,并提升后续语音识别的准确率。在输入的原始语音信号为纯干净语音信号时,即为纯有效语音信号时,对原始语音信号进行分离处理,得到的有效语音信号同样会存在性能损伤的问题,则可以直接原始语音信号作为增强的目标语音信号,直接输出原始语音信号,这样,得到的目标语音信号便不会存在分离后性能损伤的问题了。在输入的原始语音信号为纯干扰信号时,这种情况若对原始语音信号进行分离,也会存在部分干扰信号的残留,因此可以直接将全零信号作为目标语音信号,输入的全零信号没有任何信号信息,因此可以完美的去除干扰信息,提高目标语音信号的信噪比。本方案可以用于语音分离后,对分离后的有效语音信号进行增强处理的场景,也可以直接应用于语音增强的场景。
可选的,可以获取候选语音增强模型和样本原始语音信号,以及样本原始语音数据的标注目标语音信号,采用候选语音增强模型对样本原始语音信号进行分离处理,获得原始语音信号中有效语音信号,以及对原始语音信号进行特征提取,获得原始语音信号的特征信息。并根据该原始语音信号的特征信息确定原始语音信号中有效语音信号的增强系数,即获得原始语音信号对应的集权系数(目标有效语音信号片段的加权系数、目标原始语音信号片段的加权系数、全零信号的加权系数),即确定有效语音信号的增强系数。根据该有效语音信号的增强系数以及原始语音信号,对有效语音信号进行增强处理,输出预测目标语音信号。根据标注目标语音信号与预测目标语音信号,确定候选语音增强模型的预测损失值。并根据该预测损失值对候选增强语音信号进行调整,直到候选语音增强模型满足收敛条件,将满足收敛条件的候选语音增强模型作为目标语音增强模型。则可以根据目标语音增强模型对输入的原始语音信号进行处理,得到增强的目标语音信号。
本申请实施例中,通过获取待处理的原始语音信号,对原始语音信号进行分离处理,得到原始语音信号中的有效语音信号,对原始语音信号进行特征提取,得到原始语音信号的特征信息,并根据原始语音信号的特征信息生成有效语音信号的增强系数。根据有效语音信号的增强系数以及原始语音信号,对有效语音信号进行增强处理,得到增强的目标语音信号。在输入的原始语音信号为混合语音信号时,则根据有效语音信号的增强系数从原始语音信号中提取目标数据量的原始语音子信号,对有效语音信号与原始语音子信号进行融合,得到增强后的目标语音信号,可以对分离后的有效语音信号进行一定程度的修复,可以有效提高目标语音信号的信噪比。在输入的原始语音信号为纯干净语音信号时,则可以直接原始语音信号作为增强的目标语音信号,直接输出原始语音信号,这样,得到的目标语音信号便不会存在分离后性能损伤的问题了。在输入的原始语音信号为纯干扰信号时,可以直接将全零信号作为目标语音信号,输入的全零信号没有任何信号信息,因此可以完美的去除干扰信息,提高目标语音信号的信噪比。通过根据有效语音信号的增强系数以及原始语音信号,对有效语音信号进行增强处理,得到增强的目标语音信号;可有效避免有效语音信号的信息丢失,即减少有效语音信号的性能损伤;并减少有效语音信号中的背景干扰信号,可提升有效语音信号的信噪比。
如图8所示,为本申请实施例提供的另一种语音信号处理方法的示意图,如图8所述,该另一种语音信号处理方法的步骤包括S201-207。
S201,获取待处理的原始语音信号。
S202,对原始语音信号进行分离处理,得到原始语音信号中的有效语音信号。
步骤S201-202的具体内容可以参看图2所描述的实施例的内容,本实施例在此不再累述。
S203,对原始语音信号进行划分处理,得到至少两个原始语音信号片段,以及对有效语音信号进行划分处理,得到至少两个有效语音信号片段。
S204,对至少两个原始语音信号片段中每个原始语音信号片段进行特征提取,得到每个原始语音信号片段的特征信息。
S205,根据每个原始语音信号片段的特征信息生成至少两个有效语音信号片段中对应的有效语音信号片段的增强系数。
S206,将至少两个有效语音信号片段中每个有效语音信号片段对应的增强系数,作为有效语音信号的增强系数。
S207,根据有效语音信号的增强系数以及所述原始语音信号,对有效语音信号进行增强处理,得到增强的目标语音信号。
S21,可以对原始语音信号进行划分处理,得到至少两个原始语音信号片段,以及对有效语音信号进行划分处理,得到至少两个有效语音信号片段.
在本申请实施例中,可以对原始语音信号进行划分处理,得到至少两个原始语音信号片段,如将原始语音信号划分为T个原始语音信号片段,T为大于等于2的正整数。其中,每个原始语音信号片段的长度可以相等,如每个原始语音信号片段的长度均为L,L为大于0的自然数,当然,每个原始语音信号的长度也可以不相等,本申请实施例不作限制。对原始语音信号进行分离处理,获得原始语音信号中的语音信号后,可以根据对原始语音信号划分的方法对有效语音信号进行划分,获得至少两个有效语音信号片段。其中,一个原始语音信号片段对应一个有效语音信号片段,即每个原始语音信号片段与对应的有效语音信号片段的长度以及位置信息相同,如至少两个原始语音信号片段中第三个原始语音信号片段与至少两个有效语音信号片段中第三有效语音信号片段对应,第三个原始语音信号片段与第三个有效语音信号片段的长度和位置相同。
对至少两个原始语音信号片段中每个原始语音信号片段进行特征提取,得到每个原始语音信号片段的特征信息,同样的,每个原始语音信号片段的特征信息包括原始语音信号片段中有效语音信号的数据量占比、原始有效语音信号片段中不同语音信号的数量以及原始语音信号片段的种类等等(如录音室录取的配音演员的语音信号、恶劣天气中录取的记者的语音信号等等)。
然后根据每个原始语音信号片段的特征信息生成至少两个有效语音信号片段中对应的有效语音信号片段的增强系数,即可以根据原始语音信号片段中有效语音信号的数据量占比、原始语音信号片段中不同语音信号的数量以及原始语音信号片段的种类中的至少一种生成至少两个有效语音信号片段中对应的有效语音信号片段的增强系数。
得到有效语音信号的增强系数后,可以根据该有效语音信号的增强系数以及原始语音信号,对有效语音信号进行增强处理,得到增强的目标语音信号。这样,可以提高增强处理后的目标语音信号的信噪比,以及减少有效语音信号从原始语音信号中分离后的性能损伤,即提高增强处理后的目标语音信号的性能。
本实施例的具体内容可以参看图2所描述的实施例的内容,本实施例在此不再累述。
本申请实施例中,通过获取待处理的原始语音信号,对原始语音信号进行分离处理,得到原始语音信号中的有效语音信号,对原始语音信号进行特征提取,得到原始语音信号的特征信息,并根据原始语音信号的特征信息生成有效语音信号的增强系数。根据有效语音信号的增强系数以及原始语音信号,对有效语音信号进行增强处理,得到增强的目标语音信号。在输入的原始语音信号为混合语音信号时,则根据有效语音信号的增强系数从原始语音信号中提取目标数据量的原始语音子信号,对有效语音信号与原始语音子信号进行融合,得到增强后的目标语音信号,可以对分离后的有效语音信号进行一定程度的修复,可以有效提高目标语音信号的信噪比。在输入的原始语音信号为纯干净语音信号时,则可以直接原始语音信号作为增强的目标语音信号,直接输出原始语音信号,这样,得到的目标语音信号便不会存在分离后性能损伤的问题了。在输入的原始语音信号为纯干扰信号时,可以直接将全零信号作为目标语音信号,输入的全零信号没有任何信号信息,因此可以完美的去除干扰信息,提高目标语音信号的信噪比。通过根据有效语音信号的增强系数以及原始语音信号,对有效语音信号进行增强处理,得到增强的目标语音信号;可有效避免有效语音信号的信息丢失,即减少有效语音信号的性能损伤;并减少有效语音信号中的背景干扰信号,可提升有效语音信号的信噪比。
请参见图9,是本申请实施例提供的一种语音信号处理装置的结构示意图。上述语音信号处理装置可以是运行于计算机设备中的一个计算机程序(包括程序代码),例如该语音信号处理装置为一个应用软件;该装置可以用于执行本申请实施例提供的方法中的相应步骤。如图9所示,该语音信号处理装置可以包括:获取模块11、分离处理模块12、生成模块13、增强处理模块14。
获取模块11,用于获取待处理的原始语音信号。
分离处理模块12,用于对原始语音信号进行分离处理,得到原始语音信号中的有效语音信号。
生成模块13,用于对原始语音信号进行特征提取,得到原始语音信号的特征信息,并根据原始语音信号的特征信息生成有效语音信号的增强系数。
增强处理模块14,用于根据有效语音信号的增强系数以及原始语音信号,对有效语音信号进行增强处理,得到增强的目标语音信号。
其中,上述生成模块13包括:
划分处理单元,用于对所述原始语音信号进行划分处理,得到至少两个原始语音信号片段,以及对所述有效语音信号进行划分处理,得到至少两个有效语音信号片段,一个原始语音信号片段对应一个有效语音信号片段;
特征提取单元,用于对所述至少两个原始语音信号片段中每个原始语音信号片段进行特征提取,得到所述每个原始语音信号片段的特征信息;
生成单元,用于根据所述每个原始语音信号片段的特征信息生成所述至少两个有效语音信号片段中对应的有效语音信号片段的增强系数;
第一确定单元,用于将所述至少两个有效语音信号片段中每个有效语音信号片段对应的增强系数,作为所述有效语音信号的增强系数。
其中,上述生成单元具体用于:
根据所述每个原始语音信号片段的特征信息确定所述每个原始语音信号片段中所包括的有效语音信号的数据量占比;
采用所述数据量占比生成所述至少两个有效语音信号片段中对应的有效语音信号片段的增强系数。
其中,上述生成单元还具体用于:
根据所述每个原始语音信号片段的特征信息确定所述每个原始语音信号片段中所包括的有效语音信号的数据量;
获取所述原始语音信号的总数据量;
获取所述每个原始语音信号片段中所包括的有效语音信号的数据量与所述原始语音信号的总数据量之间的比值,得到所述每个原始语音信号片段中所包括的有效语音信号的数据量占比。
其中,所述至少两个原始语音信号片段中包括目标原始语音信号片段,所述至少两个有效语音信号片段中包括与所述目标原始语音信号片段对应的目标有效语音信号片段;
上述增强处理模块14包括:
融合处理单元,用于若所述目标有效语音信号片段的增强系数大于第一增强系数阈值,且小于第二增强系数阈值,则从所述目标原始语音信号片段中提取目标数据量的原始语音信号子片段,对所述原始语音信号子片段和所述目标有效语音信号片段进行融合处理,得到增强的目标有效语音信号片段;所述目标数据量是根据所述目标原始语音信号片段中所包括的有效语音信息的数据量占比确定的,所述第一增强系数阈值小于所述第二增强系数阈值;
第二确定单元,用于若所述目标有效语音信号片段的增强系数大于或者等于所述第二增强系数阈值,则将所述目标原始语音信号片段作为增强的目标有效语音信号片段;
拼接单元,用于对所述增强的目标有效语音信号片段进行拼接,得到增强的目标语音信号。
其中,上述生成单元还具体用于:
若所述目标原始语音信息片段对应数据量占比大于第一数据量占比阈值,且小于第二数据量占比阈值,则将第一增强系数确定为所述目标有效语音信息片段的增强系数;所述第一增强系数大于所述第一增强系数阈值,且小于所述第二增强系数阈值;
若所述目标原始语音信息片段对应数据量占比大于所述第二数据量占比阈值,则将第二增强系数确定为所述目标有效语音信息片段的增强系数;所述第二增强系数大于或者等于所述第二增强系数阈值。
其中,分离处理模块12包括:
掩码处理单元,用于根据所述原始语音信号的特征信息,对所述原始语音信号进行掩码处理,获得所述原始语音信号对应的掩码矩阵;
分离单元,用于根据所述原始语音信号对应的掩码矩阵,从所述原始语音信号中分离出所述有效语音信号。
根据本申请的一个实施例,图2所示的语音信号处理方法所涉及的步骤可由图9所示的语音信号处理装置中的各个模块来执行。例如,图2中所示的步骤S101可由图9中的获取模块11来执行,图2中所示的步骤S102可由图9中的分离处理模块12来执行;图2中所示的步骤S103可由图9中的生成模块13来执行;图2中所示的步骤S104可由图9中的增强处理模块14来执行。
根据本申请的一个实施例,图9所示的语音信号处理装置中的各个模块可以分别或全部合并为一个或若干个单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个子单元,可以实现同样的操作,而不影响本申请的实施例的技术效果的实现。上述模块是基于逻辑功能划分的,在实际应用中,一个模块的功能也可以由多个单元来实现,或者多个模块的功能由一个单元实现。在本申请的其它实施例中,语音信号处理装置也可以包括其它单元,在实际应用中,这些功能也可以由其它单元协助实现,并且可以由多个单元协作实现。
根据本申请的一个实施例,可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算机设备上运行能够执行如图2或者图8中所示的相应方法所涉及的各步骤的计算机程序(包括程序代码),来构造如图9中所示的语音信号处理装置,以及来实现本申请实施例的语音信号处理方法。上述计算机程序可以记载于例如计算机可读记录介质上,并通过计算机可读记录介质装载于上述计算设备中,并在其中运行。
本申请实施例中,通过获取待处理的原始语音信号,对原始语音信号进行分离处理,得到原始语音信号中的有效语音信号,对原始语音信号进行特征提取,得到原始语音信号的特征信息,并根据原始语音信号的特征信息生成有效语音信号的增强系数。根据有效语音信号的增强系数以及原始语音信号,对有效语音信号进行增强处理,得到增强的目标语音信号。在输入的原始语音信号为混合语音信号时,则根据有效语音信号的增强系数从原始语音信号中提取目标数据量的原始语音子信号,对有效语音信号与原始语音子信号进行融合,得到增强后的目标语音信号,可以对分离后的有效语音信号进行一定程度的修复,可以有效提高目标语音信号的信噪比。在输入的原始语音信号为纯干净语音信号时,则可以直接原始语音信号作为增强的目标语音信号,直接输出原始语音信号,这样,得到的目标语音信号便不会存在分离后性能损伤的问题了。在输入的原始语音信号为纯干扰信号时,可以直接将全零信号作为目标语音信号,输入的全零信号没有任何信号信息,因此可以完美的去除干扰信息,提高目标语音信号的信噪比。通过根据有效语音信号的增强系数以及原始语音信号,对有效语音信号进行增强处理,得到增强的目标语音信号;可有效避免有效语音信号的信息丢失,即减少有效语音信号的性能损伤;并减少有效语音信号中的背景干扰信号,可提升有效语音信号的信噪比。
请参见图10,是本申请实施例提供的一种计算机设备的结构示意图。如图10所示,上述计算机设备1000可以包括:处理器1001,网络接口1004和存储器1005,此外,上述计算机设备1000还可以包括:用户接口1003,和至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。其中,用户接口1003可以包括显示屏(Display)、键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是非易失性的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图10所示,作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。
在图10所示的计算机设备1000中,网络接口1004可提供网络通讯功能;而用户接口1003主要用于为用户提供输入的接口;而处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现:
可选的,处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现:
获取待处理的原始语音信号;
对所述原始语音信号进行分离处理,得到所述原始语音信号中的有效语音信号;
对所述原始语音信号进行特征提取,得到所述原始语音信号的特征信息,并根据所述原始语音信号的特征信息生成所述有效语音信号的增强系数;
根据所述有效语音信号的增强系数以及所述原始语音信号,对所述有效语音信号进行增强处理,得到增强的目标语音信号。
可选的,处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现:
对所述原始语音信号进行划分处理,得到至少两个原始语音信号片段,以及对所述有效语音信号进行划分处理,得到至少两个有效语音信号片段,一个原始语音信号片段对应一个有效语音信号片段;
对所述至少两个原始语音信号片段中每个原始语音信号片段进行特征提取,得到所述每个原始语音信号片段的特征信息;
根据所述每个原始语音信号片段的特征信息生成所述至少两个有效语音信号片段中对应的有效语音信号片段的增强系数;
将所述至少两个有效语音信号片段中每个有效语音信号片段对应的增强系数,作为所述有效语音信号的增强系数。
可选的,处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现:
根据所述每个原始语音信号片段的特征信息确定所述每个原始语音信号片段中所包括的有效语音信号的数据量占比;
采用所述数据量占比生成所述至少两个有效语音信号片段中对应的有效语音信号片段的增强系数。
可选的,处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现:
根据所述每个原始语音信号片段的特征信息确定所述每个原始语音信号片段中所包括的有效语音信号的数据量;
获取所述原始语音信号的总数据量;
获取所述每个原始语音信号片段中所包括的有效语音信号的数据量与所述原始语音信号的总数据量之间的比值,得到所述每个原始语音信号片段中所包括的有效语音信号的数据量占比。
可选的,处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现:
所述根据所述有效语音信号的增强系数以及所述原始语音信号,对所述有效语音信号进行增强处理,得到增强的目标语音信号,包括:
若所述目标有效语音信号片段的增强系数大于第一增强系数阈值,且小于第二增强系数阈值,则从所述目标原始语音信号片段中提取目标数据量的原始语音信号子片段,对所述原始语音信号子片段和所述目标有效语音信号片段进行融合处理,得到增强的目标有效语音信号片段;所述目标数据量是根据所述目标原始语音信号片段中所包括的有效语音信息的数据量占比确定的,所述第一增强系数阈值小于所述第二增强系数阈值;
若所述目标有效语音信号片段的增强系数大于或者等于所述第二增强系数阈值,则将所述目标原始语音信号片段作为增强的目标有效语音信号片段;
对所述增强的目标有效语音信号片段进行拼接,得到增强的目标语音信号。
可选的,处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现:
若所述目标原始语音信息片段对应数据量占比大于第一数据量占比阈值,且小于第二数据量占比阈值,则将第一增强系数确定为所述目标有效语音信息片段的增强系数;所述第一增强系数大于所述第一增强系数阈值,且小于所述第二增强系数阈值;
若所述目标原始语音信息片段对应数据量占比大于所述第二数据量占比阈值,则将第二增强系数确定为所述目标有效语音信息片段的增强系数;所述第二增强系数大于或者等于所述第二增强系数阈值。
可选的,处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现:
根据所述原始语音信号的特征信息,对所述原始语音信号进行掩码处理,获得所述原始语音信号对应的掩码矩阵;
根据所述原始语音信号对应的掩码矩阵,从所述原始语音信号中分离出所述有效语音信号。
本申请实施例中,通过获取待处理的原始语音信号,对原始语音信号进行分离处理,得到原始语音信号中的有效语音信号,对原始语音信号进行特征提取,得到原始语音信号的特征信息,并根据原始语音信号的特征信息生成有效语音信号的增强系数,该增强系数用于确定是否需要从原始语音信号中提取出部分原始语音信号融合至有效语音信号中,增强有效语音信号的性能。根据有效语音信号的增强系数以及原始语音信号,对有效语音信号进行增强处理,得到增强的目标语音信号。在输入的原始语音信号为混合语音信号时,则根据有效语音信号的增强系数从原始语音信号中提取目标数据量的原始语音子信号,对有效语音信号与原始语音子信号进行融合,得到增强后的目标语音信号,可以对分离后的有效语音信号进行一定程度的修复,可以有效提高目标语音信号的信噪比,并提升后续目标语音识别的准确率。在输入的原始语音信号为纯干净语音信号时,即为纯有效语音信号时,对原始语音信号进行分离处理,得到的有效语音信号同样会存在性能损伤的问题,则可以直接原始语音信号作为增强的目标语音信号,直接输出原始语音信号,这样,得到的目标语音信号便不会存在分离后性能损伤的问题了。在输入的原始语音信号为纯干扰信号时,这种情况若对原始语音信号进行分离,也会存在部分干扰信号的残留,因此可以直接将全零信号作为目标语音信号,输入的全零信号没有任何信号信息,因此可以完美的去除干扰信息,提高目标语音信号的信噪比。通过本申请能够显著提升目标语音信号的信噪比,并减少目标语音信号的性能损伤,并提高后续目标语音识别处理的准确率。
应当理解,本申请实施例中所描述的计算机设备1000可执行前文图2或者图8所对应实施例中对上述语音信号处理方法的描述,也可执行前文图9所对应实施例中对上述语音信号处理装置的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备可执行前文图2或者图8所对应实施例中对语音信号处理方法的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
作为示例,上述程序指令可被部署在一个计算机设备上执行,或者被部署位于一个地点的多个计算机设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算机设备上执行,分布在多个地点且通过通信网络互连的多个计算机设备可以组成区块链网络。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,上述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,上述的存储介质可为磁盘、光盘、只读存储器(Read-Only Memory,ROM)或随机存储器(Random Access Memory,RAM)等。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。