一种tts系统性能测试方法、装置、设备及介质
技术领域
本申请涉及语音合成
技术领域
,尤其涉及一种TTS系统性能测试方法、装置、设备及介质。背景技术
文本到语音(Text to Speech,TTS)系统是按照特定语言的发音规范,将文本转换成尽可能接近真实人类语音的合成语音的系统,广泛应用于语音助手、智能家居和地图导航等场景。
目前,通常采用平均意见得分(Mean Opinion Score,MOS)对TTS系统合成出的语音进行打分,根据语音打分结果确定TTS系统的性能,在这种TTS系统性能测试方法中,打分标准以主观感受为主,在不同人群和不同测试语料上的打分标准波动较大,而且,无法全面地评估TTS系统的性能,从而导致TTS系统性能测试的准确度较低。
发明内容
本申请实施例提供了一种TTS系统性能测试方法、装置、设备及介质,用以解决现有技术中的TTS系统性能测试方法存在的准确度较低的问题。
本申请实施例提供的技术方案如下:
一方面,本申请实施例提供了一种TTS系统性能测试方法,包括:
获取TTS系统对输入文本的文本预测结果和语音预测结果;
基于文本预测结果,确定TTS系统的文本处理性能测试结果;
基于语音预测结果,确定TTS系统的语音转换性能测试结果;
基于文本处理性能测试结果和语音转换性能测试结果,确定TTS系统的综合性能测试结果。
另一方面,本申请实施例提供了一种TTS系统性能测试装置,包括:
预测结果获取单元,用于获取TTS系统对输入文本的文本预测结果和语音预测结果;
文本处理性能测试单元,基于文本预测结果,确定TTS系统的文本处理性能测试结果;
语音转换性能测试单元,基于语音预测结果,确定TTS系统的语音转换性能测试结果;
综合性能确定单元,基于文本处理性能测试结果和语音转换性能测试结果,确定TTS系统的综合性能测试结果。
另一方面,本申请实施例提供了一种TTS系统性能测试设备,包括:存储器、处理器和存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现本申请实施例提供的TTS系统性能测试方法。
另一方面,本申请实施例还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机指令,计算机指令被处理器执行时实现本申请实施例提供的TTS系统性能测试方法。
本申请实施例的有益效果如下:
本申请实施例中,采用文本处理和语音转换两个方面的客观指标代替主观指标对TTS系统的性能进行测试,一方面,不仅可以节省TTS系统性能测试的时间和人力,还可以实现TTS系统性能评价标准的统一,消除人为因素对TTS系统性能评价的影响,提高TTS系统性能测试的准确度,另一方面,对TTS系统的文本处理和语音转换分别进行性能测试,不仅可以实现对TTS系统性能的全方位测试,还可以有效地定位出影响TTS系统性能的因素是在文本处理还是在语音转换,从而可以协助开发团队有针对性地优化TTS系统性能,对提升TTS系统性能有积极意义。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地可以从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中特别指出的结构来实现和获得。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1a为本申请实施例中对文本处理性能和语音转换性能进行串行测试的TTS系统性能测试方法的一种概况流程示意图;
图1b为本申请实施例中对文本处理性能和语音转换性能进行串行测试的TTS系统性能测试方法的另一种概况流程示意图;
图2为本申请实施例中对文本处理性能和语音转换性能进行并行测试的TTS系统性能测试方法的概况流程示意图;
图3为本申请实施例中对文本处理性能和语音转换性能进行并行测试的TTS系统性能测试方法的具体流程示意图;
图4为本申请实施例中TTS系统性能测试装置的功能结构示意图;
图5为本申请实施例中TTS系统性能测试设备的硬件结构示意图。
具体实施方式
为了使本申请的目的、技术方案及有益效果更加清楚明白,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,并不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为便于本领域技术人员更好地理解本申请,下面先对本申请涉及的技术用语进行简单介绍。
1、TTS系统,是将输入文本转换成接近发音人真实音色的合成语音的系统,本申请实施例中,TTS系统可以是应用软件等客户端,也可以是小程序等轻应用。
2、文本预测结果,是TTS系统对输入文本进行文本处理后的结果,本申请实施例中,文本预测结果包括但不限于:TTS系统对输入文本的预测音素、预测数字、预测符号、预测韵律和预测重音位置。
3、文本标注结果,是基于输入文本的真实音素、真实数字、真实符号、真实韵律和真实重音位置,对输入文本进行标注的结果,本申请实施例中,语音标注结果包括但不限于:标注音素、标注数字、标注符号、标注韵律和标注重音位置。
4、语音预测结果,是TTS系统对输入文本进行语音合成后的结果,本申请实施例中,语音预测结果包括但不限于:TTS系统对输入文本的预测语音。
5、语音标注结果,是基于输入文本对应的真实语音,对输入文本进行标注的结果,本申请实施例中,语音标注结果包括但不限于:输入文本的标注语音。
在介绍了本申请涉及的技术用语后,接下来,对本申请实施例的应用场景和设计思想进行简单介绍。
为了解决基于MOS的TTS系统性能测试方法存在的主观性较强、准确度较低的问题,本申请实施例中,手机、平板电脑、计算机等TTS系统性能测试设备可以在TTS系统处理输入文本的过程中,获取TTS系统对输入文本的文本预测结果和语音预测结果,基于文本预测结果,确定TTS系统的文本处理性能测试结果,基于语音预测结果,确定TTS系统的语音转换性能测试结果,基于文本处理性能测试结果和语音转换性能测试结果,确定TTS系统的综合性能测试结果。这样,采用文本处理和语音转换两个方面的客观指标代替主观指标对TTS系统的性能进行测试,一方面,不仅可以节省TTS系统性能测试的时间和人力,还可以实现TTS系统性能评价标准的统一,消除人为因素对TTS系统性能评价的影响,提高TTS系统性能测试的准确度,另一方面,对TTS系统的文本处理和语音转换分别进行性能测试,不仅可以实现对TTS系统性能的全方位测试,还可以有效地定位出影响TTS系统性能的因素是在文本处理还是在语音转换,从而可以协助开发团队有针对性地优化TTS系统性能,对提升TTS系统性能有积极意义。
在介绍了本申请实施例的应用场景和设计思想之后,下面对本申请实施例提供的技术方案进行详细说明。
本申请实施例中,TTS系统性能测试设备可以对TTS系统的文本处理性能和语音转换性能进行串行测试,根据串行测试过程中获得的TTS系统的文本处理性能测试结果和语音转换性能测试结果,确定TTS系统的综合性能测试结果,具体的,在一个实施例中,参阅图1a所示,TTS系统性能测试设备可以先执行步骤101:获取TTS系统对输入文本的文本预测结果,并基于文本预测结果,确定TTS系统的文本处理性能测试结果;再执行步骤102:获取TTS系统对输入文本的语音预测结果,并基于语音预测结果,确定TTS系统的语音转换性能测试结果;最后执行步骤103:基于文本处理性能测试结果和语音转换性能测试结果,确定TTS系统的综合性能测试结果。在另一个实施例中,参阅图1b所示,TTS系统性能测试设备可以先执行步骤111:获取TTS系统对输入文本的语音预测结果,并基于语音预测结果,确定TTS系统的语音转换性能测试结果;再执行步骤112:获取TTS系统对输入文本的文本预测结果,并基于文本预测结果,确定TTS系统的文本处理性能测试结果;最后执行步骤113:基于语音转换性能测试结果和文本处理性能测试结果,确定TTS系统的综合性能测试结果。
为了提高TTS系统性能测试的效率,TTS系统性能测试设备还可以对TTS系统的文本处理性能和语音转换性能进行并行测试,根据并行测试过程中获得的TTS系统的文本处理性能测试结果和语音转换性能测试结果,确定TTS系统的综合性能测试结果,具体的,参阅图2所示,TTS系统性能测试设备可以在执行步骤201:获取TTS系统对输入文本的语音预测结果,并基于语音预测结果,确定TTS系统的语音转换性能测试结果的同时,执行步骤202:获取TTS系统对输入文本的文本预测结果,并基于文本预测结果,确定TTS系统的文本处理性能测试结果,然后执行步骤203:基于文本处理性能测试结果和语音转换性能测试结果,确定TTS系统的综合性能测试结果。
下面对本申请实施例提供的如图1a、图1b和图2所示的TTS系统性能测试方法中的各个步骤进行详细说明。
本申请实施例中,TTS系统性能测试设备获取TTS系统对输入文本的文本预测结果和语音预测结果时,可以根据TTS系统的安装位置不同,采用不同的获取方式,具体的,可能存在但不限于以下两种情况:
第一种情况:TTS系统安装在TTS系统性能测试设备上。
此种情况下,TTS系统性能测试设备可以调用TTS系统处理输入文本,并在调用TTS系统处理输入文本的过程中,获取TTS系统对输入文本的文本预测结果和语音预测结果,具体的,TTS系统性能测试设备可以获取TTS系统对输入文本的预测音素、预测数字、预测符号、预测韵律和预测重音位置作为文本预测结果,获取TTS系统对输入文本的预测语音作为语音预测结果。
第二种情况:TTS系统安装在其他手机、平板电脑、计算机等终端设备上。
此种情况下,TTS系统性能测试设备可以向终端设备发送TTS系统性能测试指令,终端设备接收到TTS系统性能测试设备发送的TTS系统性能测试指令时,调用TTS系统处理该TTS系统性能测试指令指示的输入文本,TTS系统性能测试设备在终端设备调用TTS系统处理输入文本的过程中,获取TTS系统对输入文本的文本预测结果和语音预测结果。可选的,在一个实施例中,可以是终端设备在调用TTS系统处理输入文本的过程中,将TTS系统对输入文本的文本预测结果和语音预测结果发送至TTS系统性能测试设备,以使TTS系统性能测试设备能够获得TTS系统对输入文本的文本预测结果和语音预测结果,具体的,终端设备可以将TTS系统对输入文本的预测音素、预测数字、预测符号、预测韵律和预测重音位置作为文本预测结果发送至TTS系统性能测试设备,将TTS系统对输入文本的预测语音作为语音预测结果发送至TTS系统性能测试设备,以使TTS系统性能测试设备能够获得TTS系统对输入文本的预测音素、预测数字、预测符号、预测韵律和预测重音位置作为文本预测结果,以及获得TTS系统对输入文本的预测语音作为语音预测结果;在另一个实施例中,还可以是TTS系统性能测试设备在终端设备调用TTS系统处理输入文本的过程中,从终端设备中主动获取TTS系统对输入文本的文本预测结果和语音预测结果,具体的,TTS系统性能测试设备可以从终端设备中主动获取TTS系统对输入文本的预测音素、预测数字、预测符号、预测韵律和预测重音位置作为文本预测结果,以及主动获取TTS系统对输入文本的预测语音作为语音预测结果。
本申请实施例中,TTS系统性能测试设备基于文本预测结果,确定TTS系统的文本处理性能测试结果时,可以采用但不限于以下方式:
首先,TTS系统性能测试设备基于文本预测结果和输入文本的文本标注结果,确定TTS系统的文本准确性测试结果。
具体的,TTS系统性能测试设备可以基于文本预测结果包含的预测音素、预测数字、预测符号、预测韵律和预测重音位置以及文本标注结果包含的输入文本的标注音素、标注数字、标注符号、标注韵律和标注重音位置,确定音素预测准确率、数字转换准确率、符号转换准确率、韵律预测准确率和重音位置预测准确率后,基于音素预测准确率、数字转换准确率、符号转换准确率、韵律预测准确率和重音位置预测准确率各自对应的权重,对音素预测准确率、数字转换准确率、符号转换准确率、韵律预测准确率和重音位置预测准确率进行加权求和,得到文本准确性测试结果,其中,文本准确性测试结果的数值范围为[0,1]。
实际应用中,音素预测准确率、数字转换准确率、符号转换准确率、韵律预测准确率和重音位置预测准确率各自对应的权重可以根据不同的实际需求灵活设定。例如,针对语音学习功能的TTS系统,对韵律和重音要求不高,可以将韵律预测准确率和重音位置预测准确率各自的权重设定为较小值(如均设定为0.05),将音素预测准确率、数字转换准确率和符号转换准确率各自的权重设定为较大值(如均设定为0.3);又如,针对故事讲读功能的TTS系统,对数字转换和符号转换要求不高,可以将数字转换准确率和符号转换准确率各自的权重设定为较小值(如均设定为0.05),将韵律预测准确率、重音位置预测准确率和音素预测准确率各自的权重设定为较大值(如均设定为0.3)。
然后,TTS系统性能测试设备基于文本准确性测试结果,确定TTS系统的文本处理性能测试结果。
可选的,在一个实施例中,TTS系统性能测试设备可以直接将文本准确性测试结果确定TTS系统的文本处理性能测试结果。
在另一个实施例中,为了进一步提高TTS系统性能测试的全面性和准确性,TTS系统性能测试设备还可以基于TTS系统对输入文本的文本处理时长,确定TTS系统的文本响应性测试结果后,基于文本准确性测试结果和文本响应性测试结果,确定文本处理性能测试结果。
实际应用中,TTS系统性能测试设备基于TTS系统对输入文本的文本处理时长,确定TTS系统的文本响应性测试结果,并基于文本准确性测试结果和文本响应性测试结果,确定文本处理性能测试结果时,可以采用但不限于以下方式:
首先,TTS系统性能测试设备基于文本处理时长与输入文本对应的标注语音的总时长的比值,确定TTS系统的实际文本处理实时率。
在具体实施时,TTS系统性能测试设备可以直接将文本处理时长与输入文本对应的标注语音的总时长的比值确定为TTS系统的实际文本处理实时率。
然后,TTS系统性能测试设备基于实际文本处理实时率和输入文本的目标文本处理实时率,确定文本响应性测试结果。
在具体实施时,TTS系统性能测试设备若确定实际文本处理实时率小于或等于目标文本处理实时率,则确定文本响应性测试结果为1;TTS系统性能测试设备若确定实际文本处理实时率大于目标文本处理实时率,则基于实际文本处理实时率与目标文本处理实时率的比值的倒数,确定文本响应性测试结果。具体的,TTS系统性能测试设备可以将实际文本处理实时率与目标文本处理实时率的比值的倒数直接确定为文本响应性测试结果,其中,文本响应性测试结果的数值范围为[0,1]。
最后,TTS系统性能测试设备基于文本准确性测试结果和文本响应性测试结果各自对应的权重,对文本准确性测试结果和文本响应性测试结果进行加权求和,得到文本处理性能测试结果,其中,文本处理性能测试结果的数值范围为[0,2]。实际应用中,文本准确性测试结果和文本响应性测试结果各自对应的权重也可以根据实际需求灵活设定。例如,针对语音学习功能的TTS系统,对准确性要求较高,可以将文本准确性测试结果的权重设定为较大值(如设定为0.7),将文本响应性测试结果的权重设定为较小值(如设定为0.3);又如,针对地图导航功能的TTS系统,对实时性要求较高,可以将文本响应性测试结果的权重设定为较大值(如设定为0.6),将文本准确性测试结果的权重设定为较小值(如设定为0.4)。
本申请实施例中,TTS系统性能测试设备基于语音预测结果,确定TTS系统的语音转换性能测试结果时,可以采用但不限于以下方式:
首先,TTS系统性能测试设备基于语音预测结果和输入文本的语音标注结果,确定TTS系统的语音准确性测试结果。
在具体实施时,TTS系统性能测试设备可以基于语音预测结果包含的预测语音以及语音标注结果包含的输入文本的标注语音,确定TTS系统的发音生成相似度、梅尔频谱相似度、时长生成相似度、基频生成相似度和能量生成相似度后,基于发音生成相似度、梅尔频谱相似度、时长生成相似度、基频生成相似度和能量生成相似度各自对应的权重,对发音生成相似度、梅尔频谱相似度、时长生成相似度、基频生成相似度和能量生成相似度进行加权求和,得到语音准确性测试结果,其中,语音准确性测试结果的数值范围为[0,1]。实际应用中,发音生成相似度、梅尔频谱相似度、时长生成相似度、基频生成相似度和能量生成相似度各自对应的权重可以根据实际需求灵活设定,具体的,可以采用但不限于以下两种方式:方式1、根据实际应用中的测试目标进行设定,例如,TTS系统输出的预测语音大部分出现时长问题,则可以将时长生成相似度的权重设定为较大值(如设定为0.4),将发音生成相似度、梅尔频谱相似度、基频生成相似度和能量生成相似度各自对应的权重设定为较小值(如均设定为0.15);方式2、根据TTS系统的整体分数与主观听感测试的一致性进行设定,例如,在多个权重组合中选取与MOS主观听感测试更加一致的权重组合。当然,本申请实施例中,发音生成相似度、梅尔频谱相似度、时长生成相似度、基频生成相似度和能量生成相似度各自对应的权重也可以都设定为0.2。
然后,TTS系统性能测试设备基于语音准确性测试结果,确定TTS系统的语音转换性能测试结果。
可选的,在一个实施例中,TTS系统性能测试设备可以直接将语音准确性测试结果确定为TTS系统的语音转换性能测试结果。
在另一个实施例中,为了进一步提高TTS系统性能测试的全面性和准确性,TTS系统性能测试设备还可以基于TTS系统对输入文本的语音合成时长,确定TTS系统的语音响应性测试结果后,基于语音准确性测试结果和语音响应性测试结果,确定语音转换性能测试结果。
实际应用中,TTS系统性能测试设备基于TTS系统对输入文本的语音合成时长,确定TTS系统的语音响应性测试结果,并基于语音准确性测试结果和语音响应性测试结果,确定语音转换性能测试结果时,可以采用但不限于以下方式:
首先,TTS系统性能测试设备基于语音合成时长与输入文本对应的标注语音的总时长的比值,确定TTS系统的实际语音合成实时率。
在具体实施时,TTS系统性能测试设备可以直接将语音合成时长与输入文本对应的标注语音的总时长的比值确定为TTS系统的实际语音合成实时率。
然后,TTS系统性能测试设备基于实际语音合成实时率和输入文本的目标语音合成实时率,确定语音响应性测试结果。
在具体实施时,TTS系统性能测试设备若确定实际语音合成实时率小于或等于目标语音合成实时率,则确定语音响应性测试结果为1;TTS系统性能测试设备若确定实际语音合成实时率大于目标语音合成实时率,则基于实际语音合成实时率与目标语音合成实时率的比值的倒数,确定语音响应性测试结果。具体的,TTS系统性能测试设备可以将实际语音合成实时率与目标语音合成实时率的比值的倒数确定为语音响应性测试结果,其中,语音响应性测试结果的数值范围为[0,1]。
最后,TTS系统性能测试设备基于语音准确性测试结果和语音响应性测试结果各自对应的权重,对语音准确性测试结果和语音响应性测试结果进行加权求和,得到语音转换性能测试结果,其中,语音转换性能测试结果的数值范围为[0,2]。实际应用中,语音准确性测试结果和语音响应性测试结果各自对应的权重也可以根据实际需求灵活设定。例如,针对语音学习功能的TTS系统,对准确性要求较高,可以将语音准确性测试结果的权重设定为较大值(如0.7),将语音响应性测试结果的权重设定为较小值(如0.3);又如,针对地图导航功能的TTS系统,对实时性要求较高,可以将语音响应性测试结果的权重设定为较大值(如0.6),将语音准确性测试结果的权重设定为较小值(如0.4)。
本申请实施例中,TTS系统性能测试设备基于文本处理性能测试结果和语音转换性能测试结果,确定TTS系统的综合性能测试结果时,可以采用但不限于以下方式:TTS系统性能测试设备基于文本处理性能测试结果和语音转换性能测试结果各自对应的权重,对文本处理性能测试结果和语音转换性能测试结果进行加权求和,得到TTS系统的综合性能测试结果。实际应用中,文本处理性能测试结果和语音转换性能测试结果各自对应的权重可以根据实际需求灵活设定,优选的,文本处理性能测试结果和语音转换性能测试结果各自对应的权重可以均设定为0.5。
下面以“TTS系统性能测试设备对TTS系统的文本处理性能和语音转换性能进行并行测试”为例,对本申请实施例提供的TTS系统性能测试方法进行说明,参阅图3所示,本申请实施例提供的TTS系统性能测试方法的具体流程如下:
步骤301:TTS系统性能测试设备调用TTS系统处理输入文本。
步骤302:TTS系统性能测试设备在TTS系统处理输入文本的过程中,获取TTS系统对输入文本的预测音素、预测数字、预测符号、预测韵律和预测重音位置作为文本预测结果。
步骤303:TTS系统性能测试设备基于文本预测结果包含的预测音素、预测数字、预测符号、预测韵律和预测重音位置以及文本标注结果包含的输入文本的标注音素、标注数字、标注符号、标注韵律和标注重音位置,计算音素预测准确率、数字转换准确率、符号转换准确率、韵律预测准确率和重音位置预测准确率。
步骤304:TTS系统性能测试设备基于音素预测准确率、数字转换准确率、符号转换准确率、韵律预测准确率和重音位置预测准确率各自对应的权重,对音素预测准确率、数字转换准确率、符号转换准确率、韵律预测准确率和重音位置预测准确率进行加权求和,得到文本准确性测试结果。
步骤305:TTS系统性能测试设备将TTS系统对输入文本的文本处理时长与输入文本对应的标注语音的总时长的比值,确定为TTS系统的实际文本处理实时率。
步骤306:TTS系统性能测试设备判断实际文本处理实时率是否小于或等于目标文本处理实时率,若是,则执行步骤307,若否,则执行步骤308。
步骤307:TTS系统性能测试设备确定文本响应性测试结果为1。
步骤308:TTS系统性能测试设备将实际文本处理实时率与目标文本处理实时率的比值的倒数确定为文本响应性测试结果。
步骤309:TTS系统性能测试设备基于文本准确性测试结果和文本响应性测试结果各自对应的权重,对文本准确性测试结果和文本响应性测试结果进行加权求和,得到文本处理性能测试结果。
步骤310:TTS系统性能测试设备在TTS系统处理输入文本的过程中,获取TTS系统对输入文本的预测语音作为语音预测结果。
步骤311:TTS系统性能测试设备基于语音预测结果包含的预测语音以及语音标注结果包含的输入文本的标注语音,计算TTS系统的发音生成相似度、梅尔频谱相似度、时长生成相似度、基频生成相似度和能量生成相似度。
步骤312:TTS系统性能测试设备基于发音生成相似度、梅尔频谱相似度、时长生成相似度、基频生成相似度和能量生成相似度各自对应的权重,对发音生成相似度、梅尔频谱相似度、时长生成相似度、基频生成相似度和能量生成相似度进行加权求和,得到语音准确性测试结果。
步骤313:TTS系统性能测试设备将TTS系统对输入文本的语音合成时长与输入文本对应的标注语音的总时长的比值确定为TTS系统的实际语音合成实时率。
步骤314:TTS系统性能测试设备判断实际语音合成实时率是否小于或等于目标语音合成实时率,若是,则执行步骤315,若否,则执行步骤316。
步骤315:TTS系统性能测试设备确定语音响应性测试结果为1。
步骤316:TTS系统性能测试设备将实际语音合成实时率与目标语音合成实时率的比值的倒数确定为语音响应性测试结果。
步骤317:TTS系统性能测试设备基于语音准确性测试结果和语音响应性测试结果各自对应的权重,对语音准确性测试结果和语音响应性测试结果进行加权求和,得到语音转换性能测试结果。
步骤318:TTS系统性能测试设备基于文本处理性能测试结果和语音转换性能测试结果各自对应的权重,对文本处理性能测试结果和语音转换性能测试结果进行加权求和,得到TTS系统的综合性能测试结果。
实际应用中,TTS系统性能测试设备可以并行执行步骤302-309以及步骤310-318,从而实现对TTS系统的文本处理性能和语音转换性能的并行测试,进而可以极大地提高TTS系统性能测试的效率。
基于上述实施例,本申请实施例提供了一种TTS系统性能测试装置,参阅图4所示,本申请实施例提供的TTS系统性能测试装置400至少包括:
预测结果获取单元401,用于获取TTS系统对输入文本的文本预测结果和语音预测结果;
文本处理性能测试单元402,基于文本预测结果,确定TTS系统的文本处理性能测试结果;
语音转换性能测试单元403,基于语音预测结果,确定TTS系统的语音转换性能测试结果;
综合性能确定单元404,基于文本处理性能测试结果和语音转换性能测试结果,确定TTS系统的综合性能测试结果。
在一种可能的实施方式中,获取TTS系统对输入文本的文本预测结果和语音预测结果时,预测结果获取单元401具体用于:
获取TTS系统对输入文本的预测音素、预测数字、预测符号、预测韵律和预测重音位置作为文本预测结果;
获取TTS系统对输入文本的预测语音作为语音预测结果。
在一种可能的实施方式中,基于文本预测结果,确定TTS系统的文本处理性能测试结果时,文本处理性能测试单元402具体用于:
基于文本预测结果和输入文本的文本标注结果,确定TTS系统的文本准确性测试结果;
基于文本准确性测试结果,确定TTS系统的文本处理性能测试结果。
在一种可能的实施方式中,基于文本预测结果和输入文本的文本标注结果,确定TTS系统的文本准确性测试结果时,文本处理性能测试单元402具体用于:
基于文本预测结果包含的预测音素、预测数字、预测符号、预测韵律和预测重音位置以及文本标注结果包含的输入文本的标注音素、标注数字、标注符号、标注韵律和标注重音位置,确定音素预测准确率、数字转换准确率、符号转换准确率、韵律预测准确率和重音位置预测准确率;
基于音素预测准确率、数字转换准确率、符号转换准确率、韵律预测准确率和重音位置预测准确率各自对应的权重,对音素预测准确率、数字转换准确率、符号转换准确率、韵律预测准确率和重音位置预测准确率进行加权求和,得到文本准确性测试结果。
在一种可能的实施方式中,文本处理性能测试单元402还用于:
基于TTS系统对输入文本的文本处理时长,确定TTS系统的文本响应性测试结果。
在一种可能的实施方式中,基于TTS系统对输入文本的文本处理时长,确定TTS系统的文本响应性测试结果时,文本处理性能测试单元402具体用于:
基于文本处理时长与输入文本对应的标注语音的总时长的比值,确定TTS系统的实际文本处理实时率;
基于实际文本处理实时率和输入文本的目标文本处理实时率,确定文本响应性测试结果。
在一种可能的实施方式中,基于实际文本处理实时率和输入文本的目标文本处理实时率,确定TTS系统的文本响应性测试结果时,文本处理性能测试单元402具体用于:
若确定实际文本处理实时率小于或等于目标文本处理实时率,则确定文本响应性测试结果为1;
若确定实际文本处理实时率大于目标文本处理实时率,则基于实际文本处理实时率与目标文本处理实时率的比值的倒数,确定文本响应性测试结果。
在一种可能的实施方式中,基于文本准确性测试结果,确定TTS系统的文本处理性能测试结果时,文本处理性能测试单元402具体用于:
基于文本准确性测试结果和文本响应性测试结果各自对应的权重,对文本准确性测试结果和文本响应性测试结果进行加权求和,得到文本处理性能测试结果。
在一种可能的实施方式中,基于语音预测结果,确定TTS系统的语音转换性能测试结果时,语音转换性能测试单元403具体用于:
基于语音预测结果和输入文本的语音标注结果,确定TTS系统的语音准确性测试结果;
基于语音准确性测试结果,确定TTS系统的语音转换性能测试结果。
在一种可能的实施方式中,基于语音预测结果和输入文本的语音标注结果,确定TTS系统的语音准确性测试结果时,语音转换性能测试单元403具体用于:
基于语音预测结果包含的预测语音以及语音标注结果包含的输入文本的标注语音,确定TTS系统的发音生成相似度、梅尔频谱相似度、时长生成相似度、基频生成相似度和能量生成相似度;
基于发音生成相似度、梅尔频谱相似度、时长生成相似度、基频生成相似度和能量生成相似度各自对应的权重,对发音生成相似度、梅尔频谱相似度、时长生成相似度、基频生成相似度和能量生成相似度进行加权求和,得到语音准确性测试结果。
在一种可能的实施方式中,语音转换性能测试单元403还用于:
基于TTS系统对输入文本的语音合成时长,确定TTS系统的语音响应性测试结果。
在一种可能的实施方式中,基于TTS系统对输入文本的语音合成时长,确定TTS系统的语音响应性测试结果时,语音转换性能测试单元403具体用于:
基于语音合成时长与输入文本对应的标注语音的总时长的比值,确定TTS系统的实际语音合成实时率;
基于实际语音合成实时率和输入文本的目标语音合成实时率,确定语音响应性测试结果。
在一种可能的实施方式中,基于实际语音合成实时率和输入文本的目标语音合成实时率,确定语音响应性测试结果时,语音转换性能测试单元403具体用于:
若确定实际语音合成实时率小于或等于目标语音合成实时率,则确定语音响应性测试结果为1;
若确定实际语音合成实时率大于目标语音合成实时率,则基于实际语音合成实时率与目标语音合成实时率的比值的倒数,确定语音响应性测试结果。
在一种可能的实施方式中,基于语音准确性测试结果,确定TTS系统的语音转换性能测试结果时,语音转换性能测试单元403具体用于:
基于语音准确性测试结果和语音响应性测试结果各自对应的权重,对语音准确性测试结果和语音响应性测试结果进行加权求和,得到语音转换性能测试结果。
在一种可能的实施方式中,基于文本处理性能测试结果和语音转换性能测试结果,确定TTS系统的综合性能测试结果时,综合性能确定单元404具体用于:
基于文本处理性能测试结果和语音转换性能测试结果各自对应的权重,对文本处理性能测试结果和语音转换性能测试结果进行加权求和,得到TTS系统的综合性能测试结果。
需要说明的是,本申请实施例提供的TTS系统性能测试装置400解决技术问题的原理与本申请实施例提供的TTS系统性能测试方法相似,因此,本申请实施例提供的TTS系统性能测试装置400的实施可以参见本申请实施例提供的TTS系统性能测试方法的实施,重复之处不再赘述。
在介绍了本申请实施例提供的TTS系统性能测试方法和装置之后,接下来,对本申请实施例提供的TTS系统性能测试设备进行简单介绍。
参阅图5所示,本申请实施例提供的TTS系统性能测试设备500至少包括:处理器501、存储器502和存储在存储器502上并可在处理器501上运行的计算机程序,处理器501执行计算机程序时实现本申请实施例提供的TTS系统性能测试方法。
本申请实施例提供的TTS系统性能测试设备500还可以包括连接不同组件(包括处理器501和存储器502)的总线503。其中,总线503表示几类总线结构中的一种或多种,包括存储器总线、外围总线、局域总线等。
存储器502可以包括易失性存储器形式的可读介质,例如随机存储器(RandomAccess Memory,RAM)5021和/或高速缓存存储器5022,还可以进一步包括只读存储器(ReadOnly Memory,ROM)5023。
存储器502还可以包括具有一组(至少一个)程序模块5024的程序工具5025,程序模块5024包括但不限于:操作子系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
TTS系统性能测试设备500也可以与一个或多个外部设备504(例如键盘、遥控器等)通信,还可以与一个或者多个使得用户能与TTS系统性能测试设备500交互的设备通信(例如手机、电脑等),和/或,与使得TTS系统性能测试设备500与一个或多个其它TTS系统性能测试设备500进行通信的任何设备(例如路由器、调制解调器等)通信。这种通信可以通过输入/输出(Input/Output,I/O)接口505进行。并且,TTS系统性能测试设备500还可以通过网络适配器506与一个或者多个网络(例如局域网(Local Area Network,LAN),广域网(Wide Area Network,WAN)和/或公共网络,例如因特网)通信。如图5所示,网络适配器506通过总线503与TTS系统性能测试设备500的其它模块通信。应当理解,尽管图5中未示出,可以结合TTS系统性能测试设备500使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、磁盘阵列(Redundant Arrays of IndependentDisks,RAID)子系统、磁带驱动器以及数据备份存储子系统等。
需要说明的是,图5所示的TTS系统性能测试设备500仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
下面对本申请实施例提供的计算机可读存储介质进行介绍。本申请实施例提供的计算机可读存储介质存储有计算机指令,计算机指令被处理器执行时实现本申请实施例提供的TTS系统性能测试方法。具体地,该可执行程序可以内置或者安装在TTS系统性能测试设备500中,这样,TTS系统性能测试设备500就可以通过执行内置或者可执行程序实现本申请实施例提供的TTS系统性能测试方法。
此外,本申请实施例提供的TTS系统性能测试方法还可以实现为一种程序产品,该程序产品包括程序代码,当该程序产品可以在TTS系统性能测试设备500上运行时,该程序代码用于使TTS系统性能测试设备500执行本申请实施例提供的TTS系统性能测试方法。
本申请实施例提供的程序产品可以采用一个或多个可读介质的任意组合,其中,可读介质可以是可读信号介质或者可读存储介质,而可读存储介质可以是但不限于是电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合,具体地,可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、RAM、ROM、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、光纤、便携式紧凑盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
本申请实施例提供的程序产品可以采用CD-ROM并包括程序代码,还可以在计算设备上运行。然而,本申请实施例提供的程序产品不限于此,在本申请实施例中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
应当注意,尽管在上文详细描述中提及了装置的若干单元或子单元,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之,上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。
此外,尽管在附图中以特定顺序描述了本申请方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请实施例进行各种改动和变型而不脱离本申请实施例的精神和范围。这样,倘若本申请实施例的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。