歌曲生成方法、装置、电子设备及存储介质

文档序号:9749 发布日期:2021-09-17 浏览:47次 英文

歌曲生成方法、装置、电子设备及存储介质

技术领域

本公开涉及歌曲处理技术,尤其涉及一种歌曲生成方法、装置、电子设备及存储介质。

背景技术

随着数字音频技术的发展,歌曲大量增长,为便于对歌曲的查找,人们将歌曲按照类别进行划分,例如,根据歌曲风格划分为流行、民谣、古风以及摇滚等,或者,也可以是根据演唱者的情感划分为伤感、欢快以及中性等。

其中,为实现用户能够在短时间内聆听不同类别的歌曲,可以是通过将不同类别的歌曲中的部分音频段进行融合,生成包括不同类别的音频的融合音频。但是,实现获取不同类别的歌曲,可能需要经过繁琐的歌曲查找操作,尤其是需要获取同一演唱者的不同类别的歌曲,从而导致在获取不同类别的歌曲的过程中存在效率低的问题。

发明内容

本公开提供一种歌曲生成方法、装置、电子设备及存储介质,以至少解决相关技术中在获取不同类别的歌曲的过程中存在效率低的问题。

本公开的技术方案如下:

根据本公开实施例的第一方面,提供一种歌曲生成方法,包括:

获取歌词文本和乐谱信息,获取目标演唱者身份信息,以及,获取与目标歌曲风格对应的第一参考输出向量;

将所述歌词文本和所述乐谱信息输入至歌曲生成模型中的编码网络,生成第一编码输出向量;

将所述第一编码输出向量、所述第一参考输出向量以及第一声纹特征向量输入至所述歌曲生成模型中的解码网络中,生成第一歌曲,其中,所述第一声纹特征向量为所述歌曲生成模型中与所述目标演唱者身份信息对应的声纹特征向量,所述第一歌曲为具有所述目标演唱者身份信息对应的演唱者的声纹信息及所述目标歌曲风格的歌曲。

在其中一个实施例中,所述方法,还包括:

将歌曲训练集中的歌曲作为训练歌曲,其中,所述歌曲训练集包括标注有演唱者身份信息的至少一首歌曲;

获取所述训练歌曲的歌词文本和乐谱信息输入至待训练的歌曲生成模型的编码网络中,生成第二编码输出向量;以及,通过待训练的歌曲生成模型的全局风格符号网络,提取所述训练歌曲的第二参考输出向量;

将所述第二编码输出向量、所述第二参考输出向量以及所述训练歌曲的演唱者身份信息输入至待训练的歌曲生成模型的解码网络中,生成第二歌曲;

计算得到所述第二歌曲与所述训练歌曲之间的第一损失;

基于所述第一损失,更新待训练的歌曲生成模型中所述编码网络、所述解码网络和所述全局风格符号网络的参数,以及,更新待训练的歌曲生成模型中与所述训练歌曲的演唱者身份信息对应的声纹特征向量,得到所述歌曲生成模型。

在其中一个实施例中,所述基于所述第一损失,更新待训练的歌曲生成模型中所述编码网络、所述解码网络以及所述全局风格符号网络的参数之前,还包括:

计算第二损失,其中,所述第二损失为待训练的歌曲生成模型的全局风格符号网络中多个风格符号之间的余弦相似度之和;

所述基于所述第一损失,更新待训练的歌曲生成模型中所述编码网络、所述解码网络以及所述全局风格符号网络的参数,以及,更新待训练的歌曲生成模型中与所述训练歌曲的演唱者身份信息对应的声纹特征向量,包括:

基于所述第一损失和所述第二损失,更新待训练的歌曲生成模型中所述编码网络、所述解码网络以及所述全局风格符号网络的参数,以及,更新待训练的歌曲生成模型中与所述训练歌曲的演唱者身份信息对应的声纹特征向量。

在其中一个实施例中,所述获取与目标歌曲风格对应的第一参考输出向量,包括:

接收到输入的参考歌曲,其中,所述参考歌曲为具有目标歌曲风格的歌曲;

将所述参考歌曲输入至所述歌曲生成模型中的全局风格符号网络中,提取第一参考输出向量。

在其中一个实施例中,所述获取与目标歌曲风格对应的第一参考输出向量,包括:

接收输入至所述歌曲生成模型的全局风格符号网络中的风格符号权重信息,其中,所述风格符号权重信息包括所述全局风格符号网络中的多个风格符号的权重,所述多个风格符号中不同风格符号用于表征不同的歌曲风格,且所述风格符号权重信息用于指示目标歌曲风格;

所述全局风格符号网络生成与所述风格符号权重信息对应的第一参考输出向量。

根据本公开实施例的第二方面,提供一种歌曲生成装置,包括:

信息获取模块,被配置为获取歌词文本和乐谱信息,获取目标演唱者身份信息,以及,获取与目标歌曲风格对应的第一参考输出向量;

第一向量输出模块,被配置为将所述歌词文本和所述乐谱信息输入至歌曲生成模型中的编码网络,生成第一编码输出向量;

第一歌曲生成模块,被配置为将所述第一编码输出向量、所述第一参考输出向量以及第一声纹特征向量输入至所述歌曲生成模型中的解码网络中,生成第一歌曲,其中,所述第一声纹特征向量为所述歌曲生成模型中与所述目标演唱者身份信息对应的声纹特征向量,所述第一歌曲为具有所述目标演唱者身份信息对应的演唱者的声纹信息及所述目标歌曲风格的歌曲。

在其中一个实施例中,所述装置,还包括:

训练歌曲确定模块,被配置为将歌曲训练集中的歌曲作为训练歌曲,其中,所述歌曲训练集包括标注有演唱者身份信息的至少一首歌曲;

第二向量输出模块,被配置为获取所述训练歌曲的歌词文本和乐谱信息输入至待训练的歌曲生成模型的编码网络中,生成第二编码输出向量;以及,通过待训练的歌曲生成模型的全局风格符号网络,提取所述训练歌曲的第二参考输出向量;

第二歌曲生成模块,被配置为将所述第二编码输出向量、所述第二参考输出向量以及所述训练歌曲的演唱者身份信息输入至待训练的歌曲生成模型的解码网络中,生成第二歌曲;

第一损失计算模块,被配置为计算得到所述第二歌曲与所述训练歌曲之间的第一损失;

迭代模块,被配置为基于所述第一损失,更新待训练的歌曲生成模型中所述编码网络、所述解码网络和所述全局风格符号网络的参数,以及,更新待训练的歌曲生成模型中与所述训练歌曲的演唱者身份信息对应的声纹特征向量,得到所述歌曲生成模型。

在其中一个实施例中,所述装置,还包括:

第二损失计算模块,被配置为计算第二损失,其中,所述第二损失为待训练的歌曲生成模型的全局风格符号网络中多个风格符号之间的余弦相似度之和;

所述迭代模块,具体被配置为:

基于所述第一损失和所述第二损失,更新待训练的歌曲生成模型中所述编码网络、所述解码网络以及所述全局风格符号网络的参数,以及,更新待训练的歌曲生成模型中与所述训练歌曲的演唱者身份信息对应的声纹特征向量。

在其中一个实施例中,所述第一向量输出模块,包括:

歌曲接收单元,被配置为接收到输入的参考歌曲,其中,所述参考歌曲为具有目标歌曲风格的歌曲;

第一向量输出单元,被配置为将所述参考歌曲输入至所述歌曲生成模型中的全局风格符号网络中,提取第一参考输出向量。

在其中一个实施例中,所述第一向量输出模块,包括:

权重信息接收单元,被配置为接收输入至所述歌曲生成模型的全局风格符号网络中的风格符号权重信息,其中,所述风格符号权重信息包括所述全局风格符号网络中的多个风格符号的权重,所述多个风格符号中不同风格符号用于表征不同的歌曲风格,且所述风格符号权重信息用于指示目标歌曲风格;

第二向量输出单元,被配置为所述全局风格符号网络生成与所述风格符号权重信息对应的第一参考输出向量。

根据本公开实施例的第三方面,提供一种电子设备,包括:

处理器;

用于存储所述处理器可执行指令的存储器;

其中,所述处理器被配置为执行所述指令,以实现如第一方面所述的歌曲生成方法。

根据本公开实施例的第四方面,提供一种计算机可读存储介质,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如第一方面所述的歌曲生成方法。

根据本公开实施例的第五方面,提供一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令被处理器执行时实现如第一方面所述的歌曲生成方法。

本公开的实施例提供的技术方案至少带来以下有益效果:

基于此,通过获取歌词文本、乐谱信息、目标演唱者身份信息以及目标歌曲风格对应的第一参考输出向量,将歌词文本和乐谱信息输入至歌曲生成模型的编码网络中生成第一编码输出向量,将第一编码输出向量、第一参考输出向量以及目标演唱者身份信息对应的声纹特征向量输入至歌曲生成模型的解码网络中,通过解码网络输出由目标演唱者身份信息对应的演唱者演唱且歌曲风格为目标歌曲风格的第二歌曲。如此,通过本公开实施例,可以实现通过歌曲生成模型,无监督地生成用户所需的歌曲风格的歌曲,无需用户输入繁琐的歌曲查找操作,提升获取不同类别的歌曲的效率。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种歌曲生成方法的流程图;

图2是根据一示例性实施例示出的一种全局风格符号网络的处理流程图;

图3是根据一示例性实施例示出的一种获取风格语音特征向量的流程图;

图4是根据一示例性实施例示出的一种训练歌曲生成模型的流程图;

图5是根据一示例性实施例示出的一种歌曲生成装置的框图;

图6是根据一示例性实施例示出的一种计算设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种歌曲生成方法的流程图,如图1所示,歌曲生成方法用于电子设备中,方法包括以下步骤:

步骤S11、获取第一歌曲的歌词文本和乐谱信息,获取目标演唱者身份信息,以及,获取与第一歌曲风格对应的第一参考输出向量;

步骤S12、将歌词文本和乐谱信息输入至歌曲生成模型中的编码网络,生成第一编码输出向量;

步骤S13、将第一编码输出向量、第一参考输出向量以及目标演唱者身份信息输入至歌曲生成模型中的解码网络中,生成第一歌曲,其中,第一歌曲为具有目标演唱者身份信息对应的演唱者的声纹信息及目标歌曲风格的歌曲。

基于此,通过获取歌词文本、乐谱信息、目标演唱者身份信息以及目标歌曲风格对应的第一参考输出向量,将歌词文本和乐谱信息输入至歌曲生成模型的编码网络中生成第一编码输出向量,将第一编码输出向量、第一参考输出向量以及目标演唱者身份信息对应的声纹特征向量输入至歌曲生成模型的解码网络中,通过解码网络输出由目标演唱者身份信息对应的演唱者演唱且歌曲风格为目标歌曲风格的第二歌曲。如此,通过本公开实施例,可以实现通过歌曲生成模型,无监督地生成用户所需的歌曲风格的歌曲,无需用户输入繁琐的歌曲查找操作,提升获取不同类别的歌曲的效率。

在上述步骤11中,电子设备可以获取第一歌曲的歌词文本和乐谱信息,获取目标演唱者身份信息,以及获取第一歌曲风格对应的歌曲风格表征信息。

本公开实施例中,上述获取歌词文本和乐谱信息,可以是电子设备获取预设歌曲的歌词文本和乐谱信息,该歌词文本和乐谱信息可以是由用户从预设歌曲中提取并输入至电子设备;或者,也可以是用户上传该预设歌曲至电子设备,由电子设备从上述预设歌曲中提取歌词文本和乐谱信息。

其中,上述预设歌曲可以预先确定的任意歌曲。具体地,上述上传歌曲可以满足如下至少一项:由上述目标演唱者信息对应的演唱者演唱的歌曲;歌曲风格与上述目标歌曲风格不同的歌曲。

另外,上述乐谱信息可以包括音高、节拍以及时长等信息。

本公开实施例中,上述目标演唱者身份信息可以是任意的可以表征演唱者的身份的信息,其可以是演唱者的人名、代号或者身份标识等中的少一项。

其中,上述获取目标演唱者身份信息,可以是电子设备将接收到的用户输入的演唱者身份信息作为上述目标演唱者身份信息;或者,上述获取目标演唱者身份信息,也可以是在电子设备输入上述预设歌曲的情况下,在预设歌曲中提取到演唱者身份信息作为上述目标演唱者身份信息,等等。

本申请实施例中,上述目标歌曲风格可以是任意歌曲风格,其可以是情感风格或者类型风格等,且该情感风格可以包括欢快、悲伤或者中性等;上述类型风格可以包括流行、民谣、古风或者摇滚等。

其中,上述获取与目标歌曲风格对应的第一参考输出向量,可以是将用于表征上述目标歌曲风格的歌曲风格信息输入至电子设备中,电子设备通过预设的特征提取模型,提取与输入的歌曲风格信息对应的第一参考输出向量。

或者,上述获取与目标歌曲风格对应的第一参考输出向量,可以包括:

接收到输入的参考歌曲,其中,参考歌曲为具有目标歌曲风格的歌曲;

将参考歌曲输入至歌曲生成模型中的全局风格符号(Global Style Tokens,GST)网络中,提取第一参考输出向量。

基于此,通过将接收到的目标歌曲风格的参考歌曲输入至上述歌曲生成模型中的全局风格符号网络中,由GST网络提取到与目标歌曲风格对应的第一参考输出向量,从而使获取与目标歌曲风格对应的参考输出向量的操作更便捷且省时。

其中,上述GST网络可以实现将输入的真实音频转换成参考输出向量,即如图2所示,在GST网络接收到输入音频的情况下,GST网络可以将音频输入序列(input audiosequence)输入至其参考编码器(reference encoder),通过参考编码器将变长音频的风格压缩到一个固定大小的向量,即参考嵌入向量(reference embedding);参考嵌入向量送入风格符号层(“Style token”layer)作为查询(query),K个风格符号(如图2中的A、B、C和D)作为键值对(key-value),进而可以求得参考输出向量(Style embedding),K为正整数。

由GST网络生成参考输出向量的过程可知,GST网络可以通过输入的歌曲求得该歌曲的歌曲风格所对应的参考输出向量,即如图3左侧以音频信号为条件(Conditioned onaudio signal)获取参考输出向量的过程,包括将参考音频序列(即歌曲)输入至参考编码器,生成参考嵌入向量并输入至风格符号层,由风格符号层生成歌曲的参考输出向量。

另外,上述K个风格符号中每一风格符号可以表示一种歌曲风格,例如,如图2中所示的A、B、C和D可以分别表示流行、摇滚、经典以及民谣,故通过制定各个风格符号的权重,也可以生成参考输出向量。

具体地,上述获取与目标歌曲风格对应的第一参考输出向量,可以包括:

接收输入至歌曲生成模型的GST网络中的风格符号权重信息,其中,风格符号权重信息包括GST网络中的多个风格符号的权重,多个风格符号中不同风格符号用于表征不同的歌曲风格,且风格符号权重信息用于指示目标歌曲风格;

GST网络生成与风格符号权重信息对应的第一参考输出向量。

基于此,通过将用于指示目标歌曲风格的风格符号权重信息输入至GST网络中,由GST网络生成与风格符号权重信息对应的第一参考输入向量,从而实现可以根据用户的需求灵活选择风格符号权重信息,进而实现灵活选取歌曲风格,使得歌曲生成的方式更灵活。

例如,在需要获取风格符号B所表示的歌曲风格对应的参考输出向量的情况下,可以是通过如图3右侧以符号B为条件(Conditioned on Token B)获取参考输出向量的过程实现,即手动输入A、B、C和D的权重,B的权重可以设置为0.8,而其他风格符号的权重设置为0。

本公开实施例中,上述步骤11至步骤13为电子设备基于歌曲生成模型生成用户所需歌曲风格(即第一歌曲风格)的歌曲的过程,而在实现该过程之前,需要进行歌曲生成模型的训练,以得到上述目标歌曲生成。具体地,如图4所示,上述方法,还可以包括:

将歌曲训练集中的歌曲作为训练歌曲,其中,歌曲训练集包括标注有演唱者身份信息的至少一首歌曲;

将训练歌曲的歌词文本和乐谱信息输入至待训练的歌曲生成模型的编码(Encoder)网络中,生成第二编码输出向量;以及,通过待训练的歌曲生成模型的GST网络,提取训练歌曲的第二参考输出向量;

将第二编码输出向量、第二参考输出向量以及训练歌曲的演唱者身份信息输入至待训练的歌曲生成模型的解码网络(Decoder)中,生成第二歌曲;

计算得到第二歌曲与训练歌曲之间的第一损失;

基于第一损失,更新待训练的歌曲生成模型中编码网络、解码网络和全局风格符号网络的参数,以及,更新待训练的歌曲生成模型中与训练歌曲的演唱者身份信息对应的声纹特征向量,得到歌曲生成模型。

基于此,通过训练歌曲集中的歌曲对待训练的歌曲生成模型进行训练,得到歌曲生成模型,从而使得电子设备可以通过歌曲生成模型准确且快速地生成用户所需的歌曲风格的歌曲。

本公开实施例中,上述待训练的歌曲生成模型可以是用于生成一个演唱者演唱的歌曲的模型,此时,上述歌曲训练集可以是仅包括由该一个演唱者演唱的歌曲;或者,上述待训练的歌曲生成模型也可以是用于生成由多个演唱者中任一演唱者独立演唱的歌曲的模型,此时,上述歌曲训练集可以是包括由该多个演唱者独立演唱的歌曲。

其中,上述待训练的歌曲生成模型可以预设有与各演唱者的演唱者身份信息对应的声纹特征向量,该声纹特征向量用于表征对应的演唱者的声纹信息。

例如,在上述待训练的歌曲生成模型用于生成多个演唱者中任一演唱者独立演唱的歌曲的情况下,待训练的歌曲生成模型中可以预设有初始的声纹特征表,该声纹特征表包括有预设的多个声纹特征向量,且该预设的多个声纹特征向量与上述多个演唱者的演唱者身份信息一一对应。

需要说明的是,上述编码网络可以是任意的能够实现将歌词文本和乐谱信息进行编码以生成编码输出向量的编码器;同样地,上述解码网络可以是任意的能够实现对编码输出向量、参考输出向量以及演唱者身份信息进行连接并进行解码,以生成新的歌曲的解码器。由于编码器进行编码以及解码器进行解码的过程为本领域技术人员熟知,在此并不进行赘述。

另外,上述计算第二歌曲与训练歌曲之间的第一损失,可以是通过上述待训练的歌曲生成模型中的损失函数,计算第三歌曲与训练歌曲之间的均方损失(MSE Loss),并将均方损失作为上述第一损失。

本申请实施例中,上述基于第一损失,更新待训练的歌曲生成模型中编码网络、解码网络和全局风格符号网络的参数,以及,更新待训练的歌曲生成模型中与训练歌曲的演唱者身份信息对应的声纹特征向量,得到歌曲生成模型,可以包括:

判断第一损失是否达到迭代停止条件;

在确定第一损失未达到上述迭代停止条件的情况下,更新编码网络、解码网络和GST网络的参数(即权重),以及更新待训练的歌曲生成模型中与待训练歌曲的演唱者身份信息对应的声纹特征向量,并将更新后的模型作为待训练的歌曲生成模型,重新执行训练过程;

在确定第一损失达到上述迭代停止条件的情况下,将待训练的歌曲生成模型作为上述歌曲生成模型。

其中,上述判断第一损失是否达到迭代停止条件,可以是判断第一损失与上一轮训练中计算得到的损失之间的差值是否小于或者等于预设差值,或者,判断第一损失是否小于或者等于预设损失,若是,则确定第一损失达到迭代停止条件;反之,则确定第一损失未达到迭代停止条件。

需要说明的是,更新编码网络、解码网络和GST网络的参数,以及更新待训练的歌曲生成模型中与待训练歌曲的演唱者身份信息对应的声纹特征向量,可以是按照预设的参数调整规则实现。例如,对上述编码网络、GST网络以及解码网络的权重进行调整,可以通过梯度下降法等实现。

当然,上述歌曲生成模型的训练过程中,可以是仅基于第一损失确定待训练的歌曲生成模型是否需要进行迭代更新,还可以基于其他因素实现,具体地,上述基于第一损失,更新待训练的歌曲生成模型中编码网络、解码网络以及全局风格符号网络的参数之前,还可以包括:

计算第二损失,其中,第二损失为待训练的歌曲生成模型的全局风格符号网络中多个风格符号之间的余弦相似度之和;

上述基于第一损失,更新待训练的歌曲生成模型中编码网络、解码网络以及全局风格符号网络的参数,以及,更新待训练的歌曲生成模型中与训练歌曲的演唱者身份信息对应的声纹特征向量,可以包括:

基于第一损失和第二损失,更新待训练的歌曲生成模型中编码网络、解码网络以及全局风格符号网络的参数,以及,更新待训练的歌曲生成模型中与训练歌曲的演唱者身份信息对应的声纹特征向量。

基于此,在歌曲生成模型的训练的过程中,不仅将上述第一损失作为迭代停止的判断因素,还考虑GST网络中风格符号之间的区分度的损失,使得GST网络中的每个风格符号可以自动聚类得到不同的信息表示,从而使训练得到的歌曲生成模型中GST网络提取的参考输出向量更准确,进而提升歌曲生成模型的精度。

其中,上述计算第二损失,可以是将上述歌曲生成模型的GST网络中多个风格符号之间的余弦相似度作为上述第二损失,即上述区分度的损失可以是任意的余弦相似度。

更进一步地,上述第二损失为多个风格符号之间的最大余弦相似度,从而可以进一步增加风格符号之间的区分度,进一步使得各风格符号学习表示出的歌曲类型更明确,进而提升升歌曲生成模型的精度。

另外,上述基于第一损失和第二损失,更新待训练的歌曲生成模型中编码网络、解码网络以及全局风格符号网络的参数,以及,更新待训练的歌曲生成模型中与训练歌曲的演唱者身份信息对应的声纹特征向量,可以分别判断第一损失和第二损失是否达到迭代停止条件,若第一损失和第二损失中至少一个未达到迭代停止条件,则执行更新待训练的歌曲生成模型中编码网络、解码网络以及全局风格符号网络的参数,以及,更新待训练的歌曲生成模型中与训练歌曲的演唱者身份信息对应的声纹特征向量;若两者皆达到迭代停止条件,则将待训练的歌曲生成模型作为歌曲生成模型。

在上述步骤103中,在获取到上述第一编码输出向量、第一参考输出向量以及目标演唱者身份信息之后,通过歌曲生成模型中的解码网络,可以对第一编码输出向量、第一参考输出向量以及第一声纹特征向量进行连接并解码,生成第一歌曲,且该第一歌曲为具有目标演唱者身份信息对应的演唱者的声纹信息及目标歌曲风格的歌曲。

其中,上述第一声纹特征向量可以是上述歌曲生成模型中更新好的且与目标演唱者身份信息对应的声纹特征向量,且在训练得到的歌曲生成模型中包括声纹特征表,该声纹特征表包括训练过程中更新得到的多个声纹特征向量,多个声纹特征向量与多个演唱者身份信息一一对应的情况下,歌曲生成模型可以在声纹特征表中提取与上述目标演唱者身份信息对应的声纹特征向量作为上述第一声纹特征向量。

示例性地,以由演唱者A演唱的歌曲1且歌曲1为悲伤类别的歌曲为例,在将歌曲1的歌词文本和乐谱信息输入至目标生成模型的情况下,若用户输入欢快类别的歌曲2,则可以将歌曲1的歌词文本和乐谱信息生成的编码输出向量、欢快类别对应的参考输出向量以及演唱者A的声纹特征向量输入至上述歌曲生成模型的解码网络,生成由演唱者A演唱的欢快类别的歌曲3。

图5是根据一示例性实施例示出的一种歌曲生成装置框图。参照图5,该装置包括统计信息获取模块第一信息获取模块51、第一特征向量生成模块52和第一歌曲生成模块53。

根据本公开实施例的第二方面,提供一种歌曲生成装置,包括:

信息获取模块,被配置为获取歌词文本和乐谱信息,获取目标演唱者身份信息,以及,获取与目标歌曲风格对应的第一参考输出向量;

第一向量输出模块,被配置为将所述歌词文本和所述乐谱信息输入至歌曲生成模型中的编码网络,生成第一编码输出向量;

第一歌曲生成模块,被配置为将所述第一编码输出向量、所述第一参考输出向量以及第一声纹特征向量输入至所述歌曲生成模型中的解码网络中,生成第一歌曲,其中,所述第一声纹特征向量为所述歌曲生成模型中与所述目标演唱者身份信息对应的声纹特征向量,所述第一歌曲为具有所述目标演唱者身份信息对应的演唱者的声纹信息及所述目标歌曲风格的歌曲。

基于此,通过获取歌词文本、乐谱信息、目标演唱者身份信息以及目标歌曲风格对应的第一参考输出向量,将歌词文本和乐谱信息输入至歌曲生成模型的编码网络中生成第一编码输出向量,将第一编码输出向量、第一参考输出向量以及目标演唱者身份信息对应的声纹特征向量输入至歌曲生成模型的解码网络中,通过解码网络输出由目标演唱者身份信息对应的演唱者演唱且歌曲风格为目标歌曲风格的第二歌曲。如此,通过本公开实施例,可以实现通过歌曲生成模型,无监督地生成用户所需的歌曲风格的歌曲,无需用户输入繁琐的歌曲查找操作,提升获取不同类别的歌曲的效率。

在其中一个实施例中,所述装置,还包括:

训练歌曲确定模块,被配置为将歌曲训练集中的歌曲作为训练歌曲,其中,所述歌曲训练集包括标注有演唱者身份信息的至少一首歌曲;

第二向量输出模块,被配置为获取所述训练歌曲的歌词文本和乐谱信息输入至待训练的歌曲生成模型的编码网络中,生成第二编码输出向量;以及,通过待训练的歌曲生成模型的全局风格符号网络,提取所述训练歌曲的第二参考输出向量;

第二歌曲生成模块,被配置为将所述第二编码输出向量、所述第二参考输出向量以及所述训练歌曲的演唱者身份信息输入至待训练的歌曲生成模型的解码网络中,生成第二歌曲;

第一损失计算模块,被配置为计算得到所述第二歌曲与所述训练歌曲之间的第一损失;

迭代模块,被配置为基于所述第一损失,更新待训练的歌曲生成模型中所述编码网络、所述解码网络和所述全局风格符号网络的参数,以及,更新待训练的歌曲生成模型中与所述训练歌曲的演唱者身份信息对应的声纹特征向量,得到所述歌曲生成模型。

基于此,通过训练歌曲集中的歌曲对待训练的歌曲生成模型进行训练,得到歌曲生成模型,从而使得电子设备可以通过歌曲生成模型准确且快速地生成用户所需的歌曲风格的歌曲。

在其中一个实施例中,所述装置,还包括:

第二损失计算模块,被配置为计算第二损失,其中,所述第二损失为待训练的歌曲生成模型的全局风格符号网络中多个风格符号之间的余弦相似度之和;

所述迭代模块,具体被配置为:

基于所述第一损失和所述第二损失,更新待训练的歌曲生成模型中所述编码网络、所述解码网络以及所述全局风格符号网络的参数,以及,更新待训练的歌曲生成模型中与所述训练歌曲的演唱者身份信息对应的声纹特征向量。

基于此,在歌曲生成模型的训练的过程中,不仅将上述第一损失作为迭代停止的判断因素,还考虑GST网络中风格符号之间的区分度的损失,使得GST网络中的每个风格符号可以自动聚类得到不同的信息表示,从而使训练得到的歌曲生成模型中GST网络提取的参考输出向量更准确,进而提升歌曲生成模型的精度。

在其中一个实施例中,所述第一向量输出模块,包括:

歌曲接收单元,被配置为接收到输入的参考歌曲,其中,所述参考歌曲为具有目标歌曲风格的歌曲;

第一向量输出单元,被配置为将所述参考歌曲输入至所述歌曲生成模型中的全局风格符号网络中,提取第一参考输出向量。

基于此,通过将接收到的目标歌曲风格的参考歌曲输入至上述歌曲生成模型中的全局风格符号网络中,由GST网络提取到与目标歌曲风格对应的第一参考输出向量,从而使获取与目标歌曲风格对应的参考输出向量的操作更便捷且省时。

在其中一个实施例中,所述第一向量输出模块,包括:

权重信息接收单元,被配置为接收输入至所述歌曲生成模型的全局风格符号网络中的风格符号权重信息,其中,所述风格符号权重信息包括所述全局风格符号网络中的多个风格符号的权重,所述多个风格符号中不同风格符号用于表征不同的歌曲风格,且所述风格符号权重信息用于指示目标歌曲风格;

第二向量输出单元,被配置为所述全局风格符号网络生成与所述风格符号权重信息对应的第一参考输出向量。

基于此,通过将用于指示目标歌曲风格的风格符号权重信息输入至GST网络中,由GST网络生成与风格符号权重信息对应的第一参考输入向量,从而实现可以根据用户的需求灵活选择风格符号权重信息,进而实现灵活选取歌曲风格,使得歌曲生成的方式更灵活。

关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。

基于同一发明构思,本公开实施例还提供了一种计算设备,具体结合图6进行详细说明。

图6是根据一示例性实施例示出的一种计算设备的结构框图。

如图6所示,该计算设备600能够实现根据本公开实施例中的歌曲生成方法以及歌曲生成装置的计算设备的示例性硬件架构的结构图。该计算设备可以指代本公开实施例中的电子设备。

该计算设备600可以包括处理器601以及存储有计算机程序指令的存储器602。

具体地,上述处理器601可以包括中央处理器(CPU),或者特定集成电路(application specific integrated circuit,ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。

存储器602可以包括用于信息或指令的大容量存储器。举例来说而非限制,存储器602可包括硬盘驱动器(hard disk drive,HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(universal serial bus,USB)驱动器或者两个及其以上这些的组合。在合适的情况下,存储器602可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器602可在综合网关设备的内部或外部。在特定实施例中,存储器602是非易失性固态存储器。在特定实施例中,存储器602包括只读存储器(ROM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存,或者两个或及其以上这些的组合。

处理器601通过读取并执行存储器602中存储的计算机程序指令,以执行如下步骤:

处理器601,执行获取歌词文本和乐谱信息,获取目标演唱者身份信息,以及,获取与目标歌曲风格对应的第一参考输出向量;

将所述歌词文本和所述乐谱信息输入至歌曲生成模型中的编码网络,生成第一编码输出向量;

将所述第一编码输出向量、所述第一参考输出向量以及第一声纹特征向量输入至所述歌曲生成模型中的解码网络中,生成第一歌曲,其中,所述第一声纹特征向量为所述歌曲生成模型中与所述目标演唱者身份信息对应的声纹特征向量,所述第一歌曲为具有所述目标演唱者身份信息对应的演唱者的声纹信息及所述目标歌曲风格的歌曲。

基于此,通过获取歌词文本、乐谱信息、目标演唱者身份信息以及目标歌曲风格对应的第一参考输出向量,将歌词文本和乐谱信息输入至歌曲生成模型的编码网络中生成第一编码输出向量,将第一编码输出向量、第一参考输出向量以及目标演唱者身份信息对应的声纹特征向量输入至歌曲生成模型的解码网络中,通过解码网络输出由目标演唱者身份信息对应的演唱者演唱且歌曲风格为目标歌曲风格的第二歌曲。如此,通过本公开实施例,可以实现通过歌曲生成模型,无监督地生成用户所需的歌曲风格的歌曲,无需用户输入繁琐的歌曲查找操作,提升获取不同类别的歌曲的效率。

在其中一个实施例中,所述方法,还包括:

将歌曲训练集中的歌曲作为训练歌曲,其中,所述歌曲训练集包括标注有演唱者身份信息的至少一首歌曲;

获取所述训练歌曲的歌词文本和乐谱信息输入至待训练的歌曲生成模型的编码网络中,生成第二编码输出向量;以及,通过待训练的歌曲生成模型的全局风格符号网络,提取所述训练歌曲的第二参考输出向量;

将所述第二编码输出向量、所述第二参考输出向量以及所述训练歌曲的演唱者身份信息输入至待训练的歌曲生成模型的解码网络中,生成第二歌曲;

计算得到所述第二歌曲与所述训练歌曲之间的第一损失;

基于所述第一损失,更新待训练的歌曲生成模型中所述编码网络、所述解码网络和所述全局风格符号网络的参数,以及,更新待训练的歌曲生成模型中与所述训练歌曲的演唱者身份信息对应的声纹特征向量,得到所述歌曲生成模型。

基于此,通过训练歌曲集中的歌曲对待训练的歌曲生成模型进行训练,得到歌曲生成模型,从而使得电子设备可以通过歌曲生成模型准确且快速地生成用户所需的歌曲风格的歌曲。

在其中一个实施例中,所述基于所述第一损失,更新待训练的歌曲生成模型中所述编码网络、所述解码网络以及所述全局风格符号网络的参数之前,还包括:

计算第二损失,其中,所述第二损失为待训练的歌曲生成模型的全局风格符号网络中多个风格符号之间的余弦相似度之和;

所述基于所述第一损失,更新待训练的歌曲生成模型中所述编码网络、所述解码网络以及所述全局风格符号网络的参数,以及,更新待训练的歌曲生成模型中与所述训练歌曲的演唱者身份信息对应的声纹特征向量,包括:

基于所述第一损失和所述第二损失,更新待训练的歌曲生成模型中所述编码网络、所述解码网络以及所述全局风格符号网络的参数,以及,更新待训练的歌曲生成模型中与所述训练歌曲的演唱者身份信息对应的声纹特征向量。

基于此,在歌曲生成模型的训练的过程中,不仅将上述第一损失作为迭代停止的判断因素,还考虑GST网络中风格符号之间的区分度的损失,使得GST网络中的每个风格符号可以自动聚类得到不同的信息表示,从而使训练得到的歌曲生成模型中GST网络提取的参考输出向量更准确,进而提升歌曲生成模型的精度。

在其中一个实施例中,所述获取与目标歌曲风格对应的第一参考输出向量,包括:

接收到输入的参考歌曲,其中,所述参考歌曲为具有目标歌曲风格的歌曲;

将所述参考歌曲输入至所述歌曲生成模型中的全局风格符号网络中,提取第一参考输出向量。

基于此,通过将接收到的目标歌曲风格的参考歌曲输入至上述歌曲生成模型中的全局风格符号网络中,由GST网络提取到与目标歌曲风格对应的第一参考输出向量,从而使获取与目标歌曲风格对应的参考输出向量的操作更便捷且省时。

在其中一个实施例中,所述获取与目标歌曲风格对应的第一参考输出向量,包括:

接收输入至所述歌曲生成模型的全局风格符号网络中的风格符号权重信息,其中,所述风格符号权重信息包括所述全局风格符号网络中的多个风格符号的权重,所述多个风格符号中不同风格符号用于表征不同的歌曲风格,且所述风格符号权重信息用于指示目标歌曲风格;

所述全局风格符号网络生成与所述风格符号权重信息对应的第一参考输出向量。

基于此,通过将用于指示目标歌曲风格的风格符号权重信息输入至GST网络中,由GST网络生成与风格符号权重信息对应的第一参考输入向量,从而实现可以根据用户的需求灵活选择风格符号权重信息,进而实现灵活选取歌曲风格,使得歌曲生成的方式更灵活。

在一个示例中,该计算设备600还可包括收发器603和总线604。其中,如图6所示,处理器601、存储器602和收发器603通过总线604连接并完成相互间的通信。

总线604包括硬件、软件或两者。举例来说而非限制,总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围控件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线1003可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。

本公开实施例还提供了一种计算机存储介质,所述计算机存储介质中存储有计算机可执行指令,所述计算机可执行指令用于实现本公开实施例所记载的歌曲生成方法。

本公开实施例还提供了一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令被处理器执行时实现如第一方面所述的歌曲生成方法。

其中,所述计算机程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于:电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

本公开是参照根据本公开的方法、设备和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程歌曲生成设备的处理器以产生一个机器,使得通过计算机或其他可编程歌曲生成设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程歌曲生成设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程歌曲生成设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。

应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

完整详细技术资料下载
上一篇:石墨接头机器人自动装卡簧、装栓机
下一篇:一种用于启蒙教学的超声波无弦琴

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!