跨语种歌曲合成方法及其装置、设备、介质、产品与流程

1.本技术涉及音频处理技术领域，尤其涉及一种跨语种歌曲合成方法及其相应的装置、计算机设备、计算机可读存储介质，以及计算机程序产品。

背景技术：

2.目前，歌曲合成技术通常采用神经网络模型来实现，具体是采用预训练的声学模型和声码器来实现，其基本原理均是根据相关乐谱将多种声学特征结合来获得相应的歌唱音频数据。
3.一方面，由于声学模型需经预训练，而相关的歌曲版权费用比较高昂，因此，歌曲合成高昂的实现成本为相应的技术实现提取更高要求，一个好的技术实现方案，有利于节约相应的训练成本是关键。
4.另一方面，一种现实需求中，常希望能够针对同一歌曲合成出不同演唱语种的歌曲，例如，用户希望基于自身的音色演唱同一歌曲的不同语种的版本，在传统技术框架下，需要采用利用不语种训练的声学模型分别为用户合成歌曲，而不同语种分别训练的声学模型，其所需的训练样本的成本以及训练过程中的种种困难可想而知。
5.此外，现有技术中，各种语言的声学模型各自为政，无法实现跨语种服务，为在线音乐合成带来了接口调度方面的不便，且也无法保证合成歌曲的音质的一致性，可能出现不同语种的声学模型所获得的合成歌曲的音质完全不同的效果，会造成用户困扰。
6.综上可见，在处理不同语种的歌曲合成方面，现有的歌曲合成技术，仍有提升的空间。

技术实现要素：

7.本技术的首要目的在于解决上述问题至少之一而提供一种跨语种歌曲合成方法及其相应的装置、计算机设备、计算机可读存储介质、计算机程序产品，以实现辅助音乐创作。
8.为满足本技术的各个目的，本技术采用如下技术方案：
9.适应本技术的目的之一而提供的一种跨语种歌曲合成方法，包括如下步骤：
10.获取目标歌曲的目标乐谱及合成配置信息，所述合成配置信息包括歌曲演唱语种、目标音高对象以及目标音色对象；
11.根据所述歌曲演唱语种调用其相对应的音素词典对所述目标乐谱进行编码，获得目标歌曲的音素特征信息和音序特征信息，所述音素词典包含其相应的语种的音素与编码数值之间的映射关系；
12.采用预训练的声学模型，根据歌曲合成特征信息进行编解码，获得梅尔频谱信息，所述歌曲合成特征信息包含所述音素特征信息、音序特征信息、对应所述目标音高对象生成的音高特征信息以及对应所述目标音色对象生成的预设音色特征信息；
13.采用声码器将所述梅尔频谱信息转换为目标歌曲相对应的音频数据。
14.深化的实施例中，根据所述歌曲演唱语种调用其相对应的音素词典对所述目标乐谱进行编码，获得目标歌曲的音素特征信息和音序特征信息，包括如下步骤：
15.根据所述歌曲演唱语种，从音素词典库中确定与该演唱语种相对应的音素词典，所述音素词典库包含不同演唱语种相对应的多个音素词典；
16.根据所述目标乐谱中的歌词文本对应所述演唱语种的歌词发音标注信息中的各个音素，从所述音素词典中查找所述各个音素相对应的编码数值，构造出所述歌词相对应的音素特征信息；
17.根据所述各个音素的位置信息编码出与所述音素特征信息相对应的音序特征信息。
18.扩展的实施例中，采用预训练的声学模型，根据歌曲合成特征信息进行编解码，获得梅尔频谱信息之前，包括如下步骤：
19.根据所述目标乐谱中的旋律标注信息生成目标歌曲的音符特征信息；
20.将所述目标歌曲的音符特征信息、音素特征信息以及音序特征信息输入预训练的匹配所述目标对象的控制参数的音高生成模型，以生成所述目标音高对象的音高特征信息；
21.根据所述目标音色对象从预设的音色特征库中调用该目标音色对象的音色特征信息；
22.将所述音素特征信息、音序特征信息、目标音高对象的音高特征信息以及目标音色对象的音色特征信息拼接为歌曲合成特征信息。
23.深化的实施例中，采用预训练的声学模型，根据歌曲合成特征信息进行编解码，获得梅尔频谱信息，包括如下步骤：
24.采用声学模型中的编码网络对歌曲合成特征信息集进行编码处理，获得编码后的编码特征向量；
25.对编码后的编码特征向量进行降采样处理，得到降采样后的编码特征向量；
26.采用注意力机制对降采样后的编码特征向量进行特征重组处理，得到根据上下文信息重组后的编码特征向量；
27.采用声学模型中的解码网络对重组后的编码特征向量进行解码处理，得到梅尔频谱信息。
28.进一步的实施例中，采用声学模型中的解码网络对重组后的编码特征向量进行解码处理，得到梅尔频谱信息之后，还包括如下步骤：
29.采用残差预估网络对从解码网络得到的音频数据的梅尔频谱信息进行残差预估处理，得到残差信息；
30.基于残差信息对该音频数据的梅尔频谱信息进行修正，得到修正后的梅尔频谱信息。
31.具体化的实施例中，采用声码器将所述梅尔频谱信息转换为目标歌曲相对应的音频数据，包括如下步骤：
32.获得所述声学模型输出的对应目标歌曲人声演唱部分的第一音频数据；
33.获取目标歌曲相对应的背景音乐的第二音频数据；
34.提取所述背景音乐与所述目标歌曲的目标乐谱所共同遵循的乐曲基础信息，所述
乐曲基础信息包括演奏时速、拍号以及调号；
35.根据所述乐曲基础信息，将所述第一音频数据与所述第二音频数据合成为目标歌曲相对应的音频数据；
36.输出所述目标歌曲相对应的音频数据。
37.扩展的实施例中，所述声学模型被预训练，其训练过程包括如下步骤：
38.获取训练样本集，所述训练样本集包括多组训练样本，多组训练样本包含由相同歌手演唱的不同演唱语种的歌曲样本，以及分别由不同歌手演唱的不同演唱语种的歌曲样本，每组歌曲样本均包含歌曲相应的音频数据及其歌词发音标注信息；
39.针对每组训练样本，将所述声学模型作为目标训练模型执行如下过程的迭代训练：
40.根据所述发音标注信息进行编码获得歌曲样本相对应的音素特征信息及音序特征信息，所述音素特征信息中，同一演唱语种的歌词发音标注信息中的音素根据音素词典库中与该演唱语种相对应的音素词典的编码数值进行表示；
41.采用预设算法提取其中的歌曲样本的音高特征信息；
42.采用预训练的音色提取模型提取其中的歌曲样本的演唱歌手相对应的音色特征信息，构造用于存储所述音色特征信息与演唱歌手之间的映射关系数据的音色特征库；
43.采用预设算法提取其中的歌曲样本的原始梅尔频谱信息；
44.将该训练样本的音素特征信息、音序特征信息、音高特征信息以及音色特征信息输入目标训练模型以预测梅尔频谱信息，利用所述原始梅尔频谱信息监督训练过程，在目标训练模型未收敛时循环进行下一训练样本的迭代训练。
45.适应本技术的目的之一而提供的一种跨语种歌曲合成装置，包括：数据获取模块、乐谱编码模块、声学合成模块，以及频谱转换模块，其中，所述数据获取模块，用于获取目标歌曲的目标乐谱及合成配置信息，所述合成配置信息包括歌曲演唱语种、目标音高对象以及目标音色对象；所述乐谱编码模块，用于根据所述歌曲演唱语种调用其相对应的音素词典对所述目标乐谱进行编码，获得目标歌曲的音素特征信息和音序特征信息，所述音素词典包含其相应的语种的音素与编码数值之间的映射关系；所述声学合成模块，用于采用预训练的声学模型，根据歌曲合成特征信息进行编解码，获得梅尔频谱信息，所述歌曲合成特征信息包含所述音素特征信息、音序特征信息、对应所述目标音高对象生成的音高特征信息以及对应所述目标音色对象生成的预设音色特征信息；所述频谱转换模块，用于采用声码器将所述梅尔频谱信息转换为目标歌曲相对应的音频数据。
46.深化的实施例中，所述乐谱编码模块，包括：词典调用子模块，用于根据所述歌曲演唱语种，从音素词典库中确定与该演唱语种相对应的音素词典，所述音素词典库包含不同演唱语种相对应的多个音素词典；音素映射子模块，用于根据所述目标乐谱中的歌词文本对应所述演唱语种的歌词发音标注信息中的各个音素，从所述音素词典中查找所述各个音素相对应的编码数值，构造出所述歌词相对应的音素特征信息；音序映射子模块，用于根据所述各个音素的位置信息编码出与所述音素特征信息相对应的音序特征信息。
47.扩展的实施例中，本技术的跨语种歌曲合成装置，还包括：音符编码模块，用于根据所述目标乐谱中的旋律标注信息生成目标歌曲的音符特征信息；音高生成模块，用于将所述目标歌曲的音符特征信息、音素特征信息以及音序特征信息输入预训练的匹配所述目
标对象的控制参数的音高生成模型，以生成所述目标音高对象的音高特征信息；音色调用模块，用于根据所述目标音色对象从预设的音色特征库中调用该目标音色对象的音色特征信息；特征拼接模块，用于将所述音素特征信息、音序特征信息、目标音高对象的音高特征信息以及目标音色对象的音色特征信息拼接为歌曲合成特征信息。
48.深化的实施例中，所述声学合成模块，包括：特征编码子模块，用于采用声学模型中的编码网络对歌曲合成特征信息集进行编码处理，获得编码后的编码特征向量；特征采样子模块，用于对编码后的编码特征向量进行降采样处理，得到降采样后的编码特征向量；特征重组子模块，用于采用注意力机制对降采样后的编码特征向量进行特征重组处理，得到根据上下文信息重组后的编码特征向量；特征解码子模块，用于采用声学模型中的解码网络对重组后的编码特征向量进行解码处理，得到梅尔频谱信息。
49.进一步的实施例中，所述声学合成模块，还包括：残差预估子模块，用于采用残差预估网络对从解码网络得到的音频数据的梅尔频谱信息进行残差预估处理，得到残差信息；频谱修正子模块，用于基于残差信息对该音频数据的梅尔频谱信息进行修正，得到修正后的梅尔频谱信息。
50.具体化的实施例中，所述频谱转换模块，包括：人声获取子模块，用于获得所述声学模型输出的对应目标歌曲人声演唱部分的第一音频数据；伴奏获取子模块，用于获取目标歌曲相对应的背景音乐的第二音频数据；乐谱提取子模块，用于提取所述背景音乐与所述目标歌曲的目标乐谱所共同遵循的乐曲基础信息，所述乐曲基础信息包括演奏时速、拍号以及调号；全曲合成子模块，用于根据所述乐曲基础信息，将所述第一音频数据与所述第二音频数据合成为目标歌曲相对应的音频数据；歌曲输出子模块，用于输出所述目标歌曲相对应的音频数据。
51.扩展的实施例中，本技术的跨语种歌曲合成装置，还包括所述声学模型的训练模块，该训练模块包括：样本获取子模块，用于获取训练样本集，所述训练样本集包括多组训练样本，多组训练样本包含由相同歌手演唱的不同演唱语种的歌曲样本，以及分别由不同歌手演唱的不同演唱语种的歌曲样本，每组歌曲样本均包含歌曲相应的音频数据及其歌词发音标注信息；迭代训练子模块，用于针对每组训练样本，将所述声学模型作为目标训练模型执行如下过程的迭代训练：根据所述发音标注信息进行编码获得歌曲样本相对应的音素特征信息及音序特征信息，所述音素特征信息中，同一演唱语种的歌词发音标注信息中的音素根据音素词典库中与该演唱语种相对应的音素词典的编码数值进行表示；采用预设算法提取其中的歌曲样本的音高特征信息；采用预训练的音色提取模型提取其中的歌曲样本的演唱歌手相对应的音色特征信息，构造用于存储所述音色特征信息与演唱歌手之间的映射关系数据的音色特征库；采用预设算法提取其中的歌曲样本的原始梅尔频谱信息；将该训练样本的音素特征信息、音序特征信息、音高特征信息以及音色特征信息输入目标训练模型以预测梅尔频谱信息，利用所述原始梅尔频谱信息监督训练过程，在目标训练模型未收敛时循环进行下一训练样本的迭代训练。
52.适应本技术的目的之一而提供的一种计算机设备，包括中央处理器和存储器，所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行本技术所述的跨语种歌曲合成方法的步骤。
53.适应本技术的另一目的而提供的一种计算机可读存储介质，其以计算机可读指令
的形式存储有依据所述的跨语种歌曲合成方法所实现的计算机程序，该计算机程序被计算机调用运行时，执行该方法所包括的步骤。
54.适应本技术的另一目的而提供的一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现本技术任意一种实施例中所述方法的步骤。
55.相对于现有技术，本技术的优势如下：
56.本技术通过预备多个不同语种的音素词典，在需要合成目标歌曲时，根据预先指定的演唱语种，调用该演唱语种相应的音素词典为其编码歌曲合成所需的相应的音素特征信息及音序特征信息，然后再将这些特征信息与预先指定的目标音高对象的音高特征信息、目标音色对象的音色特征信息投入经预先训练的声学模型合成目标歌曲相对应的梅尔频谱信息，最后用声码器根据该梅尔频谱信息转换出相对应的目标歌曲，由于在此过程中依据相应语种的音素词典确定了音素特征信息，而该声学模型又采用同理进行了预训练，因此，可以基于一个统一的声学模型服务于不同演唱语种的歌曲合成的需要，相应合成出经预训练的任意一种演唱语种相对应的目标歌曲。
附图说明
57.本技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：
58.图1为本技术的跨语种歌曲合成方法的典型实施例的流程示意图；
59.图2为用于实施本技术的跨语种歌曲合成方法的网络结构示意图；
60.图3为本技术实施例中根据音素词典进行编码的过程的流程示意图；
61.图4为本技术实施例中获得声学模型所需的歌曲合成特征信息的过程的流程示意图；
62.图5为本技术实施例中声学模型编解码过程的流程示意图；
63.图6为本技术实施例中实现背景音乐与目标歌曲人声发音部分合成的过程的流程示意图；
64.图7为本技术实施例中对声学模型的迭代训练过程的流程示意图；
65.图8为本技术的跨语种歌曲合成装置的原理框图；
66.图9为本技术所采用的一种计算机设备的结构示意图。
具体实施方式
67.下面详细描述本技术的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本技术，而不能解释为对本技术的限制。
68.本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本技术的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措
辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
69.本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本技术所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。
70.本技术领域技术人员可以理解，这里所使用的“客户端”、“终端”、“终端设备”既包括无线信号接收器的设备，其仅具备无发射能力的无线信号接收器的设备，又包括接收和发射硬件的设备，其具有能够在双向通信链路上，进行双向通信的接收和发射硬件的设备。这种设备可以包括：蜂窝或其他诸如个人计算机、平板电脑之类的通信设备，其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备；pcs(personal communications service，个人通信系统)，其可以组合语音、数据处理、传真和/或数据通信能力；pda(personal digital assistant，个人数字助理)，其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或gps(global positioning system，全球定位系统)接收器；常规膝上型和/或掌上型计算机或其他设备，其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“客户端”、“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的，或者适合于和/或配置为在本地运行，和/或以分布形式，运行在地球和/或空间的任何其他位置运行。这里所使用的“客户端”、“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端，例如可以是pda、mid(mobile internet device，移动互联网设备)和/或具有音乐/视频播放功能的移动电话，也可以是智能电视、机顶盒等设备。
71.本技术所称的“服务器”、“客户端”、“服务节点”等名称所指向的硬件，本质上是具备个人计算机等效能力的电子设备，为具有中央处理器(包括运算器和控制器)、存储器、输入设备以及输出设备等冯诺依曼原理所揭示的必要构件的硬件装置，计算机程序存储于其存储器中，中央处理器将存储在外存中的程序调入内存中运行，执行程序中的指令，与输入输出设备交互，借此完成特定的功能。
72.需要指出的是，本技术所称的“服务器”这一概念，同理也可扩展到适用于服务器机群的情况。依据本领域技术人员所理解的网络部署原理，所述各服务器应是逻辑上的划分，在物理空间上，这些服务器既可以是互相独立但可通过接口调用的，也可以是集成到一台物理计算机或一套计算机机群的。本领域技术人员应当理解这一变通，而不应以此约束本技术的网络部署方式的实施方式。
73.本技术的一个或数个技术特征，除非明文指定，既可部署于服务器实施而由客户端远程调用获取服务器提供的在线服务接口来实施访问，也可直接部署并运行于客户端来实施访问。
74.本技术中所引用或可能引用到的神经网络模型，除非明文指定，既可部署于远程服务器且在客户端实施远程调用，也可部署于设备能力胜任的客户端直接调用，某些实施例中，当其运行于客户端时，其相应的智能可通过迁移学习来获得，以便降低对客户端硬件运行资源的要求，避免过度占用客户端硬件运行资源。
75.本技术所涉及的各种数据，除非明文指定，既可远程存储于服务器，也可存储于本
地终端设备，只要其适于被本技术的技术方案所调用即可。
76.本领域技术人员对此应当知晓：本技术的各种方法，虽然基于相同的概念而进行描述而使其彼此间呈现共通性，但是，除非特别说明，否则这些方法都是可以独立执行的。同理，对于本技术所揭示的各个实施例而言，均基于同一发明构思而提出，因此，对于相同表述的概念，以及尽管概念表述不同但仅是为了方便而适当变换的概念，应被等同理解。
77.本技术即将揭示的各个实施例，除非明文指出彼此之间的相互排斥关系，否则，各个实施例所涉的相关技术特征可以交叉结合而灵活构造出新的实施例，只要这种结合不背离本技术的创造精神且可满足现有技术中的需求或解决现有技术中的某方面的不足即可。对此变通，本领域技术人员应当知晓。
78.本技术的一种跨语种歌曲合成方法，可被编程为计算机程序产品，部署于客户端和/或服务器中运行而实现，藉此，客户端可以网页程序或应用程序的形式访问该计算机程序产品运行后开放的接口，通过图形用户界面与该计算机程序产品的进程实现人机交互。
79.请参阅图1和图2，在其典型实施例中，该方法通过图2所示的网络架构实施，包括如下步骤：
80.步骤s1100、获取目标歌曲的目标乐谱及合成配置信息，所述合成配置信息包括歌曲演唱语种、目标音高对象以及目标音色对象：
81.为了创作本技术的目标歌曲，需要收集生成目标歌曲所需的素材，所述的素材包括目标乐谱和合成配置信息。
82.所述合成配置信息中，包括歌曲演唱语种、目标音高对象以及目标音色对象。所述歌曲演唱语种用于指示目标歌曲的演唱语种，以便指示声学模型以何种演唱语言合成所述的目标歌曲；所述目标音高对象可为歌手标签，用于使目标歌曲以相应的歌手的唱功进行虚拟演唱；所述目标音色对象也可为歌手标签，用于使目标歌曲获得相应歌手的音色表现。需要指出的是，所述目标音高对象与目标音色对象，既可以是指向相同歌手，也可以指向不同歌手。
83.所述的唱功，是指演唱者在演唱歌曲旋律时，适应旋律中各个音符及跨音符进行演唱时，表现出音调变化、节奏把握以及气息变换等方面的技巧，也即演唱者处理歌词吐字发声的演唱表现。一个歌手的唱功通常体现在声、气、字等方面的把握。在声学原理上，唱功表现到相应的频谱中，便是演唱者的音高变化特征。由此可知，不同的演唱者，由于长期的演唱习惯使然，便形成了其个性化的音高变化特征，这些音高变化特征可以借助音高提取相关的神经网络模型或其他语音合成手段获得。
84.除了确定目标歌曲所需的目标音高对象和目标音色对象，还需进一步获取相应的目标乐谱，所述的目标乐谱一般是由用户在其客户端借助歌曲辅助创作系统谱写的，包括曲谱和歌词文本，曲谱由多个不同音长的不同音符序列构成，歌词文本由与音符相对齐的歌词文字构成，当然，曲谱与歌词文本可以来源于由不同用户创作，只需要应本技术的技术方案所需，一并作为目标歌曲的创作素材提供即可。
85.步骤s1200、根据所述歌曲演唱语种调用其相对应的音素词典对所述目标乐谱进行编码，获得目标歌曲的音素特征信息和音序特征信息，所述音素词典包含其相应的语种的音素与编码数值之间的映射关系：
86.本技术中，预备一个音素词典库，该音素词典库包括多个音素词典，每个音素词典
存储一种演唱语种相对应的音素与其编码数值之间的映射关系，例如将声母“zh、ch、sh”分别与“0、1、2”相映射，并且，不同演唱语种的音素词典中，即使音素基本相同，其映射编码数值也可以不同。由此，所述音素词典库便具有不同演唱语种相对应的音素词典，在需要针对某一演唱语种进行歌曲合成时，便可调用该演唱语种相对应的音素词典用于对音素进行编码。所述的音素词典在本技术的声学模型被训练的阶段便已制备，以便使声学模型在训练过程中能也能据此进行音素的相关编码，从而使其习得这些音素词典编码而成的音素特征信息进行目标演唱语种的歌曲合成的能力。
87.故此，当需要合成目标歌曲时，根据所述合成配置信息中预先给定的演唱语种，便可调用与该演唱语种相对应的音素词典，然后利用其中音素与编码数值的映射关系，将所述目标歌曲的目标乐谱中的歌词文本对应转换其音素特征信息，与此同时，根据各个音素在歌词文本中的位置信息编码出相应的音序特征信息，对此，本领域技术人员根据本技术此处的揭示，可以灵活实施。
88.一个实施例中，将目标歌曲的目标乐谱中的歌词文本对应转换其音素特征信息，需要先获取所述歌词文本对应所述给定的演唱语种的歌词发音标注信息，然后再根据歌词发音标注信息中标示的各个声韵母，将其视为音素，查找相应的音素词典来实现所述的编码，以获得相应的音素特征信息和音序特征信息。
89.步骤s1300、采用预训练的声学模型，根据歌曲合成特征信息进行编解码，获得梅尔频谱信息，所述歌曲合成特征信息包含所述音素特征信息、音序特征信息、对应所述目标音高对象生成的音高特征信息以及对应所述目标音色对象生成的预设音色特征信息：
90.本技术利用预先训练的声学模型用于目标歌曲的合成，所述声学模型被训练为适于根据歌曲合成特征信息进行编解码而获得目标歌曲相对应的梅尔频谱信息。
91.所述歌曲合成特征信息，包括合成目标歌曲所需的所述音素特征信息、所述音序特征信息、所述目标音高对象的音高特征信息，以及所述目标音色对象的音色特征信息。关于歌曲合成特征信息的制备过程，将在本技术后续的实施例中揭示，本领域技术人员也可参考现有技术的实现方式，获取所述的音高特征信息与音色特征信息，进而为目标歌曲构造出本实施例所需的歌曲合成特征信息。例如，所述的音高特征信息及音色特征信息也可以是已经预先制备并存档的，在需要制备歌曲合成特征信息时，根据所述目标音高对象和目标音色对象相应提取即可。
92.所述声学模型，包括但不限于诸如tactron、tactron2、fastspeech、durian等，通常是基于适于处理序列信息的lstm、bilstm网络模型开发实现的，可以理解，只要适于根据所述歌曲合成特征信息进行编解码，将本技术加工后形成的歌曲合成特征信息转换为目标歌曲所需的梅尔频谱信息的相关现有及未来实现的声学模型，均可构成本技术所需的声学模型。
93.所述的声学模型根据所述歌曲合成特征信息进行编解码，将所述歌曲合成特征信息转换为梅尔频谱信息，使其中表现出所述的目标音高对象的音高特征信息及目标音色对象的音色特征信息。
94.步骤s1400、采用声码器将所述梅尔频谱信息转换为目标歌曲相对应的音频数据：
95.在获得所述梅尔频谱信息的基础上，应用诸如wavenet、vocoder、world/straight、griffin-lim之类的声码器，即可将所述梅尔频谱信息转换为音频数据，可以理
解，所述音频数据包含目标歌曲人声演唱部分的内容。
96.根据本典型实施例中，可以看出，本技术通过预备多个不同语种的音素词典，在需要合成目标歌曲时，根据预先指定的演唱语种，调用该演唱语种相应的音素词典为其编码歌曲合成所需的相应的音素特征信息及音序特征信息，然后再将这些特征信息与预先指定的目标音高对象的音高特征信息、目标音色对象的音色特征信息投入经预先训练的声学模型合成目标歌曲相对应的梅尔频谱信息，最后用声码器根据该梅尔频谱信息转换出相对应的目标歌曲，由于在此过程中依据相应语种的音素词典确定了音素特征信息，而该声学模型又采用同理进行了预训练，因此，可以基于一个统一的声学模型服务于不同演唱语种的歌曲合成的需要，相应合成出经预训练的任意一种演唱语种相对应的目标歌曲。
97.根据本典型实施例也可以看出，在预训练的声学模型的基础上，通过在音素词典库中提供多个演唱语种相对应的音素词典供歌曲合成时调用，使得声学模型可以为不同演唱语种的歌曲合成提供统一服务，有利于统一服务接口，而使所合成的目标歌曲具备音质上的一致性，特别适于架构统一的歌曲合成服务。
98.请参阅图3，深化的实施例中，所述步骤s1200、根据所述歌曲演唱语种调用其相对应的音素词典对所述目标乐谱进行编码，获得目标歌曲的音素特征信息和音序特征信息，包括如下步骤：
99.步骤s1210、根据所述歌曲演唱语种，从音素词典库中确定与该演唱语种相对应的音素词典，所述音素词典库包含不同演唱语种相对应的多个音素词典：
100.本实施例中，利用在预训练阶段做好音素与编码数值之间映射关系的音素词典库来确定目标歌曲合成所需的音素词典，如前所述，每一音素词典仅存储一种演唱语种的音素至其相应的编码数值之间的映射关系数据，因此，由这些音素词典构成的音素词典库存储了多种演唱语言相对应的音素与编码数值间映射关系的数据，在需要进行目标歌曲合成时，直接根据在本技术的歌曲合成配置信息中给出的歌曲演唱语种，调用相应的音素词典即可。
101.步骤s1220、根据所述目标乐谱中的歌词文本对应所述演唱语种的歌词发音标注信息中的各个音素，从所述音素词典中查找所述各个音素相对应的编码数值，构造出所述歌词相对应的音素特征信息：
102.所述目标乐谱，已经给出了给定的演唱语种相对应的歌词文本，本领域技术人员知晓，根据所述歌词文本，可以获得其相对应的歌词发音标注信息，例如，根据中文歌词文本，可以获取其相应的拼音信息，所述拼音信息即为所述的歌词发音标注信息；对于英文歌词文本亦然，可以获取英文歌词文本的音标信息作为相应的歌词发音标注信息。
103.根据所述的歌词发音标注信息，便可分解出其中的各个声母、韵母作为音素，然后，利用所述演唱语种相对应的音素词典，查询获取各个音素相对应的编码数值，构造出相应的音素编码向量，作为相应的音素特征信息。可以理解，所述音素特征信息，是根据曲谱和歌词文本的歌词发音标注信息沿目标歌曲的时域分帧进行编码形成的音素序列。
104.步骤s1230、根据所述各个音素的位置信息编码出与所述音素特征信息相对应的音序特征信息：
105.此外，为了指示各个音素的位置信息，也相应编码出音素编码向量相对应的音序编码向量，作为相应的音序特征信息。至此，便完成了所述歌词文本相对应的编码过程。可
以理解，所述音序特征信息是由所述音素序列中的音素所处位置信息编码形成的音素位置序列。
106.本实施例中，以给定的演唱语种为依据，调用相应的音素词典进行相应语种的音素特征信息和音序特征信息的编码，为目标歌曲的合成奠定了发音基础，由于通过演唱语种到音素词典的映射关系建立了向量化的基础知识，方便声学模型对目标歌曲进行相应语种的深层语义表示，使预训练的声学模型可以发挥其统一服务各种不同的演唱语种的作用，从而方便由声学模型合成出相应语种的目标歌曲。
107.请参阅图4、扩展的实施例中，步骤s1300、采用预训练的声学模型，根据歌曲合成特征信息进行编解码，获得梅尔频谱信息之前，包括如下步骤：
108.步骤s1301、根据所述目标乐谱中的旋律标注信息生成目标歌曲的音符特征信息：
109.本实施例中，歌曲合成特征信息中的音高特征信息可借助音高生成模型来实时生成，为此，需要根据所述目标乐谱中的曲谱所提供的旋律标注信息来确定相应的音符特征信息，所述音符特征信息即是曲调特征向量，用于指示目标歌曲中旋律相应的各个音符的曲调信息。
110.步骤s1302、将所述目标歌曲的音符特征信息、音素特征信息以及音序特征信息输入预训练的匹配所述目标对象的控制参数的音高生成模型，以生成所述目标音高对象的音高特征信息：
111.本技术采用音高生成模型用于生成目标音高对象的音高特征信息，该音高生成模型可以基于本领域的语音信号处理的手段或者基于深度语义学习的方式来构造。所述音高生成模型经过预先训练，使其适于利用一个目标音高对象的身份标签而获取其相对应的控制参数集，在该控制参数集的作用下，而能够生成融合了该目标音高对象的音高变化特征的音高特征信息。
112.在所述音高生成模型的作用下，可以生成所述目标乐谱相对应的音高特征信息，所述音高特征信息所表征的音高变化特征即为目标音高对象的音高变化特征，这一音高变化特征所表征的唱功，可以涵盖相应依赖其生成的发音数据被播放时所呈现的节奏、音准、气息、真假音的转换流畅程度、换声断层的明显程度、声音的通透程度中至少一项或任意多项。
113.由此可见，在所述音高生成模型的作用下，所述目标乐谱便被转换为基频信息，并且借助目标音高对象的音高变化特征对该基频信息进行了修正，使其融合了目标音高对象相应的音高变化特征，从而获得所述的目标歌曲本身的音高特征信息。
114.由此可知，所述音高生成模型采用现有技术中预训练的音高生成模型即可，其适于根据目标音高对象获取相对应的控制参数，然后根据所述音符特征信息、音素特征信息以及音序特征信息生成所述目标音高对象的音高特征信息。
115.一个具体化的实施例中，可以利用音高生成模型，按照如下过程生成目标歌曲的音高特征信息：
116.首先，根据目标音高对象的身份标签调用相应的控制参数集配置所述音高生成模型，所述音高生成模型根据该目标音高对象的音频数据及其相应的目标乐谱为训练样本训练而生成关联于该目标音高对象的身份标签的所述控制参数集：
117.适应采用控制参数集控制音高生成模型的情况，需要先根据目标音高对象确定其
相对应的控制参数集，而所述控制参数集已事先由该音高生成模型生成并与目标音高对象的身份标签关联存储。对于采用语音参数合成所实现的音高生成模型，所述控制参数集是指其为了实现融合目标音高对象的音高变化特征而需具备的相关语音控制参数；对于基于深层语义学习的音高生成模型，例如单人或多人音高生成模型，所述控制参数集是指其适应具体目标音高对象相对应的权重参数。
118.需要使用音高生成模型用于结合目标音高对象的音高变化特征和目标乐谱生成相应的音高特征信息时，音高生成模型根据该目标音高对象的身份标签调用相应的控制参数集进行配置，以此为基础便可实现基于所述目标乐谱生成融合了目标音高对象的音高变化特征的音高特征信息。
119.可以理解，所述音高生成模型应被预先训练，在其训练过程中，采用所述目标音高对象的多个音频数据及其对应的样本乐谱作为训练样本，使音高生成模型实现对该音频数据的正确分类，对应到目标音高对象的身份标签，由此便获得了对目标音高对象进行音高变化特征提取和合成的能力。对此，本领域技术人员可以根据选用的具体网络模型进行灵活处理，恕不赘述。
120.然后，由该音高生成模型根据所述目标乐谱中的曲谱及歌词文本生成融合了目标音高对象的音高变化特征的所述音高特征信息：
121.所述音高生成模型按照如下过程生成音高特征信息：获取目标乐谱，所述目标乐谱中包含曲谱所包含的曲调信息以及根据歌词文本确定的文字发音信息；基于所述曲调信息以及所述文字发音信息，获取所述目标乐谱的综合特征向量集合；所述综合特征向量集合用以表征所述曲调信息的特征以及所述文字发音信息的特征，由此，所述综合特征向量集合便实现了对所述的音符特征信息、音素特征信息以及音序特征信息的综合；最后对所述综合特征向量集合进行解码，生成所述目标乐谱对应的音高特征信息。
122.据此，借助经预先训练的音高生成模型，利用其习得的能力，能够更为便捷地根据目标音高对象的身份标签而调用相应的控制参数集，实现将目标音高对象的音高变化特征融入到其生成的音高特征信息中，能够实现音高特征信息的快速提取，可以提升音乐辅助创作的加工生产效率。
123.步骤s1303、根据所述目标音色对象从预设的音色特征库中调用该目标音色对象的音色特征信息：
124.如前所述，音色特征信息是预先生成的，其与目标音色对象的身份标签关联存储，可以直接通过目标音色对象的身份标签进行调用。所述音色特征信息本质上是一个声纹特征向量，经预训练的音色提取模型预先提取生成。
125.所述音色提取模型按照如下过程从目标音色对象的音频采样数据中提取出相应的音色特征信息：获取音频采样数据，从中提取出人声发音部分相对应的梅尔频谱信息；从所述梅尔频谱信息中提取出表征该音频采样数据的目标音色对象的音色的向量矩阵集，该向量矩阵集包括时域上的多个向量矩阵；求取所述向量矩阵集中多个向量矩阵之间的均值向量矩阵作为目标音色对象的声纹特征信息；生成所述目标音色对象相对应的音色模板，所述音色模板包括目标音色对象的身份标签及由该身份标签所指向的所述声纹特征信息。
126.从所述梅尔频谱信息中提取出表征该音频采样数据的目标音色对象的音色的向量矩阵集的步骤包括：沿时域从所述梅尔频谱信息中提取出表征所述音频采样数据的目标
音色对象的音色的多个向量矩阵；将所述多个向量矩阵进行全连接，获得全连接后的综合向量矩阵，所述综合向量矩阵包括时域上的多个向量矩阵；从所述综合向量矩阵中选取时域上最后且连续的若干个向量矩阵，将其构造为所述的向量矩阵集，每个向量矩阵集包含时域上的多个向量矩阵，每个向量矩阵包含多个表征音色的向量。
127.沿时域从所述梅尔频谱信息中提取出表征所述音频采样数据的音源对象的音色的多个向量矩阵，包括如下步骤：调用残差卷积网络对所述梅尔频谱信息进行表示学习，以获得其中的音频纹理特征信息；调用递归神经网络对所述音频纹理特征信息进行整理，以获得综合了所述音频纹理特征信息在时域上的相关性信息的多个向量矩阵。
128.所述音色提取模型的训练过程包括：从训练样本的梅尔频谱信息中提取出表征该训练样本的目标音色对象的音色的向量矩阵，对所述向量矩阵进行全连接，获得全连接后的综合向量矩阵，所述综合向量矩阵包括时域上的多个向量矩阵，每个训练样本包含单个目标音色对象的歌曲清唱发声数据；调用预设分类模型对所述综合向量矩阵进行分类，以所述训练样本相对应的监督标签对分类结果进行监督，根据监督结果反向传播修正所述音色提取模型的权重参数；循环迭代实施对所述音色提取模型的训练，直至所述分类模型的交叉熵损失函数达到收敛状态。
129.步骤s1304、将所述音素特征信息、音序特征信息、目标音高对象的音高特征信息以及目标音色对象的音色特征信息拼接为歌曲合成特征信息：
130.为了便于声学模型进行处理，需要预备相应的歌曲合成特征信息，所述歌曲合成特征信息可将音素特征信息、音序特征信息、目标音高对象的音高特征信息进行拼接后，沿时域叠加所述目标音色对象的音色特征信息构成。据此便为声学模型制备了用于目标歌曲合成所需的全量的歌曲合成特征信息。
131.本实施例允许音高特征信息与音色特征信息来源于不同歌手，并且，一次性制备歌曲合成所需的歌曲合成特征信息，因此，具有更为丰富的如下优点：
132.首先，本技术一次性获取创作目标歌曲所需的相关信息，包括用于确定目标歌曲所应用的唱功的目标音高对象、用于确定目标歌曲所应用的音色的目标音色对象，以及目标歌曲的目标乐谱，然后，调用音高生成模型生成融合了该目标音高对象的音高变化特征的音高特征信息、获取该目标音色对象相对应的音色特征信息，利用来源不同的这两种信息，在声学模型和声码器的协助下，生成根据所述目标乐谱中的曲谱和歌词文本进行演唱的歌曲人声部分音频数据。可以理解，这一音频数据融合了目标音高对象独有的音高特征信息，体现了目标音高对象的唱功，同时又融合了目标音色对象独有的音色特征信息，实现了音高特征信息与音色特征信息的解耦，两者均可以独立构造，并且，灵活结合运用，为歌曲辅助创作系统开放了更高的灵活性，允许用户以自身的音色结合其他歌手的唱功对已有的旋律曲谱和歌词文本生成目标歌曲，快速感受创作效果，从而提升歌曲辅助创作效率。
133.其次，本技术中，所述目标乐谱的曲谱及歌词文本，一方面在音高生成模型中被用于生成音高特征信息，另一方面又被声学模型引用实现以便保持所生成的梅尔频谱信息包含准确的旋律信息，而目标乐谱体现所包括的曲谱、歌词文本体现为用户最为直观的便于其编辑的方式，因此，降低了对用户侧的专业性的要求，使得用户可以专注于曲谱和歌词文本的谱写创作，而无需自行处理音高特征信息与音色特征信息之间的处理，使目标歌曲创作过程更加智能化，提升了目标歌曲的生产效率。
134.此外，本技术的技术方案的实施，在实现音高特征信息与音色特征信息解耦的基础上，更有利于实现歌曲协同创作，例如用户向一个歌手购买唱功相对应的音高特征信息，以该音高特征信息与自身的音色特征信息进行目标歌曲创作，从而借助歌手的唱功提升自身的歌曲作品的品质，促进在线娱乐用户之间的协同，进一步促进用户作品分享活跃，活跃用户流量，重新定义互联网音乐生态，使得“人人都是音乐人”有望成为现实。
135.请参阅图5，深化的实施例中，所述步骤s1300、采用预训练的声学模型，根据歌曲合成特征信息进行编解码，获得梅尔频谱信息，包括如下步骤：
136.步骤s1310、采用声学模型中的编码网络对歌曲合成特征信息集进行编码处理，获得编码后的编码特征向量：
137.声学模型的编码网络适于对所述歌曲合成特征信息集的各个特征信息进行拼接和编码，由此便可获得相应的编码特征向量。
138.步骤s1320、对编码后的编码特征向量进行降采样处理，得到降采样后的编码特征向量：
139.进一步，借助一个降采样网络对所述编码特征向量进行降采样，获得特征尺度被规格化的编码特征向量。
140.步骤s1330、采用注意力机制对降采样后的编码特征向量进行特征重组处理，得到根据上下文信息重组后的编码特征向量：
141.注意力机制可以根据特征序列中的上下文信息对特征向量进行重组，在使序列体现上下文语义，因此，在降采样的基础上将编码特征向量进行特征重组后，便可获得语义上经过梳理的编码特征向量。
142.步骤s1340、采用声学模型中的解码网络对重组后的编码特征向量进行解码处理，得到梅尔频谱信息：
143.声学模型的解码网络在注意力机制的作用下，对注意力机制梳理后的编码特征向量进行转换，便可获得相应的梅尔频谱信息。
144.步骤s1350、采用残差预估网络对从解码网络得到的音频数据的梅尔频谱信息进行残差预估处理，得到残差信息：
145.为了使所述梅尔频谱信息更为纯正，进一步可借助残差预估网络来对其进行修正，该残差预估网络可以对解码网络得到的梅尔频谱信息进行残差预估，得到相应的残差信息，以便用于梅尔频谱信息的修正。
146.步骤s1360、基于残差信息对该音频数据的梅尔频谱信息进行修正，得到修正后的梅尔频谱信息：
147.本实施例的声学模型可先经预训练，或直接迁移已经成熟的声学模型也可，所述声学模型可以是tactron、fastspeech之类，其在训练阶段，提供相应的样本乐谱及所述音高特征信息和音色特征信息进行训练至收敛状态，使其具备依据所述歌曲合成特征信息集转换出相应的梅尔频谱信息。
148.本实施例中，根据语音合成原理，应用声学模型对所述歌曲合成特征信息集进行编解码，实现语义梳理，并获得目标歌曲相应的梅尔频谱信息，实现了特征到频谱之间的转换，全程自行实施，非常高效。
149.请参阅图6，具体化的实施例中，所述步骤s1400、采用声码器将所述梅尔频谱信息
转换为目标歌曲相对应的音频数据，包括如下步骤：
150.步骤s1410、获得所述声学模型输出的对应目标歌曲人声演唱部分的第一音频数据：
151.当前述各实施例中，经声学模型生成梅尔频谱信息并经声码器转换出相应的目标歌曲时，此时目标歌曲还只是歌曲人声演唱部分的内容，为了获得完整的目标歌曲，还需借助背景音乐获得伴奏效果，此时，先获取声码器的输出，作为第一音频数据。
152.步骤s1420、获取目标歌曲相对应的背景音乐的第二音频数据：
153.如前所述，为了使歌曲辅助创作效率更为高效，进一步可以获取适配于该目标歌曲的背景音乐来与之合成，具体而言，是获取该背景音乐相对应的第二音频数据。所述背景音乐与所述目标乐谱之间的对应关系，可以预先设定。
154.步骤s1430、提取所述背景音乐与所述目标歌曲的目标乐谱所共同遵循的乐曲基础信息，所述乐曲基础信息包括演奏时速、拍号以及调号：
155.所述背景音乐一般已经按照一定的节奏进行组织，因此，在预备之时也便确定了其相应的演奏时速、拍号以及调号等乐曲基础信息，这些乐曲基础信息及所述背景音乐相应的和弦信息可以被封装为一个伴奏模板，在用户启动歌曲创作之初，便由该用户选定该伴奏模板，也就确定了用户创作的目标乐谱中的曲谱的乐曲基础信息，从而，用户根据该伴奏模板获取到所述的乐曲基础信息，便可确保其目标乐谱与背景音乐一致地遵循于所述的乐曲基础信息。
156.步骤s1440、根据所述乐曲基础信息，将所述第一音频数据与所述第二音频数据合成为目标歌曲相对应的音频数据：
157.可利用本领域技术人员常用的语音合成手段，在遵循所述乐曲基础信息的规则的情况下，将所述背景音乐对应的第二音频数据与所述目标歌曲人声演唱部分相对应的第一音频数据实现对齐并合二为了，获得目标歌曲相对应的完整的音频数据。
158.步骤s1450、输出所述目标歌曲相对应的音频数据：
159.获得所述目标歌曲相对应的音频数据之后，便可对应推送给相应的创作用户，从而使目标用户可以在其客户端播放所述的目标歌曲，达致完善整个歌曲辅助创作的过程。
160.本实施例进一步完善辅助音乐创作流程，全程自动完成，大大简化了用户进行音乐创作的繁琐操作，提升了辅助音乐创作效率。
161.扩展的实施例中，所述声学模型被预训练，其训练过程包括如下步骤：
162.步骤s2100、获取训练样本集，所述训练样本集包括多组训练样本，多组训练样本包含由相同歌手演唱的不同演唱语种的歌曲样本，以及分别由不同歌手演唱的不同演唱语种的歌曲样本，每组歌曲样本均包含歌曲相应的音频数据及其歌词发音标注信息：
163.关于为了合成歌曲而对声学模型实施训练的原理，为本领域技术人员所知晓，但是，在本技术中，为了使声学模型习得跨语种统一生产不同语种歌曲的能力，在训练阶段，所采用的训练样本则另有要求。
164.具体而言，为训练所述的声学模型，需预先获取相应的训练样本集。所述的训练样本集由多组训练样本构成，可以理解，根据神经网络训练原理，训练样本的数量适宜足以，具体数量以使声学模型便于收敛且可节约训练成本为准。
165.在所述的训练样本集中，多组训练样本中，包含两种样本组成情况，第一种情况
下，训练样本集包含相同歌手演唱的不同演唱语种的歌曲样本，例如针对同一歌手，既采集了其日语演唱歌曲，又采集了其英语演唱歌曲；第二种情况下，训练样本集还包括分别由不同歌手演唱的不同演唱语种的演唱版本，例如既采集了a歌手演唱的日语演唱歌曲，又采集了b歌手演唱的英文歌曲。较佳的实施例中，两种情况并存。实测表明，第一种情况的存在，相对于仅包含第二种情况的条件下，声学模型能够更快速地被训练至收敛。原因在于第一种情况为声学模型提供了相同歌手演唱不同语种歌曲的关联音色信息，有助于帮助声学模型的训练。当然，作为一种等同替换方案，在具备足量的训练样本的条件下，仅采用第二种情况来构造训练样本集，也是本技术所允许的。两种情况并存时，更有利于节约声学模型的训练成本，尤其是明知歌曲版权费用高昂的情况下。
166.较佳的实施例中，训练样本集中也可以包含相同歌曲相对应的不同演唱语种的演唱版本，这些不同演唱语种的演唱版本可以是同一歌手演唱的，也可以是不同歌手演唱的，以实现在语义层面为声学模型的训练提供更多关联信息。
167.适应模型训练所需，所述训练样本集中的每组训练样本，均包括歌曲相应的音频数据及其歌词发音标注信息。
168.步骤s2100、针对每组训练样本，将所述声学模型作为目标训练模型执行图7所示如下过程的迭代训练：
169.步骤s2110、根据所述发音标注信息进行编码获得歌曲样本相对应的音素特征信息及音序特征信息，所述音素特征信息中，同一演唱语种的歌词发音标注信息中的音素根据音素词典库中与该演唱语种相对应的音素词典的编码数值进行表示：
170.与前述各实施例中对目标歌曲的音素特征信息进行编码同理，在声学模型的训练阶段，便已经构建了各种演唱语言相对应的音素词典，存储于音素词典库中，因此，适应声学模型所需，针对每一训练样本需要为其提供相应的音素特征信息及音序特征信息，这些信息同理可以根据本技术前述所揭示的相应手段，根据训练样本中的歌词发音标注信息来生成。
171.由于音素词典中存储了音素与编码数值之间的映射关系数据，因此，不难理解，根据训练样本的歌曲的演唱语种相对应的音素词典进行编码，便可获得对应于该演唱语种的音素特征信息。
172.步骤s2120、采用预设算法提取其中的歌曲样本的音高特征信息：
173.一种实施例中，本领域技术人员可以采用各种已知的音高提取算法，从所述的歌曲样本中提取出相应的音高特征信息。
174.另一实施例中，与前述同理，在训练阶段，也可依据预训练的音高生成模型，按照本技术前述各实施例所揭示的过程，利用训练样本提供的曲调信息及歌词发音标注信息，获得相应的音符特征信息、音素特征信息、音序特征信息等，为训练样本中的歌曲生成相应的音高特征信息。所述音高特征信息反过来可以用于合成歌曲样本相对应的目标歌曲。
175.步骤s2130、采用预训练的音色提取模型提取其中的歌曲样本的演唱歌手相对应的音色特征信息，构造用于存储所述音色特征信息与演唱歌手之间的映射关系数据的音色特征库：
176.同理，根据本技术前述各实施例述及的预训练的音色特征信息，也可从训练样本的歌曲样本的音频数据中提取出其相应的音色特征信息，这一音色特征信息不仅可以反过
来用于合成歌曲样本相对应的目标歌曲，还可以被与歌手的身份标签进行映射存储，存储至音色特征库中供后续进行新歌曲合成时调用。
177.步骤s2140、采用预设算法提取其中的歌曲样本的原始梅尔频谱信息：
178.本领域技术人员可以利用各种已知的算法，提取出歌曲样本的音频数据中中的原始梅尔频谱信息，用于监督声学模型的训练，例如通过对所述的音频数据进行预加重、分帧、加窗、快速傅里叶变换、梅尔滤波等语音处理相关的算法操作，便可获得所述的原始梅尔频谱信息。
179.步骤s2150、将该训练样本的音素特征信息、音序特征信息、音高特征信息以及音色特征信息输入目标训练模型以预测梅尔频谱信息，利用所述原始梅尔频谱信息监督训练过程，在目标训练模型未收敛时循环进行下一训练样本的迭代训练：
180.在前各个步骤针对一个训练样本获得各种相应声学模型输入所需的各种信息，包括音素特征信息、音序特征信息、音高特征信息，以及音色特征信息之后，便可将这些信息构造为歌曲合成特征信息，输入所述的声学模型，由该声学模型预测出相应的预测梅尔频谱信息，然后，利用所述原始梅尔频谱信息与该预测梅尔频谱信息的差值计算是次迭代训练的损失，根据损失值对声学模型进行梯度更新，修正网络权重，在此过程中判断损失值是否趋近于0，也即校验每一次的迭代训练是否使声学模型收敛，在声学模型未收敛的情况下，返回步骤s2110，调用下一组训练样本继续迭代训练，直至训练模型被训练至收敛。
181.本实施例给出对声学模型制备训练样本以及进行训练的全过程，可以看出，由于所述训练样本中包含了同一歌手不同语种的同一歌曲，能够更快促使声学模型收敛，能减少对训练样本的依赖，可以降低训练成本，更快促使模型收敛。
182.进一步，由于在进行音素特征信息编码的过程中，已经预先根据不同演唱语言构造了相应的音素词典，因此，在编码过程自然建立了演唱语种与音素词典之间的对应关系，后续在声学模型投入生产阶段时，便可据此统一服务于不同演唱语种的歌曲合成需要，根据给定的演唱语种针对性地调用相应的音素词典对目标歌曲的歌词发音标注信息进行相应的编码，而声学模型本身又经多音素词典编制的编码特征信息进行过针对不同演唱语种的训练，因此，声学模型可以兼容多演唱语种的歌曲合成服务需要，统一服务不同演唱语种歌曲的合成。
183.请参阅图8，本技术提供的一种跨语种歌曲合成装置，适应本技术的跨语种歌曲合成方法进行功能化部署，包括：数据获取模块1100、乐谱编码模块1200、声学合成模块1300，以及频谱转换模块1400，其中，所述数据获取模块1100，用于获取目标歌曲的目标乐谱及合成配置信息，所述合成配置信息包括歌曲演唱语种、目标音高对象以及目标音色对象；所述乐谱编码模块1200，用于根据所述歌曲演唱语种调用其相对应的音素词典对所述目标乐谱进行编码，获得目标歌曲的音素特征信息和音序特征信息，所述音素词典包含其相应的语种的音素与编码数值之间的映射关系；所述声学合成模块1300，用于采用预训练的声学模型，根据歌曲合成特征信息进行编解码，获得梅尔频谱信息，所述歌曲合成特征信息包含所述音素特征信息、音序特征信息、对应所述目标音高对象生成的音高特征信息以及对应所述目标音色对象生成的预设音色特征信息；所述频谱转换模块1400，用于采用声码器将所述梅尔频谱信息转换为目标歌曲相对应的音频数据。
184.深化的实施例中，所述乐谱编码模块1200，包括：词典调用子模块，用于根据所述
歌曲演唱语种，从音素词典库中确定与该演唱语种相对应的音素词典，所述音素词典库包含不同演唱语种相对应的多个音素词典；音素映射子模块，用于根据所述目标乐谱中的歌词文本对应所述演唱语种的歌词发音标注信息中的各个音素，从所述音素词典中查找所述各个音素相对应的编码数值，构造出所述歌词相对应的音素特征信息；音序映射子模块，用于根据所述各个音素的位置信息编码出与所述音素特征信息相对应的音序特征信息。
185.扩展的实施例中，本技术的跨语种歌曲合成装置，还包括：音符编码模块，用于根据所述目标乐谱中的旋律标注信息生成目标歌曲的音符特征信息；音高生成模块，用于将所述目标歌曲的音符特征信息、音素特征信息以及音序特征信息输入预训练的匹配所述目标对象的控制参数的音高生成模型，以生成所述目标音高对象的音高特征信息；音色调用模块，用于根据所述目标音色对象从预设的音色特征库中调用该目标音色对象的音色特征信息；特征拼接模块，用于将所述音素特征信息、音序特征信息、目标音高对象的音高特征信息以及目标音色对象的音色特征信息拼接为歌曲合成特征信息。
186.深化的实施例中，所述声学合成模块1300，包括：特征编码子模块，用于采用声学模型中的编码网络对歌曲合成特征信息集进行编码处理，获得编码后的编码特征向量；特征采样子模块，用于对编码后的编码特征向量进行降采样处理，得到降采样后的编码特征向量；特征重组子模块，用于采用注意力机制对降采样后的编码特征向量进行特征重组处理，得到根据上下文信息重组后的编码特征向量；特征解码子模块，用于采用声学模型中的解码网络对重组后的编码特征向量进行解码处理，得到梅尔频谱信息。
187.进一步的实施例中，所述声学合成模块1300，还包括：残差预估子模块，用于采用残差预估网络对从解码网络得到的音频数据的梅尔频谱信息进行残差预估处理，得到残差信息；频谱修正子模块，用于基于残差信息对该音频数据的梅尔频谱信息进行修正，得到修正后的梅尔频谱信息。
188.具体化的实施例中，所述频谱转换模块1400，包括：人声获取子模块，用于获得所述声学模型输出的对应目标歌曲人声演唱部分的第一音频数据；伴奏获取子模块，用于获取目标歌曲相对应的背景音乐的第二音频数据；乐谱提取子模块，用于提取所述背景音乐与所述目标歌曲的目标乐谱所共同遵循的乐曲基础信息，所述乐曲基础信息包括演奏时速、拍号以及调号；全曲合成子模块，用于根据所述乐曲基础信息，将所述第一音频数据与所述第二音频数据合成为目标歌曲相对应的音频数据；歌曲输出子模块，用于输出所述目标歌曲相对应的音频数据。
189.扩展的实施例中，本技术的跨语种歌曲合成装置，还包括所述声学模型的训练模块，该训练模块包括：样本获取子模块，用于获取训练样本集，所述训练样本集包括多组训练样本，多组训练样本包含由相同歌手演唱的不同演唱语种的歌曲样本，以及分别由不同歌手演唱的不同演唱语种的歌曲样本，每组歌曲样本均包含歌曲相应的音频数据及其歌词发音标注信息；迭代训练子模块，用于针对每组训练样本，将所述声学模型作为目标训练模型执行如下过程的迭代训练：根据所述发音标注信息进行编码获得歌曲样本相对应的音素特征信息及音序特征信息，所述音素特征信息中，同一演唱语种的歌词发音标注信息中的音素根据音素词典库中与该演唱语种相对应的音素词典的编码数值进行表示；采用预设算法提取其中的歌曲样本的音高特征信息；采用预训练的音色提取模型提取其中的歌曲样本的演唱歌手相对应的音色特征信息，构造用于存储所述音色特征信息与演唱歌手之间的映
射关系数据的音色特征库；采用预设算法提取其中的歌曲样本的原始梅尔频谱信息；将该训练样本的音素特征信息、音序特征信息、音高特征信息以及音色特征信息输入目标训练模型以预测梅尔频谱信息，利用所述原始梅尔频谱信息监督训练过程，在目标训练模型未收敛时循环进行下一训练样本的迭代训练。
190.为解决上述技术问题，本技术实施例还提供计算机设备。如图9所示，计算机设备的内部结构示意图。该计算机设备包括通过系统总线连接的处理器、计算机可读存储介质、存储器和网络接口。其中，该计算机设备的计算机可读存储介质存储有操作系统、数据库和计算机可读指令，数据库中可存储有控件信息序列，该计算机可读指令被处理器执行时，可使得处理器实现一种跨语种歌曲合成方法。该计算机设备的处理器用于提供计算和控制能力，支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令，该计算机可读指令被处理器执行时，可使得处理器执行本技术的跨语种歌曲合成方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解，图9中示出的结构，仅仅是与本技术方案相关的部分结构的框图，并不构成对本技术方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。
191.本实施方式中处理器用于执行图8中的各个模块及其子模块的具体功能，存储器存储有执行上述模块或子模块所需的程序代码和各类数据。网络接口用于向用户终端或服务器之间的数据传输。本实施方式中的存储器存储有本技术的跨语种歌曲合成装置中执行所有模块/子模块所需的程序代码及数据，服务器能够调用服务器的程序代码及数据执行所有子模块的功能。
192.本技术还提供一种存储有计算机可读指令的存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行本技术任一实施例的跨语种歌曲合成方法的步骤。
193.本技术还提供一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被一个或多个处理器执行时实现本技术任一实施例所述方法的步骤。
194.本领域普通技术人员可以理解实现本技术上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(read-only memory，rom)等计算机可读存储介质，或随机存储记忆体(random access memory，ram)等。
195.综上所述，本技术可实现跨语种的歌曲合成服务，利用同一声学模型按需服务于多种演唱语种的目标歌曲的合成。
196.本技术领域技术人员可以理解，本技术中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地，具有本技术中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地，现有技术中的具有与本技术中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。
197.以上所述仅是本技术的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本技术原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应
视为本技术的保护范围。