语音合成方法、系统、语音合成模型及其训练方法与流程

1.本技术涉及语音合成技术领域，尤其涉及语音合成方法、系统、语音合成模型及其训练方法。

背景技术：

2.语音合成又称文语转换，其主要功能是将文本转换成语音，并尽可能使合成语音有较高的可懂度和自然度。近年来，随着语音合成技术的进步，合成的语音在音质及其自然度上越来越靠近人说话时真实的声音。但是，人说话时，具有多种风格以及富有多种情感色彩。因此，如何合成具有独特风格及情感色彩的语音，是语音合成技术发展的关键。
3.针对上述问题，可以在语音合成阶段利用风格或情感嵌入的方式合成具有不同的风格或情感的语音。这种合成方式可以实现较为宽泛的风格或情感的嵌入与合成，例如，根据用户的选择合成朗诵、闲聊等表征不同情感类别的语音时，合成的语音可以是具备如高兴、悲伤、生气等不同情感的语音。
4.但是，同一情感类别可以被进一步划分为多种情感层次，以“高兴”的情感类别为例，“高兴”的情感类别进一步可划分为“春风得意”、“扬眉吐气”“喜极而泣”等多种层次，仅仅通过在语音合成阶段利用风格或情感嵌入的方式无法实现合成具备上述情感层次的语音，不利于用户体验。

技术实现要素：

5.本技术提供了一种语音合成方法、系统、语音合成模型及其训练方法，以解决现有技术中无法合成具备深层情感层次的语音，提高用户体验感。
6.第一方面，本技术提供一种语音合成方法，包括：
7.获取目标文本和所述目标文本的第一瓶颈特征；
8.获取参考音频库，所述参考音频库包括若干参考音频；
9.获取所述参考音频库中每一个所述参考音频对应的参考文本，以及，获取每一个所述参考文本的第二瓶颈特征；
10.计算所述第一瓶颈特征与每一个所述参考文本的第二瓶颈特征的相似度，将与所述第一瓶颈特征相似度最高的所述第二瓶颈特征对应的参考文本确定为文本模板；
11.将所述文本模板对应的参考音频确定为音频模板；
12.将所述音频模板和所述目标文本输入预先训练的语音合成模型中，得到合成音频。
13.可选的，获取目标文本对应的第一瓶颈特征，包括：
14.获取与情感相关的文本数据；
15.根据所述文本数据，建立情感编码网络模型，所述情感编码网络模型用于获取输入的文本的情感特征；
16.根据所述情感编码网络模型解析所述目标文本，获取所述目标文本的情感特征，
将所述目标文本的情感特征确定为第一瓶颈特征。
17.可选的，获取每一个所述参考文本对应的第二瓶颈特征，包括：
18.根据所述情感编码网络模型解析每一个所述参考文本，获取每一个所述参考文本的情感特征，将所述参考文本的情感特征确定为第二瓶颈特征。
19.可选的，获取目标文本对应的第一瓶颈特征，包括：
20.获取与风格相关的文本数据；
21.根据所述文本数据，建立风格编码网络模型，所述风格编码网络模型用于获取输入的文本的风格特征；
22.根据所述风格编码网络模型解析所述目标文本，获取所述目标文本的风格特征，将所述目标文本的风格特征确定为第一瓶颈特征。
23.可选的，获取每一个所述参考文本对应的第二瓶颈特征，包括：
24.根据所述风格编码网络模型解析每一个所述参考文本，获取每一个所述参考文本的风格特征，将所述参考文本的风格特征确定为第二瓶颈特征。
25.第二方面，本技术提供一种语音合成系统，所述系统被配置为：
26.获取目标文本和所述目标文本的第一瓶颈特征；
27.获取参考音频库，所述参考音频库包括若干参考音频；
28.获取所述参考音频库中每一个所述参考音频对应的参考文本，以及，获取每一个所述参考文本的第二瓶颈特征；
29.计算所述第一瓶颈特征与每一个所述参考文本的第二瓶颈特征的相似度，将与所述第一瓶颈特征相似度最高的所述第二瓶颈特征对应的参考文本确定为文本模板；
30.将所述文本模板对应的参考音频确定为音频模板；
31.将所述音频模板和所述目标文本输入预先训练的语音合成模型中，得到合成音频。
32.第三方面，本技术提供一种语音合成模型，应用于上述方法和系统中，包括编码器模块、特征提取模块、时长预测模块、时长采样模块、基频预测模块、解码器模块以及声码器模块，其中：
33.所述编码器模块用于获取输入的目标文本的文本序列，所述目标文本的文本序列是所述目标文本的音素合集，将所述文本序列转换为对应的文本编码；
34.所述特征提取模块用于根据输入的音频模板，获取所述音频模板的第三瓶颈特征，所述第三瓶颈特征至少包括所述音频模板的情感特征、风格特征中的一种；
35.所述时长预测模块用于根据所述文本编码和所述第三瓶颈特征，获取所述文本编码的预测时长，所述文本编码的预测时长是通过预测得到的所述文本编码每一帧对应的发音时长；
36.所述时长采样模块用于根据所述特征提取模块和所述时长预测模块的输出，对所述文本编码进行上采样处理，得到经过上采样处理的文本编码和经过上采样处理的第三瓶颈特征；
37.所述基频预测模块用于根据输入的所述经过上采样处理的文本编码和所述经过上采样处理的第三瓶颈特征，预测所述文本编码的基频特征；
38.所述解码器模块，用于根据经过上采样处理的所述文本编码、所述经过上采样处
理的第三瓶颈特征和所述基频特征，获取待合成音频的音频特征；
39.所述声码器模块用于根据所述待合成音频的音频特征，得到合成音频。
40.第四方面，本技术提供一种语音合成模型的训练方法，应用于上述的方法和系统中，包括：
41.获取训练素材，所述训练素材包括训练音频和与所述训练音频对应的训练文本，所述训练文本是具有情感特征或风格特征中的一种或几种的文本；
42.分析所述训练音频，得到所述训练音频的音频特征；
43.分析所述训练文本，得到所述训练文本的文本特征，所述训练文本的文本特征包括所述训练文本的每一个音素的合集、所述训练文本的情感特征合集和所述训练文本的风格特征合集；
44.根据所述训练音频和所述训练文本，将所述训练音频的音频特征与所述训练文本的文本特征相匹配，以获取所述训练文本的发音时长信息，所述发音时长信息是所述训练文本中每一个音素对应的时长合集；
45.将所述音频特征、所述文本特征和所述发音时长信息输入至所述语音合成模型，以训练所述语音合成模型。
46.可选的，所述音频特征至少包括所述训练音频的梅尔频谱特征、梅尔倒谱特征中的一种。
47.可选的，根据所述训练音频和所述训练文本，将所述训练音频的音频特征与所述训练文本的文本特征相匹配，以获取所述训练文本的发音时长信息，所述发音时长信息是所述训练文本中每一个音素对应的时长合集，包括：
48.建立所述训练文本中的每一个所述音素与所述训练音频的音频特征的对应关系，以使每个所述音素对应若干所述训练音频的音频特征。
49.由以上技术方案可知，本技术提供一种语音合成方法、系统、语音合成模型及其训练方法，所述方法包括获取目标文本和目标文本的第一瓶颈特征；获取参考音频库，参考音频库包括若干参考音频；获取参考音频库中每一个参考音频对应的参考文本，以及，获取每一个参考文本的第二瓶颈特征；计算第一瓶颈特征与每一个参考文本的第二瓶颈特征的相似度，将与第一瓶颈特征相似度最高的第二瓶颈特征对应的参考文本确定为文本模板；将文本模板对应的参考音频确定为音频模板；将音频模板和目标文本输入预先训练的语音合成模型中，以合成具备深度情感层次特征的语音。
附图说明
50.为了更清楚地说明本技术的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
51.图1为本技术提供的一种语音合成方法的流程图；
52.图2为本技术提供的一种语音合成模型；
53.图3为本技术提供的一种语音合成模型的训练方法。
具体实施方式
54.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚地描述。显然，所描述的实施例是本技术的一部分实施例，而不是全部实施例。基于本技术的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的其他实施例，都属于本技术的保护范围。
55.为使本技术的目的和实施方式更加清楚，下面将结合本技术示例性实施例中的附图，对本技术示例性实施方式进行清楚、完整地描述，显然，描述的示例性实施例仅是本技术一部分实施例，而不是全部的实施例。
56.需要说明的是，本技术中对于术语的简要说明，仅是为了方便理解接下来描述的实施方式，而不是意图限定本技术的实施方式。除非另有说明，这些术语应当按照其普通和通常的含义理解。
57.本技术中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似或同类的对象或实体，而不必然意味着限定特定的顺序或先后次序，除非另外注明。应该理解这样使用的用语在适当情况下可以互换。
58.术语“包括”和“具有”以及他们的任何变形，意图在于覆盖但不排他的包含，例如，包含了一系列组件的产品或设备不必限于清楚地列出的所有组件，而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。
59.术语“模块”是指任何已知或后来开发的硬件、软件、固件、人工智能、模糊逻辑或硬件或/和软件代码的组合，能够执行与该元件相关的功能。
60.近年来，随着语音合成技术的进步，合成的语音在音质及其自然性上越来越靠近人说话时真实的声音。但是，人说话时，具有多种风格以及富有多种情感色彩。因此，如何合成具有独特风格及情感色彩的语音，是语音合成技术发展的关键。本技术提供了一种语音合成方法、系统、语音合成模型及其训练方法，可以合成具备深层情感层次的语音，提高用户体验感。
61.参见图1，为本技术提供的一种语音合成方法的流程图，如图1所示，该方法包括以下步骤：
62.s110：获取目标文本和所述目标文本的第一瓶颈特征。
63.在一些实施例中，目标文本可以是一部电子书，也可以是一部电子书中的一个章节、一个片段或者一个句子，还可以是其他类型的文本，例如新闻、公众号文章、短信交流记录、互联网平台通讯app的聊天记录等。
64.在一些实施例中，目标文本的第一瓶颈特征至少包括目标文本的内容所要表达的情感特征以及目标文本的内容所能体现的风格特征中的一种。
65.在一些实施例中，目标文本的内容所要表达的情感特征可以利用情感编码网络模型来获取。情感编码网络模型的建立，可利用爬虫技术，爬取公开网络中现有的文本数据，通过读取文本数据中与情感内容相关的词，分析各文本数据，并对各文本数据进行人工打标，例如，可将分析后的文本数据标注为喜、怒、哀、乐、厌、惊、惧等情感类别，根据标注后的文本数据来建立情感编码网络模型的卷积神经网络，利用反向传播技术，对该情感编码网络模型的卷积神经网络进行训练，直至达到收敛条件，以完成对该情感编码网络模型的卷积神经网络的训练，经过训练后的情感编码网络模型的卷积神经网络可对输入的文本进行
情感特征的提取。
66.在一些实施例中，目标文本的第一瓶颈特征可以是目标文本的内容所能体现的风格特征，目标文本的内容所能体现的风格特征可以利用风格编码网络模型来获取。风格编码网络模型的建立，可利用爬虫技术，爬取公开网络中现有的文本数据，通过读取文本数据的内容，分析各文本数据，获取各文本数据的风格特征，并对各文本数据进行人工打标，例如，可将分析后的文本数据标注为闲聊、朗诵、吟诵等风格类别，根据标注后的文本数据来建立情感编码网络模型，利用反向传播技术，对该情感编码网络模型进行训练，直至达到收敛条件，以完成对该情感编码网络模型的训练，经过训练后的情感编码网络模型可对输入的文本进行风格特征的提取。
67.s120：获取参考音频库，所述参考音频库包括若干参考音频。
68.在一些实施例中，参考音频可以是通过训练语音合成模型得到的训练语料，组成参考音频库的参考音频应该是具有强烈的情感特征或风格特征的音频。
69.s130：获取所述参考音频库中每一个所述参考音频对应的参考文本，以及，获取每一个所述参考文本的第二瓶颈特征。
70.在一些实施例中，参考文本的第二瓶颈特征至少包括目标文本的内容所要表达的情感特征以及目标文本的内容所能体现的风格特征中的一种。
71.在一些实施例中，参考文本的内容所要表达的情感特征可以利用上述情感编码网络模型来获取。
72.在一些实施例中，参考文本的内容所能体现的风格特征可以利用上述风格编码网络模型来获取。
73.s140：计算所述第一瓶颈特征与每一个所述参考文本的第二瓶颈特征的相似度，将与所述第一瓶颈特征相似度最高的所述第二瓶颈特征对应的参考文本确定为文本模板。
74.在一些实施例中，第一瓶颈特征和第二瓶颈特征可以都是关于情感类别的特征，情感类别可以被进一步划分为多种情感层次。
75.更为具体的，目标文本的第一瓶颈特征可以与参考文本的第二瓶颈特征都同属于一情感类别，例如，第一瓶颈特征和第二瓶颈特征都属于“喜”这一情感类别，“喜”这一情感类别进一步可划分为“春风得意”、“喜气洋洋”、“喜极而泣”、“怡然自得”等多种情感层次，不同情感层次对应的“喜”的程度不同，“春风得意”这一情感层次与“喜气洋洋”这一情感层次的相似度明显大于“春风得意”这一情感层次与“喜极而泣”这一情感层次的相似度。因此，若所述目标文本对应的第一瓶颈特征对应于“春风得意”这一情感层次，参考文本1对应于“喜气洋洋”这一情感层次，参考文本2对应于“喜极而泣”这一情感层次，由于目标文本对应的情感层次与参考文本1对应的情感层次的相似度大于目标文本对应的情感层次与参考文本2对应的情感层次的相似度，则选取参考文本1作为文本模板。
76.进一步地，目标文本的第一瓶颈特征可以与参考文本的第二瓶颈特征都属于不同的情感类别，例如，第一瓶颈特征属于“喜”这一情感类别，第二瓶颈特征都属于“怒”这一情感类别，“怒”这一情感类别进一步可划分为“火冒三丈”、“愤愤不平”、“雷霆大怒”等多种情感层次，若所述目标文本对应的第一瓶颈特征对应于“春风得意”这一情感层次，参考文本1对应于“愤愤不平”这一情感层次，参考文本2对应于“雷霆大怒”这一情感层次，由于目标文本对应的情感层次与参考文本1对应的情感层次的相似度大于目标文本对应的情感层次与
参考文本2对应的情感层次的相似度，则选取参考文本1作为文本模板。
77.进一步地，目标文本的第一瓶颈特征可以和部分参考文本的第二瓶颈特征同属于一情感类别，目标文本的第一瓶颈特征可以与另一部分参考文本的第二瓶颈特征属于不同的情感类别，例如，第一瓶颈特征属于“喜”这一情感类别，第二瓶颈特征一部分属于“喜”这一情感类别另一部分属于“怒”这一情感类别，若所述目标文本对应的第一瓶颈特征对应于“春风得意”这一情感层次，参考文本1对应于“喜气洋洋”这一情感层次，参考文本2对应于“喜极而泣”这一情感层次，参考文本3对应于“愤愤不平”这一情感层次，参考文本4对应于“雷霆大怒”这一情感层次，由于目标文本对应的情感层次与参考文本1对应的情感层次的相似度大于目标文本对应的情感层次与其他参考文本对应的情感层次的相似度，则选取参考文本1作为文本模板。
78.在一些实施例中，第一瓶颈特征和第二瓶颈特征还可以是关于风格类别的特征，此时，计算所述第一瓶颈特征与每一个所述参考文本的第二瓶颈特征的相似度的方法与上述第一瓶颈特征和第二瓶颈特征是关于情感类别的特征的计算方法相似，在此不作赘述。
79.s150：将所述文本模板对应的参考音频确定为音频模板；
80.s160：将所述音频模板和所述目标文本输入预先训练的语音合成模型中，获得合成音频。
81.更为具体的，参见图2，为本技术提供的一种语音合成模型，所述语音合成模型包括：编码器模块、特征提取模块、时长预测模块、时长采样模块、基频预测模块、解码器模块以及声码器模块，其中：
82.编码器模块用于获取输入的目标文本的文本序列，并将所述文本序列转换为对应的文本编码。
83.在一些实施例中，目标文本的文本序列是所述目标文本的音素合集，编码器模块可以将目标文本转换为语音合成模型可以识别的抽象的文本编码，以便其他模块使用；
84.特征提取模块用于根据输入的音频模板，获取所述音频模板的第三瓶颈特征；
85.在一些实施例中，所述第三瓶颈特征至少包括所述音频模板的情感特征、风格特征中的一种。
86.时长预测模块用于根据所述文本编码和所述第三瓶颈特征，获取所述文本编码的预测时长。
87.在一些实施例中，所述文本编码的预测时长是通过预测得到的所述文本编码每一帧对应的发音时长。
88.时长采样模块用于根据所述特征提取模块和所述时长预测模块的输出，对所述文本编码进行上采样处理，得到经过上采样处理的文本编码和经过上采样处理的第三瓶颈特征。
89.基频预测模块用于根据输入的所述经过上采样处理的文本编码和所述经过上采样处理的第三瓶颈特征，预测所述文本编码的基频特征。
90.解码器模块用于根据经过上采样处理的所述文本编码、所述经过上采样处理的第三瓶颈特征和所述基频特征，获取待合成音频的音频特征。
91.所述声码器模块用于根据所述待合成音频的音频特征，得到合成音频。
92.进一步地，下面以场景化、具体化的方式对本技术提供的语音合成方法的实现与
使用过程进行示例性的说明。
93.在一些实施例中，本技术提供的方案可以合成具有情感特征的音频，下面是本技术的示例性实施例1。
94.本实施例以用户甲和用户乙通过社交软件进行聊天为例。
95.(1)用户甲通过社交软件向用户乙输入文本a；
96.(2)对文本a进行分析，具体的，可以通过情感编码网络模型获取文本a的第一瓶颈特征，即文本a的情感特征；
97.(3)从参考音频库中获取每一个参考音频对应的参考文本，以及，每一个参考文本对应的第二瓶颈特征，即参考文本的情感特征；
98.(4)分别计算每一个参考文本的情感特征与文本a的情感特征的相似度，选取与文本a的情感特征的相似度最高的参考文本，将该参考文本确定为文本模板；
99.(5)获取该文本模板的参考音频，将该参考音频确定为音频模板；
100.(6)将所述音频模板和所述文本a输入预先训练的语音合成模型，其中，该语音合成模型包括编码器模块、特征提取模块、时长预测模块、时长采样模块、基频预测模块、解码器模块以及声码器模块；
101.(7)编码器模块获取输入的文本a的文本序列，将所述文本序列转换为对应的文本编码，将所述文本编码输入至时长预测模块；
102.(8)将音频模板输入至特征提取模块，特征提取模块获取所述音频模板的情感特征，并将所述音频模板的情感特征输入至时长预测模块；
103.(9)时长预测模块根据输入的文本编码和音频模板的情感特征，获取所述文本编码的预测时长，并将所述文本编码的预测时长输入至时长采样模块；
104.(10)时长采样模块根据特征提取模块和时长预测模块的输出，对文本编码进行上采样处理，输出经过上采样处理的文本编码和经过上采样处理的第三瓶颈特征，并将输出结果输入至基频预测模块；
105.(11)基频预测模块根据输入的经过上采样处理的文本编码和经过上采样处理的音频模板的情感特征，预测文本编码的基频特征，得到经过上采样处理的文本编码、预测时长和基频特征，并将输出的结果输入至解码器模块；
106.(12)解码器模块根据经过上采样处理的所述文本编码、所述经过上采样处理的第三瓶颈特征和所述基频特征，获取待合成音频的音频特征，并将待合成音频的音频特征输入至声码器模块；
107.(13)声码器模块根据输入的待合成音频的音频特征，得到合成音频。
108.在一些实施例中，本技术提供的方案可以合成具有风格特征的音频，下面是本技术的示例性实施例2。
109.本实施例以用户甲和用户乙通过社交软件进行聊天为例。
110.(1)用户甲通过社交软件向用户乙输入文本a；
111.(2)对文本a进行分析，具体的，可以通过风格编码网络模型获取文本a的第一瓶颈特征，即文本a的风格特征；
112.(3)从参考音频库中获取每一个参考音频对应的参考文本，以及，每一个参考文本对应的第二瓶颈特征，即参考文本的风格特征；
113.(4)分别计算每一个参考文本的风格特征与文本a的风格特征的相似度，选取与文本a的风格特征的相似度最高的参考文本，将该参考文本确定为文本模板；
114.(5)获取该文本模板的参考音频，将该参考音频确定为音频模板；
115.(6)将所述音频模板和所述文本a输入预先训练的语音合成模型，其中，该语音合成模型包括编码器模块、特征提取模块、时长预测模块、时长采样模块、基频预测模块、解码器模块以及声码器模块；
116.(7)编码器模块获取输入的文本a的文本序列，将所述文本序列转换为对应的文本编码，将所述文本编码输入至时长预测模块；
117.(8)将音频模板输入至特征提取模块，特征提取模块获取所述音频模板的风格特征，并将所述音频模板的风格特征输入至时长预测模块；
118.(9)时长预测模块根据输入的文本编码和音频模板的风格特征，获取所述文本编码的预测时长，并将所述文本编码的预测时长输入至时长采样模块；
119.(10)时长采样模块根据特征提取模块和时长预测模块的输出，对文本编码进行上采样处理，输出经过上采样处理的文本编码和经过上采样处理的第三瓶颈特征，并将输出结果输入至基频预测模块；
120.(11)基频预测模块根据输入的经过上采样处理的文本编码和经过上采样处理的音频模板的风格特征，预测文本编码的基频特征，得到经过上采样处理的文本编码、预测时长和基频特征，并将输出的结果输入至解码器模块；
121.(12)解码器模块根据经过上采样处理的所述文本编码、所述经过上采样处理的第三瓶颈特征和所述基频特征，获取待合成音频的音频特征，并将待合成音频的音频特征输入至声码器模块；
122.(13)声码器模块根据输入的待合成音频的音频特征，得到合成音频。
123.在一些实施例中，本技术还可以应用于文本的音频转换，下面是本技术的示例性实施例3，本技术的示例性实施例3以用户丙期望收听的某小说为例进行说明。
124.(1)获取小说的文本内容，对小说的文本内容进行分析，具体的，可以通过情感编码网络模型获取该文本的第一瓶颈特征，即文本的情感特征；
125.(2)从参考音频库中获取每一个参考音频对应的参考文本，以及，每一个参考文本对应的第二瓶颈特征，即参考文本的情感特征；
126.(3)分别计算每一个参考文本的情感特征与小说文本的情感特征的相似度，选取与小说文本的情感特征的相似度最高的参考文本，将该参考文本确定为文本模板；
127.(4)获取该文本模板的参考音频，将该参考音频确定为音频模板；
128.(5)将所述音频模板和所述小说文本输入预先训练的语音合成模型，其中，该语音合成模型包括编码器模块、特征提取模块、时长预测模块、时长采样模块、基频预测模块、解码器模块以及声码器模块；
129.(6)编码器模块获取输入的小说文本的文本序列，将所述文本序列转换为对应的文本编码，将所述文本编码输入至时长预测模块；
130.(7)将音频模板输入至特征提取模块，特征提取模块获取所述音频模板的情感特征，并将所述音频模板的情感特征输入至时长预测模块；
131.(8)时长预测模块根据输入的文本编码和音频模板的情感特征，获取所述文本编
码的预测时长，并将所述文本编码的预测时长输入至时长采样模块；
132.(9)时长采样模块根据特征提取模块和时长预测模块的输出，对文本编码进行上采样处理，输出经过上采样处理的文本编码和经过上采样处理的第三瓶颈特征，并将输出结果输入至基频预测模块；
133.(10)基频预测模块根据输入的经过上采样处理的文本编码和经过上采样处理的音频模板的情感特征，预测文本编码的基频特征，得到经过上采样处理的文本编码、预测时长和基频特征，并将输出的结果输入至解码器模块；
134.(11)解码器模块根据经过上采样处理的所述文本编码、所述经过上采样处理的第三瓶颈特征和所述基频特征，获取待合成音频的音频特征，并将待合成音频的音频特征输入至声码器模块；
135.(12)声码器模块根据输入的待合成音频的音频特征，得到合成音频。
136.在一些实施例中，本技术还可以将目标文本转换为具有风格特征的音频，下面是本技术的示例性实施例4，本技术的示例性实施例4同样以用户丙期望收听的某小说为例进行说明。
137.(1)获取小说的文本内容，对小说的文本内容进行分析，具体的，可以通过风格编码网络模型获取该文本的第一瓶颈特征，即文本的风格特征；
138.(2)从参考音频库中获取每一个参考音频对应的参考文本，以及，每一个参考文本对应的第二瓶颈特征，即参考文本的风格特征；
139.(3)分别计算每一个参考文本的风格特征与小说文本的风格特征的相似度，选取与小说文本的风格特征的相似度最高的参考文本，将该参考文本确定为文本模板；
140.(4)获取该文本模板的参考音频，将该参考音频确定为音频模板；
141.(5)将所述音频模板和所述小说文本输入预先训练的语音合成模型，其中，该语音合成模型包括编码器模块、特征提取模块、时长预测模块、时长采样模块、基频预测模块、解码器模块以及声码器模块；
142.(6)编码器模块获取输入的小说文本的文本序列，将所述文本序列转换为对应的文本编码，将所述文本编码输入至时长预测模块；
143.(7)将音频模板输入至特征提取模块，特征提取模块获取所述音频模板的风格特征，并将所述音频模板的风格特征输入至时长预测模块；
144.(8)时长预测模块根据输入的文本编码和音频模板的风格特征，获取所述文本编码的预测时长，并将所述文本编码的预测时长输入至时长采样模块；
145.(9)时长采样模块根据特征提取模块和时长预测模块的输出，对文本编码进行上采样处理，输出经过上采样处理的文本编码和经过上采样处理的第三瓶颈特征，并将输出结果输入至基频预测模块；
146.(10)基频预测模块根据输入的经过上采样处理的文本编码和经过上采样处理的音频模板的风格特征，预测文本编码的基频特征，得到经过上采样处理的文本编码、预测时长和基频特征，并将输出的结果输入至解码器模块；
147.(11)解码器模块根据经过上采样处理的所述文本编码、所述经过上采样处理的第三瓶颈特征和所述基频特征，获取待合成音频的音频特征，并将待合成音频的音频特征输入至声码器模块；
148.(12)声码器模块根据输入的待合成音频的音频特征，得到合成音频。
149.参见图3，为本技术提供的一种语音合成模型的训练方法，上述语音合成模型可以通过该方法进行训练优化，所述方法包括：
150.s310:获取训练素材，所述训练素材包括训练音频和与所述训练音频对应的训练文本；
151.在一些实施例中，所述训练音频可以是通过专业的录音员录制的带有不同情感倾向的情感语音数据组成的集合，也可以是直接在互联网上爬取的大量带有不同情感倾向的情感语音数据组成的集合。
152.s320:分析所述训练音频，得到所述训练音频的音频特征；
153.在一些实施例中，可先对训练音频进行短期傅里叶变换，再将变换后的音频的频谱映射至梅尔刻度，利用三角函数取对数，并取离散余弦转换，以得到训练音频的音频特征，所述音频特征至少包括所述训练音频的梅尔频谱特征、梅尔倒谱特征中的一种。
154.s330:分析所述训练文本，得到所述训练文本的文本特征；
155.在一些实施例中，对所述训练文本依次进行句子结构分析、文本正则化、分词、词性预测以及韵律预测和转音素等处理，以得到所述训练文本的文本特征，所述训练文本包括所述训练文本的每一个音素的合集、所述训练文本的情感特征合集和所述训练文本的风格特征合集。
156.其中，句子结构分析用于将训练文本划分为单个的句子合集。可选的，句子结构分析可以采用基于神经网络训练的模型实现。文本正则化处理是用于在中文语境下，训练文本中不是中文的标点或数字转换为句子的表达，例如，对训练文本“2.1”进行文本正则化处理，得到训练文本“二点一”，在此举例不做具体限定。可选的，文本正则化处理可以采用基于神经网络训练模型实现。分词处理是把所述训练文本中的句子根据语义进行切分，切分时将一个词的中文文字切分在一起。可选的，分词处理可以采用基于神经网络训练的模型实现。词性预测是对所述分词后的训练文本中每个词的词性进行预测。词性包括但不限于名词、动词、形容词、数量词、代词、副词、介词、连词、助词、叹词、拟声词。可选的，词性预测可以采用基于神经网络训练的模型实现。韵律预测是对所述词性预测后的训练文本中每个字的韵律进行预测，即预测每个字的平仄格式及韵律规则。可选的，韵律预测可以采用基于神经网络训练的模型实现。转音素处理是指将经过韵律预测后的训练文本中的文字转换为对应的音素，例如，带转换的文字为“好”，则转音素后的结果为“h,a,o，3”，其中包括3个音素，在此举例不做限定。可选的，转音素预测可以采用基于神经网络训练的模型实现。
157.s340:根据所述训练音频和所述训练文本，将所述训练音频的音频特征与所述训练文本的文本特征相匹配，以获取所述训练文本的发音时长信息，所述发音时长信息是所述训练文本中每一个音素对应的时长合集；
158.在一些实施例中，根据所述训练音频和所述训练文本，利用对齐工具将所述训练音频的音频特征与所述训练文本的文本特征进行对齐，以获取所述训练文本的发音时长信息。
159.s350:将所述音频特征、所述文本特征和所述发音时长信息输入至所述语音合成模型，以训练所述语音合成模型。
160.在一些实施例中，本技术还提供一种语音合成系统，所述语音合成系统被配置为：
161.获取目标文本和所述目标文本的第一瓶颈特征；
162.获取参考音频库，所述参考音频库包括若干参考音频；
163.获取所述参考音频库中每一个所述参考音频对应的参考文本，以及，获取每一个所述参考文本的第二瓶颈特征；
164.计算所述第一瓶颈特征与每一个所述参考文本的第二瓶颈特征的相似度，将与所述第一瓶颈特征相似度最高的所述第二瓶颈特征对应的参考文本确定为文本模板；
165.将所述文本模板对应的参考音频确定为音频模板；
166.将所述音频模板和所述目标文本输入预先训练的语音合成模型中，得到合成音频。
167.由以上技术方案可知，本技术提供一种语音合成方法、系统、语音合成模型及其训练方法，所述方法包括获取目标文本和目标文本的第一瓶颈特征；获取参考音频库，参考音频库包括若干参考音频；获取参考音频库中每一个参考音频对应的参考文本，以及，获取每一个参考文本的第二瓶颈特征；计算第一瓶颈特征与每一个参考文本的第二瓶颈特征的相似度，将与第一瓶颈特征相似度最高的第二瓶颈特征对应的参考文本确定为文本模板；将文本模板对应的参考音频确定为音频模板；将音频模板和目标文本输入预先训练的语音合成模型中，以合成具备深度情感层次特征的语音。
168.具体实现中，本发明还提供一种计算机存储介质，其中，该计算机存储介质可存储有程序，该程序执行时可包括本发明提供的语音合成方法的各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体(英文：read-only memory，简称：rom)或随机存储记忆体(英文：random access memory，简称：ram)等。
169.本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
170.本技术提供的实施例之间的相似部分相互参见即可，以上提供的具体实施方式只是本技术总的构思下的几个示例，并不构成本技术保护范围的限定。对于本领域的技术人员而言，在不付出创造性劳动的前提下依据本技术方案所扩展出的任何其他实施方式都属于本技术的保护范围。