一种语音合成模型的训练方法、装置、设备及介质与流程

1.本技术涉及人工智能技术领域，尤其涉及一种语音合成模型的训练方法、装置、设备及介质。

背景技术：

2.语音合成模型用于实现语音合成，语音合成指的是通过机械的、电子的方法产生人造语音的技术，它是将文本信息转变为可以听得懂的、流利的口语输出的技术。但是现有的语音合成模型在训练过程中，需要大量的语音语料作为训练样本，且同一语音语料的播放时长可能长达几个小时甚至几十个小时，增加了训练样本的获取难度，导致语音合成模型的训练过程较为复杂。

技术实现要素：

3.本技术实施例提供了一种语音合成模型的训练方法、装置、设备及介质，能够使用一条语音语料即可训练语音合成模型，可便捷地实现对语音合成模型的训练，提高语音合成模型的训练效率。
4.一方面，本技术实施例提供一种语音合成模型的训练方法，该方法包括：
5.获取训练样本，训练样本包括训练语音信息和训练语音信息对应的训练文本信息，训练语音信息和训练文本信息指示的内容相同；
6.通过参数编码器对训练语音信息进行编码处理，得到训练语音信息的嵌入信息；
7.通过语音合成模型对训练文本信息进行编码处理，得到训练文本信息的音素数据；
8.通过语音合成模型对嵌入信息和音素数据进行解码处理，得到目标语音信息；
9.根据训练语音信息和目标语音信息，对语音合成模型进行训练，得到训练后的语音合成模型。
10.在一个实施例中，通过参数编码器对训练语音信息进行编码处理，得到训练语音信息的嵌入信息的具体实施过程为：
11.对训练语音信息进行频域转换，得到训练语音信息的频谱特征；
12.通过参数编码器对频谱特征进行表征学习，得到正态分布的参数；
13.基于正态分布的参数构建正态分布，并从构建的正态分布中采样得到嵌入信息。
14.在一个实施例中，通过语音合成模型对训练文本信息进行编码处理，得到训练文本信息的音素数据的具体实施过程为：
15.通过语音合成模型对训练文本信息进行分词处理，得到文本字符串；
16.通过语音合成模型中的单词到音素(grapheme
‑
to
‑
phoneme，g2p)模块，对文本字符串进行转换得到音素序列；
17.通过语音合成模型中的音素编码器，对音素序列进行音素编码处理，得到音素数据。
18.在一个实施例中，通过语音合成模型对嵌入信息和音素数据进行解码处理，得到目标语音信息的具体实施过程为：
19.通过语音合成模型中的上下文解码器，对嵌入信息和音素数据进行解码处理，得到语音频谱；
20.通过语音合成模型中的声码器，对语音频谱进行转换得到语音信息。
21.在一个实施例中，通过语音合成模型中的上下文解码器，对嵌入信息和音素数据进行解码处理，得到语音频谱的具体实施过程为：
22.通过语音合成模型中的上下文解码器，采用自回归模式对嵌入信息和音素数据进行上下文解码，得到语音频谱。
23.在一个实施例中，还可以实施以下过程：
24.获取待合成文本信息；
25.通过训练后的语音合成模型对待合成文本信息进行编码处理，得到待合成文本信息的音素数据；
26.通过训练后的语音合成模型对待合成文本信息的音素数据进行解码处理，得到预测语音信息；
27.输出预测语音信息。
28.在一个实施例中，获取待合成文本信息的具体实施过程为：
29.在检测到对待合成文本信息的语音合成指令时，获取输出待合成文本信息的用户的历史语音信息；
30.对历史语音信息进行分析处理，得到用户的声学特征；
31.通过训练后的语音合成模型对待合成文本信息的音素数据进行解码处理，得到预测语音信息的具体实施过程为：
32.通过训练后的语音合成模型对待合成文本信息的音素数据和声学特征进行解码处理，得到预测语音信息。
33.另一方面，本技术实施例提供了一种语音合成模型的训练装置，该语音合成模型的训练装置包括：
34.获取单元，用于获取训练样本，训练样本包括训练语音信息和训练语音信息对应的训练文本信息，训练语音信息和训练文本信息指示的内容相同；
35.处理单元，用于通过参数编码器对训练语音信息进行编码处理，得到训练语音信息的嵌入信息；
36.处理单元，还用于通过语音合成模型对训练文本信息进行编码处理，得到训练文本信息的音素数据；
37.处理单元，还用于通过语音合成模型对嵌入信息和音素数据进行解码处理，得到目标语音信息；
38.处理单元，还用于根据训练语音信息和目标语音信息，对语音合成模型进行训练，得到训练后的语音合成模型。
39.再一方面，本技术实施例提供一种电子设备，包括处理器、存储器和通信接口，处理器、存储器和通信接口相互连接，其中，存储器用于存储支持终端执行上述方法的计算机程序，计算机程序包括程序指令，处理器被配置用于调用程序指令，执行如下步骤：获取训
练样本，训练样本包括训练语音信息和训练语音信息对应的训练文本信息，训练语音信息和训练文本信息指示的内容相同；通过参数编码器对训练语音信息进行编码处理，得到训练语音信息的嵌入信息；通过语音合成模型对训练文本信息进行编码处理，得到训练文本信息的音素数据；通过语音合成模型对嵌入信息和音素数据进行解码处理，得到目标语音信息；根据训练语音信息和目标语音信息，对语音合成模型进行训练，得到训练后的语音合成模型。
40.又一方面，本技术实施例提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序包括程序指令，程序指令当被处理器执行时使处理器执行上述语音合成模型的训练方法。
41.本技术实施例中，获取训练样本，训练样本包括训练语音信息和训练语音信息对应的训练文本信息，训练语音信息和训练文本信息指示的内容相同；通过参数编码器对训练语音信息进行编码处理，得到训练语音信息的嵌入信息；通过语音合成模型对训练文本信息进行编码处理，得到训练文本信息的音素数据；通过语音合成模型对嵌入信息和音素数据进行解码处理，得到目标语音信息；根据训练语音信息和目标语音信息，对语音合成模型进行训练，得到训练后的语音合成模型，能够使用一条语音语料即可训练语音合成模型，可便捷地实现对语音合成模型的训练，提高语音合成模型的训练效率。
附图说明
42.为了更清楚地说明本技术实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
43.图1是本技术实施例提供的一种语音合成模型的训练方法的流程示意图；
44.图2是本技术实施例提供的一种语音合成模型的训练系统的架构示意图；
45.图3是本技术实施例提供的一种语音合成方法的流程示意图；
46.图4是本技术实施例提供的一种语音合成系统的架构示意图；
47.图5是本技术实施例提供的一种语音合成模型的训练装置的结构示意图；
48.图6是本技术实施例提供的一种电子设备的结构示意图。
具体实施方式
49.本技术实施例涉及语音合成模型，提供一种语音合成模型的训练方法，该语音合成模型的训练方法基于训练语音信息和训练语音信息对应的训练文本信息，即可实现对语音合成模型的训练，也就是说，本技术实施例能够仅使用一条语音语料即可训练语音合成模型，可便捷地实现对语音合成模型的训练，提高语音合成模型的训练效率。
50.其中，训练语音信息的数量可以为一条，也可以为多条，具体不受本技术实施例的限定。当训练语音信息的数量为多条时，不同训练语音信息对应不同训练文本信息，本技术实施例可基于每条训练语音信息和该条训练语音信息对应的训练文本信息对语音合成模型进行一次训练，通过多条训练语音信息和多条训练文本信息实现对语音合成模型的迭代训练，得到训练后的语音合成模型。
51.每个训练文本信息可以由一个或者多个文本字符串组成。例如，假设训练文本信息为“祝你生日快乐”，那么该训练文本信息对应的训练语音信息为某个用户输入的关于“祝你生日快乐”的音频数据。现有的语音合成模型在训练过程中，需要大量的语音信息(例如不同用户输入的关于同一训练文本信息的音频数据)，且一个语音信息的播放时长可能长达几个小时甚至几十个小时。而本技术可基于同一训练文本信息对应的单条训练语音信息对语音合成模型进行训练，也就是说，本技术实施例使用一条语音语料即可训练语音合成模型，且能够确保训练后的语音合成模型能够合成高质量高自然度的语音信息。
52.本技术实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(artificial intelligence，ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
53.人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
54.请参见图1，图1是本技术实施例提供的一种语音合成模型的训练方法的流程示意图；如图1所示的语音合成模型的训练方法可由第一电子设备来执行，该方案包括但不限于步骤s101
‑
步骤s105，其中：
55.s101，获取训练样本，训练样本包括训练语音信息和训练语音信息对应的训练文本信息，训练语音信息和训练文本信息指示的内容相同。
56.第一电子设备可以获取训练样本，训练样本中的训练语音信息可以为单条训练语音信息，即一个用户输入的音频数据，例如某个用户输入关于“祝你生日快乐”的音频数据，那么第一电子设备可以将该音频数据作为训练语音信息，该训练语音信息对应的训练文本信息可以为“祝你生日快乐”。
57.可以理解的是，训练样本可以是用户输入至第一电子设备的，例如第一电子设备通过麦克风采集训练语音信息，并通过第一电子设备的输入装置(例如触控面板或者键盘等)采集该训练语音信息对应的训练文本信息。可选的，训练样本也可以是第一电子设备从本地存储器中获取的，也可以是第一电子设备从其他设备中获取的，还可以是第一电子设备通过互联网下载得到的，具体不受本技术实施例的限制。
58.其中，第一电子设备可以为智能手机、平板电脑、笔记本电脑、台式计算机、智能车载设备以及智能可穿戴设备中的任意一种或多种。可选的，第一电子设备也可以为服务器，该服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统等。也就是说，服务器可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(contentdelivery network，cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。
59.s102，通过参数编码器对训练语音信息进行编码处理，得到训练语音信息的嵌入信息。
60.在一个实施例中，第一电子设备可以对训练语音信息进行频域转换，得到该训练
语音信息的频谱特征，通过参数编码器对该频谱特征进行表征学习，得到正态分布的参数，即均值和方差，然后基于正态分布的参数构建正态分布，从构建的正态分布中采样得到嵌入信息(embedding)。本技术实施例通过参数编码器对该频谱特征进行表征学习，得到正态分布的参数，即均值和方差，然后基于正态分布的参数构建正态分布，从构建的正态分布中采样得到嵌入信息，提升了语音合成的泛化能力。
61.以图2所示的语音合成模型的训练系统的架构示意图为例，第一电子设备可以对训练语音信息进行频域转换，得到该训练语音信息的频谱特征，将该频谱特征输入至参数编码器，通过参数编码器对该频谱特征进行表征学习，得到正态分布的参数，即均值和方差，然后基于正态分布的参数构建正态分布，从构建的正态分布中采样得到嵌入信息。
62.其中，参数编码器可以为变分自编码器(variational auto
‑
encoder，vae)。vae编码器是一个神经网络，它的输入是数据点x(即目标语音信息的频谱特征)，输出是隐向量z，vae编码器的参数是θ，因此vae编码器可以表示为qθ(z|x)。为了更具体地说明，假设x是784维的黑白图片向量。vae编码器需要将728维的数据x编码到隐空间z，而且隐空间z的维度要比784小很多，这就要求vae编码器必须学习将数据有效压缩到此低维空间的方法。此外，我们假设z是服从正态分布的，编码器输出z的过程实际上可以分解成两步：1)首先vae编码器输出正态分布的参数(均值、方差)，正态分布的参数对于每个数据点都是不一样的；2)将噪声与该正态分布融合并从中采样获得输出(即嵌入信息)。
63.其中，embedding是一个将离散变量转为连续向量表示的一个方式。在神经网络中，embedding是非常有用的，因为它不光可以减少离散变量的空间维数，同时还可以有意义的表示该变量。换句话说，embedding可以将大型稀疏向量转换为保留语义关系的低维空间。
64.s103，通过语音合成模型对训练文本信息进行编码处理，得到训练文本信息的音素数据。
65.本技术实施例中的语音合成模型可以包括g2p模块和音素编码器。
66.在一个实施例中，第一电子设备可以对训练文本信息进行分词处理，得到文本字符串，然后通过g2p模块将文本字符串转化成音素序列，通过音素编码器对音素序列进行音素编码处理，得到编码的音素数据。
67.以图2所示的语音合成模型的训练系统的架构示意图为例，第一电子设备可以对训练文本信息进行分词处理，得到文本字符串，将该文本字符串输入至g2p模块，然后通过g2p模块将文本字符串转化成音素序列，通过音素编码器对音素序列进行音素编码处理，得到编码的音素数据。
68.其中，音素(phone)，是根据语音的自然属性划分出来的最小语音单位，从声学性质来看，音素是从音质角度划分出来的最小语音单位，从生理性质来看，一个发音动作形成一个音素。如“ma”包含“m”以及“a”两个发音动作，是两个音素。相同发音动作发出的音就是同一音素，不同发音动作发出的音就是不同音素。如“ma
‑
mi”中，两个“m”发音动作相同，是相同音素，“a”以及“i”发音动作不同，是不同音素。对音素的分析，一般是根据发音动作来描写的。如“m”的发音动作是：上唇和下唇闭拢，声带振动，气流从鼻腔流出发音。
69.其中，g2p模块使用循环神经网络(recurrent neural network，rnn)和长短期记忆网络(long short
‑
termmemory units，lstm)，来实现从英文单词到音素的转化。其中，音
素编码器可以将音素序列依照基周参数，振幅参数与频谱参数加以编码，得到编码的音素数据。具体的，可以利用内插方式将基周参数，振幅参数与频谱参数做平滑处理，得到编码的音素数据。
70.对于基周参数，振幅参数，可以以一个音框(例如一个音框frame＝180取样点，8khz的取样率)为单位，逐步计算出其参数值。频谱参数则根据线性预测编码(linear predictive coding，lpc)的方式计算得到，计算公式为：
71.a
n
/(1+a1z
‑
1+a2z
‑2…
+a
10
z
‑
10
)
72.a
n
为振幅参数，z以及a1…
a
10
为lpc参数。
73.s104，通过语音合成模型对嵌入信息和音素数据进行解码处理，得到目标语音信息。
74.具体实现中，语音合成模型还可以包括上下文解码器和声码器。第一电子设备可以通过上下文解码器对嵌入信息和编码的音素数据进行解码，通过序列到序列的方式生成语音频谱，然后通过声码器将生成的语音频谱转化成语音波形，得到目标语音信息。
75.示例性的，本技术实施例中的声码器可以为griffin
‑
lim声码器或者melgan声码器等。其中，griffin
‑
lim声码器是在仅已知幅度谱、不知道相位谱的条件下重建语音的算法，它是一个迭代算法，迭代过程如下：先随机初始化一个相位谱；用相位谱和已知的幅度谱经过短时傅立叶逆变换(inverse short
‑
time fourier transform，istft)合成新语音；对合成的语音做短时傅立叶变换(short
‑
time fourier transform，stft)，得到新的幅度谱和相位谱；丢弃新的幅度谱，用相位谱和已知的幅度谱合成语音，如此重复。melgan声码器可以基于生成对抗网络(generative adversarial networks，gan)快速生成音频，melgan是一种非自回归前馈卷积架构，由gan去实现原始音频的生成，在没有额外的蒸馏和感知损失的引入下仍能产生高质量的语音信息。
76.在一个实施例中，第一电子设备可以将嵌入信息和编码的音素数据输入至注意力模块，通过注意力权重对嵌入信息和编码的音素数据进行加权处理，得到编码信息，然后通过上下文解码器对对编码信息行解码处理，得到语音频谱。
77.示例性的，注意力模块可以包括senet(squeeze
‑
and
‑
excitationnetworks，压缩和激励网络)或者cbam(convolutional block attention module，基于卷积块的注意机制)等。senet的原理是：通过学习的方式来自动获取到每个特征通道的重要程度，然后依照这个重要程度去提升有用的特征并抑制对当前任务用处不大的特征。cbam包含2个独立的子模块，通道注意力模块(channel attention module，cam)和空间注意力模块(spartial attention module，sam)，分别进行通道与空间上的attention。这样不只能够节约参数和计算力，并且保证了其能够做为即插即用的模块集成到现有的网络架构中去。
78.以图2所示的语音合成模型的训练系统的架构示意图为例，第一电子设备可以将嵌入信息和编码的音素数据输入至注意力模块，通过注意力权重对嵌入信息和编码的音素数据进行加权处理，得到编码信息。然后第一电子设备可以将编码信息输入至上下文解码器，通过上下文解码器对对编码信息进行解码处理，得到语音频谱。进而，第一电子设备可以将语音频谱输入至声码器，通过声码器将生成的语音频谱转化成语音波形，得到目标语音信息。
79.在一个实施例中，第一电子设备可以通过语音合成模型中的上下文解码器，采用
自回归模式对嵌入信息和音素数据进行上下文解码，得到语音频谱。
80.具体实现中，上下文解码器可以包括自回归模块。自回归模块(autoregressive model，ar)，是统计上一种处理时间序列的方法，用同一变数例如x的之前各期，亦即x1至x
t
‑1来预测本期x
t
的表现，也就是说，通过自回归模块可以根据上文内容预测下一个可能跟随的单词，从而得到语音频谱。本技术中，采用自回归的方式进行上下文解码，能够确保合成的语音帧之间更加平滑，合成的内容也更加自然。
81.在一个实施例中，上下文解码器可以包括基于转换器的双向编码表征模块(bidirectional encoder representations from transformers，bert)，bert的本质上是通过在语料的基础上运行自监督学习方法为单词学习一个好的特征表示，所谓自监督学习是指在没有人工标注的数据上运行的监督学习。
82.s105，根据训练语音信息和目标语音信息，对语音合成模型进行训练，得到训练后的语音合成模型。
83.具体实现中，第一电子设备可以将训练语音信息和训练样本中的目标语音信息进行比较，得到语音合成模型的损失值，然后基于该损失值对语音合成模型进行训练，得到训练后的语音合成模型。
84.通过本技术实施例，可使用单条语料对语音合成模型进行训练，且确保训练后的语音合成模型可生成高质量且表达自然的语音信息。
85.本技术实施例中，获取训练样本，训练样本包括训练语音信息和训练语音信息对应的训练文本信息，训练语音信息和训练文本信息指示的内容相同；通过参数编码器对训练语音信息进行编码处理，得到训练语音信息的嵌入信息；通过语音合成模型对训练文本信息进行编码处理，得到训练文本信息的音素数据；通过语音合成模型对嵌入信息和音素数据进行解码处理，得到目标语音信息；根据训练语音信息和目标语音信息，对语音合成模型进行训练，得到训练后的语音合成模型，能够使用一条语音语料即可训练语音合成模型，可便捷地实现对语音合成模型的训练，提高语音合成模型的训练效率。
86.请参见图3，图3是本技术实施例提供的一种语音合成方法的流程示意图；该语音合成方法可由第二电子设备来执行，该方案可包括但不限于步骤s301
‑
步骤s304，其中：
87.s301，获取待合成文本信息。
88.例如，第二电子设备运行有阅读客户端，阅读客户端提供了听书功能，如果用户对某个文本信息(例如小说或者诗歌等)提交听书指令，那么第一电子设备在检测到听书指令之后可以获取该文本信息，其中该文本信息为待合成文本信息。又如，在用户驾车或者处于颠簸环境等不方便浏览设备的场景中，即时通讯客户端中的某个会话界面包括至少一个文本信息，如果用户需要将某个文本信息转换成语音，那么用户可以对该文本信息提交语音转换指令，第二电子设备在检测到语音转换指令之后，可以获取该文本信息，其中该文本信息为待合成文本信息。又如，用户在与第二电子设备中的智能客服客户端进行交互时，如果用户通过第二电子设备向智能客服客户端提交交互信息(交互信息的类型可以是文本或者语音)，智能客服客户端可以基于交互信息确定待输出至用户的文本信息，其中该文本信息为待合成文本信息。又如，第二电子设备在电子导航过程中，第二电子设备可以获取导航信息(例如指示前方直行、向左转或者向右转等)，其中该导航信息为待合成信息。又如，第二电子设备在智能诊疗或者远程会诊等过程中，如果病人由于身体等原因导致无法浏览设备
(例如病人无法挪动身体，且第二电子设备与病人之间存在一定距离)，那么对端用户输入的文本信息，其中该文本信息为待合成文本信息，示例性的，以智能诊疗为例，对端用户可以指的是智能诊疗助手；以远程会诊为例，对端用户可以指的是医生，具体不受本技术实施例的限制。
89.其中，第二电子设备可以为智能手机、平板电脑、笔记本电脑、台式计算机、智能车载设备以及智能可穿戴设备中的任意一种或多种。示例性的，第二电子设备可以为运行有阅读客户端、即时通讯客户端或者智能客服客户端的设备。第二电子设备和第一电子设备可以为同一设备，也可以为不同设备，具体不受本技术实施例的限制。
90.s302，通过训练后的语音合成模型对待合成文本信息进行编码处理，得到待合成文本信息的音素数据。
91.训练后的语音合成模型可以包括g2p模块和音素编码器。
92.具体实现中，第二电子设备需要对待合成文本信息进行语音合成时，可以将待合成文本信息输入至训练后的语音合成模型，训练后的语音合成模型可以对待合成文本信息进行分词处理，得到文本字符串，然后通过g2p模块将文本字符串转化成音素序列，通过音素编码器对音素序列进行音素编码处理，得到编码的音素数据。上下文解码器对嵌入信息和编码的音素数据进行解码，通过序列到序列的方式生成语音频谱，然后通过声码器将生成的语音频谱转化成语音波形，得到预测语音信息，进而输出预测语音信息。
93.以图4所示的语音合成系统的架构示意图为例，第二电子设备可以对待合成文本信息进行分词处理，得到文本字符串，将该文本字符串输入至g2p模块。然后通过g2p模块将文本字符串转化成音素序列，将该音素序列输入至音素编码器。通过音素编码器对音素序列进行音素编码处理，得到编码的音素数据。
94.需要说明的是，本技术实施例中对待合成文本信息进行编码处理的实施逻辑和图1所示实施例中对训练文本信息进行编码处理的实施逻辑相似，步骤s302的具体实施过程可参见图1所示实施例中步骤s103所示的具体实施过程的相关描述，在此不做赘述。
95.s303，通过训练后的语音合成模型对待合成文本信息的音素数据进行解码处理，得到预测语音信息。
96.训练后的语音合成模型还可以包括上下文解码器和声码器。
97.具体实现中，第二电子设备通过上下文解码器对预设嵌入信息和编码的音素数据进行解码，通过序列到序列的方式生成语音频谱，然后通过声码器将生成的语音频谱转化成语音波形，得到预测语音信息，进而输出预测语音信息。
98.以图4所示的语音合成系统的架构示意图为例，第二电子设备得到编码的音素数据之后，可以将音素数据输入至上下文解码器，通过上下文解码器对预设嵌入信息和编码的音素数据进行解码，得到语音频谱。第二电子设备将语音频谱输入至声码器，然后通过声码器将语音频谱转化成语音波形，得到预测语音信息。
99.其中，预设嵌入信息为预先设置的嵌入信息。例如，是对某个特定用户的语音信息进行频域转换，得到该语音信息的频谱特征，通过参数编码器对该频谱特征进行表征学习，得到正态分布的参数，然后基于正态分布的参数构建正态分布，从构建的正态分布中采样得到预设嵌入信息。基于此，训练后的语音合成模型针对任一待合成文本信息，都是对上述预设嵌入信息和该待合成文本信息的音素数据进行解码处理，得到预测语音信息。又如，是
对多个用户中的每个用户的语音信息进行频域转换，得到该语音信息的频谱特征，通过参数编码器对该频谱特征进行表征学习，得到正态分布的参数，然后基于正态分布的参数构建正态分布，从构建的正态分布中采样得到每个用户的嵌入信息。基于此，如果第二设备的用户希望采用多个用户中的目标用户(例如刘德华)的声音，那么第二电子设备的用户可以通过第二电子设备选取目标用户的嵌入信息，第二电子设备将第二电子设备的用户选取的嵌入信息作为预设嵌入信息，对该预设嵌入信息和待合成文本信息的音素数据进行解码处理，得到预测语音信息，可确保预测语音信息与目标用户针对待合成文本信息输入的音频数据高度匹配，进而确保预测语音信息符合用户意愿，从而提升用户黏度。
100.需要说明的是，本技术实施例中对待合成文本信息的音素数据进行解码处理的实施逻辑和图1所示实施例中对训练文本信息的音素数据进行解码处理的实施逻辑相似，步骤s303的具体实施过程可参见图1所示实施例中步骤s104所示的具体实施过程的相关描述，在此不做赘述。
101.s304，输出预测语音信息。
102.具体实现中，第二电子设备获取到预测语音信息之后，可以显示该语音信息，在用户对该语音信息进行播放操作(例如单击或者长按该语音信息等)之后，第二电子设备可以响应该播放操作生成播放指令，并播放该预测语音信息。或者，第二电子设备获取到预测语音信息之后，可以直接播放该预测语音信息。本技术实施例通过直接播放预测语音信息，可便于用户在不浏览第二电子设备的情况下也可以知悉待合成文本信息的具体内容。
103.在一个实施例中，第二电子设备在检测到对所述待合成文本信息的语音合成指令时，可以获取输出待合成文本信息的用户的历史语音信息，对历史语音信息进行分析处理，得到用户的声学特征，通过训练后的语音合成模型对待合成文本信息的音素数据和声学特征进行解码处理，得到预测语音信息。
104.本技术实施例中，第二电子设备在检测到对待合成文本信息的语音转换指令之后，可以对输出该待合成文本信息的用户的历史语音信息进行分析，得到该用户的音色等参数，基于确定的音色等参数对该待合成文本信息进行语音合成，使得语音合成后的预测语音信息更贴近该用户的发音。
105.在一个实施例中，第二电子设备在检测到对待合成文本信息的语音转换指令之后，可以对该待合成文本信息进行情绪分析，得到用于表征情绪的音调等参数，基于确定的音调等参数对该待合成文本信息进行语音合成，可减弱语音合成后的预测语音信息的机械感，使得语音合成后的预测语音信息更自然。
106.本技术实施例中，获取待合成文本信息，通过训练后的语音合成模型对待合成文本信息进行编码处理，得到待合成文本信息的音素数据，通过训练后的语音合成模型对待合成文本信息的音素数据进行解码处理，得到预测语音信息，输出预测语音信息，可确保预测语音信息的高质量、高自然度。
107.本技术实施例还提供了一种计算机存储介质，该计算机存储介质中存储有程序指令，该程序指令被执行时，用于实现上述实施例中描述的相应方法。
108.再请参见图5，图5是本技术实施例的提供一种语音合成模型的训练装置的结构示意图。
109.本技术实施例的装置的一个实现方式中，装置包括如下结构。
110.获取单元501，用于获取训练样本，所述训练样本包括训练语音信息和所述训练语音信息对应的训练文本信息，所述训练语音信息和所述训练文本信息指示的内容相同；
111.处理单元502，用于通过参数编码器对所述训练语音信息进行编码处理，得到所述训练语音信息的嵌入信息；
112.所述处理单元502，还用于通过语音合成模型对所述训练文本信息进行编码处理，得到所述训练文本信息的音素数据；
113.所述处理单元502，还用于通过所述语音合成模型对所述嵌入信息和所述音素数据进行解码处理，得到目标语音信息；
114.所述处理单元502，还用于根据所述训练语音信息和所述目标语音信息，对所述语音合成模型进行训练，得到训练后的语音合成模型。
115.在一个实施例中，处理单元502通过参数编码器对所述训练语音信息进行编码处理，得到所述训练语音信息的嵌入信息，包括：
116.对所述训练语音信息进行频域转换，得到所述训练语音信息的频谱特征；
117.通过所述参数编码器对所述频谱特征进行表征学习，得到正态分布的参数；
118.基于所述正态分布的参数构建正态分布，并从构建的正态分布中采样得到所述嵌入信息。
119.在一个实施例中，处理单元502通过语音合成模型对所述训练文本信息进行编码处理，得到所述训练文本信息的音素数据，包括：
120.通过所述语音合成模型对所述训练文本信息进行分词处理，得到文本字符串；
121.通过所述语音合成模型中的g2p模块，对所述文本字符串进行转换得到音素序列；
122.通过所述语音合成模型中的音素编码器，对所述音素序列进行音素编码处理，得到所述音素数据。
123.在一个实施例中，处理单元502通过所述语音合成模型对所述嵌入信息和所述音素数据进行解码处理，得到目标语音信息，包括：
124.通过所述语音合成模型中的上下文解码器，对所述嵌入信息和所述音素数据进行解码处理，得到语音频谱；
125.通过所述语音合成模型中的声码器，对所述语音频谱进行转换得到所述目标语音信息。
126.在一个实施例中，处理单元502通过所述语音合成模型中的上下文解码器，对所述嵌入信息和所述音素数据进行解码处理，得到语音频谱，包括：
127.通过所述语音合成模型中的上下文解码器，采用自回归模式对所述嵌入信息和所述音素数据进行上下文解码，得到所述语音频谱。
128.在一个实施例中，获取单元501，还用于获取待合成文本信息；
129.处理单元502，还用于通过所述训练后的语音合成模型对所述待合成文本信息进行编码处理，得到所述待合成文本信息的音素数据；
130.处理单元502，还用于通过所述训练后的语音合成模型对所述待合成文本信息的音素数据进行解码处理，得到预测语音信息；
131.所述装置还可以包括输出单元503；
132.输出单元503，用于输出所述预测语音信息。
133.在一个实施例中，获取单元501获取待合成文本信息，包括：
134.在检测到对所述待合成文本信息的语音合成指令时，获取输出所述待合成文本信息的用户的历史语音信息；
135.对所述历史语音信息进行分析处理，得到所述用户的声学特征；
136.处理单元502通过所述训练后的语音合成模型对所述待合成文本信息的音素数据进行解码处理，得到预测语音信息，包括：
137.通过所述训练后的语音合成模型对所述待合成文本信息的音素数据和所述声学特征进行解码处理，得到所述预测语音信息。
138.本技术实施例中，获取训练样本，训练样本包括训练语音信息和训练语音信息对应的训练文本信息，训练语音信息和训练文本信息指示的内容相同；通过参数编码器对训练语音信息进行编码处理，得到训练语音信息的嵌入信息；通过语音合成模型对训练文本信息进行编码处理，得到训练文本信息的音素数据；通过语音合成模型对嵌入信息和音素数据进行解码处理，得到目标语音信息；根据训练语音信息和目标语音信息，对语音合成模型进行训练，得到训练后的语音合成模型，能够使用一条语音语料即可训练语音合成模型，可便捷地实现对语音合成模型的训练，提高语音合成模型的训练效率。
139.再请参见图6，图6是本技术实施例提供的一种电子设备的结构示意图，本技术实施例的电子设备包括供电模块等结构，并包括处理器601、存储器602以及通信接口603。处理器601、存储器602以及通信接口603之间可以交互数据，由处理器601实现相应的数据处理方案。
140.存储器602可以包括易失性存储器(volatile memory)，例如随机存取存储器(random
‑
access memory，ram)；存储器602也可以包括非易失性存储器(non
‑
volatile memory)，例如快闪存储器(flash memory)，固态硬盘(solid
‑
state drive，ssd)等；存储器602还可以包括上述种类的存储器的组合。
141.处理器601可以是中央处理器601(central processing unit，cpu)。处理器601也可以是由cpu和gpu的组合。在电子设备中，可以根据需要包括多个cpu和gpu进行相应的数据处理。在一个实施例中，存储器602用于存储程序指令。处理器601可以调用程序指令，实现如本技术实施例中上述涉及的各种方法。
142.在第一个可能的实施方式中，电子设备的处理器601，调用存储器602中存储的程序指令，用于执行如下操作：
143.获取训练样本，所述训练样本包括训练语音信息和所述训练语音信息对应的训练文本信息，所述训练语音信息和所述训练文本信息指示的内容相同；
144.通过参数编码器对所述训练语音信息进行编码处理，得到所述训练语音信息的嵌入信息；
145.通过语音合成模型对所述训练文本信息进行编码处理，得到所述训练文本信息的音素数据；
146.通过所述语音合成模型对所述嵌入信息和所述音素数据进行解码处理，得到目标语音信息；
147.根据所述训练语音信息和所述目标语音信息，对所述语音合成模型进行训练，得到训练后的语音合成模型。
148.在一个实施例中，处理器601在通过参数编码器对所述训练语音信息进行编码处理，得到所述训练语音信息的嵌入信息时，具体执行如下操作：
149.对所述训练语音信息进行频域转换，得到所述训练语音信息的频谱特征；
150.通过所述参数编码器对所述频谱特征进行表征学习，得到正态分布的参数；
151.基于所述正态分布的参数构建正态分布，并从构建的正态分布中采样得到所述嵌入信息。
152.在一个实施例中，处理器601在通过语音合成模型对所述训练文本信息进行编码处理，得到所述训练文本信息的音素数据时，具体执行如下操作：
153.通过所述语音合成模型对所述训练文本信息进行分词处理，得到文本字符串；
154.通过所述语音合成模型中的g2p模块，对所述文本字符串进行转换得到音素序列；
155.通过所述语音合成模型中的音素编码器，对所述音素序列进行音素编码处理，得到所述音素数据。
156.在一个实施例中，处理器601在通过所述语音合成模型对所述嵌入信息和所述音素数据进行解码处理，得到目标语音信息时，具体执行如下操作：
157.通过所述语音合成模型中的上下文解码器，对所述嵌入信息和所述音素数据进行解码处理，得到语音频谱；
158.通过所述语音合成模型中的声码器，对所述语音频谱进行转换得到所述目标语音信息。
159.在一个实施例中，处理器601在通过所述语音合成模型中的上下文解码器，对所述嵌入信息和所述音素数据进行解码处理，得到语音频谱时，具体执行如下操作：
160.通过所述语音合成模型中的上下文解码器，采用自回归模式对所述嵌入信息和所述音素数据进行上下文解码，得到所述语音频谱。
161.在一个实施例中，处理器601调用存储器602中存储的程序指令，还用于执行如下操作：
162.获取待合成文本信息；
163.通过所述训练后的语音合成模型对所述待合成文本信息进行编码处理，得到所述待合成文本信息的音素数据；
164.通过所述训练后的语音合成模型对所述待合成文本信息的音素数据进行解码处理，得到预测语音信息；
165.通信接口603调用存储器602中存储的程序指令，用于输出所述预测语音信息。
166.在一个实施例中，处理器601在获取待合成文本信息时，具体执行如下操作：
167.在检测到对所述待合成文本信息的语音合成指令时，获取输出所述待合成文本信息的用户的历史语音信息；
168.对所述历史语音信息进行分析处理，得到所述用户的声学特征；
169.处理器601在通过所述训练后的语音合成模型对所述待合成文本信息的音素数据进行解码处理，得到预测语音信息时，具体执行如下操作：
170.通过所述训练后的语音合成模型对所述待合成文本信息的音素数据和所述声学特征进行解码处理，得到所述预测语音信息。
171.本技术实施例中，获取训练样本，训练样本包括训练语音信息和训练语音信息对
应的训练文本信息，训练语音信息和训练文本信息指示的内容相同；通过参数编码器对训练语音信息进行编码处理，得到训练语音信息的嵌入信息；通过语音合成模型对训练文本信息进行编码处理，得到训练文本信息的音素数据；通过语音合成模型对嵌入信息和音素数据进行解码处理，得到目标语音信息；根据训练语音信息和目标语音信息，对语音合成模型进行训练，得到训练后的语音合成模型，能够使用一条语音语料即可训练语音合成模型，可便捷地实现对语音合成模型的训练，提高语音合成模型的训练效率。
172.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(read
‑
only memory，rom)或随机存储记忆体(random access memory，ram)等。所述的计算机可读存储介质可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据区块链节点的使用所创建的数据等。
173.其中，本技术所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
174.以上所揭露的仅为本技术的部分实施例而已，当然不能以此来限定本技术之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本技术权利要求所作的等同变化，仍属于发明所涵盖的范围。