基于深度学习的音频生成方法、装置、设备及存储介质与流程

1.本技术属于人工智能技术领域，尤其涉及基于深度学习的音频生成方法、音频生成装置、音频生成设备及存储介质。

背景技术：

2.随着深度学习的发展，文字转语音技术被广泛应用与各个领域。然而，通过文字转语音技术得到的音频文件中往往含有大量噪音，导致这种音频文件在播放过程中，音频中的噪声使音频的收听者产生刺耳的感觉。同时，音频中存在的噪声往往还会影响着整个音频对信息的表达。因此，降低音频中的噪音在音频信号处理领域中非常有必要。
3.现有技术中往往利用神经网络对生成的音频进行去噪处理。但是由于高质量的样本音频获取困难，使用训练得到的神经网络在对音频信号进行去噪处理的准确度不高，导致生成的音频还是含有大量噪音。

技术实现要素：

4.有鉴于此，本技术实施例提供了基于深度学习的音频生成方法、音频生成装置、音频生成设备及存储介质，以解决现有技术中往往利用神经网络对生成的音频进行去噪处理。但是由于高质量的样本音频获取困难，使用训练得到的神经网络在对音频信号进行去噪处理的准确度不高，导致生成的音频还是含有大量噪音的问题。
5.本技术实施例的第一方面提供了一种基于深度学习的音频生成方法，该音频生成方法包括：
6.获取用户的带噪音频和待转换文本；
7.通过已训练的音乐筛选器对所述带噪音频进行处理，得到去噪音频；
8.将所述去噪音频输入已训练的gst模型中进行处理，得到所述去噪音频对应的质量嵌入向量；
9.通过已训练的tts模型对所述待转换文本和所述质量嵌入向量进行处理，得到所述待转换文本对应的目标音频。
10.可选地，所述通过已训练的音乐筛选器对所述带噪音频进行处理，得到去噪音频，包括：
11.基于所述音乐筛选器和所述带噪音频，生成所述带噪音频对应的幅度谱和掩谱码；
12.根据所述幅度谱和所述掩谱码，生成所述去噪音频。
13.可选地，所述音乐筛选器包括声纹识别网络和掩谱码网络，所述基于所述音乐筛选器和所述带噪音频，生成所述带噪音频对应的幅度谱和掩谱码，包括：
14.通过所述声纹识别网络，提取所述带噪音频中的发音者特征；
15.基于所述带噪音频，生成所述幅度谱；
16.通过所述掩谱码网络，对所述发音者特征和所述幅度谱进行处理，生成所述掩谱
码。
17.可选地，所述gst模型包括注意力机制网络，所述将所述去噪音频输入已训练的gst模型中进行处理，得到所述去噪音频对应的质量嵌入向量，包括：
18.基于所述gst模型对所述去噪音频进行压缩，得到韵律特征；
19.通过所述注意力机制网络对所述韵律特征进行处理，得到所述质量嵌入向量。
20.可选地，所述通过已训练的tts模型对所述待转换文本和所述质量嵌入向量进行处理，得到所述待转换文本对应的目标音频，包括：
21.通过所述tts模型，提取所述待转换文本对应的文本特征向量；
22.将所述文本特征向量与所述质量嵌入向量对齐，得到表征向量；
23.对所述表征向量进行解码处理，得到所述目标音频。
24.可选地，所述获取用户的带噪音频和待转换文本之前，所述音频生成方法还包括：
25.获取第一样本训练集，所述第一样本训练集包括多个样本带噪音频，以及每个样本带噪音频对应的样本干净音频；
26.基于所述第一样本训练集对初始音乐筛选网络进行训练，并基于训练结果更新所述初始音乐筛选网络的参数；
27.当检测到所述初始音乐筛选网络对应的第一损失函数收敛时，得到所述音乐筛选器。
28.可选地，所述获取用户的带噪音频和待转换文本之前，所述音频生成方法还包括：
29.获取第二样本训练集，所述第二样本训练集包括多个样本去噪音频，以及每个样本去噪音频对应的干净音频；
30.基于所述第二样本训练集对初始gst网络进行训练，并基于训练结果更新所述初始gst网络的参数；
31.当检测到所述初始gst网络对应的第二损失函数收敛时，得到所述gst模型。
32.本技术实施例的第二方面提供了一种基于深度学习的音频生成装置，包括：
33.获取单元，用于获取用户的带噪音频和待转换文本；
34.第一处理单元，用于通过已训练的音乐筛选器对所述带噪音频进行处理，得到去噪音频；
35.第二处理单元，用于将所述去噪音频输入已训练的gst模型中进行处理，得到所述去噪音频对应的质量嵌入向量；
36.第三处理单元，用于通过已训练的tts模型对所述待转换文本和所述质量嵌入向量进行处理，得到所述待转换文本对应的目标音频。
37.本技术实施例的第三方面提供了一种基于深度学习的音频生成设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如上述第一方面所述的基于深度学习的音频生成方法的步骤。
38.本技术实施例的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述第一方面所述的基于深度学习的音频生成方法的步骤。
39.本技术实施例的第五方面提供了一种计算机程序产品，当计算机程序产品在音频
生成设备上运行时，使得该设备执行上述第一方面所述的基于深度学习的音频生成方法的步骤。
40.本技术实施例提供的基于深度学习的音频生成方法、音频生成装置、音频生成设备及存储介质，具有以下有益效果：
41.获取用户的带噪音频和待转换文本；通过已训练的音乐筛选器对带噪音频进行处理，得到去噪音频；将去噪音频输入已训练的gst模型中进行处理，得到去噪音频对应的质量嵌入向量；通过已训练的tts模型对待转换文本和质量嵌入向量进行处理，得到待转换文本对应的目标音频。上述方案中，通过已训练的音乐筛选器对带噪音频进行处理，得到去噪音频；利用gst模型对去噪音频进行处理，得到质量嵌入向量；在通过tts模型对待转换文本处理时，引入质量嵌入向量，用于对基于待转换文本生成的目标音频的质量进行把控，进而降低目标音频的噪声，提升了目标音频的质量。
附图说明
42.为了更清楚地说明本技术实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
43.图1是本技术一示例性实施例提供的基于深度学习的音频生成方法的示意性流程图；
44.图2是本技术一示例性实施例示出的一种基于深度学习的音频生成方法的步骤s102的具体流程图；
45.图3是本技术一示例性实施例示出的一种基于深度学习的音频生成方法的步骤s1021的具体流程图；
46.图4是本技术一示例性实施例示出的一种基于深度学习的音频生成方法的步骤s103的具体流程图；
47.图5是本技术一实施例提供的一种基于深度学习的音频生成装置的示意图；
48.图6是本技术另一实施例提供的音频生成设备的示意图。
具体实施方式
49.为了使本技术的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本技术进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本技术，并不用于限定本技术。
50.在本技术实施例的描述中，除非另有说明，“/”表示或的意思，例如，a/b可以表示a或b；本文中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，a和/或b，可以表示：单独存在a，同时存在a和b，单独存在b这三种情况。另外，在本技术实施例的描述中，“多个”是指两个或多于两个。
51.以下，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本实施例的描述中，除非另有说明，“多个”的含义是
两个或两个以上。
52.本技术实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(artificial intelligence，ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
53.目前音频创作经济逐渐获取了大众的视线，但是一个音频的制作流程繁琐，主要涉及文字稿的撰写以及配音人的选取，同时在录音的时候出现读错卡壳等情况都需要重新录制该句子，此外为了处理音频上的问题还要花费大量的剪辑时间。
54.随着深度学习的发展，文字转语音技术被广泛应用与各个领域。然而，通过文字转语音技术得到的音频文件中往往含有大量噪音，导致这种音频文件在播放过程中，音频中的噪声使音频的收听者产生刺耳的感觉。同时，音频中存在的噪声往往还会影响着整个音频对信息的表达。因此，降低音频中的噪音在音频信号处理领域中非常有必要。
55.现有技术中往往利用神经网络对生成的音频进行去噪处理。但是由于高质量的样本音频获取困难，使用训练得到的神经网络在对音频信号进行去噪处理的准确度不高，导致生成的音频还是含有大量噪音。
56.有鉴于此，本技术实施例提供了一种基于深度学习的音频生成方法，通过已训练的音乐筛选器对带噪音频进行处理，得到去噪音频；利用gst模型对去噪音频进行处理，得到质量嵌入向量；在通过tts模型对待转换文本处理时，引入质量嵌入向量，用于对基于待转换文本生成的目标音频的质量进行把控，进而降低目标音频的噪声，提升了目标音频的质量。
57.请参见图1，图1是本技术一示例性实施例提供的基于深度学习的音频生成方法的示意性流程图。本技术提供的基于深度学习的音频生成方法的执行主体为音频生成设备，其中，该设备包括但不限于智能手机、平板电脑、计算机、个人数字助理(personal digital assistant，pda)、台式电脑等移动终端，还可以包括各种类型的服务器。例如，服务器可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(content delivery network，cdn)、以及大数据和人工智能平台等基础云计算服务的云服务。
58.本技术实施例中以执行主体为计算机终端为例进行说明。
59.如图1所示的基于深度学习的音频生成方法可包括：s101～s104，具体如下：
60.s101：获取用户的带噪音频和待转换文本。
61.本技术实施例中的待转换文本是指需要转换为音频形式的文本。示例性地，待转换文本可以是预先存储于终端的文本，也可以是实时获取的文本。
62.例如，需要将当前文本形式的文章进行有声阅读时，将该文章对应的文本内容预先存储于终端内，该文章对应的文本内容即为待转换文本。
63.又例如，需要根据当前的导航文本内容生成导航语音时，将导航文本内容预先存储于终端内，该导航文本内容即为待转换文本。
64.再例如，在即时通讯过程中，用户a通过终端获取用户b实时发送的文本信息，并通过终端中的文本转音频功能对实时接收到的文本信息进行音频转换，用户b可以获取到音频格式的信息。此时，接收到的文本信息即为实时获取的待转换文本。
65.可选地，也可以是终端在检测到文本转换指令时，获取待转换文本。文本转换指令指用于命令终端进行文本转换的指令。文本转换指令可以由用户触发，如用户点击所述终端中的文本转换选项。
66.用户的带噪音频包括该用户预先录制的包含噪音的音频。示例性地，用户的带噪音频可以预先存储于终端中，需要时获取；也可以是需要时指示用户实时录制。
67.可选地，还可获取用户的干净音频。干净音频指该用户录制的完全不含噪音的音频。
68.用户的带噪音频和干净音频用于辅助终端提取该用户的声音特征，便于后续生成含有该用户声音特征的音频。
69.例如，在导航语音这一应用场景中，会生成具有某个用户声音特征的导航语音。由于干净音频对录音设备、用户状态等具有较高的要求，且录制大量的干净音频需要耗费大量时间。这时可获取该用户录制的少量干净音频和大量的带噪音频。此处仅为示例性说明，对此不做限定。
70.s102：通过已训练的音乐筛选器对带噪音频进行处理，得到去噪音频。
71.在本实施例中，终端中预先存储有预先训练好的音乐筛选器。该音乐筛选器是使用深度学习算法，基于第一样本训练集对初始音乐筛选网络进行训练得到。
72.可以理解的是，音乐筛选器可以由终端预先训练好，也可以由其他设备预先训练好后将音乐筛选器对应的文件移植至终端中。也就是说，训练该音乐筛选器的执行主体与使用该音乐筛选器的执行主体可以是相同的，也可以是不同的。例如，当采用其他设备训练初始音乐筛选网络时，其他设备对初始音乐筛选网络结束训练后，固定初始音乐筛选网络的参数，得到训练好的音乐筛选器对应的文件。然后将该文件移植到终端中。
73.已训练的音乐筛选器用于去除带噪音频中的噪音。
74.示例性地，将带噪音频输入至已训练的音乐筛选器中进行去噪处理，得到该带噪音频对应的去噪音频。
75.s103：将去噪音频输入已训练的gst模型中进行处理，得到去噪音频对应的质量嵌入向量。
76.示例性地，gst模型是指无监督语音风格模型(global styletokens，gst)。在本实施例中，终端中预先存储有预先训练好的gst模型。该gst模型是使用深度学习算法，基于第二样本训练集对初始gst网络进行训练得到的。
77.质量嵌入向量用于表示去噪音频在不同特征维度对应的不同权重。例如，特征维度可以包括情感特征维度、语调特征维度、流畅性特征维度、音调特征维度、音高特征维度、音长特征维度、重音特征维度、语调特征维度、音准特征维度、声音质量特征维度等。
78.s104：通过已训练的tts模型对待转换文本和质量嵌入向量进行处理，得到待转换文本对应的目标音频。
79.示例性地，tts模型是指从文本到语音模型(text to speech，tts)。在本实施例中，终端中预先存储有预先训练好的tts模型。该tts模型是使用深度学习算法，与gst模型联合训练得到的。
80.示例性地，先将待转换文本输入已训练的tts模型中进行处理，得到待转换文本对应的文本特征向量；将质量嵌入向量输入tts模型中，通过tts模型中的注意力机制网络将
该文本特征向量与质量嵌入向量对齐，得到表征向量；对该表征向量进行初次解码处理，得到表征向量对应的频谱信息(即待转换文本对应的频谱信息)；对该频谱信息再次进行解码处理，得到待转换文本对应的目标音频。
81.该目标音频是包含该用户声音特征的音频。
82.上述实施方式中，通过已训练的音乐筛选器对带噪音频进行处理，得到去噪音频；利用gst模型对去噪音频进行处理，得到质量嵌入向量；在通过tts模型对待转换文本处理时，引入质量嵌入向量，用于对基于待转换文本生成的目标音频的质量进行把控，进而降低目标音频的噪声，提升了目标音频的质量。
83.请参见图2，图2是本技术一示例性实施例示出的一种基于深度学习的音频生成方法的步骤s102的具体流程图；可选地，在本技术一些可能的实现方式中，上述s102可包括s1021～s1022，具体如下：
84.s1021：基于音乐筛选器和带噪音频，生成带噪音频对应的幅度谱和掩谱码。
85.幅度谱(magnitude spectrogram)可以方便的表示一个信号在不同频率下的幅值。在傅里叶分析中，把各个分量的幅度随着频率的变化称为信号的幅度谱。
86.掩谱码(soft mask prediction)也称软掩码，用于表示带噪音频中噪音和音频分别出现的位置。
87.示例性地，终端使用音乐筛选器对带噪音频进行分帧处理，得到多个分析帧；对每个分析帧进行加窗处理得到目标带噪音频。终端采用傅里叶变换(fast fourier transform，fft)对经过加窗处理得到的目标带噪音频进行处理，获取目标带噪音频中的频谱信息。该频谱信息包括幅度谱和相位频谱。
88.具体地，采用傅里叶变换对每个窗中的分析帧进行频谱分析，提取目标带噪音频中的频谱信息。在频谱信息中提取带噪音频对应的幅度谱。
89.示例性地，通过音乐筛选器提取带噪音频中的发音者特征；对发音者特征和幅度谱进行处理，生成带噪音频对应的掩谱码。
90.请参见图3，图3是本技术一示例性实施例示出的一种基于深度学习的音频生成方法的步骤s1021的具体流程图；可选地，在本技术一些可能的实现方式中，上述s1021可包括s10211～s10213，具体如下：
91.s10211：通过声纹识别网络，提取带噪音频中的发音者特征。
92.示例性地，音乐筛选器包括声纹识别网络和掩谱码网络。
93.其中，声纹识别网络由多个长短期记忆网络(long short termmemory networks，lstm)构成。例如，本实施例中的声纹识别网络由3个lstm网络构成。
94.发音者特征用于表示不同用户说话时的声音特征。例如，发音者特征可以包括音高特征、音长特征、重音特征、语调特征、音色特征等。
95.示例性地，将带噪音频输入声纹识别网络中，声纹识别网络中的lstm网络以滑动窗口的形式选取带噪音频中每次处理的音频，提取每段音频对应的发音者特征。其中，每次选取的滑动窗口大小有部分重叠，例如，滑动窗口大小为50％重叠。发音者特征以向量的形式表现。
96.例如，通过声纹识别网络中的3个lstm网络依次对带噪音频进行处理，每次都会得到带噪音频对应的发音者特征。通过l2正则化(regularization)计算三次得到的发音者特
征的平均值，该平均值即为最终带噪音频对应的发音者特征。
97.s10212：基于带噪音频，生成幅度谱。
98.示例性地，终端使用音乐筛选器对带噪音频进行分帧处理，得到多个分析帧；对每个分析帧进行加窗处理得到目标带噪音频。终端采用fft对经过加窗处理得到的目标带噪音频进行处理，获取目标带噪音频中的频谱信息。该频谱信息包括幅度谱和相位频谱，提取该频谱信息中的幅度谱，得到带噪音频对应的幅度谱。
99.s10213：通过掩谱码网络，对发音者特征和幅度谱进行处理，生成掩谱码。
100.示例性地，音乐筛选器包括声纹识别网络和掩谱码网络。
101.其中，掩谱码网络由卷积神经网络(convolutional neural networks，cnn)、lstm网络、全连接层构成。
102.示例性地，将幅度谱输入cnn中进行处理，cnn输出幅度谱中的韵律特征，将发音者特征以及通过cnn获得的韵律特征输入lstm网络中进行处理。lstm网络可以决定在韵律特征和发音者特征需要提取哪些信息，需要丢弃哪些信息。将发音者特征作为先获得的信息，lstm网络根据发音者特征对cnn获得的韵律特征进行处理，获得不同特征的概率。全连接层中连接了激活函数(sigmoid)，该激活函数可以根据特征概率生成包含0、1的数据。其中，0表示噪音出现的位置，1表示需要音频出现的位置。这个包含0和1的数据，就是掩谱码。
103.s1022：根据幅度谱和掩谱码，生成去噪音频。
104.示例性地，将幅度谱与掩谱码相乘，得到一个增强的幅度谱，通过短时傅里叶变换及其逆变换(short－time fourier transform and its inverse)对该增强的幅度谱进行处理，将该增强的幅度谱转换为音频，即得到去噪音频。
105.请参见图4，图4是本技术一示例性实施例示出的一种基于深度学习的音频生成方法的步骤s103的具体流程图；可选地，在本技术一些可能的实现方式中，上述s103可包括s1031～s1032，具体如下：
106.s1031：基于gst模型对去噪音频进行压缩，得到韵律特征。
107.示例性地，gst模型可以包括编码器，通过该编码器对去噪音频进行压缩，将去噪音频压缩为一个定长向量，该定长向量即为去噪音频对应的韵律特征。
108.s1032：通过注意力机制网络对韵律特征进行处理，得到质量嵌入向量。
109.gst模型可以包括注意力机制网络。注意力机制网络计算韵律特征和每个特征维度之间的相似度，输出一组权重值。这组权重值表示每个特征维度对韵律特征的贡献，这组权重值也称为质量嵌入向量。其中，输出的每个特征维度是随机的。
110.不同的特征维度可以理解为不同的音频风格，如不同的情感、语调、流畅性等信息。因为每个特征维度对应的权重值，是根据去噪音频产生的，除了关注并声音质量这个风格，它还可能更加注重如情感、语调等风格。
111.可选地，在一种可能的实现方式中，为了提高对质量这一特征维度的关注，gst模型还可以包括质量辅助分类器(二分类神经网络模型)。示例性地，除了将去噪音频输入已训练的gst模型中进行处理，还可将获取的用户的干净音频也输入到已训练的gst模型中进行处理，得到对应的质量嵌入向量。将去噪音频对应的质量嵌入向量和干净音频对应的质量嵌入向量输入质量辅助分类器进行处理，质量辅助分类器将质量嵌入向量分类为干净质量嵌入向量和去噪质量嵌入向量。根据分类结果调整不同特征维度的权重值，再将调整结
果作为新的的质量嵌入向量。
112.上述实施方式中，基于音乐筛选器对带噪音频进行处理，得到去噪音频，便于后续在去噪音频中准确提取发音者特征，进而基于发音者特征生成质量嵌入向量，从而根据质量嵌入向量提升生成的目标音频的质量，降低目标音频的噪音。无需获取大量的干净音频作为参考，节省了生成高质量音频的成本，提高了生成高质量音频的效率。
113.可选地，在本技术一些可能的实现方式中，上述s104可包括s1041～s1043，具体如下：
114.s1041：通过tts模型，提取待转换文本对应的文本特征向量。
115.示例性地，将待转换文本输入已训练的tts模型中进行处理，得到待转换文本对应的文本特征向量。
116.具体地，对待转换文本进行分词处理，得到多个分词。分词处理是指通过分词算法将待转换文本中连续的字序列划分为多个词序列，即多个分词。
117.tts模型可以包括分词算法，通过分词算法对待转换文本进行分词处理，得到待转换文本对应的多个分词。即通过分词算法将待转换文本中的内容划分为多个分词。其中，分词可以为词语或者单字。示例性地，根据分词算法可以确定待转换文本对应的多种分词方式，选取其中最合适的分词方式对该待转换文本进行分词，得到该待转换文本对应的多个分词。
118.tts模型可以文本编码器，文本编码器将每个分词映射到公共语义空间，输出每个分词对应的词向量，将每个分词对应的词向量按照分词处理时的分词顺序进行组合，得到待转换文本对应的文本特征向量。此处仅为示例性说明，对此不做限定。
119.s1042：将文本特征向量与质量嵌入向量对齐，得到表征向量。
120.示例性地，tts模型可以包括注意力机制网络。注意力机制网络将该文本特征向量与质量嵌入向量对齐。即通过注意力机制网络明确待转换文本中不同文字对应的音频。此时，对齐后的文本特征向量与质量嵌入向量，即为表征向量。
121.s1043：对表征向量进行解码处理，得到目标音频。
122.示例性地，tts模型可以包括解码器。通过该解码器对该表征向量进行初次解码处理，得到表征向量对应的频谱信息(即待转换文本对应的频谱信息)。通过解码器对该频谱信息再次进行解码处理，得到待转换文本对应的目标音频。
123.上述实施方式中，在通过tts模型对待转换文本处理时，引入质量嵌入向量，用于对基于待转换文本生成的目标音频的质量进行把控，进而降低目标音频的噪声，提升了目标音频的质量。即使在音频制作设备存在大量噪音的情况下，仍可帮助音频制作者生成高质量的音频，减少了录制高质量音频的人力和物力成本，同时减少了音频制作者的制作时间。且本方法相比于现有技术中其他的去噪方法，从根本上(在生成音频的时候)降低了噪声，大大提升了音频的质量，降低了对音质的损害。
124.可选地，在本技术一些可能的实现方式中，在执行如图1所示的基于深度学习的音频生成方法之前，还可包括训练音乐筛选器的方法，训练音乐筛选器的方法具体如下：
125.获取第一样本训练集；基于第一样本训练集对初始音乐筛选网络进行训练，并基于训练结果更新初始音乐筛选网络的参数；当检测到初始音乐筛选网络对应的第一损失函数收敛时，得到音乐筛选器。
126.第一样本训练集包括多个样本带噪音频，以及每个样本带噪音频对应的样本干净音频。
127.示例性的，第一样本训练集可以来自网络中公开的数据，也可以通过多个用户录制得到。例如，在网络中采集多个样本带噪音频，以及每个样本带噪音频对应的样本干净音频。或者，通过用户录制样本带噪音频，以及每个样本带噪音频对应的样本干净音频。
128.值得说明的是，对于同一个用户录制的样本带噪音频和样本干净音频，具体的音频内容可以相同，也可以不同。例如，样本带噪音频的内容是说：你好，该用户对应的样本干净音频的内容是说：我是中国人。此处仅为示例性说明，对此不做限定。
129.可选地，还可将第一样本训练集中的一部分数据作为第一样本测试集，便于后续对训练中的初始音乐筛选网络进行测试。例如，在第一样本训练集中选取若干个样本带噪音频，以及这些样本带噪音频各自对应的样本干净音频为第一样本测试集。第一样本测试集可以包括多组样本，其中，每组样本包括同一用户的样本带噪音频和样本干净音频。
130.示例性地，通过初始音乐筛选网络(训练前的音乐筛选器)对第一样本训练集的每个样本带噪音频进行处理，得到每个样本带噪音频对应的实际去噪音频。初始音乐筛选网络对样本带噪音频进行处理的具体过程，可参考上述s102中的具体过程，此处不再赘述。
131.在达到预设的训练次数时，对此时的初始音乐筛选网络进行测试。示例性地，将第一样本测试集中的同一用户的样本带噪音频输入此时的初始音乐筛选网络中进行处理，此时的初始音乐筛选网络输出该样本带噪音频对应的实际去噪音频。基于第一损失函数计算该实际去噪音频与第一样本测试集中该样本带噪音频对应的样本干净音频之间的第一损失值。其中，第一损失函数可以为均方差损失函数，第一损失值可以为均方误差。
132.当检测到第一损失值不满足第一预设条件时，调整初始音乐筛选网络的参数(例如，调整初始音乐筛选网络中的cnn、lstm网络对应的权重值)，并继续训练该初始音乐筛选网络。当第一损失值满足第一预设条件时，停止训练该初始音乐筛选网络，并将训练后的该初始音乐筛选网络作为已训练好的音乐筛选器。
133.例如，假设第一预设条件为第一损失值小于或等于预设的第一损失值阈值。那么，当第一损失值大于第一损失值阈值时，调整初始音乐筛选网络的参数，并继续训练该初始音乐筛选网络。当第一损失值小于或等于第一损失值阈值时，停止训练该初始音乐筛选网络，并将训练后的该初始音乐筛选网络作为已训练好的音乐筛选器。此处仅为示例性说明，对此不做限定。
134.上述实施方式中，预先训练了音乐筛选器，便于后续通过该音乐筛选器对带噪音频进行处理，得到去噪音频，便于后续在去噪音频中准确提取发音者特征，进而基于发音者特征生成质量嵌入向量，从而根据质量嵌入向量提升生成的目标音频的质量，降低目标音频的噪音。无需获取大量的干净音频作为参考，节省了生成高质量音频的成本，提高了生成高质量音频的效率。
135.可选地，在本技术一些可能的实现方式中，在执行如图1所示的基于深度学习的音频生成方法之前，还可包括训练gst模型的方法，训练gst模型的方法具体如下：
136.获取第二样本训练集；基于第二样本训练集对初始gst网络进行训练，并基于训练结果更新初始gst网络的参数；当检测到初始gst网络对应的第二损失函数收敛时，得到gst模型。
137.第二样本训练集包括多个样本去噪音频，以及每个样本去噪音频对应的干净音频。
138.示例性的，第二样本训练集可以来自网络中公开的数据。第二样本训练集中的样本去噪音频，可以是第一样本训练集中的样本带噪音频经过去噪处理后得到的去噪音频，相应地，第二样本训练集中的干净音频也可以是第一样本训练集中的样本带噪音频对应的干净音频。此处仅为示例性说明，对此不做限定。
139.可选地，还可将第二样本训练集中的一部分数据作为第二样本测试集，便于后续对训练中的初始gst网络进行测试。例如，在第二样本训练集中选取若干个样本去噪音频，以及这些样本去噪音频各自对应的干净音频为第二样本测试集。第二样本测试集可以包括多组样本，其中，每组样本包括同一用户的样本去噪音频和干净音频。
140.示例性地，通过初始gst网络(训练前的gst模型)对第二样本训练集的每个样本去噪音频进行处理，得到每个样本去噪音频对应的实际质量嵌入向量。初始gst网络对样本去噪音频进行处理的具体过程，可参考上述s103中的具体过程，此处不再赘述。
141.在达到预设的训练次数时，对此时的初始gst网络进行测试。示例性地，将第二样本测试集中的同一用户的样本去噪音频和干净音频输入此时的初始gst网络中进行处理，此时的初始gst网络输出该样本去噪音频对应的实际质量嵌入向量，以及输出干净音频对应的质量嵌入向量。基于第二损失函数计算该实际质量嵌入向量与干净音频对应的质量嵌入向量之间的第二损失值。其中，第二损失函数可以为均方差损失函数，第二损失值可以为均方误差。
142.当检测到第二损失值不满足第二预设条件时，调整初始gst网络的参数，并继续训练该初始gst网络。当第二损失值满足第二预设条件时，停止训练该初始gst网络，并将训练后的该初始gst网络作为已训练好的gst模型。
143.例如，假设第二预设条件为第二损失值小于或等于预设的第二损失值阈值。那么，当第二损失值大于第二损失值阈值时，调整初始gst网络的参数，并继续训练该初始gst网络。当第二损失值小于或等于第二损失值阈值时，停止训练该初始gst网络，并将训练后的该初始gst网络作为已训练好的gst模型。此处仅为示例性说明，对此不做限定。
144.上述实施方式中，预先训练了gst模型，便于后续通过该gst模型生成质量嵌入向量，从而根据质量嵌入向量提升生成的目标音频的质量，降低目标音频的噪音。无需获取大量的干净音频作为参考，节省了生成高质量音频的成本，提高了生成高质量音频的效率。
145.可选地，在本技术一些可能的实现方式中，在执行如图1所示的基于深度学习的音频生成方法之前，还可包括gst－tts模型的联合训练。具体地，基于第三样本训练集对gst－tts模型进行联合训练。其中，第三样本训练集包括多个样本转换文本、每个样本转换文本对应的样本音频以及样本去噪音频，该样本音频为高质量音频。
146.将样本去噪音频输入gst模型中进行处理，得到质量嵌入向量；将质量嵌入向量和样本转换文本输入tts模型中进行处理，得到实际音频，计算第三损失函数实际音频与样本音频之间的第三损失值。
147.当检测到第三损失值不满足第三预设条件时，调整gst模型的参数，并继续对gst－tts模型进行联合训练。当第三损失值满足第三预设条件时，停止联合训练，并将训练后的gst－tts模型作为已训练好的gst－tts模型。
148.可选地，在本技术一些可能的实现方式中，本技术提供的基于深度学习的音频生成方法，可应用在医疗领域，例如利用基于深度学习的音频生成方法进行智能诊疗、远程会诊等。
149.示例性地，患者/病人在通过应用程序向医生问诊时，医生通过终端获取患者/病人实时发送的文本信息(例如，患者/病人的当前症状、用药情况等)，通过终端中的文本转音频功能对实时接收到的文本信息进行音频转换，医生获取到音频格式的信息。
150.或者，患者/病人通过终端获取医生实时发送的文本信息(例如，咨询病人的病情、用药情况等)，通过终端中的文本转音频功能对实时接收到的文本信息进行音频转换，患者/病人获取到音频格式的信息。此处仅为示例性说明，对此不做限定。
151.上述实施方式中，将本技术提供的基于深度学习的音频生成方法应用在医疗领域中，辅助医生对病人治疗，有助于视觉障碍病人更好地就诊，同时也提升了用户体验。
152.又例如，当病人在医院就诊需要排队时，会通过叫号的方式提醒病人就诊。可通过本技术提供的基于深度学习的音频生成方法，将号码以及提醒信息转换为对应的音频，基于转换后的音频叫号。例如，某个音频可以为：xx号xx患者，请到xx科室就诊。
153.上述实施方式中，将本技术提供的基于深度学习的音频生成方法应用在就诊叫号这一场景中，提升了转换后的音频的质量，降低了音频的噪音，便于患者更清楚地听到号码，防止过号耽误就诊。
154.请参见图5，图5是本技术一实施例提供的一种基于深度学习的音频生成装置的示意图。该音频生成装置包括的各单元用于执行图1～图4对应的实施例中的各步骤。具体请参阅图1～图4各自对应的实施例中的相关描述。为了便于说明，仅示出了与本实施例相关的部分。参见图5，包括：
155.获取单元210，用于获取用户的带噪音频和待转换文本；
156.第一处理单元220，用于通过已训练的音乐筛选器对所述带噪音频进行处理，得到去噪音频；
157.第二处理单元230，用于将所述去噪音频输入已训练的gst模型中进行处理，得到所述去噪音频对应的质量嵌入向量；
158.第三处理单元240，用于通过已训练的tts模型对所述待转换文本和所述质量嵌入向量进行处理，得到所述待转换文本对应的目标音频。
159.可选地，所述第一处理单元220包括：
160.第一生成单元，用于基于所述音乐筛选器和所述带噪音频，生成所述带噪音频对应的幅度谱和掩谱码；
161.第二生成单元，用于根据所述幅度谱和所述掩谱码，生成所述去噪音频。
162.可选地，所述音乐筛选器包括声纹识别网络和掩谱码网络，所述第一生成单元具体用于：
163.通过所述声纹识别网络，提取所述带噪音频中的发音者特征；
164.基于所述带噪音频，生成所述幅度谱；
165.通过所述掩谱码网络，对所述发音者特征和所述幅度谱进行处理，生成所述掩谱码。
166.可选地，所述gst模型包括注意力机制网络，所述第二处理单元230具体用于：
167.基于所述gst模型对所述去噪音频进行压缩，得到韵律特征；
168.通过所述注意力机制网络对所述韵律特征进行处理，得到所述质量嵌入向量。
169.可选地，所述第三处理单元240具体用于：
170.通过所述tts模型，提取所述待转换文本对应的文本特征向量；
171.将所述文本特征向量与所述质量嵌入向量对齐，得到表征向量；
172.对所述表征向量进行解码处理，得到所述目标音频。
173.可选地，所述音频生成装置还包括第一训练单元，所述第一训练单元用于：
174.获取第一样本训练集，所述第一样本训练集包括多个样本带噪音频，以及每个样本带噪音频对应的样本干净音频；
175.基于所述第一样本训练集对初始音乐筛选网络进行训练，并基于训练结果更新所述初始音乐筛选网络的参数；
176.当检测到所述初始音乐筛选网络对应的第一损失函数收敛时，得到所述音乐筛选器。
177.可选地，所述音频生成装置还包括第二训练单元，所述第二训练单元用于：
178.获取第二样本训练集，所述第二样本训练集包括多个样本去噪音频，以及每个样本去噪音频对应的干净音频；
179.基于所述第二样本训练集对初始gst网络进行训练，并基于训练结果更新所述初始gst网络的参数；
180.当检测到所述初始gst网络对应的第二损失函数收敛时，得到所述gst模型。
181.请参见图6，图6是本技术另一实施例提供的音频生成设备的示意图。如图6所示，该实施例的音频生成设备3包括：处理器30、存储器31以及存储在所述存储器31中并可在所述处理器30上运行的计算机程序32。所述处理器30执行所述计算机程序32时实现上述各个基于深度学习的音频生成方法实施例中的步骤，例如图1所示的s101至s104。或者，所述处理器30执行所述计算机程序32时实现上述各实施例中各单元的功能，例如图5所示单元210至240功能。
182.示例性地，所述计算机程序32可以被分割成一个或多个单元，所述一个或者多个单元被存储在所述存储器31中，并由所述处理器30执行，以完成本技术。所述一个或多个单元可以是能够完成特定功能的一系列计算机指令段，该指令段用于描述所述计算机程序32在所述设备3中的执行过程。例如，所述计算机程序32可以被分割为获取单元、第一处理单元、第二处理单元以及第三处理单元，各单元具体功能如上所述。
183.所述设备可包括，但不仅限于，处理器30、存储器31。本领域技术人员可以理解，图6仅仅是设备3的示例，并不构成对设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述设备还可以包括输入输出设备、网络接入设备、总线等。
184.所称处理器30可以是中央处理单元(central processing unit，cpu)，还可以是其他通用处理器、数字信号处理器(digital signal processor，dsp)、专用集成电路(application specific integrated circuit，asic)、现成可编程门阵列(field－programmable gate array，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器
等。
185.所述存储器31可以是所述设备的内部存储单元，例如设备的硬盘或内存。所述存储器31也可以是所述设备的外部存储终端，例如所述设备上配备的插接式硬盘，智能存储卡(smart media card，smc)，安全数字(secure digital，sd)卡，闪存卡(flash card)等。进一步地，所述存储器31还可以既包括所述设备的内部存储单元也包括外部存储终端。所述存储器31用于存储所述计算机指令以及所述终端所需的其他程序和数据。所述存储器31还可以用于暂时地存储已经输出或者将要输出的数据。
186.本技术实施例还提供了一种计算机存储介质，计算机存储介质可以是非易失性，也可以是易失性，该计算机存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述各个基于深度学习的音频生成方法实施例中的步骤。
187.本技术还提供了一种计算机程序产品，当计算机程序产品在设备上运行时，使得该设备执行上述各个基于深度学习的音频生成方法实施例中的步骤。
188.本技术实施例还提供了一种芯片或者集成电路，该芯片或者集成电路包括：处理器，用于从存储器中调用并运行计算机程序，使得安装有该芯片或者集成电路的设备执行上述各个基于深度学习的音频生成方法实施例中的步骤。
189.所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本技术的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。
190.在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。
191.本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本技术的范围。
192.以上所述实施例仅用以说明本技术的技术方案，而非对其限制；尽管参照前述实施例对本技术进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本技术各实施例技术方案的精神范围，均应包含在本技术的保护范围之内。