一种语音处理方法及装置与流程

1.本技术涉及计算机技术领域，尤其涉及一种语音处理方法及装置。

背景技术：

2.随着科学技术的不断发展进步，个性化语音合成技术已经成为语音合成领域的研究热点之一，它是指采集用户少量的语音数据就能构建出具备该用户音色特点语音合成系统的技术。
3.目前业界常见的个性化语音合成系统中，为了保证语音的合成质量，需要用户提供高质量的录音，例如进行环境噪声检测，必须在安静环境中录制；录音数据与提示用户录音内容的参考文本保持完全一致，如果出错则要求反复录制；另外，还需要提供性别信息等，上述一系列要求会导致前台在录音阶段的交互流程复杂，影响用户体验，前台复杂的录音操作往往会导致严重的用户流失。因此，如何简化语音合成服务中用户的操作，并保证良好的语音合成效果已成为亟待解决的问题。

技术实现要素：

4.本技术实施例提供一种语音处理方法及装置，可以简化语音合成时用户的操作，并提供良好的语音合成效果。
5.本技术实施例提供了一种语音处理方法，所述方法包括：
6.接收用户终端发送的目标文本。
7.调用语音合成模型对所述目标文本进行处理，生成所述目标文本对应的合成语音数据，其中，所述语音合成模型是根据用户的语音数据、所述语音数据的文本特征信息和所述用户的身份特征信息训练得到的。
8.向所述用户终端发送所述目标文本对应的合成语音数据。
9.本技术实施例提供了一种语音处理方法，所述方法包括：
10.响应于用户的应用启动指令，显示语音合成应用的语音录入界面，所述语音录入界面包括录音进度指示区域、参考文本展示区域、录音控制操作区域中的一种或多种。
11.获取所述用户通过所述语音录入界面输入的语音数据，所述语音数据包括所述用户基于至少一个参考文本输入的至少一个语音片段。
12.向服务器发送所述语音数据，以使得所述服务器根据所述语音数据、所述语音数据的文本特征信息和所述用户的身份特征信息训练得到语音合成模型。
13.本技术实施例提供了一种语音处理装置，所述装置包括：
14.接收模块，用于接收用户终端发送的目标文本。
15.处理模块，用于调用语音合成模型对所述目标文本进行处理，生成所述目标文本对应的合成语音数据，其中，所述语音合成模型是根据用户的语音数据、所述语音数据的文本特征信息和所述用户的身份特征信息训练得到的。
16.发送模块，用于向所述用户终端发送所述目标文本对应的合成语音数据。
17.本技术实施例提供了一种语音处理装置，所述装置包括：
18.显示模块，用于响应于用户的应用启动指令，显示语音合成应用的语音录入界面，所述语音录入界面包括录音进度指示区域、参考文本展示区域、录音控制操作区域中的一种或多种。
19.获取模块，用于获取所述用户通过所述语音录入界面输入的语音数据，所述语音数据包括所述用户基于至少一个参考文本输入的至少一个语音片段。
20.发送模块，用于向服务器发送所述语音数据，以使得所述服务器根据所述语音数据、所述语音数据的文本特征信息和所述用户的身份特征信息训练得到语音合成模型。
21.本技术实施例提供了一种服务器，所述服务器包括处理器、网络接口和存储装置，所述处理器、网络接口和存储装置相互连接，其中，所述网络接口受所述处理器的控制用于收发数据，所述存储装置用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，用于执行第一方面所述的语音处理方法。
22.本技术实施例提供了一种用户终端，所述用户终端包括处理器、存储装置、显示装置以及通信装置，所述处理器、存储装置、显示装置以及通信装置相互连接，所述存储装置用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，用于执行第二方面所述的语音处理方法。
23.本技术实施例还提供了一种计算机可读存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行，用以执行第一方面或第二方面所述的语音处理方法。
24.本技术实施公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述第一方面或第二方面所述的语音处理方法。
25.本技术实施例中，服务器可以接收用户终端发送的目标文本，调用语音合成模型对目标文本进行处理，生成目标文本对应的合成语音数据，其中，语音合成模型是根据用户的语音数据、语音数据的文本特征信息和用户的身份特征信息训练得到的，然后向用户终端发送目标文本对应的合成语音数据，可见，用户可以直接提交需要合成语音的文本给后台服务器，后台服务器利用对应的语音合成模型即可快速生成对应的合成语音数据，在简化语音合成服务中用户操作的同时，也保证了良好的语音合成效果。
附图说明
26.为了更清楚地说明本技术实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
27.为了更清楚地说明本技术实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
28.图1是本技术实施例提供的一种语音处理系统的架构示意图；
29.图2是本技术实施例提供的一种语音处理方法的流程示意图；
30.图3是本技术实施例提供的另一种语音处理方法的流程示意图；
31.图4a是本技术实施例提供的一种降噪处理的流程示意图；
32.图4b是本技术实施例提供的一种语音识别处理的流程示意图；
33.图4c是本技术实施例提供的一种身份特征信息识别的流程示意图；
34.图4d是本技术实施例提供的一种语音处理的整体实现流程示意图；
35.图5是本技术实施例提供的又一种语音处理方法的流程示意图；
36.图6a是本技术实施例提供的一种语音录入界面的示意图；
37.图6b是本技术实施例提供的另一种语音录入界面的示意图；
38.图7是本技术实施例提供的一种语音处理装置的结构示意图；
39.图8是本技术实施例提供的另一种语音处理装置的结构示意图；
40.图9是本技术实施例提供的一种服务器的结构示意图；
41.图10是本技术实施例提供的一种用户终端的结构示意图。
具体实施方式
42.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
43.人工智能(artificial intelligence，ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。
44.人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
45.语音技术(speech technology)的关键技术有自动语音识别技术(asr)和语音合成技术(tts)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。
46.本技术实施例提供的方案涉及人工智能的语音识别以及语音合成等技术，具体通过如下实施例进行说明：
47.请参见图1，是本技术实施例提供的一种语音处理系统的架构示意图，该数据处理系统包括服务器10、一个或多个用户终端20。其中：
48.服务器10可以提供语音合成服务，用于将用户终端20提交的文本内容转换为合成语音数据，并且合成语音数据与用户终端20对应的用户的性别、音色等相匹配，例如，语音合成服务的一个典型应用场景可以是亲子伴读，即用父母的声音给孩子讲故事，父母通过
用户终端20提交故事的文本内容，服务器10即可使用父母的声音特征生成与故事的文本内容对应的合成语音数据，用户终端20通过播放该合成语音数据即可实现用父母的声音给孩子讲故事。
49.在一些可行的实施方式中，服务器10可以通过训练语音合成模型向对应的用户提供个性化语音合成服务，用户终端20上可以安装有语音合成应用，通过语音合成应用，用户可以提交录音数据以及需要合成语音的文本内容，用户通过语音合成应用的应用界面可以直接向服务器10提交录音数据，服务器10根据用户的录音数据可以提取对应的文本特征信息以及用户的身份特征信息，身份特征信息具体可以是性别，利用文本特征信息以及用户的身份特征信息可以训练得到与该用户的性别、音色等特征相符合的语音合成模型，并通过该语音合成模型向该用户提供个性化的语音合成服务。本技术提供的语音合成服务中不需要用户在前端(即用户终端20)设置性别信息，也不需要前端进行录音数据与文本内容一致性的校验，使得用户可以快速完成语音数据的录入，操作简便，后台(即服务器10)通过自动解析录音数据即可确定用户的性别，并结合提取到的文本特征信息训练出与该用户匹配的语音合成模型，大大简化了前端的交互流程，减少用户在录音阶段的操作，从而改善个性化语音合成系统的使用体验同时，后台训练阶段，相应引入性别分析等技术手段，修复录音质量，获取性别辅助信息，在简化前端用户交互流程的同时，保证良好的语音合成效果。
50.其中，服务器10可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn、以及大数据和人工智能平台等基础云计算服务的云服务器。用户终端20可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、车载智能终端等，但并不局限于此。用户终端20以及服务器10可以通过有线或无线通信方式进行直接或间接地连接，本技术在此不做限制。
51.以下对本技术实施例的技术方案的实现细节进行详细阐述：
52.请参见图2，是本技术实施例基于图1所示的语音处理系统提供的一种语音处理方法的流程示意图，本技术实施例的语音处理方法主要是从服务器一侧进行描述的，该语音处理方法包括如下步骤：
53.201、接收用户终端发送的目标文本。
54.其中，目标文本是待进行语音合成的数据信息，具体可以是用户从多个文本中选择的任意一个文本。在亲子伴读场景中，目标文本可以是爸爸或者妈妈选择的故事的文本内容。
55.具体的，用户终端可以安装有语音合成应用，用户通过语音合成应用的应用界面可以提交需要进行语音合成的目标文本，还可以输入用户的语音数据，用户终端向服务器发送目标文本。
56.202、调用语音合成模型对所述目标文本进行处理，生成所述目标文本对应的合成语音数据，其中，所述语音合成模型是根据用户的语音数据、所述语音数据的文本特征信息和所述用户的身份特征信息训练得到的。
57.其中，可以为不同的用户训练一个与其性别、音色等特征相符合的个性化语音合成模型，通过该语音合成模型可以向对应用户提供个性化的语音合成服务。其中，语音合成模型可以是根据用户的语音数据、语音数据中的文本特征信息和用户的身份特征信息训练得到的，用户的身份特征信息可以是指用户的性别，该身份特征信息可以由服务器对用户
的语音数据进行分析处理后获取，不需要用户在用户终端上进行设置。
58.具体的，服务器接收到用户终端提交的目标文本后，可以调用与该用户对应的语音合成模型对目标文本进行处理，将目标文本的内容转换成语音数据，即目标文本对应的合成语音数据。
59.203、向所述用户终端发送所述目标文本对应的合成语音数据。
60.具体的，服务器在得到目标文本对应的合成语音数据后，可以向用户终端发送该目标文本的合成语音数据，用户终端接收之后，可以响应用户的播放指令，将合成语音数据播放出来。
61.本技术实施例中，可以接收用户终端发送的目标文本，调用语音合成模型对目标文本进行处理，生成目标文本对应的合成语音数据，其中，语音合成模型是根据用户的语音数据、语音数据的文本特征信息和用户的身份特征信息训练得到的，然后向用户终端发送目标文本对应的合成语音数据，可见，用户直接提交需要合成语音的文本给后台，后台即可利用对应的语音合成模型快速生成对应的合成语音数据，在简化语音合成服务中用户的操作的同时，也保证了良好的语音合成效果。
62.请参见图3，是本技术实施例基于图1所示的语音处理系统提供的另一种语音处理方法的流程示意图，本技术实施例的语音处理方法主要是从服务器一侧进行描述的，该语音处理方法包括如下步骤：
63.301、接收用户终端发送的语音数据，所述语音数据包括用户基于至少一个参考文本输入的至少一个语音片段。
64.其中，为了训练得到用户的个性化的语音合成模型，需要用户提供一定数量的语音数据，用户可以通过用户终端上安装的语音合成应用的应用界面提交语音数据，在用户录入语音数据时，用户终端可以通过语音合成应用的应用界面输出至少一个参考文本，用户通过朗读参考文本的内容来录入对应的语音数据，用户录入的每个参考文本的语音数据可以视为一个语音片段，在用户录入完毕后，用户终端可以获取到包括至少一个语音片段的语音数据，并向服务器发送该语音数据。
65.302、根据所述语音数据获取所述用户的身份特征信息以及所述语音数据的文本特征信息。
66.具体的，为了训练语音合成模型，需要确定用户的身份特征信息(如性别)以及语音数据对应的文本特征信息，身份特征信息可以作为辅助信息设置模型的超参数。则服务器在接收到用户录入的语音数据之后，可以对该语音数据进行解析处理，得到用户的身份特征信息以及语音数据的文本特征信息，文本特征信息可以理解为语音数据中包含的文本序列，文本序列例如可以是音子序列，对于中文而言，音子序列就是声韵母序列，比如“你好”的音子序列为“n i h ao”。
67.在一些可行的实施方式中，由于用户终端不需要对环境噪声进行检测，不要求用户在安静环境中录制语音数据，而是用户直接开启语音合成应用后录入语音数据，用户终端直接将用户录入的语音数据提交给服务器，服务器可以对语音数据进行降噪处理，从而节省了用户终端进行环境噪声检测的步骤。为了保证身份特征信息以及文本特征信息提取时的准确度，服务器在接收到用户的语音数据后，可以对语音数据进行降噪处理，得到降噪后的语音数据，并对降噪后的语音数据进行语音识别处理，得到语音数据的文本特征信息，
以及根据降噪后的语音数据确定用户的身份特征信息，身份特征信息可以包括性别信息。
68.在一些可行的实施方式中，服务器对语音数据进行降噪处理的具体实现方式可以参见图4a，主要包括：对语音数据x(n)进行傅立叶变换处理fft，得到语音数据的频谱y(w)和噪声谱d(w)，噪声谱d(w)可以通过语音数据的前n帧静音数据估计得到；根据语音数据的频谱y(w)和噪声谱d(w)确定目标频谱，例如将频谱y(w)和噪声谱d(w)做减法得到目标频谱，获取目标频谱的幅度谱，并对幅度谱和语音数据的频谱的相位信息进行反傅立叶变换处理ifft，即可得到降噪后的语音数据y(n)。其中，图4a所示的降噪算法为谱减法，谱减法是一种基于数字信号处理的降噪算法，还可以采用基于数字信号处理的降噪算法中的维纳滤波法，当然，还可以采用基于机器学习的语音降噪算法，本技术实施例不做限定。
69.在一些可行的实施方式中，服务器提取语音数据的文本特征信息的具体实现方式可以参见图4b，主要包括：提取降噪后的语音数据的声学特征信息(如mfcc频谱特征)，调用模型库中的语音识别模型对声学特征信息进行解码处理，得到语音数据的文本序列，将文本序列作为语音数据的文本特征信息。
70.在一些可行的实施方式中，由于用户终端在获取用户输入的语音片段后，直接将语音数据发送给服务器，用户终端不需要对语音片段与对应的参考文本之间进行一致性检查，例如语音片段与对应的参考文本是否完全匹配，则服务器需要对用户输入的语音与参考文本之间的一致性进行检查，并可以删除差异较大的语音片段，实现了对语音的纠错功能。其中，语音数据的文本特征信息包括至少一个语音片段中每个语音片段的文本序列，服务器可以获取每个语音片段的文本序列与对应的参考文本之间的匹配度，如果目标语音片段对应的匹配度小于或等于预设匹配度阈值，预设匹配度阈值例如可以为90％，则从语音数据的文本特征信息中删除目标语音片段的文本序列，可见，本技术中，前端(即用户终端)不需要保证录音和参考文本的内容完全对应，也不需要在前端进行反复检测，而是将用户录入的语音数据直接提交给服务器，针对每个参考文本只需一次录制操作即可，提高了用户的录音效率。
71.在一些可行的实施方式中，语音识别模型具体包括声学模型和语言模型，服务器调用语音识别模型对声学特征信息进行解码处理，得到语音数据的文本序列的具体实现方式可以包括：调用声学模型确定声学特征信息与对应音素或字符的匹配概率，调用语言模型确定各个文本序列的发生概率，根据匹配概率和发生概率确定语音数据的文本序列。
72.其中，可以使用大量发音人的语音数据预先训练语音识别系统需要的声学模型和语言模型，其中，声学模型学习声学特征到对应音素或字词的概率，语言模型学习某一个字序列发生的概率。
73.在一些可行的实施方式中，由于用户终端侧不需要用户设置性别信息，节省了用户在录音环节的操作流程，则服务器侧需要根据用户的语音数据识别用户的性别，并用于语音合成模型的训练中。服务器根据降噪后的语音数据确定用户的身份特征信息的具体实现方式可以参见图4c，主要包括：在身份判别模型的应用阶段或者测试阶段，服务器可以提取降噪后的语音数据的声学特征信息，并利用第一身份判别模型(如性别男模型)和第二身份判别模型(如性别女模型)分别对声学特征信息进行打分处理，得到打分结果，根据打分结果即可确定用户的身份特征信息，如性别。
74.在一些可行的实施方式中，打分结果包括第一身份判别模型对应的第一分数和第
二身份判别模型对应的第二分数，服务器可以确定第一分数和第二分数中的最高分数，从第一身份判别模型和第二身份判别模型中确定最高分数对应的目标身份判别模型，目标身份判别模型可以是第一身份判别模型或者第二身份判别模型，然后根据目标身份判别模型对应的性别类型(即男性或女性)确定用户的身份特征信息。
75.其中，用户有多条录音时，即用户的语音数据包括多个语音片段，则可以利用第一身份判别模型和第二身份判别模型分别对每个语音片段的声学特征信息进行打分处理，根据每个语音片段的打分结果，取出现次数最多的性别作为用户的最终判定结果。
76.在一些可行的实施方式中，在身份判别模型的训练阶段，服务器可以获取训练样本集，训练样本集包括大量的不同性别类型的多个用户的语音数据，具体可以是男性用户数量与女性用户数量相等，可以先利用训练样本集中每个用户的语音数据的声学特征信息训练得到通用背景模型(即ubm模型)，然后再利用不同性别类型的数据对通用背景模型进行自适应训练得到高斯混合模型(gmm模型)，例如利用训练样本集中第一性别类型用户(如男性用户)的语音数据的声学特征信息对通用背景模型进行训练，得到第一身份判别模型(如性别男模型)，第一身份判别模型用于对一个用户是男性的可能性进行打分，利用训练样本集中第二性别类型用户(如女性用户)的语音数据的声学特征信息对通用背景模型进行训练，得到第二身份判别模型(如性别女模型)，第二身份判别模型用于对一个用户是女性的可能性进行打分，从而可以训练出能够准确识别用户性别的模型。
77.303、利用所述文本特征信息和所述身份特征信息训练得到所述用户对应的语音合成模型。
78.具体的，在得到用户的语音数据的文本特征信息和用户的身份特征信息后，服务器可以提取语音数据的频谱特征(包括基频和频谱)，利用用户的身份特征信息设置语音合成模型的超参数，并将频谱特征作为监督信息对语音合成模型进行训练，损失函数可以采用均方误差(mean squared error，mse)损失，将语音数据的文本特征信息输入语音合成模型，得到预测的合成语音数据，根据预测的合成语音数据的频谱特征和提取语音数据的频谱特征计算损失函数的损失值，训练设定轮数的迭代就可以停止训练。
79.其中，服务器利用语音数据的文本特征信息、用户的身份特征信息、语音数据的频谱特征训练得到语音合成模型具体可以是指：利用语音数据的文本特征信息、用户的身份特征信息、语音数据的频谱特征对预训练得到的基础合成模型进行微调训练(finetune)，根据经验训练设定轮数的迭代就可以停止，并得到语音合成模型。基础合成模型可以是基于大量的语音合成数据训练得到的具备一定语音合成能力的基础模型，利用某个特定用户的语音数据对基础合成模型进行微调，即可得到能够合成与该用户的性别、音色等特征相匹配的语音合成模型。
80.304、接收所述用户终端发送的目标文本。
81.305、调用所述语音合成模型对所述目标文本进行处理，生成所述目标文本对应的合成语音数据。
82.306、向所述用户终端发送所述目标文本对应的合成语音数据。
83.其中，步骤304～306的具体实现可以参见前述实施例中步骤201～203的相关描述，此处不再赘述。
84.在一些可行的实施方式中，如图4d所示，是本技术实施例提供的一种语音处理的
整体实现流程示意图。其中包括：录音阶段、训练阶段和合成阶段。
85.(1)录音阶段：用户启动个性化语音合成程序，每录制一条语音，判断文本是否全部录制完成，如果没有，则继续录制下一条语音，直到文本全部录制完毕，并上传录制结果(即用户的语音数据)。可见，前端录制环节省去了环境噪声检测、文本录音匹配检查、性别信息输入等操作。
86.(2)训练阶段：对语音进行降噪处理，然后对降噪后的语音进行听写获取文本标注(即文本特征信息)，并对降噪后的语音进行性别判定获取性别信息，结合降噪后的语音、文本标注以及性别信息对语音合成模型进行训练，训练完成后即可发布上线。
87.(3)合成阶段：前端向后台发送请求文本，后台调用训练好的个性化语音合成模型生成请求文本对应的合成语音数据，并发送给前端，前端收到合成语音数据之后可以进行播放。
88.本技术实施例中，可以根据用户录入的语音数据获取用户的身份特征信息以及语音数据的文本特征信息，利用文本特征信息和身份特征信息训练得到用户对应的语音合成模型，接收到用户终端发送的目标文本时，调用语音合成模型对目标文本进行处理，生成目标文本对应的合成语音数据，可见，用户直接提交需要合成语音的文本给后台，后台即可利用对应的语音合成模型快速生成对应的合成语音数据，在简化语音合成服务中用户的操作的同时，也保证了良好的语音合成效果，在设计语音合成交互系统时，采用轻前台、重后台的交互方式，用户使用系统过程中前台的操作大大简化，具体来说，前台录音阶段，减少了环境噪声检测、文本录音匹配检查、性别信息输入等操作，同时，后台训练阶段，相应引入语音降噪、语音听写、性别分类等技术手段，修复录音质量，获取性别辅助信息，保证了最终语音合成模型的良好效果。
89.请参见图5，是本技术实施例基于图1所示的语音处理系统提供的又一种语音处理方法的流程示意图，本技术实施例的语音处理方法主要是从用户终端一侧进行描述的，该语音处理方法包括如下步骤：
90.501、响应于用户的应用启动指令，显示语音合成应用的语音录入界面，所述语音录入界面包括录音进度指示区域、参考文本展示区域、录音控制操作区域中的一种或多种。
91.其中，用户启动语音合成应用之后，用户终端可以直接显示语音录入界面，而不必进行环境噪声检测等操作，如图6a所示，语音录入界面可以包括录音进度指示区域61、参考文本展示区域62、录音控制操作区域63，录音进度指示区域61用于指示当前录制是否完毕，参考文本展示区域62用于展示文本内容，录音控制操作区域63可以提供诸如“试听”、“重新录制”、“下一条”等控制命令。
92.502、获取所述用户通过所述语音录入界面输入的语音数据，所述语音数据包括所述用户基于至少一个参考文本输入的至少一个语音片段。
93.其中，用户可以通过朗读参考文本的具体内容录入对应的语音数据，用户针对每个参考文本录入对应的语音片段，在用户录入完毕后，用户终端可以获取到包括至少一个语音片段的语音数据。
94.503、向服务器发送所述语音数据，以使得所述服务器根据所述语音数据、所述语音数据的文本特征信息和所述用户的身份特征信息训练得到语音合成模型。
95.在一些可行的实施方式中，如图6b所示，用户终端向服务器发送用户的语音数据
之后，可以在语音合成应用中显示提示信息，例如“恭喜您完成了录音，模型正在准备训练，请20分钟后再来体验”，并且还可以设置完成训练后接收通知。
96.在一些可行的实施方式中，在用户录制的过程中，用户终端可以在参考文本展示区域中按照预设的录制顺序依次展示至少一个参考文本，并获取用户针对展示的每个参考文本输入的语音片段，根据用户针对展示的每个参考文本输入的语音片段，确定用户通过语音录入界面输入的语音数据。
97.在一些可行的实施方式中，用户终端在接收到服务器发送的语音合成模型训练完成的通知消息之后，显示语音合成应用的内容选择界面，获取用户通过内容选择界面选中的目标文本，向服务器发送目标文本，以使得服务器调用语音合成模型对目标文本进行处理，生成目标文本对应的合成语音数据，用户终端接收服务器发送的目标文本对应的合成语音数据，并播放目标文本对应的合成语音数据。
98.本技术实施例中，在录音时，用户可以直接输入语音数据，而不必进行环境噪声的检测，性别信息的录入以及录音与文本的一致性校验等繁琐操作，并且用户可以直接提交需要合成语音的文本给后台，后台即可利用对应的语音合成模型快速生成对应的合成语音数据，在简化语音合成服务中用户的操作的同时，也保证了良好的语音合成效果，通过轻前台、重后台的交互方式，用户使用系统过程前台操作大大简化，前台录音阶段，减少了环境噪声检测、文本录音匹配检查、性别信息输入等繁琐操作。
99.请参见图7，是本技术实施例的一种语音处理装置的结构示意图。所述装置包括：
100.接收模块701，用于接收用户终端发送的目标文本。
101.处理模块702，用于调用语音合成模型对所述目标文本进行处理，生成所述目标文本对应的合成语音数据，其中，所述语音合成模型是根据用户的语音数据、所述语音数据的文本特征信息和所述用户的身份特征信息训练得到的。
102.发送模块703，用于向所述用户终端发送所述目标文本对应的合成语音数据。
103.可选的，所述接收模块701，还用于接收所述用户终端发送的语音数据，所述语音数据包括用户基于至少一个参考文本输入的至少一个语音片段。
104.所述处理模块702，还用于根据所述语音数据获取所述用户的身份特征信息以及所述语音数据的文本特征信息。
105.所述处理模块702，还用于利用所述文本特征信息和所述身份特征信息训练得到所述用户对应的语音合成模型。
106.可选的，所述处理模块702，具体用于：
107.对所述语音数据进行降噪处理，得到降噪后的语音数据。
108.对所述降噪后的语音数据进行语音识别处理，得到所述语音数据的文本特征信息。
109.根据所述降噪后的语音数据确定所述用户的身份特征信息，所述身份特征信息包括性别信息。
110.可选的，所述处理模块702，具体用于：
111.提取所述降噪后的语音数据的声学特征信息。
112.调用语音识别模型对所述声学特征信息进行解码处理，得到所述语音数据的文本序列。
113.将所述文本序列作为所述语音数据的文本特征信息。
114.可选的，所述语音数据的文本特征信息包括所述至少一个语音片段中每个语音片段的文本序列，所述处理模块702，还用于：
115.获取所述每个语音片段的文本序列与对应的参考文本之间的匹配度。
116.若目标语音片段对应的匹配度小于或等于预设匹配度阈值，则从所述语音数据的文本特征信息中删除所述目标语音片段的文本序列。
117.可选的，所述语音识别模型包括声学模型和语言模型，所述处理模块702，具体用于：
118.调用所述声学模型确定所述声学特征信息与对应音素或字符的匹配概率。
119.调用所述语言模型确定各个文本序列的发生概率。
120.根据所述匹配概率和所述发生概率确定所述语音数据的文本序列。
121.可选的，所述处理模块702，具体用于：
122.提取所述降噪后的语音数据的声学特征信息。
123.利用第一身份判别模型和第二身份判别模型分别对所述声学特征信息进行打分处理，得到打分结果。
124.根据所述打分结果确定所述用户的身份特征信息。
125.可选的，所述打分结果包括所述第一身份判别模型对应的第一分数和所述第二身份判别模型对应的第二分数，所述处理模块702，具体用于：
126.确定所述第一分数和所述第二分数中的最高分数。
127.从所述第一身份判别模型和所述第二身份判别模型中确定所述最高分数对应的目标身份判别模型。
128.根据所述目标身份判别模型对应的性别类型确定所述用户的身份特征信息。
129.可选的，所述装置还包括：获取模块704，其中：
130.所述获取模块704，用于获取训练样本集，所述训练样本集包括不同性别类型的多个用户的语音数据。
131.所述处理模块702，还用于利用所述训练样本集中每个用户的语音数据的声学特征信息训练得到通用背景模型。
132.所述处理模块702，还用于利用所述训练样本集中第一性别类型用户的语音数据的声学特征信息对所述通用背景模型进行训练，得到第一身份判别模型。
133.所述处理模块702，还用于利用所述训练样本集中第二性别类型用户的语音数据的声学特征信息对所述通用背景模型进行训练，得到第二身份判别模型。
134.可选的，所述处理模块702，具体用于：
135.对所述语音数据进行傅立叶变换处理，得到所述语音数据的频谱和噪声谱。
136.根据所述语音数据的频谱和噪声谱确定目标频谱。
137.获取所述目标频谱的幅度谱，并对所述幅度谱和所述语音数据的频谱的相位信息进行反傅立叶变换处理，得到降噪后的语音数据。
138.需要说明的是，本技术实施例的语音处理装置的各功能模块的功能可根据上述方法实施例中的方法具体实现，其具体实现过程可以参照上述方法实施例的相关描述，此处不再赘述。
139.请参见图8，是本技术实施例的另一种语音处理装置的结构示意图。所述装置包括：
140.显示模块801，用于响应于用户的应用启动指令，显示语音合成应用的语音录入界面，所述语音录入界面包括录音进度指示区域、参考文本展示区域、录音控制操作区域中的一种或多种。
141.获取模块802，用于获取所述用户通过所述语音录入界面输入的语音数据，所述语音数据包括所述用户基于至少一个参考文本输入的至少一个语音片段。
142.发送模块803，用于向服务器发送所述语音数据，以使得所述服务器根据所述语音数据、所述语音数据的文本特征信息和所述用户的身份特征信息训练得到语音合成模型。
143.可选的，所述语音录入界面包括所述参考文本展示区域，所述获取模块802，具体用于：
144.通过所述显示模块801在所述参考文本展示区域中按照预设的录制顺序依次展示至少一个参考文本。
145.获取所述用户针对展示的每个参考文本输入的语音片段。
146.根据所述用户针对展示的每个参考文本输入的语音片段，确定所述用户通过所述语音录入界面输入的语音数据。
147.可选的，所述装置还包括：接收模块804和播放模块805，其中：
148.所述显示模块801，还用于在接收到所述服务器发送的所述语音合成模型训练完成的通知消息之后，显示所述语音合成应用的内容选择界面。
149.所述获取模块802，还用于获取所述用户通过所述内容选择界面选中的目标文本。
150.所述发送模块803，还用于向所述服务器发送所述目标文本，以使得所述服务器调用语音合成模型对所述目标文本进行处理，生成所述目标文本对应的合成语音数据。
151.所述接收模块804，用于接收所述服务器发送的所述目标文本对应的合成语音数据。
152.所述播放模块805，用于播放所述目标文本对应的合成语音数据。
153.需要说明的是，本技术实施例的语音处理装置的各功能模块的功能可根据上述方法实施例中的方法具体实现，其具体实现过程可以参照上述方法实施例的相关描述，此处不再赘述。
154.请参见图9，是本技术实施例的一种服务器的结构示意图，本技术实施例的所述服务器包括供电模块等结构，并包括处理器901、存储装置902以及网络接口903。所述处理器901、存储装置902以及网络接口903之间可以交互数据。
155.所述存储装置902可以包括易失性存储器(volatile memory)，例如随机存取存储器(random
‑
access memory，ram)；存储装置902也可以包括非易失性存储器(non
‑
volatile memory)，例如快闪存储器(flash memory)，固态硬盘(solid
‑
state drive，ssd)等；所述存储装置902还可以包括上述种类的存储器的组合。
156.所述处理器901可以是中央处理器901(central processing unit，cpu)。在一个实施例中，所述处理器901还可以是图形处理器901(graphics processing unit，gpu)。所述处理器901也可以是由cpu和gpu的组合。在一个实施例中，所述存储装置902用于存储程序指令。所述处理器901可以调用所述程序指令，执行如下操作：
157.接收用户终端发送的目标文本。
158.调用语音合成模型对所述目标文本进行处理，生成所述目标文本对应的合成语音数据，其中，所述语音合成模型是根据用户的语音数据、所述语音数据的文本特征信息和所述用户的身份特征信息训练得到的。
159.向所述用户终端发送所述目标文本对应的合成语音数据。
160.可选的，所述处理器901，还用于：
161.接收所述用户终端发送的语音数据，所述语音数据包括用户基于至少一个参考文本输入的至少一个语音片段。
162.根据所述语音数据获取所述用户的身份特征信息以及所述语音数据的文本特征信息。
163.利用所述文本特征信息和所述身份特征信息训练得到所述用户对应的语音合成模型。
164.可选的，所述处理器901，具体用于：
165.对所述语音数据进行降噪处理，得到降噪后的语音数据。
166.对所述降噪后的语音数据进行语音识别处理，得到所述语音数据的文本特征信息。
167.根据所述降噪后的语音数据确定所述用户的身份特征信息，所述身份特征信息包括性别信息。
168.可选的，所述处理器901，具体用于：
169.提取所述降噪后的语音数据的声学特征信息。
170.调用语音识别模型对所述声学特征信息进行解码处理，得到所述语音数据的文本序列。
171.将所述文本序列作为所述语音数据的文本特征信息。
172.可选的，所述语音数据的文本特征信息包括所述至少一个语音片段中每个语音片段的文本序列，所述处理器901，还用于：
173.获取所述每个语音片段的文本序列与对应的参考文本之间的匹配度。
174.若目标语音片段对应的匹配度小于或等于预设匹配度阈值，则从所述语音数据的文本特征信息中删除所述目标语音片段的文本序列。
175.可选的，所述语音识别模型包括声学模型和语言模型，所述处理器901，具体用于：
176.调用所述声学模型确定所述声学特征信息与对应音素或字符的匹配概率。
177.调用所述语言模型确定各个文本序列的发生概率。
178.根据所述匹配概率和所述发生概率确定所述语音数据的文本序列。
179.可选的，所述处理器901，具体用于：
180.提取所述降噪后的语音数据的声学特征信息。
181.利用第一身份判别模型和第二身份判别模型分别对所述声学特征信息进行打分处理，得到打分结果。
182.根据所述打分结果确定所述用户的身份特征信息。
183.可选的，所述打分结果包括所述第一身份判别模型对应的第一分数和所述第二身份判别模型对应的第二分数，所述处理器901，具体用于：
184.确定所述第一分数和所述第二分数中的最高分数。
185.从所述第一身份判别模型和所述第二身份判别模型中确定所述最高分数对应的目标身份判别模型。
186.根据所述目标身份判别模型对应的性别类型确定所述用户的身份特征信息。
187.可选的，所述处理器901，还用于：
188.获取训练样本集，所述训练样本集包括不同性别类型的多个用户的语音数据。
189.利用所述训练样本集中每个用户的语音数据的声学特征信息训练得到通用背景模型。
190.利用所述训练样本集中第一性别类型用户的语音数据的声学特征信息对所述通用背景模型进行训练，得到第一身份判别模型。
191.利用所述训练样本集中第二性别类型用户的语音数据的声学特征信息对所述通用背景模型进行训练，得到第二身份判别模型。
192.可选的，所述处理器901，具体用于：
193.对所述语音数据进行傅立叶变换处理，得到所述语音数据的频谱和噪声谱。
194.根据所述语音数据的频谱和噪声谱确定目标频谱。
195.获取所述目标频谱的幅度谱，并对所述幅度谱和所述语音数据的频谱的相位信息进行反傅立叶变换处理，得到降噪后的语音数据。
196.具体实现中，本技术实施例中所描述的处理器901、存储装置902以及网络接口903可执行本技术实施例图2或图3提供的语音处理方法的相关实施例中所描述的实现方式，也可执行本技术实施例图7提供的语音处理装置的相关实施例中所描述的实现方式，在此不再赘述。
197.请参见图10，是本发明实施例的一种用户终端的结构示意图，本发明实施例的所述用户终端包括供电模块等结构，并包括处理器1001、存储装置1002、显示装置1003以及通信装置1004。所述处理器1001、存储装置1002、显示装置1003以及通信装置1004之间可以交互数据。
198.所述存储装置1002可以包括易失性存储器(volatile memory)，例如随机存取存储器(random
‑
access memory，ram)；存储装置1002也可以包括非易失性存储器(non
‑
volatile memory)，例如快闪存储器(flash memory)，固态硬盘(solid
‑
state drive，ssd)等；所述存储装置1002还可以包括上述种类的存储器的组合。
199.所述处理器1001可以是中央处理器1001(central processing unit，cpu)。在一个实施例中，所述处理器1001还可以是图形处理器1001(graphics processing unit，gpu)。所述处理器1001也可以是由cpu和gpu的组合。在一个实施例中，所述存储装置1002用于存储程序指令。所述处理器1001可以调用所述程序指令，执行如下操作：
200.响应于用户的应用启动指令，显示语音合成应用的语音录入界面，所述语音录入界面包括录音进度指示区域、参考文本展示区域、录音控制操作区域中的一种或多种。
201.获取所述用户通过所述语音录入界面输入的语音数据，所述语音数据包括所述用户基于至少一个参考文本输入的至少一个语音片段。
202.向服务器发送所述语音数据，以使得所述服务器根据所述语音数据、所述语音数据的文本特征信息和所述用户的身份特征信息训练得到语音合成模型。
203.可选的，所述语音录入界面包括所述参考文本展示区域，所述处理器1001，具体用于：
204.在所述参考文本展示区域中按照预设的录制顺序依次展示至少一个参考文本。
205.获取所述用户针对展示的每个参考文本输入的语音片段。
206.根据所述用户针对展示的每个参考文本输入的语音片段，确定所述用户通过所述语音录入界面输入的语音数据。
207.可选的，所述处理器1001，还用于：
208.在接收到所述服务器发送的所述语音合成模型训练完成的通知消息之后，显示所述语音合成应用的内容选择界面。
209.获取所述用户通过所述内容选择界面选中的目标文本。
210.向所述服务器发送所述目标文本，以使得所述服务器调用语音合成模型对所述目标文本进行处理，生成所述目标文本对应的合成语音数据。
211.接收所述服务器发送的所述目标文本对应的合成语音数据。
212.播放所述目标文本对应的合成语音数据。
213.具体实现中，本发明实施例中所描述的处理器1001、存储装置1002、显示装置1003以及通信装置1004可执行本发明实施例图5提供的语音处理方法的相关实施例中所描述的实现方式，也可执行本技术实施例图8提供的语音处理装置的相关实施例中所描述的实现方式，在此不再赘述。
214.本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以为个人计算机、服务器或者网络设备等，具体可以是计算机设备中的处理器)执行本技术各个实施例上述方法的全部或部分步骤。其中，而前述的存储介质可包括：u盘、移动硬盘、磁碟、光盘、只读存储器(英文：read
‑
only memory，缩写：rom)或者随机存取存储器(英文：random access memory，缩写：ram)等各种可以存储程序代码的介质。
215.以上所述，以上实施例仅用以说明本技术的技术方案，而非对其限制；尽管参照前述实施例对本技术进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围。