首页 > 乐器声学 专利正文
语音处理方法、装置、电子设备和存储介质与流程

时间:2022-02-13 阅读: 作者:专利查询

语音处理方法、装置、电子设备和存储介质与流程

1.本公开涉及计算机技术领域,具体涉及语音技术和深度学习等人工智能技术领域,尤其涉及一种语音处理方法、装置、电子设备和存储介质。


背景技术:

2.声码器技术是指将声学特征转换为语音信号的一项技术。声码器是语音合成链路中的重要组成部分,直接决定了合成音频的稳定性、音质和表现力。
3.语音合成技术发展至今形成了多种多样的声码器技术,尤其是近年来随着深度学习技术的逐渐成熟,涌现出了很多合成质量较好的神经声码器。这些声码器按是否采用深度学习技术,可以将其分为传统声码器和神经网络声码器,其中,没有应用深度学习技术的声码器我们统称为传统声码器,另一类采用深度学习技术的声码器,我们称之为神经网络声码器。


技术实现要素:

4.本公开提供了一种语音处理方法、装置、电子设备和存储介质。
5.根据本公开的一方面,提供了一种语音处理方法,包括:
6.获取原始语音;
7.从所述原始语音中提取频谱图;
8.获取语音合成模型,其中,所述语音合成模型包括第一生成子模型和第二生成子模型;
9.调用所述第一生成子模型对所述频谱图进行处理,以生成所述频谱图的谐波结构;以及
10.调用所述第二生成子模型对所述谐波结构和所述频谱图进行处理,以生成目标语音。
11.根据本公开的另一方面,提供了一种语音处理装置,包括:
12.第一获取模块,用于获取原始语音;
13.提取模块,用于从所述原始语音中提取频谱图;
14.第二获取模块,用于获取语音合成模型,其中,所述语音合成模型包括第一生成子模型和第二生成子模型;
15.第一生成模块,用于调用所述第一生成子模型对所述频谱图进行处理,以生成所述频谱图的谐波结构;以及
16.第二生成模块,用于调用所述第二生成子模型对所述谐波结构和所述频谱图进行处理,以生成目标语音。
17.根据本公开的另一方面,提供了一种电子设备,包括:
18.至少一个处理器;以及
19.与所述至少一个处理器通信连接的存储器;其中,
20.所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述一方面实施例所述的语音处理方法。
21.根据本公开另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行上述一方面实施例所述的语音处理方法。
22.根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现上述一方面实施例所述的语音处理方法的步骤。
23.应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
24.附图用于更好地理解本方案,不构成对本公开的限定。其中:
25.图1为本公开实施例提供的一种语音处理方法的流程示意图;
26.图2为本公开实施例提供的另一种语音处理方法的流程示意图;
27.图3为本公开实施例提供的另一种语音处理方法的流程示意图;
28.图4为本公开实施例提供的另一种语音处理方法的流程示意图;
29.图5为本公开实施例提供的另一种语音处理方法的流程示意图;
30.图6为本公开实施例提供的一种语音处理装置的结构示意图;以及
31.图7为本公开实施例的语音处理方法的电子设备的框图。
具体实施方式
32.以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
33.下面参考附图描述本公开实施例的语音处理方法、装置、电子设备和存储介质。
34.人工智能是研究使用计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术领域也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术包括计算机视觉技术、语音识别技术、自然语言处理技术以及深度学习、大数据处理技术、知识图谱技术等几大方向。
35.语音技术是指在计算机领域中的关键技术有自动语音识别技术(automatic speech recognition,简称“asr”)和语音合成技术(text tospeech,简称“tts”)。其中,让计算机能听、能看、能说、能感觉,是未来人机交互的发展方向,其中语音成为未来最被看好的人机交互方式,语音比其他的交互方式有更多的优势;最早的语音技术因“自动翻译电话”计划而起,包含了语音识别、自然语言理解和语音合成三项非常主要的技术。语音识别的研究工作可以追溯到20世纪50年代at&t贝尔实验室的audry系统,此后研究者们逐步突破了大词汇量、连续语音和非特定人这三大障碍;让计算机说话需要用到语音合成技术,其核心是文语转换技术(text to speech),语音合成甚至已经应用到汽车的信息系统上,车
主可以将下载到系统电脑中的文本文件、电子邮件、网络新闻或小说,转换成语音在车内收听。
36.深度学习是机器学习领域中一个新的研究方向。深度学习是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字,图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。深度学习是一个复杂的机器学习算法,在语音和图像识别方面取得的效果,远远超过先前相关技术。
37.本公开实施例提供的语音处理方法,可以由电子设备来执行,该电子设备可为pc(personal computer,个人计算机)电脑、平板电脑、掌上电脑、手机或服务器等,此处不做任何限定。
38.在本公开实施例中,电子设备中可以设置有处理组件、存储组件和驱动组件。可选的,该驱动组件和处理组件可以集成设置,该存储组件可以存储操作系统、应用程序或其他程序模块,该处理组件通过执行存储组件中存储的应用程序来实现本公开实施例提供的语音处理方法。
39.图1为本公开实施例提供的一种语音处理方法的流程示意图。
40.本公开实施例的语音处理方法,还可由本公开实施例提供的语音处理装置执行,该装置可配置于电子设备中,以实现从获取到的原始语音中提取频谱图,并调用语音合成模型中的第一生成子模型对频谱图进行处理,以生成频谱图的谐波结构,以及调用语音合成模型中的第二生成子模型对谐波结构和频谱图进行处理,以生成目标语音,从而具有合成音质较好,音色还原度高,发音稳定且计算量小等特点。
41.作为一种可能的情况,本公开实施例的语音处理方法还可以在服务器端执行,服务器可以为云服务器,可以在云端执行该语音处理方法。
42.在本公开实施例中,本公开该实施例的语音处理方法可应用在一些需要语音播报(例如,地图导航语音、车联网语音交互、词典笔播报等)的app(application,应用程序)上,且该app可安装在pc电脑、平板电脑、掌上电脑、手机等电子设备上。
43.如图1所示,该语音处理方法,可包括:
44.步骤101,获取原始语音。其中,原始语音可为多个,且该原始语音可以是采用各种语言表现的语音,比如,可以为中文语音、英文语音、俄语语音、马来语语音、中文和英文混用语音等,此处不做任何限定。原始语音中可以包含一个句子、一个段落或者一个篇章,比如,新闻稿件等。
45.在本公开实施例中,上述的原始语音可包括用户通过语音识别输入的语音信息,用户从网络上下载的一些电影、音乐、电视剧等的音频信息(语音信息),以及用户从语音提供设备中获取的语音信息,其中,语音提供设备可包括mp3(能播放音乐文件的播放器)、影音光盘播放机、服务器、移动终端和智能硬盘等。此处不做任何限定。
46.需要说明的是,用户可将采集(获取)到的语音信息输入至电子设备的存储空间中,以进行保存便于后续的使用。其中,该存储空间不仅限于基于实体的存储空间,例如,硬盘,该存储空间还可以是连接电子设备的网络硬盘的存储空间(云存储空间)。
47.具体的,电子设备(例如,手机)可从自身的存储空间中获取原始语音,或者自身的语音功能进行录音以获取原始语音,再或者从语音提供设备中获取原始语音。
48.步骤102,从原始语音中提取频谱图。其中,该频谱图可为mel(梅尔倒)频谱图。
49.在本公开实施例中,可根据预设的提取算法从原始语音中提取频谱图。其中,预设的提取算法可根据实际情况进行标定。
50.具体的,电子设备在获取到原始语音之后,可根据预设的提取算法从原始语音中提取频谱图。
51.作为一种可能的情况,还可根据提取模型对原始语音进行处理,以从原始语音中提取频谱图。应说明的是,该实施例中所描述的提取模型可以是提前训练好的,并将其预存在电子设备的存储空间中,以方便调取应用。
52.其中,该提取模型的训练与生成均可由相关的训练服务器执行,该训练服务器可以是云端服务器,也可以是一台电脑的主机,该训练服务器与可执行本公开实施例提供的语音处理方法的电子设备之间,建立有通信连接,该通信连接可以是无线网络连接和有线网络连接的至少一种。该训练服务器可将训练完成的提取模型发送给该电子设备,以便该电子设备在需要时调用,从而大大减少该电子设备的计算压力。
53.具体的,电子设备在获取到原始语音之后,可从自身的存储空间中调出提取模型,并将该原始语音输入至该提取模型,从而通过该提取模型从该原始语音中提取频谱图,以得到该提取模型输出的频谱图。
54.作为另一种可能的情况,电子设备还可使用提取工具(例如,插件),从原始语音中提取频谱图。
55.步骤103,获取语音合成模型,其中,语音合成模型包括第一生成子模型和第二生成子模型。
56.在本公开实施例中,上述的语音合成模型可为一种声码器。
57.需要说明的是,该实施例中所描述的语音合成模型可以是提前训练好的,并将其预存在电子设备的存储空间中,以方便调取应用。其中,该语音合成模型可为是纯卷积结构,从而可在一定程度上加快网络的训练和预测速度。
58.步骤104,调用第一生成子模型对频谱图进行处理,以生成频谱图的谐波结构。
59.需要说明的是,该实施例中所描述的谐波结构中可包括周期信号。
60.步骤105,调用第二生成子模型对谐波结构和频谱图进行处理,以生成目标语音。
61.具体的,电子设备在得到从原始语音中提取的频谱图之后,可先从自身的存储空间中调出(获取)语音合成模型,并可将该频谱图输入至该语音合成模型,从而通过该语音合成模型对该频谱图进行处理,以生成目标语音。其中,该语音合成模型在接收到该频谱图之后,可先通过内置的第一生成子模型对频谱图进行处理,以得到该第一生成子模型输出的该频谱图的谐波结构,然后再通过内置的第二生成子模型对该谐波结构和该谱图进行处理,以得到该第二生成子模型输出的目标语音,即该语音合成模型输出的目标语音。由此,能够生成音质和音色与原始语音更加接近的目标语音,且不会出现抖动和哑音的情况。
62.在本公开实施例中,首先获取原始语音,并从原始语音中提取频谱图,以及获取语音合成模型,其中,语音合成模型包括第一生成子模型和第二生成子模型,然后调用第一生成子模型对频谱图进行处理,以生成频谱图的谐波结构,并调用第二生成子模型对谐波结构和频谱图进行处理,以生成目标语音。由此,该方法具有合成音质较好,音色还原度高,发音稳定且计算量小等特点。
63.为了清楚说明上一实施例,在本公开的一个实施例中,如图2所示,调用第一生成子模型对频谱图进行处理,以生成频谱图的谐波结构,可包括:
64.步骤201,对频谱图进行处理,以生成多组正弦波参数,其中,每组正弦波参数包括振幅和频率。应说明的是,该实施例中的多组正弦波参数中的每组正弦波参数均可成谐波关系。
65.在本公开实施例中,上述的第一生成子模型中可包括第一纯卷积网络,其中,该第一纯卷积网络可由上采样卷积和残差网络组成。
66.步骤202,分别生成多组正弦波参数的正弦波。
67.在本公开实施例中,可基于正弦波生成策略分别生成多组正弦波参数的正弦波,其中,正弦波生成策略可根据实际情况进行标定。
68.作为一种可能的情况,还可根据正弦波生成模型分别生成多组正弦波参数的正弦波,其中,可将多组正弦波参数中的每组正弦波参数依次输入正弦波生成模型,从而通过该正弦波生成模型分别对每组正弦波参数中的振幅和频率进行处理,以分别生成多组正弦波参数的正弦波。
69.步骤203,将多组正弦波参数的正弦波进行叠加,以生成谐波结构。
70.具体的,第一生成子模型在接收到上述的频谱图之后,可通过内置的第一纯卷积网络对该频谱图进行处理,以生成(预测出)多组正弦波参数,之后可根据每组正弦波参数中的振幅和频率,分别生成多组正弦波参数的正弦波,而后可将该多组正弦波参数的正弦波进行叠加,以生成谐波结构。
71.进一步的,第一生成子模型通过内置的第一纯卷积网络将该谐波结构作为条件信息输入到上述的第二生成子模型中,以指导第二生成子模型的生成过程。
72.由此,可以通过第一纯卷积网络以极小的计算量得到较为清晰且贴近原始音频的谐波结构,这个谐波结构又可以作为一个强的条件信息去指导第二生成子模型的学习,大幅降低第二生成子模型的建模难度,另外,通过该谐波结构指导第二生成子模型的生成过程可以使其生成的目标语音具有音质较好,音色还原度高,发音稳定且计算量小等优异特点。
73.进一步的,在本公开的一个实施例中,如图3所示,调用第二生成子模型对谐波结构和频谱图进行处理,以生成目标语音,可包括:
74.步骤301,根据谐波结构和频谱图生成多个子带语音。
75.在本公开实施例中,上述的第二生成子模型中可包括第二纯卷积网络和多子带合成器,其中,该第一纯卷积网络可由上采样卷积和残差网络组成。
76.步骤302,将多个子带语音进行合成,以生成目标语音。
77.具体的,第二生成子模型在接收到上述的频谱图和谐波结构之后,可先通过内置的第二纯卷积网可基于该谐波结构对该频谱图进行子带语音长度的上采样,并可基于该谐波结构对该上采样的结果进行残差处理,以得到多个子带语音,其中,该第二纯卷积网络可采用转置卷积算法对该频谱图进行子带语音长度的上采样,可采用深度可分离卷积算法和一维卷积算法对该上采样的结果进行多次残差处理。然后该第二生成子模型可通过内置的多子带合成器将多个子带语音进行合成,以生成目标语音。其中,转置卷积算法、深度可分离卷积算法和一维卷积算法可根据实际情况进行标定。
78.由此,在生成目标语音时加入谐波结构的条件信息,可以在大幅降低第二生成子模型计算量的同时保证生成音频的发音稳定性,从而可以使语音合成模型具有合成音质较好,音色还原度高,发音稳定且计算量小,可应用全部端侧场景等优异特点。
79.在本公开的一个实施例中,如图4所示,上述的第一生成子模型可通过以下方式生成:
80.步骤401,获取样本语音,并从样本语音中提取样本频谱图。其中,样本语音可为多个,且该样本语音可为中文语音、英文语音或德文语音等,此处不做任何限定。
81.在本公开实施例中,获取样本语音的途径可有多条,其中,可通过收集同声传译装置在进行同声传译时的语音,来获取样本语音;还可人为主动创造样本语音,例如,根据相关人员的需求,通过相关的录音设备进行样本语音的录音;还可主动收集一些路人的话语,来获取样本语音;还可从语音提供设备中来获取的样本语音,此处不做任何限定。
82.具体的,在获取到样本语音之后,可根据上述的预设的提取算法从该样本语音中提取样本频谱图。
83.步骤402,对样本频谱图进行处理,以生成滤波器组和多组样本正弦波参数。
84.需要说明的是,该实施例中所描述的滤波器组可为一组非周期信号的滤波器组。
85.步骤403,通过滤波器组对白噪声进行滤波,以生成样本频谱图的非周期信号。应说明的是,该实施例中所描述的白噪声可预存在电子设备的存储空间中,以方便调取应用,或者通过白噪声生成器直接生成。
86.在本公开实施例中,上述的非周期信号可以通过一段白噪声获得,周期信号可以通过一系列的正弦波叠加获得。在一段周期信号中,包含基波信号和谐波信号,与该周期信号周期相等的正弦波分量称为基波分量,这个基波分量的频率称为基频,频率等于基频的整倍数的正弦波分量称为谐波,基频和谐波相加可以得到一个周期信号,而这个周期信号也就是上述实施例中的谐波结构。
87.步骤404,分别生成多组样本正弦波参数的正弦波。
88.步骤405,将多组样本正弦波参数的正弦波进行叠加,以生成样本频谱图的样本谐波结构。
89.具体的,训练时第一生成子模型中的第一纯卷积网络,可根据该样本频谱图的输入,可先预测出一组非周期信号的滤波器组,并通过该滤波器组对白噪声进行滤波,以得到样本频谱图的非周期信号,同时该第一纯卷积网络还可预测出多组成谐波关系的正弦波参数,并分别生成多组成谐波关系的正弦波参数的正弦波。然后可将这些成谐波关系的正弦波叠加得到样本语音的样本谐波结构。
90.步骤406,将样本谐波结构与非周期信号进行叠加,以得到预测的第一合成语音。
91.步骤407,根据第一合成语音和样本语音生成第一损失值,并根据第一损失值对第一生成子模型进行训练。
92.在本公开实施例中,可将第一合成语音与样本语音进行对比(判别),以得到该第一合成语音与该样本语音之间的差异,并可将该差异作为第一损失值。其中,可通过判别器对第一合成语音和样本语音进行判别以生成第一损失值,或者通过预设的判别算法对第一合成语音和样本语音进行判别以生成第一损失值,此处不作任何限定。其中,该判别器可为是纯卷积结构,且该判别器可预存在电子设备的存储空间中,以方便调取应用。应说明的
是,该实施例中所描述的预设的判别算法可根据实际情况进行标定。
93.具体的,训练时第一生成子模型中的第一纯卷积网络在得到样本语音的样本谐波结构之后,可将本谐波结构(即,周期信号)与非周期信号进行叠加得到预测的第一合成语音,然后可将该第一合成语音与该样本语音进行对比(判别),以得到该第一合成语音与该样本语音之间的差异,并可将该差异作为第一损失值。最后根据该第一损失值对第一生成子模型进行训练,从而优化第一生成子模型,提高生成的准确度。
94.在本公开的一个实施例中,如图5所示,上述的第二生成子模型可通过以下方式生成:
95.步骤501,将样本频谱图和样本谐波结构输入第二生成子模型,以生成预测的第二合成语音。
96.具体的,训练时第二生成子模型中的第二纯卷积网络在接收到上述的样本谐波结构之后,可基于该样本谐波结构对该样本频谱图进行子带语音长度的上采样,并可基于该样本谐波结构对该上采样的结果进行残差处理,以得到多个样本子带语音。然后该第二生成子模型中的多子带合成器可将多个子带语音进行合成以得到预测的第二合成语音。
97.步骤502,根据判别器对样本语音和第二合成语音进行判别,以生成第二损失值。
98.步骤503,根据第二损失值对第二生成子模型进行训练。
99.具体的,训练时可将上述多子带合成器预测到的第二合成语音和上述的样本语音输入判别器,从而通过该判别器对该样本语音和该第二合成语音进行判别,以得到该判别器输出的第二损失值。然后根据该第二损失值对第二生成子模型进行训练,从而优化第二生成子模型,进一步提高生成的准确度。
100.作为一种可能的情况,还可通过上述预设的判别算法对样本语音和第二合成语音进行判别,以生成第二损失值。
101.在本公开实施例中,上述的语音合成模型合成语音的音质和音色都与原始音频及其接近,且不会出现抖动和哑音的问题,更重要的是该语音合成模型的合成实时率可以与传统声码器相媲美,其合成语音的质量可以与常见的神经声码器相媲美。
102.图6为本公开实施例提供的一种语音处理装置的结构示意图。
103.本公开实施例的语音处理装置,可配置于电子设备中,以实现从获取到的原始语音中提取频谱图,并调用语音合成模型中的第一生成子模型对频谱图进行处理,以生成频谱图的谐波结构,以及调用语音合成模型中的第二生成子模型对谐波结构和频谱图进行处理,以生成目标语音,从而具有合成音质较好,音色还原度高,发音稳定且计算量小等特点。
104.在本公开实施例中,本公开该实施例的语音处理装置可设置(安装)在一些需要语音播报(例如,地图导航语音、车联网语音交互、词典笔播报等)的app(application,应用程序)上,且该app可安装在pc电脑、平板电脑、掌上电脑、手机等电子设备上。
105.如图6所示,该语音处理装置600,可包括:第一获取模块610、提取模块620、第二获取模块630、第一生成模块640和第二生成模块650。
106.其中,第一获取模块610用于获取原始语音。其中,原始语音可为多个,且该原始语音可以是采用各种语言表现的语音,比如,可以为中文语音、英文语音、俄语语音、马来语语音、中文和英文混用语音等,此处不做任何限定。原始语音中可以包含一个句子、一个段落或者一个篇章,比如,新闻稿件等。
107.在本公开实施例中,上述的原始语音可包括用户通过语音识别输入的语音信息,用户从网络上下载的一些电影、音乐、电视剧等的音频信息(语音信息),以及用户从语音提供设备中获取的语音信息,其中,语音提供设备可包括mp3、影音光盘播放机、服务器、移动终端和智能硬盘等。此处不做任何限定。
108.需要说明的是,用户可将采集(获取)到的语音信息输入至电子设备的存储空间中,以进行保存便于后续的使用。其中,该存储空间不仅限于基于实体的存储空间,例如,硬盘,该存储空间还可以是连接电子设备的网络硬盘的存储空间(云存储空间)。
109.具体的,第一获取模块610可从电子设备的存储空间中获取原始语音,或者自身的语音功能进行录音以获取原始语音,再或者从语音提供设备中获取原始语音。
110.提取模块620用于从原始语音中提取频谱图。其中,该频谱图可为mel(梅尔倒)频谱图。
111.在本公开实施例中,提取模块620可根据预设的提取算法从原始语音中提取频谱图。其中,预设的提取算法可根据实际情况进行标定。
112.具体的,在第一获取模块610获取到原始语音之后,提取模块620可根据预设的提取算法从原始语音中提取频谱图。
113.作为一种可能的情况,提取模块620还可根据提取模型对原始语音进行处理,以从原始语音中提取频谱图。应说明的是,该实施例中所描述的提取模型可以是提前训练好的,并将其预存在电子设备的存储空间中,以方便调取应用。
114.其中,该提取模型的训练与生成均可由相关的训练服务器执行,该训练服务器可以是云端服务器,也可以是一台电脑的主机,该训练服务器与可配置本公开实施例提供的语音处理装置的电子设备之间,建立有通信连接,该通信连接可以是无线网络连接和有线网络连接的至少一种。该训练服务器可将训练完成的提取模型发送给该电子设备,以便该电子设备在需要时调用,从而大大减少该电子设备的计算压力。
115.具体的,在第一获取模块610获取到原始语音之后,提取模块620可从电子设备的存储空间中调出提取模型,并将该原始语音输入至该提取模型,从而通过该提取模型从该原始语音中提取频谱图,以得到该提取模型输出的频谱图。
116.作为另一种可能的情况,提取模块620还可使用提取工具(例如,插件),从原始语音中提取频谱图。
117.第二获取模块630用于获取语音合成模型,其中,语音合成模型包括第一生成子模型和第二生成子模型。
118.在本公开实施例中,上述的语音合成模型可为一种声码器。
119.需要说明的是,该实施例中所描述的语音合成模型可以是提前训练好的,并将其预存在电子设备的存储空间中,以方便调取应用。其中,该语音合成模型可为是纯卷积结构,从而可在一定程度上加快网络的训练和预测速度。
120.第一生成模块640用于调用第一生成子模型对频谱图进行处理,以生成频谱图的谐波结构。
121.需要说明的是,该实施例中所描述的谐波结构中可包括周期信号。
122.第二生成模块650用于调用第二生成子模型对谐波结构和频谱图进行处理,以生成目标语音。
123.在本公开实施例中,首先通过第一获取模块获取原始语音,并通过提取模块从原始语音中提取频谱图,以及通过第二获取模块获取语音合成模型,其中,语音合成模型包括第一生成子模型和第二生成子模型,然后通过第一生成模块调用第一生成子模型对频谱图进行处理,以生成频谱图的谐波结构,并通过第二生成模块调用第二生成子模型对谐波结构和频谱图进行处理,以生成目标语音。由此,该装置具有合成音质较好,音色还原度高,发音稳定且计算量小等特点。
124.在本公开的一个实施例中,第一生成模块640具体用于:对频谱图进行处理,以生成多组正弦波参数,其中,每组正弦波参数包括振幅和频率;分别生成多组正弦波参数的正弦波;将多组正弦波参数的正弦波进行叠加,以生成谐波结构。
125.在本公开的一个实施例中,第二生成模块650具体用于:根据谐波结构和频谱图生成多个子带语音;将多个子带语音进行合成,以生成目标语音。
126.在本公开的一个实施例中,如图6所示,该语音处理装置600还可包括第一训练模块660,其中,第一训练模块660用于通过以下方式生成第一生成子模型:获取样本语音,并从样本语音中提取样本频谱图;对样本频谱图进行处理,以生成滤波器组和多组样本正弦波参数;通过滤波器组对白噪声进行滤波,以生成样本频谱图的非周期信号;分别生成多组样本正弦波参数的正弦波;将多组样本正弦波参数的正弦波进行叠加,以生成样本频谱图的样本谐波结构;将样本谐波结构与非周期信号进行叠加,以得到预测的第一合成语音;根据第一合成语音和样本语音生成第一损失值,并根据第一损失值对第一生成子模型进行训练。
127.在本公开的一个实施例中,如图6所示,该语音处理装置600还可包括第二训练模块670,其中,第二训练模块670用于通过以下方式生成第二生成子模型:将样本频谱图和样本谐波结构输入第二生成子模型,以生成预测的第二合成语音;根据判别器对样本语音和第二合成语音进行判别,以生成第二损失值;根据第二损失值对第二生成子模型进行训练。
128.需要说明的是,前述对语音处理方法实施例的解释说明也适用于该实施例的语音处理装置,此处不再赘述。
129.本公开实施例的语音处理装置,首先通过第一获取模块获取原始语音,并通过提取模块从原始语音中提取频谱图,以及通过第二获取模块获取语音合成模型,其中,语音合成模型包括第一生成子模型和第二生成子模型,然后通过第一生成模块调用第一生成子模型对频谱图进行处理,以生成频谱图的谐波结构,并通过第二生成模块调用第二生成子模型对谐波结构和频谱图进行处理,以生成目标语音。由此,该装置具有合成音质较好,音色还原度高,发音稳定且计算量小等特点。
130.本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
131.根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
132.图7示出了可以用来实施本公开的实施例的示例电子设备700的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算
装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
133.如图7所示,设备700包括计算单元701,其可以根据存储在只读存储器(rom)702中的计算机程序或者从存储单元708加载到随机访问存储器(ram)703中的计算机程序,来执行各种适当的动作和处理。在ram 703中,还可存储设备700操作所需的各种程序和数据。计算单元701、rom 702以及ram 703通过总线704彼此相连。输入/输出(i/o)接口705也连接至总线704。
134.设备700中的多个部件连接至i/o接口705,包括:输入单元706,例如键盘、鼠标等;输出单元707,例如各种类型的显示器、扬声器等;存储单元708,例如磁盘、光盘等;以及通信单元709,例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
135.计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理,例如语音处理方法。例如,在一些实施例中,语音处理方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元708。在一些实施例中,计算机程序的部分或者全部可以经由rom 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到ram 703并由计算单元701执行时,可以执行上文描述的语音处理方法的一个或多个步骤。备选地,在其他实施例中,计算单元701可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行语音处理方法。
136.本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
137.用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
138.在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计
算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd

rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
139.为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
140.可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)、互联网和区块链网络。
141.计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端

服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与vps服务("virtual private server",或简称"vps")中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
142.应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
143.上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。