首页 > 乐器声学 专利正文
一种语音合成的方法、装置、计算机设备和存储介质与流程

时间:2022-01-23 阅读: 作者:专利查询

一种语音合成的方法、装置、计算机设备和存储介质与流程

1.本技术涉及语音合成技术领域,特别是涉及一种语音合成的方法、装置、计算机设备和存储介质。


背景技术:

2.语音合成技术是一种可以将任意输入文本转换成相应语音的技术。常见情景如有声阅读、电话外呼等。为提供一种音色的服务,通常需要收集语音语料,训练出对应的一个模型,用以提供给服务引擎,一个服务引擎只能加载一个音色模型。服务引擎在初始化时,加载模型参数,加载完毕后不能再改动,若需改动则需要停止服务,重新初始化。
3.当需要提供多种音色服务的时候,即需要收集多种语音语料,训练出多个对应的模型,模型里并未包含有该说话人的特征,只是拟合了该类的数据分布。需要同时提供服务时,就需要分别单独利用一个引擎加载对应的模型,从而提供服务。因此,现有的部署方式,利用多个服务器来提供不同的服务,靠前端的输入字段判断调用哪个服务器部署的服务。但是,如果将一个引擎挂载多个单音模型,那么一个引擎所需的内存资源既是单模型引擎的n倍。如果利用gpu加速,那么所加载的模型数量gpu内存限制而并不能太多,而且一个模型只能做单一的任务,占了资源并效率低下。
4.目前存在如下问题:
5.1.服务成本大。一个服务引擎至少需求4c8g的配置,考虑并发量,一个音色或许不仅仅一个服务器。
6.2.计算资源浪费的现象。所有音色调用量并不会相同,有些调用少,有些则会多。调用量少的音色,其部署的计算资源会显得十分浪费。
7.3.无法实现热切换音库。当想让冷门音色服务切换提供热门音色时,需要人工维护,致使人工成本较大。。


技术实现要素:

8.为了解决上述问题,本发明提出了,
9.一种语音合成的方法,方法包括:
10.接收服务请求,解析待合成文本和音库标签,每个音库标签对应一个音库;
11.将待合成文本和音库标签输入多音模型,输出音库标签对应的音库的声学特征;
12.声学特征输入声码器,获得合成语音。
13.在一个实施例中,方法还包括:
14.接收服务请求的音色切换需求,改变输入多音模型的音库标签,输出该音库标签对应的音库的声学特征,将上述语音述声学特征输入声码器,获得切换音色后的合成语音。
15.在一个实施例中,多音模型的构建训练方法包括:
16.依次对音库设定对应的音库标签;
17.构建多音模型,多音模型包括文本特征提取模块、声学特征生成模块和音库信息
解码模块;
18.对所有音库语料进行训练,将音库语料的文本和音库标签输入多音模型,生成对应的声学特征,判断声学特征的质量。
19.在一个实施例中,文本特征提取模块和音库信息解码模块分别与声学特征生成模块连接,多音模型的输入为文本和音库标签,输出为与文本和音库标签对应的声学特征。
20.在一个实施例中,声学特征的质量通过结构相似度方法判断。
21.在一个实施例中,服务请求包括由文本和音色,通过对服务请求进行预处理,解析待合成文本和音库标签。
22.一种语音合成的装置,装置包括:
23.预处理模块,用于接收服务请求,解析待合成文本和音库标签,每个音库标签对应一个音库;
24.转化模块,用于将待合成文本和音库标签输入多音模型,输出音库标签对应的音库的声学特征;
25.合成模块,用于声学特征输入声码器,获得合成语音;
26.热切换模块,用于接收服务请求的音色切换需求,改变输入多音模型的音库标签,输出该音库标签对应的音库的声学特征,将上音色语音述声学特征输入声码器,获得切换音色后的合成语音。
27.在一个实施例中,装置还包括多音模型的构建训练单元,构建训练单元包括:
28.标签模块,用于依次对音库设定对应的音库标签;
29.搭建模块,用于构建多音模型,多音模型包括文本特征提取模块、声学特征生成模块和音库信息解码模块;
30.训练模块,用于对所有音库语料进行训练,将音库语料的文本和音库标签输入多音模型,生成对应的声学特征,判断声学特征的质量。
31.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
32.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
33.本发明语音合成的方法、装置、计算机设备和存储介质,利用深度学习强大的端到端能力,有效解决之前单音模型带来的服务成本大,计算资源浪费的现象,无法实现热切换音库等问题。
附图说明
34.图1为一个实施例中一种语音合成的方法步骤示意图;
35.图2为一个实施例中一种语音合成的整体流程示意图;
36.图3为一个实施例中一种语音合成的音色热切换示意图;
37.图4为一个实施例中一种语音合成的模型训练示意图;
38.图5为一个实施例中一种语音合成的装置结构框图;
39.图6为一个实施例中计算机设备的内部结构图。
具体实施方式
40.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
41.本技术提供的一种语音合成的方法,在一个实施例中,如图1-图3所示,包括以下步骤:
42.s100,接收服务请求,解析待合成文本和音库标签,每个音库标签对应一个音库。
43.在本实施例中,接收到包括由文本和音色的单次服务请求,通过对该单次服务请求进行预处理,解析出待合成文本和音库标签,每个音库标签对应一个现有的音库。
44.s200,将待合成文本和音库标签输入多音模型,输出音库标签对应的音库的音色声学特征。
45.在本实施例中,将步骤s100中获得的待合成文本和音库标签输入已经训练完成的中,从该多音模型中输出与该音库标签对应的音库的音色声学特征。
46.s300,音色声学特征输入声码器,获得合成语音。
47.在本实施例中,将步骤200中得到的音色声学特征通过声码器获得对应的合成语音,完成该单次服务请求的语音合成过程。
48.进一步的,该方法还包括:
49.s400,接收服务请求的音色切换需求,改变输入多音模型的音库标签,输出该音库标签对应的音库的音色声学特征,将上述音色语音述声学特征输入声码器,获得切换音色后的合成语音。
50.在本实施例中,热切换步骤具体为,当接收到服务请求中的音色切换需求时,仅需要改变解析后获得音库标签,不需要待合成文本,将改变后的音库标签和待合成文本,输入到多音模型中,从该多音模型中输出与该改变后的音库标签所对应的音库的音色声学特征,并将上述音色声学特征通过声码器获得对应的合成语音,完成该切换音色的服务请求的语音合成过程。在该实施例中,仅需要改变送入多音模型的音库标签即可完成音色的切换,从而实现音色的热切换功能。
51.如图3所示,服务请求中是文本1和音色1,原本输出的是文本1和音色1对应的声学特征,当需要热切换至音色2时,只需改变送入多音模型的音库标签,即还是输入文本1和音色2,模型即能输出文本1和音色2对应的声学特征,从而实现音色的热切换功能。同样的,对于其他的文本,如文本2的音色热切换过程也是相同的。
52.进一步的,在步骤s100之前,该方法还包括针对多音模型的构建训练步骤s000,如图4所示,具体地:
53.s001,依次对音库设定对应的音库标签。收集所需的音库,并对其进行标注,例如:

音库i’为0,

音库ii’为1,以此类推。选择声码器模块world来提取音库中语音的声学特征。
54.s002,构建多音模型,多音模型包括文本特征提取模块、声学特征生成模块和音库信息解码模块。
55.在本实施例中,建立基于深度学习的端到端的多音模型,该模型包括文本特征提取模块、声学特征生成模块和音库信息解码模块,用cnn网络构建文本特征提取模块,用
lstm网络和attention机制构建声学特征生成模块,用dnn网络构建一个音库信息解码模块。将文本特征提取模块和音库信息解码模块分别与声学特征生成模块连接,如此构成整个模型结构。即多音模型的输入为文本和音库标签,输出为与文本和音库标签对应的声学特征。区别于现有的端到端模型,本实施例的多音模型增加了一个音色信息输入,用以实现不同音色语音合成。在相同的文本下,多音模型能够根据音色信息的输入,输出不同的音色。
56.s003,对所有音库语料进行训练,将音库语料的文本和音库标签输入多音模型,生成对应的音色声学特征,判断音色声学特征的质量。
57.在本实施例中,同时送入所有音库语料进行训练,将音库语料的文本、音库标签送入多音模型进行输入,具体地,文本通过文本特征提取模块的信息输入i1,通过信息转化以及特征编码,生成结果输出o1,音库标签通过音库信息解码模块的信息输入i2,通过信息转化以及特征编码,生成结果输出o2,结果输出o1和结果输出o2分别转化为信息输入i
32
和信息输入i
31
,输入声学特征生成模块,先对信息输入i
32
进行特征提取,然后再和信息输入i
31
一起进行特征解码,生成最终的结果输出o3,结果输出o3通过损失函数,得到对应的声学特征。以对应的声学特征为训练目标,用结构相似度(ssim)方法判断生成的声学特征质量,用以判断模型训练情况。
58.假设1个最低需求的4c8g服务器只启动1个服务引擎,1个服务引擎加载1个模型,并且有10个音色服务。现有需要10个服务器支持,每个服务器只能提供1种音色的服务。靠前端字段判断调用哪个服务器的服务。每个音色的服务效率即为100%。通过本发明的上述方法,1个服务器即可提供10个音色的服务。同比10个服务器,每个音色服务效率即为1000%,任何一个服务器都能提供10个音色的服务。再比如,启用4个单音模型来提供4种音色的服务,每个模型占用1g内存,因为每个模型只能够完成单个音色的任务,所以每个音色服务效率即为100%,共占用4g的内存。而通过本发明的上述方法,启用4个多音模型来提供4种音色的服务,每个模型也是占用1g内存,但由于1个多音模型即能完成所有音色服务,所以每个音色服务效率即为400%,同样共占用4g的内存。
59.应该理解的是,虽然流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,附图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
60.在一个实施例中,如图5所示,提供了应用上述方法的语音合成的装置,包括:预处理模块100、转化模块200、合成模块300和热切换模块400。其中:
61.预处理模块100,用于接收服务请求,解析待合成文本和音库标签,每个音库标签对应一个音库;
62.转化模块200,用于将待合成文本和音库标签输入多音模型,输出基于待合成文本的与音库标签对应的音库的声学特征;
63.合成模块300,用于音色声学特征输入声码器,获得合成语音;
64.热切换模块400,用于接收服务请求的音色切换需求,改变输入多音模型的音库标
签,输出基于待合成文本的与该音库标签对应的音库的声学特征,将上述声学特征输入声码器,获得切换音色后的合成语音。
65.在一个实施例中,语音合成的装置还包括多音模型的构建训练单元,构建训练单元包括:
66.标签模块,用于依次对音库设定对应的音库标签;
67.搭建模块,用于构建多音模型,多音模型包括文本特征提取模块、声学特征生成模块和音库信息解码模块;
68.训练模块,用于对所有音库语料进行训练,将音库语料的文本和音库标签输入多音模型,生成对应的声学特征,判断声学特征的质量。
69.关于语音合成的装置的具体限定可以参见上文中对于语音合成的方法的限定,在此不再赘述。上述装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
70.在一个实施例中,提供了一种计算机设备,该计算机设备可以是数据管理服务器,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的数据源终端通过网络连接通信,以接收数据源终端上传的数据。该计算机程序被处理器执行时以实现语音合成的方法。
71.本领域技术人员可以理解,图6中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
72.在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述语音合成的方法。
73.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
74.本发明公开的语音合成的方法、装置、计算机设备和存储介质,旨在解决语音合成中单音库模型热切换问题、服务成本高,同时还能解决单音模型功能简单、压缩资源占用,提高资源利用率等问题。本发明的多音模型相较单音模型,一个多音模型占用一个单音模型的资源就能够完成所有单音模型的任务。利用深度学习强大的端到端能力,有效解决之
前单音模型带来的服务成本大,计算资源浪费的现象,无法实现热切换音库等问题。
75.以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
76.以上实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术专利的保护范围应以所附权利要求为准。