首页 > 乐器声学 专利正文
基于人工智能的语音合成方法、装置、设备及存储介质与流程

时间:2022-02-13 阅读: 作者:专利查询

基于人工智能的语音合成方法、装置、设备及存储介质与流程

1.本技术涉及语音合成领域,尤其涉及一种基于人工智能的语音合成方法、装置、设备及存储介质。


背景技术:

2.目前,地图导航可以通过语音播报提示信息,以告知人们如何前往目的地,使得人们能够更加方便地到达目的地,而地图导航的语音播报通过只能以一种或者几种固定的声音播放提示信息,这一种或者几种固定的声音对于人们来说是陌生的,人们无法使用自己、亲人、朋友等比较熟悉的声音来播报提示信息,用户体验不好。


技术实现要素:

3.本技术实施例提供一种基于人工智能的语音合成方法、装置、设备及存储介质,旨在提高地图导航的语音多样化和个性化,提高用户体验。
4.第一方面,本技术实施例提供一种语音合成方法,包括:
5.获取移动终端发送的语音数据,其中,所述语音数据为由所述移动终端的用户定制的目标对象的语音数据;
6.根据所述语音数据生成语音样本数据集,获取用于将道路导航信息转化为语音数据的语音合成模型;
7.根据所述语音样本数据集对所述语音合成模型进行迭代训练,得到用于合成与所述目标对象具有相同音色的语音数据的目标语音合成模型;
8.将所述目标语音合成模型发送给所述移动终端,以供所述移动终端在获取到道路导航信息时,运行所述目标语音合成模型对所述道路导航信息进行处理,得到与所述目标对象具有相同音色的导航语音数据,并播报所述导航语音数据。
9.第二方面,本技术实施例还提供一种语音合成装置,所述语音合成装置包括:
10.获取模块,用于获取移动终端发送的语音数据,其中,所述语音数据为由所述移动终端的用户定制的目标对象的语音数据;
11.数据处理模块,用于根据所述语音数据生成语音样本数据集;
12.所述获取模块,还用于获取用于将道路导航信息转化为语音数据的语音合成模型;
13.模型训练模块,用于根据所述语音样本数据集对所述语音合成模型进行迭代训练,得到用于合成与所述目标对象具有相同音色的语音数据的目标语音合成模型;
14.发送模块,用于将所述目标语音合成模型发送给所述移动终端,以供所述移动终端在获取到道路导航信息时,运行所述目标语音合成模型对所述道路导航信息进行处理,得到与所述目标对象具有相同音色的导航语音数据,并播报所述导航语音数据。
15.第三方面,本技术实施例还提供一种计算机设备,所述计算机设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序,其中所述计算机程
序被所述处理器执行时,实现如上所述的基于人工智能的语音合成方法的步骤。
16.第四方面,本技术实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其中所述计算机程序被处理器执行时,实现如上所述的基于人工智能的语音合成方法的步骤。
17.本技术实施例提供一种基于人工智能的语音合成方法、装置、设备及存储介质,通过获取移动终端发送的由用户定制的目标对象的语音数据,然后根据该语音数据生成语音样本数据集,最后根据该语音样本数据集对用于将道路导航信息转化为语音数据的语音合成模型进行迭代训练,得到用于合成与目标对象具有相同音色的语音数据的目标语音合成模型,并将目标语音合成模型发送给移动终端,以供移动终端在获取到道路导航信息时,运行目标语音合成模型对道路导航信息进行处理,得到与目标对象具有相同音色的导航语音数据,并播报导航语音数据,从而实现了地图导航的语音多样化和个性化,使得用户可以定制化导航的播报声音,极大地提高了用户体验。
附图说明
18.为了更清楚地说明本技术实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
19.图1是本技术实施例提供的一种语音合成方法的流程示意图;
20.图2是本技术实施例中的语音合成模型的一层级结构示意图;
21.图3是本技术实施例中的可变自适应器的一层级结构示意图;
22.图4是本技术实施例中的持续时长预测层的一层级结构示意图;
23.图5是本技术实施例提供的一种语音合成装置的示意性框图;
24.图6是本技术实施例提供的一种计算机设备的结构示意性框图。
25.本技术目的的实现、功能特点及优点将结合实施例,参阅附图做进一步说明。
具体实施方式
26.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
27.附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。
28.本技术实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深
度学习等几大方向。
29.本技术实施例提供一种基于人工智能的语音合成方法、装置、设备及存储介质。其中,该语音合成方法可应用于服务器,服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(content delivery network,cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。
30.下面结合附图,对本技术的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
31.请参阅图1,图1是本技术实施例提供的一种基于人工智能的语音合成方法的流程示意图。
32.如图1所示,基于人工智能的语音合成方法包括步骤s101至步骤s104。
33.步骤s101、获取移动终端发送的语音数据,其中,语音数据为由移动终端的用户定制的目标对象的语音数据。
34.示例性的,移动终端显示声音定制化页面,其中,声音定制化页面包括语音采集按钮和语音数据上传图标;响应于用户对语音数据上传按钮的触发操作,移动终端显示语音数据上传页面,其中,语音数据上传页面包括上传确认按钮;响应于用户对该上传确认按钮的触发操作,获取用户在该语音数据上传页面输入的待上传的语音数据的存储路径;将该存储路径下的语音数据作为用户定制的目标对象的语音数据发送给服务器。其中,目标对象可以包括儿童、男性人类、女性人类、虚拟人类等。
35.示例性的,确定该存储路径下的语音数据的持续时长,若该持续时长大于或等于预设持续时长,则将该存储路径下的语音数据作为待定制化的目标声音的语音数据发送给服务器;若该持续时长小于预设持续时长,则输出预设的提示信息。其中,该提示信息用于提示用户上传的语音数据不满足声音定制化要求,需要重新上传语音数据,预设持续时长可基于实际情况进行设置,本实施例对此不做具体限定,例如,预设持续时长为20分钟。
36.示例性的,响应于用户对该语音采集按钮的触发操作,显示语音采集页面,其中,语音采集页面包括预设文本、语音数据的录制要求、录制按钮和上传确认按钮;响应于用户对该录制按钮的第一触发操作,开始采集用户阅读预设文本所得到的语音数据,并缓存采集到的语音数据;响应于用户对该录制按钮的第二触发操作,停止采集用户的语音数据;响应于用户对该上传确认按钮的触发操作,将缓存的语音数据作为待定制化的目标声音的语音数据发送给服务器。其中,预设文本可以基于实际情况进行设置,本实施例对此不做具体限定。
37.步骤s102、根据语音数据生成语音样本数据集,获取用于将道路导航信息转化为语音数据的语音合成模型。
38.示例性的,将语音数据拆分为多个语音片段,得到语音片段集,其中,一个语音片段包括至少一个语句;确定语音片段集的语音片段个数,并根据预设的总样本个数和语音片段个数,确定扩充倍率;按照扩充倍率对语音片段集进行扩充处理,得到目标语音片段集;生成目标语音片段集中的各语音片段对应的语音样本数据,并汇集各语音样本数据,得到语音样本数据集。其中,预设的总样本个数可以基于实际情况进行设置,本实施例对此不做具体限定,例如,预设的总样本个数为2000条。通过对语音数据进行扩充,可以方便后续
生成语音样本数据集。
39.示例性的,将预设的总样本个数与语音片段个数之间的比值确定为语音数据的扩充倍率。例如,总样本个数为1000,语音片段数个为50,则语音数据的扩充倍率为1000/50=20。又例如,总样本个数为2000,语音片段个数为100,则语音数据的扩充倍率为1000/100=10。
40.示例性的,确定总样本个数与语音片段个数的差值,得到样本个数差值,并将样本个数差值与语音片段个数的比值确定为语音数据的扩充倍率。例如,总样本个数为1000,语音片段个数为50,则语音数据的扩充倍率为(1000

50)/50=19。又例如,总样本个数为2000,语音片段个数为100,则语音数据的扩充倍率为(1000

100)/100=9。
41.示例性的,按照该扩充倍率对语音片段集进行扩充处理,得到目标语音片段集的方式可以为:按照扩充倍率对语音片段集进行复制,得到新增语音片段,合并新增语音片段,得到目标语音片段集。例如,扩充倍率为10,语音片段集包括50个语音片段,则对这50个语音片段复制10次,最后合并复制10次得到的语音片段,从而得到包括500个语音片段的目标语音片段集。
42.示例性的,按照该扩充倍率对语音片段集进行扩充处理,得到目标语音片段集的方式可以为:从语音片段集中随机抽样预设比例的语音片段,直至抽样次数达到该扩充倍率,得到新增语音片段;将新增正例样本数据写入语音片段集,得到目标语音片段集。其中,预设比例可以基于实际情况进行设置,本实施例对此不做具体限定。例如,例如,扩充倍率为19,语音片段集包括50个语音片段,则每次从这50个语音片段中随机抽样90%(45个)的语音片段,共计抽样19次,得到950个语音片段,最后将950个语音片段写入语音片段集,从而得到包含1000个语音片段的目标语音片段集。
43.示例性的,提取目标语音片段集中的各语音片段的音素信息、音素时长序列、音高序列和能量序列;将一个语音片段的音素信息、音素时长序列、音高序列和能量序列作为一条语音样本数据,得到各语音片段对应的语音样本数据。其中,各语音片段的音素信息、音素时长序列、音高序列和能量序列可以基于开源的文字语音对齐工具(montreal forced aligner,mfa)来提取。
44.示例性的,如图2所示,待训练的语音合成模型包括音素编码器10、拼接层20、可变自适应器30、梅尔频谱生成层40和语音合成层50,且音素编码器10与可变自适应器30连接,可变自适应器30与梅尔频谱生成层40连接,梅尔频谱生成层40与语音合成层50连接。
45.示例性的,如图3所示,可变自适应器30包括持续时长预测层31、音高预测层32、能量预测层33,音素编码器10分别与持续时长预测层31、音高预测层32、能量预测层33连接,音素编码器10包括嵌入层和编码层。待训练的语音合成模型包括fastspeech2模型。
46.示例性的,持续时长预测层31、音高预测层32、能量预测层33的层级结构相同。持续时长预测层31、音高预测层32、能量预测层33的层级结构可以如图4所示,该层级结构包括cov1d+relu层101、layer norm+dropout层102、cov1d+relu层103、layer norm+dropout层104和linear layer层105。
47.步骤s103、根据语音样本数据集对语音合成模型进行迭代训练,得到用于合成与目标对象具有相同音色的语音数据的目标语音合成模型。
48.示例性的,从语音样本数据集中选择一个语音样本数据作为目标样本数据;将目
标样本数据中的音素信息输入音素编码器进行编码,得到音素向量;将目标样本数据中的第一音素时长序列、第一音高序列和第一能量序列输入拼接层进行拼接,得到目标融合特征;将音素向量、第一音素时长序列、第一音高序列、第一能量序列和目标融合特征输入可变自适应器进行处理,得到第二音素时长序列、第二音高序列和第二能量序列;根据第一音素时长序列、第一音高序列、第一能量序列、第二音素时长序列、第二音高序列和第二能量序列,确定模型损失值;根据模型损失值确定语音合成模型是否收敛,若语音合成模型未收敛,则更新语音合成模型的参数;返回执行从语音样本数据集中选择一个语音样本数据作为目标样本数据的步骤,直至语音合成模型收敛。其中,可以基于反向传播算法来更新语音合成模型的参数。
49.示例性的,将音素向量、目标融合特征和第一音素时长序列输入持续时长预测层进行音素时长预测,得到第二音素时长序列;将音素向量、目标融合特征和第一音高序列输入音高预测层进行音高预测,得到第二音高序列;将音素向量、目标融合特征和第一能量序列输入能量预测层进行能量预测,得到第二能量序列。
50.示例性的,基于预设均方误差函数,计算第一音素时长序列与第二音素时长序列之间的均方误差,得到第一损失值;基于预设均方误差函数,计算第一音高序列与第二音高序列之间的均方误差,得到第二损失值;基于预设均方误差函数,计算第一能量序列与第二能量序列之间的均方误差,得到第三损失值;对第一损失值、第二损失值和第三损失值进行加权求和,得到模型损失值。其中,预设均方误差函数可基于实际情况进行设置,本实施例对此不做具体限定。
51.示例性的,根据模型损失值确定语音合成模型是否收敛的方式可以为:确定模型损失值是否大于或大于预设损失值,若模型损失值大于或大于预设损失值,则确定语音合成模型未收敛,若模型损失值小于预设损失值,则确定语音合成模型收敛。其中,预设损失值可基于实际情况进行设置,本实施例对此不做具体限定。
52.步骤s104、将目标语音合成模型发送给移动终端,以供移动终端在获取到道路导航信息时,运行目标语音合成模型对道路导航信息进行处理,得到与目标对象具有相同音色的导航语音数据,并播报导航语音数据。
53.示例性的,目标语音合成模型包括音素编码器、可变自适应器、梅尔频谱生成层和语音合成层。移动终端运行目标语音合成模型对道路导航信息进行处理,得到与目标对象具有相同音色的导航语音数据的方式可以为:将道路导航信息输入音素编码器进行编码,得到道路导航信息对应的文本向量;将文本向量输入可变自适应器进行处理,得到音高序列、能量序列和音素时长序列;将音高序列、能量序列和音素时长序列输入梅尔频谱生成层进行梅尔频谱生成,得到目标梅尔频谱;将目标梅尔频谱输入语音合成层进行语音合成,得到与目标对象具有相同音色的导航语音数据。
54.示例性的,移动终端获取移动终端的当前导航路线和运动信息;根据运动信息和当前导航路线,确定移动终端在下一时刻所需要经过的目标位置,并获取目标位置对应的道路导航信息。其中,运动信息包括移动终端的运动速度和运动方向,该道路导航信息包括限速信息、交通拥堵信息、变道信息、服务区信息等。
55.上述实施例提供的语音合成方法,通过获取移动终端发送的由用户定制的目标对象的语音数据,然后根据该语音数据生成语音样本数据集,最后根据该语音样本数据集对
用于将道路导航信息转化为语音数据的语音合成模型进行迭代训练,得到用于合成与目标对象具有相同音色的语音数据的目标语音合成模型,并将目标语音合成模型发送给移动终端,以供移动终端在获取到道路导航信息时,运行目标语音合成模型对道路导航信息进行处理,得到与目标对象具有相同音色的导航语音数据,并播报导航语音数据,从而实现了地图导航的语音多样化和个性化,使得用户可以定制化导航的播报声音,极大地提高了用户体验。
56.请参阅图5,图5是本技术实施例提供的一种语音合成装置的示意性框图。
57.如图5所示,该语音合成装置200,包括:
58.获取模块210,用于获取移动终端发送的语音数据,其中,所述语音数据为由所述移动终端的用户定制的目标对象的语音数据;
59.数据处理模块220,用于根据所述语音数据生成语音样本数据集;
60.所述获取模块210,还用于获取用于将道路导航信息转化为语音数据的语音合成模型;
61.模型训练模块230,用于根据所述语音样本数据集对所述语音合成模型进行迭代训练,得到用于合成与所述目标对象具有相同音色的语音数据的目标语音合成模型;
62.发送模块240,用于将所述目标语音合成模型发送给所述移动终端,以供所述移动终端在获取到道路导航信息时,运行所述目标语音合成模型对所述道路导航信息进行处理,得到与所述目标对象具有相同音色的导航语音数据,并播报所述导航语音数据。
63.在一实施例中,所述语音合成模型包括音素编码器、拼接层、可变自适应器,所述模型训练模块230还用于:
64.从所述语音样本数据集中选择一个语音样本数据作为目标样本数据;
65.将所述目标样本数据中的音素信息输入所述音素编码器进行编码,得到音素向量;
66.将所述目标样本数据中的第一音素时长序列、第一音高序列和第一能量序列输入所述拼接层进行拼接,得到目标融合特征;
67.将所述音素向量、第一音素时长序列、第一音高序列、第一能量序列和目标融合特征输入所述可变自适应器进行处理,得到第二音素时长序列、第二音高序列和第二能量序列;
68.根据所述第一音素时长序列、第一音高序列、第一能量序列、第二音素时长序列、第二音高序列和第二能量序列,确定模型损失值;
69.根据所述模型损失值确定所述语音合成模型是否收敛,若所述语音合成模型未收敛,则更新所述语音合成模型的参数;
70.返回执行从所述语音样本数据集中选择一个语音样本数据作为目标样本数据的步骤,直至所述语音合成模型收敛。
71.在一实施例中,所述可变自适应器包括持续时长预测层、音高预测层、能量预测层,所述模型训练模块230还用于:
72.将所述音素向量、所述目标融合特征和所述第一音素时长序列输入所述持续时长预测层进行音素时长预测,得到第二音素时长序列;
73.将所述音素向量、所述目标融合特征和所述第一音高序列输入所述音高预测层进
行音高预测,得到第二音高序列;
74.将所述音素向量、所述目标融合特征和所述第一能量序列输入所述能量预测层进行能量预测,得到第二能量序列。
75.在一实施例中,所述模型训练模块230还用于:
76.基于预设均方误差函数,计算所述第一音素时长序列与所述第二音素时长序列之间的均方误差,得到第一损失值;
77.基于预设均方误差函数,计算所述第一音高序列与所述第二音高序列之间的均方误差,得到第二损失值;
78.基于预设均方误差函数,计算所述第一能量序列与所述第二能量序列之间的均方误差,得到第三损失值;
79.对所述第一损失值、所述第二损失值和所述第三损失值进行加权求和,得到模型损失值。
80.在一实施例中,所述数据处理模块220还用于:
81.将所述语音数据拆分为多个语音片段,得到语音片段集,其中,一个所述语音片段包括至少一个语句;
82.确定所述语音片段集的语音片段个数,并根据预设的总样本个数和所述语音片段个数,确定扩充倍率;
83.按照所述扩充倍率对所述语音片段集进行扩充,得到目标语音片段集;
84.生成所述目标语音片段集中的各语音片段对应的语音样本数据,并汇集各所述语音样本数据,得到所述语音样本数据集。
85.在一实施例中,所述数据处理模块220还用于:
86.提取所述目标语音片段集中的各语音片段的音素信息、音素时长序列、音高序列和能量序列;
87.将一个所述语音片段的音素信息、音素时长序列、音高序列和能量序列作为一条语音样本数据,得到各所述语音片段对应的语音样本数据。
88.在一实施例中,所述数据处理模块220还用于:
89.从所述语音片段集中随机抽样预设比例的语音片段,直至抽样次数达到该扩充倍率,得到新增语音片段;
90.将所述新增正例样本数据写入所述语音片段集,得到目标语音片段集。
91.需要说明的是,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的装置和各模块及单元的具体工作过程,可以参考前述基于人工智能的语音合成方法实施例中的对应过程,在此不再赘述。
92.上述实施例提供的装置可以实现为一种计算机程序的形式,该计算机程序可以在如图6所示的计算机设备上运行。
93.请参阅图6,图6是本技术实施例提供的一种计算机设备的结构示意性框图。该计算机设备可以为服务器。
94.如图6所示,该计算机设备包括通过系统总线连接的处理器、存储器和网络接口,其中,存储器可以包括存储介质和内存储器。
95.存储介质可存储操作系统和计算机程序。该计算机程序包括程序指令,该程序指
令被执行时,可使得处理器执行任意一种语音合成方法。
96.处理器用于提供计算和控制能力,支撑整个计算机设备的运行。
97.该网络接口用于进行网络通信,如发送分配的任务等。本领域技术人员可以理解,图6中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
98.应当理解的是,处理器可以是中央处理单元(central processing unit,cpu),该处理器还可以是其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field

programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
99.其中,在一实施例中,所述处理器用于运行存储在存储器中的计算机程序,以实现以下步骤:
100.获取移动终端发送的语音数据,其中,所述语音数据为由所述移动终端的用户定制的目标对象的语音数据;
101.根据所述语音数据生成语音样本数据集,获取用于将道路导航信息转化为语音数据的语音合成模型;
102.根据所述语音样本数据集对所述语音合成模型进行迭代训练,得到用于合成与所述目标对象具有相同音色的语音数据的目标语音合成模型;
103.将所述目标语音合成模型发送给所述移动终端,以供所述移动终端在获取到道路导航信息时,运行所述目标语音合成模型对所述道路导航信息进行处理,得到与所述目标对象具有相同音色的导航语音数据,并播报所述导航语音数据。
104.在一实施例中,所述语音合成模型包括音素编码器、拼接层、可变自适应器,所述处理器在实现根据所述语音样本数据集对所述语音合成模型进行迭代训练时,用于实现:
105.从所述语音样本数据集中选择一个语音样本数据作为目标样本数据;
106.将所述目标样本数据中的音素信息输入所述音素编码器进行编码,得到音素向量;
107.将所述目标样本数据中的第一音素时长序列、第一音高序列和第一能量序列输入所述拼接层进行拼接,得到目标融合特征;
108.将所述音素向量、第一音素时长序列、第一音高序列、第一能量序列和目标融合特征输入所述可变自适应器进行处理,得到第二音素时长序列、第二音高序列和第二能量序列;
109.根据所述第一音素时长序列、第一音高序列、第一能量序列、第二音素时长序列、第二音高序列和第二能量序列,确定模型损失值;
110.根据所述模型损失值确定所述语音合成模型是否收敛,若所述语音合成模型未收敛,则更新所述语音合成模型的参数;
111.返回执行从所述语音样本数据集中选择一个语音样本数据作为目标样本数据的步骤,直至所述语音合成模型收敛。
112.在一实施例中,所述可变自适应器包括持续时长预测层、音高预测层、能量预测层,所述处理器在实现将所述音素向量、第一音素时长序列、第一音高序列、第一能量序列和目标融合特征输入所述可变自适应器进行处理,得到第二音素时长序列、第二音高序列和第二能量序列时,用于实现:
113.将所述音素向量、所述目标融合特征和所述第一音素时长序列输入所述持续时长预测层进行音素时长预测,得到第二音素时长序列;
114.将所述音素向量、所述目标融合特征和所述第一音高序列输入所述音高预测层进行音高预测,得到第二音高序列;
115.将所述音素向量、所述目标融合特征和所述第一能量序列输入所述能量预测层进行能量预测,得到第二能量序列。
116.在一实施例中,所述处理器在实现根据所述第一音素时长序列、第一音高序列、第一能量序列、第二音素时长序列、第二音高序列和第二能量序列,确定模型损失值时,用于实现:
117.基于预设均方误差函数,计算所述第一音素时长序列与所述第二音素时长序列之间的均方误差,得到第一损失值;
118.基于预设均方误差函数,计算所述第一音高序列与所述第二音高序列之间的均方误差,得到第二损失值;
119.基于预设均方误差函数,计算所述第一能量序列与所述第二能量序列之间的均方误差,得到第三损失值;
120.对所述第一损失值、所述第二损失值和所述第三损失值进行加权求和,得到模型损失值。
121.在一实施例中,所述处理器在实现根据所述语音数据生成语音样本数据集时,用于实现:
122.将所述语音数据拆分为多个语音片段,得到语音片段集,其中,一个所述语音片段包括至少一个语句;
123.确定所述语音片段集的语音片段个数,并根据预设的总样本个数和所述语音片段个数,确定扩充倍率;
124.按照所述扩充倍率对所述语音片段集进行扩充,得到目标语音片段集;
125.生成所述目标语音片段集中的各语音片段对应的语音样本数据,并汇集各所述语音样本数据,得到所述语音样本数据集。
126.在一实施例中,所述处理器在实现生成所述目标语音片段集中的各语音片段对应的语音样本数据时,用于实现:
127.提取所述目标语音片段集中的各语音片段的音素信息、音素时长序列、音高序列和能量序列;
128.将一个所述语音片段的音素信息、音素时长序列、音高序列和能量序列作为一条语音样本数据,得到各所述语音片段对应的语音样本数据。
129.在一实施例中,所述处理器在实现按照所述扩充倍率对所述语音片段集进行扩充处理,得到目标语音片段集时,用于实现:
130.从所述语音片段集中随机抽样预设比例的语音片段,直至抽样次数达到该扩充倍
率,得到新增语音片段;
131.将所述新增正例样本数据写入所述语音片段集,得到目标语音片段集。
132.需要说明的是,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的计算机设备的具体工作过程,可以参考前述基于人工智能的语音合成方法实施例中的对应过程,在此不再赘述。
133.通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本技术各个实施例或者实施例的某些部分所述的方法。
134.本技术实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序中包括程序指令,所述程序指令被执行时所实现的方法可参阅本技术基于人工智能的语音合成方法的各个实施例。
135.其中,所述计算机可读存储介质可以是易失性的,也可以是非易失性的。所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元,例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备,例如所述计算机设备上配备的插接式硬盘,智能存储卡(smart media card,smc),安全数字(secure digital,sd)卡,闪存卡(flash card)等。
136.进一步地,所述计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
137.本技术所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
138.应当理解,在此本技术说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本技术。如在本技术说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
139.还应当理解,在本技术说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
140.上述本技术实施例序号仅仅为了描述,不代表实施例的优劣。以上所述,仅为本技术的具体实施方式,但本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员
在本技术揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应以权利要求的保护范围为准。