1.本发明涉及音频转换领域,尤其涉及一种发音特征的提取方法、装置、设备及存储介质。
背景技术:2.随着短视频的发展,自媒体自制的动画和自拍短视频体量越来越大,许多自媒体人和动画爱好者创作出富有创意和趣味的短视频,当需要配音时,通过语音转换(voice conversion,vc)工具合成语音,使短视频能够最大程度地发挥创作者的创意。
3.现有的语音转换工具大多是将语音中的内容信息和音色信息分开的训练,随后固定语音中的内容信息,同时改变说话人信息,就可以实现语音转换的任务,但这种方法存在话语内容和说话人信息解耦性差的技术问题,导致语音转换效果差。
技术实现要素:4.本发明提供了一种发音特征的提取方法、装置、设备及存储介质,用于提高语音转换过程中话语内容和说话人信息的解耦性,增强语音转换效果。
5.本发明第一方面提供了一种发音特征的提取方法,包括:
6.接收第一原始语音和第二原始语音,所述第一原始语音和所述第二原始语音为不同发音者录制的语音;
7.基于预置的目标自然风格转移编码器,提取所述第一原始语音中的初始文本特征,以及提取所述第二原始语音中的初始发音特征;
8.通过预置的目标对比预测编码器,对所述初始文本特征进行发音特征解耦,得到目标文本特征;
9.对所述目标文本特征和所述初始发音特征进行合成,得到初始合成语音;
10.通过所述目标自然风格转移编码器,对所述初始合成语音进行发音特征提取,得到目标发音特征。
11.可选的,在本发明第一方面的第一种实现方式中,在所述接收第一原始语音和第二原始语音之前,所述发音特征的提取方法还包括:
12.获取第一样本语音和第二样本语音,所述第一样本语音和所述第二样本语音为同一发音者录制的语音;
13.初始化预置的初始自然风格转移编码器,并通过所述初始自然风格转移编码器中的内容编码器,对所述第一样本语音进行文本特征提取,得到初始样本文本特征,以及通过所述初始自然风格转移编码器中的说话人编码器,对所述第二样本语音进行发音特征提取,得到初始样本发音特征;
14.通过预置的初始对比预测编码器,对所述初始样本文本特征进行发音特征解耦,得到目标样本文本特征;
15.将所述目标样本文本特征和所述初始样本发音特征合成,得到初始样本合成语
音;
16.根据预置的合成损失函数,对所述初始样本合成语音和所述第二样本语音进行损失计算,得到目标损失值;
17.根据所述目标损失值,生成目标自然风格转移编码器和目标对比预测编码器。
18.可选的,在本发明第一方面的第二种实现方式中,所述根据预置的合成损失函数,对所述初始样本合成语音和所述第二样本语音进行损失计算,得到目标损失值,包括:
19.通过所述初始自然风格转移编码器,对所述初始样本合成语音进行发音特征提取,得到目标样本发音特征;
20.通过预置的样本损失函数,对所述初始样本合成语音和所述第二样本语音进行损失计算,得到第一损失值;
21.通过预置的发音损失函数,对所述初始样本发音特征和所述目标样本发音特征进行损失计算,得到第二损失值;
22.通过预置的合成损失函数,对所述第一损失值和所述第二损失值进行总损失计算,得到目标损失值。
23.可选的,在本发明第一方面的第三种实现方式中,所述基于预置的目标自然风格转移编码器,提取所述第一原始语音中的初始文本特征,以及提取所述第二原始语音中的初始发音特征,包括:
24.获取预置的目标自然风格转移编码器,所述目标自然风格转移编码器包括内容编码器和说话人编码器,所述内容编码器包括多个第一卷积层、多个归一化层和第一双向长短期记忆层,一个第一卷积层与一个归一化层交替连接,所述说话人编码器包括第二双向长短期记忆层和全连接层;
25.通过所述多个第一卷积层、所述多个归一化层和所述第一双向长短期记忆层,对所述第一原始语音进行文本特征提取,得到初始文本特征;
26.通过所述第二双向长短期记忆层和所述全连接层,对所述第二样本语音进行发音特征提取,得到样本发音特征。
27.可选的,在本发明第一方面的第四种实现方式中,所述通过预置的目标对比预测编码器,对所述初始文本特征进行发音特征解耦,得到目标文本特征,包括:
28.获取预置的目标对比预测编码器,所述目标对比预测编码器包括多个第二卷积层、多个非线性映射层、多个前向归一化层;
29.通过所述多个第二卷积层,对所述初始文本特征进行文本特征提取,得到第一文本特征;
30.通过所述目标对比预测编码器中的多个非线性映射层,对所述第一文本特征进行修正,得到文本增强识别的第二文本特征;
31.通过所述对比预测编码器中的多个前向归一化层,对所述文本增强识别的第二文本特征进行归一化处理,得到目标文本特征。
32.可选的,在本发明第一方面的第五种实现方式中,所述对所述目标文本特征和所述初始发音特征进行合成,得到初始合成语音,包括:
33.分别获取所述目标文本特征和所述初始发音特征对应的梅尔频谱,得到文本梅尔频谱和发音梅尔频谱;
34.通过预置的解码器,对所述文本梅尔频谱和所述发音梅尔频谱进行解码转换,得到初始合成梅尔频谱,所述解码器包括第三长短期记忆层和多个第三卷积层;
35.通过预置的谱图逆变器,对所述初始合成梅尔频谱进行采样,得到采样值序列,并根据所述采样值序列生成初始合成语音,所述谱图逆变器包括波形网络,所述波形网络包括多个带洞因果卷积层。
36.可选的,在本发明第一方面的第六种实现方式中,所述通过预置的谱图逆变器,对所述初始合成梅尔频谱进行采样,得到采样值序列,并根据所述采样值序列生成初始合成语音,所述谱图逆变器包括波形网络,所述波形网络包括多个带洞因果卷积层,包括:
37.获取预置的谱图逆变器,所述谱图逆变器包括波形网络,所述波形网络包括多个带洞因果卷积层;
38.通过所述多个带洞因果卷积层,确定所述多个带洞因果卷积层的连接点,并通过所述连接点,对所述初始合成梅尔频谱进行上采样,得到采样值序列;
39.通过所述波形网络,对所述采样值序列进行波形转换,得到初始合成语音。
40.本发明第二方面提供了一种发音特征的提取装置,包括:
41.语音接收模块,用于接收第一原始语音和第二原始语音,所述第一原始语音和所述第二原始语音为不同发音者录制的语音;
42.第一提取模块,用于基于预置的目标自然风格转移编码器,提取所述第一原始语音中的初始文本特征,以及提取所述第二原始语音中的初始发音特征;
43.特征解耦模块,用于通过预置的目标对比预测编码器,对所述初始文本特征进行发音特征解耦,得到目标文本特征;
44.语音合成模块,用于对所述目标文本特征和所述初始发音特征进行合成,得到初始合成语音;
45.第二提取模块,用于通过所述目标自然风格转移编码器,对所述初始合成语音进行发音特征提取,得到目标发音特征。
46.可选的,在本发明第二方面的第一种实现方式中,所述发音特征的提取装置还包括:
47.样本语音获取模块,用于获取第一样本语音和第二样本语音,所述第一样本语音和所述第二样本语音为同一发音者录制的语音;
48.样本特征提取模块,用于初始化预置的初始自然风格转移编码器,并通过所述初始自然风格转移编码器中的内容编码器,对所述第一样本语音进行文本特征提取,得到初始样本文本特征,以及通过所述初始自然风格转移编码器中的说话人编码器,对所述第二样本语音进行发音特征提取,得到初始样本发音特征;
49.样本特征解耦模块,用于通过预置的初始对比预测编码器,对所述初始样本文本特征进行发音特征解耦,得到目标样本文本特征;
50.样本语音合成模块,用于将所述目标样本文本特征和所述初始样本发音特征合成,得到初始样本合成语音;
51.样本损失计算模块,用于根据预置的合成损失函数,对所述初始样本合成语音和所述第二样本语音进行损失计算,得到目标损失值;
52.编码器生成模块,用于根据所述目标损失值,生成目标自然风格转移编码器和目
标对比预测编码器。
53.可选的,在本发明第二方面的第二种实现方式中,所述样本损失计算模块具体用于:
54.通过所述初始自然风格转移编码器,对所述初始样本合成语音进行发音特征提取,得到目标样本发音特征;
55.通过预置的样本损失函数,对所述初始样本合成语音和所述第二样本语音进行损失计算,得到第一损失值;
56.通过预置的发音损失函数,对所述初始样本发音特征和所述目标样本发音特征进行损失计算,得到第二损失值;
57.通过预置的合成损失函数,对所述第一损失值和所述第二损失值进行总损失计算,得到目标损失值。
58.可选的,在本发明第二方面的第三种实现方式中,所述第一提取模块具体用于:
59.获取预置的目标自然风格转移编码器,所述目标自然风格转移编码器包括内容编码器和说话人编码器,所述内容编码器包括多个第一卷积层、多个归一化层和第一双向长短期记忆层,一个第一卷积层与一个归一化层交替连接,所述说话人编码器包括第二双向长短期记忆层和全连接层;
60.通过所述多个第一卷积层、所述多个归一化层和所述第一双向长短期记忆层,对所述第一原始语音进行文本特征提取,得到初始文本特征;
61.通过所述第二双向长短期记忆层和所述全连接层,对所述第二样本语音进行发音特征提取,得到样本发音特征。
62.可选的,在本发明第二方面的第四种实现方式中,所述特征解耦模块具体用于:
63.获取预置的目标对比预测编码器,所述目标对比预测编码器包括多个第二卷积层、多个非线性映射层、多个前向归一化层;
64.通过所述多个第二卷积层,对所述初始文本特征进行文本特征提取,得到第一文本特征;
65.通过所述目标对比预测编码器中的多个非线性映射层,对所述第一文本特征进行修正,得到文本增强识别的第二文本特征;
66.通过所述对比预测编码器中的多个前向归一化层,对所述文本增强识别的第二文本特征进行归一化处理,得到目标文本特征。
67.可选的,在本发明第二方面的第五种实现方式中,所述语音合成模块包括:
68.获取单元,用于分别获取所述目标文本特征和所述初始发音特征对应的梅尔频谱,得到文本梅尔频谱和发音梅尔频谱;
69.解码单元,用于通过预置的解码器,对所述文本梅尔频谱和所述发音梅尔频谱进行解码转换,得到初始合成梅尔频谱,所述解码器包括第三长短期记忆层和多个第三卷积层;
70.生成单元,用于通过预置的谱图逆变器,对所述初始合成梅尔频谱进行采样,得到采样值序列,并根据所述采样值序列生成初始合成语音,所述谱图逆变器包括波形网络,所述波形网络包括多个带洞因果卷积层。
71.可选的,在本发明第二方面的第六种实现方式中,所述生成单元具体用于:
72.获取预置的谱图逆变器,所述谱图逆变器包括波形网络,所述波形网络包括多个带洞因果卷积层;
73.通过所述多个带洞因果卷积层,确定所述多个带洞因果卷积层的连接点,并通过所述连接点,对所述初始合成梅尔频谱进行上采样,得到采样值序列;
74.通过所述波形网络,对所述采样值序列进行波形转换,得到初始合成语音。
75.本发明第三方面提供了一种发音特征的提取设备,包括:存储器和至少一个处理器,所述存储器中存储有计算机程序;所述至少一个处理器调用所述存储器中的所述计算机程序,以使得所述发音特征的提取设备执行上述的发音特征的提取方法。
76.本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,当其在计算机上运行时,使得计算机执行上述的发音特征的提取方法。
77.本发明提供的技术方案中,接收第一原始语音和第二原始语音,所述第一原始语音和所述第二原始语音为不同发音者录制的语音;基于预置的目标自然风格转移编码器,提取所述第一原始语音中的初始文本特征,以及提取所述第二原始语音中的初始发音特征;通过预置的目标对比预测编码器,对所述初始文本特征进行发音特征解耦,得到目标文本特征;对所述目标文本特征和所述初始发音特征进行合成,得到初始合成语音;通过所述目标自然风格转移编码器,对所述初始合成语音进行发音特征提取,得到目标发音特征。本发明实施例中,服务器通过对不同发音者录制的第一原始语音和第二原始语音分别进行文本特征提取和发音特征提取,再对提取到的初始文本特征和初始发音特征进行进一步的解耦,得到目标文本特征,再将目标文本特征和初始发音特征合成为初始合成语音,再次进行发音特征提取,从而得到目标发音特征,能够提高语音转换过程中话语内容和说话人信息的解耦性,增强语音转换效果。
附图说明
78.图1为本发明实施例中发音特征的提取方法的一个实施例示意图;
79.图2为本发明实施例中发音特征的提取方法的另一个实施例示意图;
80.图3为本发明实施例中发音特征的提取装置的一个实施例示意图;
81.图4为本发明实施例中发音特征的提取装置的另一个实施例示意图;
82.图5为本发明实施例中发音特征的提取设备的一个实施例示意图。
具体实施方式
83.本发明实施例提供了一种发音特征的提取方法、装置、设备及存储介质,用于提高语音转换过程中发音内容和发音特征的解耦性。
84.本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
85.为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1,本发明实施例中发音特征的提取方法的一个实施例包括:
86.101、接收第一原始语音和第二原始语音,第一原始语音和第二原始语音为不同发音者录制的语音;
87.可以理解的是,本发明的执行主体可以为发音特征的提取装置,还可以是终端或者服务器,具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(content delivery network,cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。
88.本技术实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
89.人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
90.本实施例中,语音转换(voice conversion,vc)即在不改变话语文本内容的情况下,让第一发音者说的话听起来像是第二发音者说的话,第一发音者和第二发音者为不同的发音者,具体不做限定,本发明涉及人工智能+语音转换,例如发音者a录制了动画配音台词的语音,再通过语音转换,将自己录制的配音台词转换为发音者b的语音,而无需由发音者b亲自录制,在取得发音者b授权的前提下,能够得到具体发音者b的发音特征,和发音者a的发音文本内容的合成语音,语音转换技术能够促进配音行业的发展。
91.本实施例中,为了合成不同发音者的语音,服务器接收由不同发音者录制的第一原始语音和第二原始语音,第一原始语音和第二原始语音均为话语内容的有效语音,是发音者说的至少一句话,而不是只包含单词或语气词的语音,第一原始语音和第二原始语音用于将第一发音者说的语音转换为第二发音者说的语音。
92.102、基于预置的目标自然风格转移编码器,提取第一原始语音中的初始文本特征,以及提取第二原始语音中的初始发音特征;
93.本实施例中,风格转移的概念源于图像领域,视觉风格转移技术可以将两个视觉纹理合成,目标是从一个给定的样品合成自然的纹理图像,并对视觉纹理迁移,目的是对目标照片编织相关的纹理,基于视觉风格转移技术的启示,将风格转移概念应用于音频风格转移中,预置的目标自然风格转移编码器便是基于音频风格转移概念的载体,实现音频的风格转换。目标自然风格转移编码器为基于自动语音转换模型(auto voice conversion,autovc)训练的编码器,包括内容编码器、说话人编码器、解码器和声码器,在转换过程中,服务器将第一原始语音对应的梅尔频谱图输入内容编码器中,再将第二原始语音对应的梅尔频谱图输入说话人编码器中,通过内容编码器对第一原始语音的特征编码,和说话人编码器对第二原始语音的特征编码,解码器输出转换后的初始文本特征和初始发音特征,最后通过声码器合成语音。
94.本实施例中,文本特征是指发音者的说话内容特征,初始文本特征能够代表第一原始语音对应的发音者的说话内容特征,发音特征是指发音者的音色、停顿、发音习惯等特征,初始发音特征能够代表第二原始语音对应的发音者的语气特点,服务器提取到第二原始语音对应的第二发音者的目标发音特征之后,能够与任意的文本特征合成,从而生成具有第二发音者发音特定的合成语音,用于配音、变音等领域。
95.103、通过预置的目标对比预测编码器,对初始文本特征进行发音特征解耦,得到目标文本特征;
96.本实施例中,目标对比预测编码器为对比预测编码(contrastive predictive coding,cpc),是一种非监督的编码算法,cpc可以用于在高维度数据中提取用于预测未来的表示信息,即cpc学习到的特征与时间密切关联。在语音中,cpc捕获到的特征与时间相关密切相关,而与时间无关的特征会被选择性丢弃,例如发音特征(因为同一句话的发音特征不会随着时间改变)与时间无关,因此,发音特征会被模型选择性丢弃,基于此,服务器通过目标对比预测编码器能够将文本特征和发音特征解耦,进一步地提取出与发音者无关的目标文本特征。目标对比预测编码器由5层全连接结构构成,在每层全连接层前会经过归一化操作和非线性映射,服务器能够通过循环的归一化-全连接-非线性映射网络,提取初始文本特征中的时间性特征,从而得到目标文本特征。
97.104、对目标文本特征和初始发音特征进行合成,得到初始合成语音;
98.本实施例中,服务器通过语音合成技术将目标文本特征和初始发音特征进行初步的合成,得到初始合成语音,在实验中,通过对初始合成语音的重建损失计算结果可知,初始合成语音与第二原始语音的发音特征相似度已达到95.16%以上,说明通过autovc+cpc实现的语音转换功能具有较高的转换能力,语音模拟能力强。
99.本实施例中,通过autovc中的解码器和声码器,能够将目标文本特征和初始发音特征合成为初始合成语音,具体的,服务器通过autovc中的解码器,对目标文本特征和初始发音特征进行上采样,得到采样特征,以将二者恢复到原始的时间分辨率,然后,服务器将采样特征连接,并输入3个8
×
1卷积层,每个卷积层有512个通道,每个通道依次进行批量归一化和非线性映射relu操作,再通过3个长短期记忆网络(long short-term memory,lstm)层,每个长短期记忆网络的单元尺寸为1024,得到lstm层的输出,接着,服务器将lstm层的输出再输入到维度80,大小为1
×
1的卷积层中,得到初始合成梅尔频谱,最后,服务器通过autovc中的声码器,将初始合成梅尔频谱转换为语音,得到初始合成语音。
100.105、通过目标自然风格转移编码器,对初始合成语音进行发音特征提取,得到目标发音特征。
101.本实施例中,为了提高发音特征提取的准确率,服务器再次将合成语音输入目标自然风格转移编码器中进行特征提取,服务器通过目标自然风格转移编码器中的说话人编码器,对初始合成语音进行发音特征提取,得到目标发音特征,具体提取过程与步骤102对第二原始语音初始发音特征提取方式相似,此处不再赘述。
102.本实施例中,服务器得到目标发音特征之后,还包括将目标发音特征和目标文本特征合成,得到目标合成语音,目标合成语音用于指示具有第一原始语音对应的发音者的说话内容,同时具有第二原始语音对应的发音者的发音特征的语音,通过对目标合成语音和第二原始语音的进行发音特征相似度计算,发现二者的发音特征相似度达到99.07%以
上,本发明取得了高精度的发音特征提取效果。
103.进一步地,服务器将目标发音特征存储于区块链数据库中,具体此处不做限定。
104.本发明实施例中,服务器通过对不同发音者录制的第一原始语音和第二原始语音分别进行文本特征提取和发音特征提取,再对提取到的初始文本特征和初始发音特征进行进一步的解耦,得到目标文本特征,再将目标文本特征和初始发音特征合成为初始合成语音,再次进行发音特征提取,从而得到目标发音特征,能够提高语音转换过程中话语内容和说话人信息的解耦性,增强语音转换效果。
105.请参阅图2,本发明实施例中发音特征的提取方法的另一个实施例包括:
106.201、接收第一原始语音和第二原始语音,第一原始语音和第二原始语音为不同发音者录制的语音;
107.进一步的,在接收第一原始语音和第二原始语音之前,发音特征的提取方法还包括:服务器获取第一样本语音和第二样本语音,第一样本语音和第二样本语音为同一发音者录制的语音;服务器初始化预置的初始自然风格转移编码器,并通过初始自然风格转移编码器中的内容编码器,对第一样本语音进行文本特征提取,得到初始样本文本特征,以及通过初始自然风格转移编码器中的说话人编码器,对第二样本语音进行发音特征提取,得到初始样本发音特征;服务器通过预置的初始对比预测编码器,对初始样本文本特征进行发音特征解耦,得到目标样本文本特征;服务器将目标样本文本特征和初始样本发音特征合成,得到初始样本合成语音;服务器根据预置的合成损失函数,对初始样本合成语音和第二样本语音进行损失计算,得到目标损失值;服务器根据目标损失值,生成目标自然风格转移编码器和目标对比预测编码器。
108.本可选实施例中,为了更好地判断编码器的训练效果是否达到应用标准,服务器通过同一发音者录制的第一样本语音和第二样本语音,对预置的初始自然风格转移编码器和预置的初始对比预测编码器进行联合训练,从而生成目标自然风格转移编码器和目标对比预测编码器,首先,服务器通过初始自然风格转移编码器中的内容编码器,对第一样本语音进行文本特征提取,得到初始样本文本特征,以及通过初始自然风格转移编码器中的说话人编码器,对第二样本语音进行发音特征提取,得到初始样本发音特征,再通过预置的初始对比预测编码器,对初始样本文本特征进行发音特征解耦,得到目标样本文本特征,最后服务器将目标样本文本特征和初始样本发音特征合成,得到初始样本合成语音,由于第一样本语音和第二样本语音来源于同一发音者,因此,在模型训练达标的情况下,初始样本合成语音应与第二样本语音相似,服务器通过预置的合成损失函数,计算初始样本合成语音和第二样本语音之间的目标损失值,当目标损失值小于预置损失阈值时,说明模型训练达到应用标准,服务器生成目标自然风格转移编码器和目标对比预测编码器,用于后续对不同发音者录制的语音进行语音转换,当目标损失值大于预置损失阈值时,说明模型训练未达到应用标准,服务器调整初始自然风格转移编码器和初始对比预测编码器中的网络参数,得到调整后的初始自然风格转移编码器和调整后的初始对比预测编码器,服务器再通过调整后的初始自然风格转移编码器和调整后的初始对比预测编码器,跳转至“对第一样本语音进行文本特征提取”的步骤,重复进行编码器训练,直至目标损失值小于预置损失阈值,生成目标自然风格转移编码器和目标对比预测编码器。
109.进一步的,根据预置的合成损失函数,对初始样本合成语音和第二样本语音进行
损失计算,得到目标损失值,包括:服务器通过初始自然风格转移编码器,对初始样本合成语音进行发音特征提取,得到目标样本发音特征;服务器通过预置的样本损失函数,对初始样本合成语音和第二样本语音进行损失计算,得到第一损失值;服务器通过预置的发音损失函数,对初始样本发音特征和目标样本发音特征进行损失计算,得到第二损失值;服务器通过预置的合成损失函数,对第一损失值和第二损失值进行总损失计算,得到目标损失值。
110.本可选实施例中,为了判断编码器的训练效果是否达到应用标准,通过多标准的损失计算函数进行损失计算,当总损失值小于预置损失阈值时,才断定模型达到应用标准,能够高精度地完成语音转换任务。具体的,服务器再次通过初始自然风格转移编码器,对初始样本合成语音进行发音特征提取,达到目标样本发音特征,目标样本发音特征用于与初始样本发音特征进行比对,服务器通过预置的发音损失函数,计算目标样本发音特征用于与初始样本发音特征之间的损失,达到第二损失值,进一步的,服务器还通过样本损失函数,对初始样本合成语音和第二样本语音进行损失计算,得到第一损失值,最后,服务器通过基于一定权重含义的合成损失函数,对第一损失值和第二损失值进行总损失计算,得到目标损失值,目标损失值用于衡量初始自然风格转移编码器和初始对比预测编码器的训练目标,具有准确的衡量标准。
111.202、基于预置的目标自然风格转移编码器,提取第一原始语音中的初始文本特征,以及提取第二原始语音中的初始发音特征;
112.具体的,服务器获取预置的目标自然风格转移编码器,目标自然风格转移编码器包括内容编码器和说话人编码器,内容编码器包括多个第一卷积层、多个归一化层和第一双向长短期记忆层,一个第一卷积层与一个归一化层交替连接,说话人编码器包括第二双向长短期记忆层和全连接层;服务器通过多个第一卷积层、多个归一化层和第一双向长短期记忆层,对第一原始语音进行文本特征提取,得到初始文本特征;服务器通过第二双向长短期记忆层和全连接层,对第二样本语音进行发音特征提取,得到样本发音特征。
113.本可选实施例中,目标自然风格转移编码器包括内容编码器和说话人编码器,内容编码器的网络结构为包括3个第一卷积层和一个第一lstm层,并且每个第一卷积层和第一lstm层后均连接一个归一化层,以使得每一层的数据结果更好地收敛,从而得到最优解,也就是服务器通过内容编码器对第一原始语音进行特征提取和结果收敛,得到初始文本特征。而目标自然风格转移编码器中的说话人编码器的网络结构为包括一个第二lstm层和全连接层,第二lstm层能够解决长序列训练过程中的梯度消失和梯度爆炸问题,在长序列的特征提取方面具有更好的表现,服务器通过说话人编码器中的第二lstm层和全连接层对第二样本语音进行特征提取和特征分类,得到样本发音特征。
114.203、通过预置的目标对比预测编码器,对初始文本特征进行发音特征解耦,得到目标文本特征;
115.具体的,服务器获取预置的目标对比预测编码器,目标对比预测编码器包括多个第二卷积层、多个非线性映射层、多个前向归一化层;服务器通过多个第二卷积层,对初始文本特征进行文本特征提取,得到第一文本特征;服务器通过目标对比预测编码器中的非线性映射层,对第一文本特征进行修正,得到文本增强识别的第二文本特征;服务器通过目标对比预测编码器中的前向归一化层,对文本增强识别的第二文本特征进行归一化处理,得到目标文本特征。
116.本可选实施例中,预置的目标对比预测编码器cpc包括多个第二卷积层、多个非线性映射层、多个前向归一化层,其中,非线性映射层采用的非线性映射函数为relu函数,每个第二卷积层前均连接一个非线性映射层和一个前向归一化层,服务器通过每个第二卷积层对初始文本特征进行文本特征提取,得到第一文本特征,通过每个非线性映射层对每个第一文本特征进行特征修正,得到文本增强识别的第二文本特征,再通过每个前向归一化层对每个第二文本特征进行归一化处理,得到目标文本特征,目标对比预测编码器能够保留初始文本特征中时间相关性强的特征(文本特征),并选择性地剔除时间相关性弱的特征(发音特征),从而将文本与发音解耦,得到更纯净的目标文本特征。
117.204、分别获取目标文本特征和初始发音特征对应的梅尔频谱,得到文本梅尔频谱和发音梅尔频谱;
118.本实施例中,由于目标自然风格转移编码器和目标对比预测编码器在处理过程中的数据均是梅尔频谱形式的数据,因此,目标自然风格转移编码器输出的初始发音特征为发音梅尔频谱,目标对比预测编码器输出的目标文本特征均为文本梅尔频谱。
119.205、通过预置的解码器,对文本梅尔频谱和发音梅尔频谱进行解码转换,得到初始合成梅尔频谱,解码器包括第三长短期记忆层和多个第三卷积层;
120.本实施例中,预置的解码器与autovc中的解码器具有相同的网络结构,包括3个8
×
1卷积层和3个lstm层,每个卷积层有512个通道,服务器对文本梅尔频谱和发音梅尔频谱进行上采样,得到二者分别对应的采样特征,再将二者分别对应的采样特征连接,服务器通过第三卷积层的每个通道,依次对连接后的采样特征进行批量归一化和relu操作,最后服务器通过3个lstm层,输出初始合成梅尔频谱,能够对梅尔频谱快速解码,进而提高语音转换的效率。
121.206、通过预置的谱图逆变器,对初始合成梅尔频谱进行采样,得到采样值序列,并根据采样值序列生成初始合成语音,谱图逆变器包括波形网络,波形网络包括多个带洞因果卷积层;
122.具体的,服务器获取预置的谱图逆变器,谱图逆变器包括波形网络,波形网络包括多个带洞因果卷积层;服务器通过多个带洞因果卷积层,确定多个带洞因果卷积层的连接点,并通过连接点,对初始合成梅尔频谱进行上采样,得到采样值序列;服务器通过波形网络,对采样值序列进行波形转换,得到初始合成语音。
123.本可选实施例中,由于语音的采样率高,时域上对感知范围要求大,因此,预置的谱图逆变器采用波形网络(wavenet)结构,波形网络中包括多个带洞因果卷积层(dilated casual convolution),带洞因果卷积层能够提高感受视野,并且可以并行计算,每个带洞因果卷积层都对前一层进行卷积,卷积核越大,层数越多,时域上的感知能力越强,感知范围越大。服务器根据带洞因果卷积层的卷积核大小,选择连接点,比如卷积核大小=2时,第二层只会使用第t,t-2,t-4......这些点,服务器再通过选定的连接点,对初始合成梅尔频谱进行上采样,从而得到采样值序列,而在波形转换过程中,每转换一个点,把该点放到波形网络最后一个点继续迭代转换即可得到初始合成语音,转换效率高。
124.207、通过目标自然风格转移编码器,对初始合成语音进行发音特征提取,得到目标发音特征。
125.该步骤207的执行过程与上述步骤105的执行过程相似,具体此处不再赘述。
126.本发明实施例中,服务器通过对不同发音者录制的第一原始语音和第二原始语音分别进行文本特征提取和发音特征提取,再对提取到的初始文本特征和初始发音特征进行进一步的解耦,得到目标文本特征,接着,通过编码器和谱图逆变器,将目标文本特征和初始发音特征合成为初始合成语音后,再次进行发音特征提取,从而得到目标发音特征,能够提高语音转换过程中话语内容和说话人信息的解耦性,增强语音转换效果。
127.上面对本发明实施例中发音特征的提取方法进行了描述,下面对本发明实施例中发音特征的提取装置进行描述,请参阅图3,本发明实施例中发音特征的提取装置一个实施例包括:
128.语音接收模块301,用于接收第一原始语音和第二原始语音,第一原始语音和第二原始语音为不同发音者录制的语音;
129.第一提取模块302,用于基于预置的目标自然风格转移编码器,提取第一原始语音中的初始文本特征,以及提取第二原始语音中的初始发音特征;
130.特征解耦模块303,用于通过预置的目标对比预测编码器,对初始文本特征进行发音特征解耦,得到目标文本特征;
131.语音合成模块304,用于对目标文本特征和初始发音特征进行合成,得到初始合成语音;
132.第二提取模块305,用于通过目标自然风格转移编码器,对初始合成语音进行发音特征提取,得到目标发音特征。
133.进一步地,将目标发音特征存储于区块链数据库中,具体此处不做限定。
134.本发明实施例中,服务器通过对不同发音者录制的第一原始语音和第二原始语音分别进行文本特征提取和发音特征提取,再对提取到的初始文本特征和初始发音特征进行进一步的解耦,得到目标文本特征,再将目标文本特征和初始发音特征合成为初始合成语音,再次进行发音特征提取,从而得到目标发音特征,能够提高语音转换过程中话语内容和说话人信息的解耦性,增强语音转换效果。
135.请参阅图4,本发明实施例中发音特征的提取装置的另一个实施例包括:
136.语音接收模块301,用于接收第一原始语音和第二原始语音,第一原始语音和第二原始语音为不同发音者录制的语音;
137.第一提取模块302,用于基于预置的目标自然风格转移编码器,提取第一原始语音中的初始文本特征,以及提取第二原始语音中的初始发音特征;
138.特征解耦模块303,用于通过预置的目标对比预测编码器,对初始文本特征进行发音特征解耦,得到目标文本特征;
139.语音合成模块304,用于对目标文本特征和初始发音特征进行合成,得到初始合成语音;
140.第二提取模块305,用于通过目标自然风格转移编码器,对初始合成语音进行发音特征提取,得到目标发音特征。
141.可选的,发音特征的提取装置还包括:
142.样本语音获取模块306,用于获取第一样本语音和第二样本语音,第一样本语音和第二样本语音为同一发音者录制的语音;
143.样本特征提取模块307,用于初始化预置的初始自然风格转移编码器,并通过初始
自然风格转移编码器中的内容编码器,对第一样本语音进行文本特征提取,得到初始样本文本特征,以及通过初始自然风格转移编码器中的说话人编码器,对第二样本语音进行发音特征提取,得到初始样本发音特征;
144.样本特征解耦模块308,用于通过预置的初始对比预测编码器,对初始样本文本特征进行发音特征解耦,得到目标样本文本特征;
145.样本语音合成模块309,用于将目标样本文本特征和初始样本发音特征合成,得到初始样本合成语音;
146.样本损失计算模块310,用于根据预置的合成损失函数,对初始样本合成语音和第二样本语音进行损失计算,得到目标损失值;
147.编码器生成模块311,用于根据目标损失值,生成目标自然风格转移编码器和目标对比预测编码器。
148.可选的,样本损失计算模块310具体用于:
149.通过初始自然风格转移编码器,对初始样本合成语音进行发音特征提取,得到目标样本发音特征;
150.通过预置的样本损失函数,对初始样本合成语音和第二样本语音进行损失计算,得到第一损失值;
151.通过预置的发音损失函数,对初始样本发音特征和目标样本发音特征进行损失计算,得到第二损失值;
152.通过预置的合成损失函数,对第一损失值和第二损失值进行总损失计算,得到目标损失值。
153.可选的,第一提取模块302具体用于:
154.获取预置的目标自然风格转移编码器,目标自然风格转移编码器包括内容编码器和说话人编码器,内容编码器包括多个第一卷积层、多个归一化层和第一双向长短期记忆层,一个第一卷积层与一个归一化层交替连接,说话人编码器包括第二双向长短期记忆层和全连接层;
155.通过多个第一卷积层、多个归一化层和第一双向长短期记忆层,对第一原始语音进行文本特征提取,得到初始文本特征;
156.通过第二双向长短期记忆层和全连接层,对第二样本语音进行发音特征提取,得到样本发音特征。
157.可选的,特征解耦模块303具体用于:
158.获取预置的目标对比预测编码器,目标对比预测编码器包括多个第二卷积层、多个非线性映射层、多个前向归一化层;
159.通过多个第二卷积层,对初始文本特征进行文本特征提取,得到第一文本特征;
160.通过目标对比预测编码器中的多个非线性映射层,对第一文本特征进行修正,得到文本增强识别的第二文本特征;
161.通过对比预测编码器中的多个前向归一化层,对文本增强识别的第二文本特征进行归一化处理,得到目标文本特征。
162.可选的,语音合成模块304包括:
163.获取单元3041,用于分别获取目标文本特征和初始发音特征对应的梅尔频谱,得
到文本梅尔频谱和发音梅尔频谱;
164.解码单元3042,用于通过预置的解码器,对文本梅尔频谱和发音梅尔频谱进行解码转换,得到初始合成梅尔频谱,解码器包括第三长短期记忆层和多个第三卷积层;
165.生成单元3043,用于通过预置的谱图逆变器,对初始合成梅尔频谱进行采样,得到采样值序列,并根据采样值序列生成初始合成语音,谱图逆变器包括波形网络,波形网络包括多个带洞因果卷积层。
166.可选的,生成单元3043具体用于:
167.获取预置的谱图逆变器,谱图逆变器包括波形网络,波形网络包括多个带洞因果卷积层;
168.通过多个带洞因果卷积层,确定多个带洞因果卷积层的连接点,并通过连接点,对初始合成梅尔频谱进行上采样,得到采样值序列;
169.通过波形网络,对采样值序列进行波形转换,得到初始合成语音。
170.本发明实施例中,服务器通过对不同发音者录制的第一原始语音和第二原始语音分别进行文本特征提取和发音特征提取,再对提取到的初始文本特征和初始发音特征进行进一步的解耦,得到目标文本特征,接着,通过编码器和谱图逆变器,将目标文本特征和初始发音特征合成为初始合成语音后,再次进行发音特征提取,从而得到目标发音特征,能够提高语音转换过程中话语内容和说话人信息的解耦性,增强语音转换效果。
171.上面图3和图4从模块化功能实体的角度对本发明实施例中的发音特征的提取装置进行详细描述,下面从硬件处理的角度对本发明实施例中发音特征的提取设备进行详细描述。
172.图5是本发明实施例提供的一种发音特征的提取设备的结构示意图,该发音特征的提取设备500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,cpu)510(例如,一个或一个以上处理器)和存储器520,一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中,存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对发音特征的提取设备500中的一系列计算机程序操作。更进一步地,处理器510可以设置为与存储介质530通信,在发音特征的提取设备500上执行存储介质530中的一系列计算机程序操作。
173.发音特征的提取设备500还可以包括一个或一个以上电源540,一个或一个以上有线或无线网络接口550,一个或一个以上输入输出接口560,和/或,一个或一个以上操作系统531,例如windows serve,mac os x,unix,linux,freebsd等等。本领域技术人员可以理解,图5示出的发音特征的提取设备结构并不构成对发音特征的提取设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
174.本发明还提供一种发音特征的提取设备,所述计算机设备包括存储器和处理器,存储器中存储有计算机可读计算机程序,计算机可读计算机程序被处理器执行时,使得处理器执行上述各实施例中的所述发音特征的提取方法的步骤。
175.本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,当所述计算机程序在计算机上运行时,使得计
算机执行所述发音特征的提取方法的步骤。
176.进一步地,所述计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
177.本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
178.所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
179.所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干计算机程序用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。
180.以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。