首页 > 乐器声学 专利正文
一种基于机器学习的语音处理方法、装置、设备及介质与流程

时间:2022-02-06 阅读: 作者:专利查询

一种基于机器学习的语音处理方法、装置、设备及介质与流程

1.本技术涉及一种人工智能技术,提供一种基于机器学习的语音处理方法、装置、设备及介质。


背景技术:

2.语音转换(voice conversion,vc)是指在不改变话语内容信息的情况下,让某个人说的语音经过转换后听起来像是另一个人说的语音;
3.很多自媒体人具有较强的视频创作灵感,可以创作出很多趣味性较强的动画短视频,可惜,由于资金短缺,人手不足,自媒体人很难雇请专业的配音演员为自制的动画短视频配音,只能退而求其次,采用无声动画或机器转换语音来为动画视频加上声音,而通过机器转换的语音较为死板,且无法保证语音转换的质量,这无疑使得视频的最终效果打了很大的折扣。


技术实现要素:

4.本技术的目的在于提供一种基于机器学习的语音处理方法、装置、设备及介质,结合了矢量量化和域对抗技术,增强了语音转换效果,使得得到的目标语音转换模型能更好的胜任个性化语音合成和语音转换任务。
5.本技术提出一种基于机器学习的语音处理方法,包括:
6.从源语音信息中提取得到第一语音特征,并对所述第一语音特征进行矢量量化处理得到第一离散变量特征;
7.对所述第一离散变量特征进行分类,以去除所述第一离散变量特征中的与所述源语音信息对应的说话人信息,得到第二离散变量特征,并计算分类损失函数;对所述第二离散变量特征和目标语音信息对应的说话人特征进行语音重构,并确定语音重构损失函数;
8.根据所述语音重构损失函数和所述分类损失函数对初始语音转换模型进行训练,得到目标语音转换模型;
9.根据所述目标语音转换模型对待转换语音进行语音转换处理。
10.进一步地,所述通过矢量量化器对所述第一语音特征进行矢量量化处理得到第一离散变量特征之前,所述方法包括:
11.对所述第一语音特征进行处理,以去除所述第一语音特征中的静态固有信息。
12.进一步地,所述对所述第二离散变量特征和目标语音信息对应的说话人特征进行语音重构处理之前,所述方法包括:
13.从特征语音信息中提取得到各时间点的第二语音特征,并对所述各时间点的第二语音特征进行矢量量化处理得到各时间点的第三离散变量特征,其中所述特征语音信息包括所述目标语音信息对应的说话人信息,且所述征提取语音信息包括多个时间点的子语音信息,各时间点的子语音信息与各时间点的第二语音特征对应;
14.获取各时间点的第三离散变量特征与第二语音特征之间的各差值;
15.将所述各差值的期望均值作为所述目标语音信息对应的说话人特征。
16.进一步地,所述对所述第二离散变量特征和目标语音信息对应的说话人特征进行语音重构处理之前,所述方法包括:
17.将特征语音信息输入到深度神经网络中最后的隐藏层进行识别处理,得到所述目标语音信息对应的说话人特征,所述特征语音信息包括所述目标语音信息对应的说话人信息。
18.进一步地,所述将所述第二离散变量特征和目标语音信息对应的说话人特征进行语音重构处理,并确定语音重构损失函数包括:
19.将所述第二离散变量特征和所述说话人特征相加得到合成特征;
20.对所述合成特征进行语音重构处理,得到目标语音信息;
21.所述语音重构损失函数包括:
22.l
recon
=‖x-x1‖1,x代表源语音信息,x1代表目标语音信息。
23.进一步地,所述根据所述语音重构损失函数和所述分类损失函数对初始语音转换模型进行训练之前,所述方法包括:
24.根据所述第二离散变量特征和所述第一语音特征确定语音内容特征损失函数;语音内容特征损失函数包括:l
vq
=‖v-c‖1,v表示第二离散变量特征,c表示第一语音特征;
25.所述根据所述语音重构损失函数和所述分类损失函数对初始语音转换模型进行训练包括:
26.根据语音重构损失函数、语音内容特征损失函数和所述分类损失函数对初始语音转换模型进行训练。
27.进一步地,所述根据语音重构损失函数、语音内容特征损失函数和所述分类损失函数对初始语音转换模型进行训练,得到目标语音转换模型包括:
28.根据语音重构损失函数、语音内容特征损失函数和分类损失函数确定初始语音转换模型的总损失函数,总损失函数包括:l=λ1l
recon
+λ2l
vq
+λ3ld,其中λ1、λ2和λ3为权重,所述l
recon
为语音重构损失函数,所述l
vq
为语音内容特征损失函数,所述ld为分类损失函数;
29.当所述总损失函数收敛时,得到所述目标语音转换模型。
30.本技术还提出一种基于对抗学习的语音处理装置,包括:特征处理模块,用于从源语音信息中提取得到第一语音特征,并对所述第一语音特征进行矢量量化处理得到第一离散变量特征;对抗学习模块,用于对所述第一离散变量特征进行分类,以去除所述第一离散变量特征中的与所述源语音信息对应的说话人信息,得到第二离散变量特征,并计算分类损失函数;语音重构模块,用于将所述第二离散变量特征和目标语音信息对应的说话人特征进行语音重构处理,并确定语音重构损失函数;模型训练模块,用于根据所述语音重构损失函数和所述分类损失函数对初始语音转换模型进行训练,得到目标语音转换模型;
31.语音转换模块,用于根据所述目标语音转换模型对待转换语音进行转换处理。
32.本技术还提出一种计算机设备,所述计算机设备包括:存储器,存储有计算机可读指令;处理器,读取存储器存储的计算机可读指令,以执行如上所述的方法。
33.本技术还提出一种计算机可读存储介质,其上存储有计算机可读指令,当所述计算机可读指令被计算机的处理器执行时,使计算机执行如上所述的方法。
34.与现有技术相比,本技术具有如下有益效果:
35.本技术的提供的技术方案中,从源语音信息中提取得到第一语音特征,并对第一语音特征进行矢量量化处理得到第一离散变量特征;对所述第一离散变量特征进行分类,以去除第一离散变量特征中的与源语音信息对应的说话人信息,得到第二离散变量特征,并计算分类损失函数,对第二离散变量特征和目标语音信息对应的说话人特征进行语音重构,并确定语音重构损失函数;根据语音重构损失函数和分类损失函数对初始语音转换模型进行训练,得到目标语音转换模型;其中结合了矢量量化和域对抗的分类技术,采用矢量量化技术提取源语音信息中的第一离散变量特征,通过分类能够进一步加强矢量量化的第一离散变量特征和源语音信息中说话人特征的特征解耦功能,进而通过语音重构损失函数和分类损失函数对初始语音转换模型进行训练,增强了语音转换效果,使得得到的目标语音转换模型能更好的胜任个性化语音合成和语音转换任务。
附图说明
36.图1示出了根据本技术的一个实施例的一种基于机器学习的语音处理方法的流程图;
37.图2示出了图1所示实施例中的步骤s130之前在一示例性实施例中的流程图;
38.图3示出了图1所示实施例中的步骤s130在一示例性实施例中的流程图;
39.图4示出了图1所示实施例中的步骤s140在一示例性实施例中的流程图;
40.图5示出了根据本技术的一个实施例的一种具体的语音处理方法的流程结构图;
41.图6示出了根据本技术的一个实施例的一种基于机器学习的语音处理装置的架构示意图;
42.图7示出了根据本技术的一个实施例的一种计算机设备的结构示意图。
具体实施方式
43.这里将详细地对示例性实施例执行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本技术相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本技术的一些方面相一致的装置和方法的例子。
44.本技术实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
45.人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
46.语音处理技术(speech signal processing)用以研究语音发声过程、语音信号的统计特性、语音的自动识别、机器合成以及语音感知等各种处理技术的总称。
47.本技术实施例提供的方案涉及人工智能的语音处理技术中的语音转换,并基于机器学习得到对应的语音转换模型,通过语音转换模型实现语音转换,具体通过如下实施例
进行说明。
48.请参阅图1,图1是根据一示例性实施例示出的一种基于机器学习的语音处理方法的流程图,该基于机器学习的语音处理方法包括步骤s110至步骤s150,详细介绍如下:
49.s110、从源语音信息中提取得到第一语音特征,并对第一语音特征进行矢量量化处理得到第一离散变量特征。
50.在本实施例中,源语音信息中包含了说话人的声音个性信息和说话内容信息,示例的,可以将源语音信息输入到编码器中,输出得到第一语音特征,编码器用于从源语音信息中提取第一语音特征,编码器可以学习到源语音信息的隐含特征,进而压缩成第一语音特征,该第一语音特征用于表征源语音信息中所表达信息的语音特征,第一语音特征为连续型的特征。
51.矢量量化:(vector quantization,vq)是一种通过类似于聚类的方式将原有的连续型数据聚类成离散数据,从而使得需要存储的数据量降低,进而达到数据压缩的目的;具体的基本原理是用码书中与输入矢量最匹配的码字的索引代替输入矢量进行传输与存储。
52.一示例性的,第一离散变量特征用于表示源语音信息中内容信息,对第一语音特征进行矢量量化处理得到第一离散变量特征的具体过程包括:将第一语音特征输入到矢量量化器,矢量量化器用于从码书中查找与第一语音特征最匹配的码字的索引,该码字的索引作为矢量量化后的离散变量,进而将原有的连续型数据聚类成离散数据,即第一离散变量特征;如连续型的第一语音特征0~1对应的码字的索引为1,特征1~2对应的码字的索引为2,则码书包括1、2等码字的索引;当语音特征为1.4,则码书中与语音特征最匹配的码字的索引为2,则第一离散变量特征为2。
53.在本实施例中,对第一语音特征进行矢量量化处理得到第一离散变量特征之前,方法还包括:
54.对第一语音特征进行处理,以去除第一语音特征中的静态固有信息。
55.其中静态固有信息在一句话的任何时间片段内都保持不变,如静态固有信息为音色信息;示例的,可将第一语音特征输入到实例规格化层(instance normalization,in),以去除静态固有信息,in借鉴于视觉任务的风格迁移,用不带仿射变换的in很容易就能去除音频中的静态固有信息,即更多的消除说话人信息,以使得到的第一离散变量特征更能表征源语音信息中的内容信息。
56.s120、对第一离散变量特征进行分类,以去除第一离散变量特征中的与源语音信息对应的说话人信息,得到第二离散变量特征,并计算分类损失函数。
57.可以理解的是,域对抗:包含特征提取网络和域分类器,特征提取网络提取出中间特征,该特征力求解离一切风格信息,同时分类器希望能够分辨出该特征上的风格类型;二者形成对抗学习。
58.由于希望vq技术得到第一离散变量特征尽可能与说话人无关,则恰好与域对抗中的特征提取网络的目标相似,因此在本实施例中,引入域分类器,引入域对抗的思想,示例的,将第一离散变量特征输入到域分类器中,域分类器用于对第一离散变量特征进行分类,尽可能分出该第一离散变量特征是否与源语音信息对应的说话人有关,得到第二离散变量特征,第二离散变量特征为去除与说话人有关的信息之后的特征。
59.一示例性的,域分类器以sigmoid作为激活函数,进而将sigmoid对应的损失函数
x1‖1,x代表源语音信息,x1代表目标语音信息。
76.s140、根据语音重构损失函数和分类损失函数对初始语音转换模型进行训练,得到目标语音转换模型。
77.在本实施例中,通过最大化分类损失和最小化重构损失确定初始语音转换模型的最优参数,得到目标转换模型。在一示例中,初始语音转换模型包括上述的编码器、矢量量化器、解码器和域分类器。
78.值得注意的是,为了对初始语音转换模型的准确性,在步骤s140之前,语音处理方法还包括:
79.根据第二离散变量特征和第一语音特征确定语音内容特征损失函数。
80.由于矢量量化过程中,第二离散变量特征被要求尽可能与和第一语音特征靠近,为了使得第二离散变量与第一语音特征的距离最小,尽可能准确地获取内容信息,需计算确定语音内容特征损失函数,其中语音内容特征损失函数包括:l
vq
=‖v-c‖1,v表示第二离散变量特征,c表示第一语音特征;
81.此时,步骤s140具体包括:根据语音重构损失函数、语音内容特征损失函数和分类损失函数对初始语音转换模型进行训练。
82.即通过语音内容特征损失函数和分类损失函数对初始语音转换模型进行训练,以更好地得到源语音信息的内容信息,并结合语音重构损失函数对初始语音转换模型进行训练,以使得语音重构后的目标语音信息与源语音信息中的说话人信息尽可能不同。
83.一示例性的,如图4所示,图4是图1所示实施例中的步骤s140在一示例性实施例中的流程图,得到目标语音转换模型包括:
84.s141、根据语音重构损失函数、语音内容特征损失函数和分类损失函数确定初始语音转换模型的总损失函数;
85.s142、当总损失函数收敛时,得到目标语音转换模型。
86.其中总损失函数包括:l=λ1l
recon
+λ2l
vq
+λ3ld,其中λ1、λ2和λ3为权重,l
recon
为语音重构损失函数,l
vq
为语音内容特征损失函数,ld为分类损失函数;该λ1、λ2和λ3可以根据实际需求进行灵活调整,例如λ1为0.4、λ2为0.2和λ3为0.4。当总损失函数收敛时,表示初始语音转换模型的编码器、矢量量化器、域分类器和解码器的参数是最优的。
87.s150、根据目标语音转换模型对待转换语音进行语音转换处理。
88.在本实施例中,得到目标转换模型之后,可以根据目标转换模型对待转换语音进行语音转换处理,得到个性化定制语音。
89.在一个应用场景中,目标转换模型用于助力动画爱好者制作同人动画、自媒体人自制短视频的发展,例如应用于短视频配音中,只需要视频制作者录制一遍台词,产生待转换语音,通过目标转换模型就可以产生多样的个性化定制语音。
90.为了便于理解,本实施例以一个较为具体的例子对语音处理方法进行说明,目标转换模型包括训练好的解码器、矢量量化器、域分类器和解码器,如图5所示,录制台词产生的待转换语音x输入到解码器encoder中,得到连续型的第一语音特征v1,通过in层对第一语音特征v1的静态固有信息进行分离,得到分离后的第一语音特征in(v1),然后通过矢量量化器对分离后的第一语音特征in(v1)进行矢量量化处理,得到第一离散变量特征c1,用于表征待转换语音x中的内容信息;该第一离散变量特征c1输入到域分类器,进行对抗学习,以
区分该第一离散变量特征c1是否与待转换语音x的说话人相关,通过域分类器输出第二离散变量特征c2,该第二离散变量特征c2与动画人物a的说话人特征s相加后,输入到解码器decoder中,最后得到由动画人物a说台词的个性化定制语音x1;其中说话人特征s可以是,动画人物a说话的语音x2经过解码器、in和矢量量化器后,计算in输出的第二语音特征in(v2)和矢量量化器输出的第三离散变量特征c3的差值,将多个时间点的差值的均值作为说话人特征s。
91.以下介绍本技术的装置实施例,可以用于执行本技术上述实施例中的基于机器学习的语音处理方法。对于本技术装置实施例中未披露的细节,请参照本技术上述的基于机器学习的语音处理方法的实施例。
92.如图6所示,图6示出了根据本技术的一个实施例的基于机器学习的语音处理装置的框图,该装置包括:
93.特征处理模块610,用于从源语音信息中提取得到第一语音特征,并对第一语音特征进行矢量量化处理得到第一离散变量特征;
94.特征分类模块620,用于对第一离散变量特征进行分类,以去除第一离散变量特征中的与源语音信息对应的说话人信息,得到第二离散变量特征,并计算分类损失函数;
95.语音重构模块630,用于对第二离散变量特征和目标语音信息对应的说话人特征进行语音重构处理,并确定语音重构损失函数;
96.模型训练模块640,用于根据语音重构损失函数和分类损失函数对初始语音转换模型进行训练,得到目标语音转换模型;
97.语音转换模块650,用于根据目标语音转换模型对待转换语音进行转换处理。
98.其中基于机器学习的语音处理装置还包括静态信息去除模块,用于对第一语音特征进行处理,以去除第一语音特征中的静态固有信息。
99.一示例性的,基于机器学习的语音处理装置还包括说话人特征获取模型,用于从特征语音信息中提取得到各时间点的第二语音特征,并对各时间点的第二语音特征进行矢量量化处理得到各时间点的第三离散变量特征,其中特征语音信息包括目标语音信息对应的说话人信息,且征提取语音信息包括多个时间点的子语音信息,各时间点的子语音信息与各时间点的第二语音特征对应;获取各时间点的第三离散变量特征与第二语音特征之间的各差值;将各差值的期望均值作为目标语音信息对应的说话人特征。
100.一示例性的,说话人特征获取模型用于将特征语音信息输入到深度神经网络中最后的隐藏层进行识别处理,得到目标语音信息对应的说话人特征,特征语音信息包括目标语音信息对应的说话人信息。
101.语音重构模块630用于将第二离散变量特征和说话人特征相加得到合成特征;对合成特征进行语音重构处理,得到目标语音信息;语音重构损失函数包括:l
recon
=‖x-x1‖1,x代表源语音信息,x1代表目标语音信息。
102.基于机器学习的语音处理装置还包括损失确定模块,用于根据第二离散变量特征和第一语音特征确定语音内容特征损失函数;语音内容特征损失函数包括:l
vq
=‖v-c‖1,v表示第二离散变量特征,c表示第一语音特征;模型训练模块640用于根据语音重构损失函数、语音内容特征损失函数和分类损失函数对初始语音转换模型进行训练。
103.进一步地,模型训练模块,根据语音重构损失函数、语音内容特征损失函数和分类
损失函数确定初始语音转换模型的总损失函数,总损失函数包括:l=λ1l
recon
+λ2l
vq
+λ3ld,其中λ1、λ2和λ3为权重,l
recon
为语音重构损失函数,l
vq
为语音内容特征损失函数,ld为分类损失函数;当总损失函数收敛时,得到目标语音转换模型。
104.需要说明的是,上述实施例所提供的装置与上述实施例所提供的方法属于同一构思,其中各个模块和单元执行操作的具体方式已经在方法实施例中进行了详细描述,此处不再赘述。
105.在一示例性实施例中,一种计算机设备,包括处理器和存储器,其中,存储器上存储有计算机可读指令,该计算机可读指令被处理器执行时实现如前所述的方法。
106.图7是根据一示例性实施例示出的一种计算机设备的结构示意图。
107.需要说明的是,该计算机设备只是一个适配于本技术的示例,不能认为是提供了对本技术的使用范围的任何限制。该计算机设备也不能解释为需要依赖于或者必须具有图7中示出的示例性的计算机设备中的一个或者多个组件。
108.如图7所示,在一示例性实施例中,计算机设备包括处理组件701、存储器702、电源组件703、多媒体组件704、音频组件705、传感器组件707和通信组件708。其中,上述组件并不全是必须的,计算机设备可以根据自身功能需求增加其他组件或减少某些组件,本实施例不作限定。
109.处理组件701通常控制计算机设备的整体操作,诸如与显示、数据通信以及日志数据处理相关联的操作等。处理组件701可以包括一个或多个处理器709来执行指令,以完成上述操作的全部或部分步骤。此外,处理组件701可以包括一个或多个模块,便于处理组件701和其他组件之间的交互。例如,处理组件701可以包括多媒体模块,以方便多媒体组件704和处理组件701之间的交互。
110.存储器702被配置为存储各种类型的数据以支持在计算机设备的操作,这些数据的示例包括用于在计算机设备上操作的任何应用程序或方法的指令。存储器702中存储有一个或多个模块,该一个或多个模块被配置成由该一个或多个处理器709执行,以完成上述实施例中所描述的方法中的全部或者部分步骤。
111.电源组件703为计算机设备的各种组件提供电力。电源组件703可以包括电源管理系统,一个或多个电源,及其他与为计算机设备生成、管理和分配电力相关联的组件。
112.多媒体组件704包括在计算机设备和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括tp(touch panel,触摸面板)和lcd(liquid crystal display,液晶显示器)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。
113.音频组件705被配置为输出和/或输入音频信号。例如,音频组件705包括一个麦克风,当计算机设备处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。在一些实施例中,音频组件705还包括一个扬声器,用于输出音频信号。
114.传感器组件707包括一个或多个传感器,用于为计算机设备提供各个方面的状态评估。例如,传感器组件707可以检测到计算机设备的打开/关闭状态,还可以检测计算机设
备的温度变化。
115.通信组件708被配置为便于计算机设备和其他设备之间有线或无线方式的通信。计算机设备可以接入基于通信标准的无线网络,例如wi-fi(wireless-fidelity,无线网络)。
116.可以理解,图7所示的结构仅为示意,计算机设备该可以包括比图7中所示更多或更少的组件,或者具有与图7所示不同的组件。图7中所示的各组件均可以采用硬件、软件或者其组合来实现。
117.在一示例性实施例中,一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如前所述的方法。该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的,也可以是单独存在,而未装配入该电子设备中。
118.需要说明的是,本技术实施例所示的计算机可读存储介质例如可以是电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(erasable programmable read only memory,eprom)、闪存、光纤、便携式紧凑磁盘只读存储器(compact disc read-only memory,cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本技术中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
119.本领域技术人员在考虑说明书及实践这里公开的实施方式后,将容易想到本技术的其它实施方案。本技术旨在涵盖本技术的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本技术的一般性原理并包括本技术未公开的本技术领域中的公知常识或惯用技术手段。
120.上述内容,仅为本技术的较佳示例性实施例,并非用于限制本技术的实施方案,本领域普通技术人员根据本技术的主要构思和精神,可以十分方便地进行相应的变通或修改,故本技术的保护范围应以权利要求书所要求的保护范围为准。