首页 > 乐器声学 专利正文
音色特征提取方法、装置、计算机设备及存储介质与流程

时间:2022-02-13 阅读: 作者:专利查询

音色特征提取方法、装置、计算机设备及存储介质与流程

1.本发明涉及人工智能领域,尤其涉及一种音色特征提取方法、装置、计算机设备及存储介质。


背景技术:

2.在日常生活中,诸如在驾驶导航、影视作品配音等领域均会应用到语音转换技术。语音转换,通常是指将一个人的语音转换成另外一个人的语音,例如,将驾驶导航中的男播音员的语音转换成司机喜爱的明星林某某的语音。
3.语音转换,实质上是在不改变语音内容的前提下,更换不同的说话人,即更换不同的音色。而现有技术中,通常是通过计算原有的连续语音变量与量化后的语音离散变量之间的差值,并多次重复计算以求得期望均值作为最终说话人的音色特征。
4.然而,上述音色特征获取方法所获得的音色特征并不能够很好地表征说话人的音色,从而导致语音转换的效果较差。


技术实现要素:

5.基于此,有必要针对上述技术问题,提供一种音色特征提取方法、装置、计算机设备及存储介质,以解决现有的语音转换技术所获得的音色特征不能很好地表征说话人的音色,从而导致语音转换的效果较差的问题。
6.一种音色特征提取方法,包括:
7.获取至少两个说话人的语音数据,其中,至少一个说话人的语音数据至少包括两条语音,所述语音数据与说话人标签信息关联;
8.将所述语音数据输入预设的双向循环神经网络,以将所述语音数据转换成连续向量,并将所述连续向量量化成语音文本内容离散向量,计算所述连续向量与所述语音文本内容离散向量的差值;
9.根据所述差值计算预设的目标优化函数的损失值;
10.当所述损失值未满足预设要求时,根据所述损失值调整所述双向循环神经网络的参数,并使用新的语音数据对已调整参数的双向循环神经网络进行训练;
11.当所述损失值满足预设要求时,将所述差值确定为与所述说话人标签信息关联的说话人音色特征信息。
12.一种音色特征提取装置,包括:
13.语音数据获取模块,用于获取至少两个说话人的语音数据,其中,至少一个说话人的语音数据至少包括两条语音,所述语音数据与说话人标签信息关联;
14.差值计算模块,用于将所述语音数据输入预设的双向循环神经网络,以将所述语音数据转换成连续向量,并将所述连续向量量化成语音文本内容离散向量,计算所述连续向量与所述语音文本内容离散向量的差值;
15.损失值计算模块,用于根据所述差值计算预设的目标优化函数的损失值;
16.训练模块,用于当所述损失值未满足预设要求时,根据所述损失值调整所述双向循环神经网络的参数,并使用新的语音数据对已调整参数的双向循环神经网络进行训练;
17.说话人音色特征信息确定模块,用于当所述损失值满足预设要求时,将所述差值确定为与所述说话人标签信息关联的说话人音色特征信息。
18.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现上述音色特征提取方法。
19.一个或多个存储有计算机可读指令的可读存储介质,所述计算机可读指令被一个或多个处理器执行时,使得所述一个或多个处理器执行如上述音色特征提取方法。
20.上述音色特征提取方法、装置、计算机设备及存储介质,通过获取至少两个说话人的语音数据,并将该语音数据输入预设的双向循环神经网络,以将该语音数据转换成连续向量,并将该连续向量量化成语音文本内容离散向量,计算该连续向量与该语音文本内容离散向量的差值,再根据该差值计算预设的目标优化函数的损失值;当损失值未满足预设要求时,根据损失值调整双向循环神经网络的参数,并使用新的语音数据对已调整参数的双向循环神经网络进行训练;当损失值满足预设要求时,将差值确定为与说话人标签信息关联的说话人音色特征信息。与传统的语音转换技术中的音色特征提取方式相比,本发明通过采用双向循环神经网络对语音数据进行处理,能够很好地将语音文本内容和说话人音色特征进行解耦,从而获得能够更好地表征说话人的音色,进而能够很好地提升语音转换的效果。
附图说明
21.为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
22.图1是本发明一实施例中音色特征提取方法的流程示意图;
23.图2是本发明一实施例中采用vq技术对语音训练数据进行矢量量化处理的流程示意图;
24.图3是本发明一实施例中语音转换模型的训练示意图;
25.图4是本发明一实施例中音色特征提取装置的结构示意图;
26.图5是本发明一实施例中计算机设备的示意图。
具体实施方式
27.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
28.人工智能是计算机科学的一个分支,该领域的研究包括机器人、语音(包括语音处理、语音识别、语音合成、说话人识别、语音转换等)、图像识别、自然语言处理和专家系统
等。本发明涉及到语音处理、语音合成、说话人音色特征提取、语音转换,所提出的音色特征提取方法通过采用双向循环神经网络对语音数据进行处理,能够很好地将语音文本内容和说话人音色特征进行解耦,从而获得能够更好地表征说话人的音色,进而能够很好地提升语音转换的效果。本发明的语音转换效果好且成本低,可应用于配音领域,例如,自媒体的自制创意视频的配音、动漫爱好者自制动画的配音、影视剧作品的配音等;有利于推动人工智能领域中的语音技术的不断革新发展,具有广阔的市场前景。
29.在一实施例中,如图1所示,提供一种音色特征提取方法,为了便于说明,图中仅示出与本实施例相关的部分,包括如下步骤:
30.步骤s10,获取至少两个说话人的语音数据;其中,至少一个说话人的语音数据至少包括两条语音,所述语音数据与说话人标签信息关联。
31.在本发明实施例中,通常语音中包括语音文本内容和说话人的音色特征信息(即说话人声音振动的波形(振动的规律))。例如,由说话人甲说“我爱我的家乡”,则会得到包括语音文本内容“我爱我的家乡”和说话人甲的音色特征信息的语音,即为说话人甲的语音数据。可以理解的,若由说话人乙来说“我爱我的家乡”,就会得到包括语音文本内容“我爱我的家乡”以及说话人乙的音色特征信息的语音,即为说话人乙的语音数据。一般地,不同的人发声的音色不同,因此,可以通过音色来辨识不同的人说的话语。
32.说话人标签信息,是指示说话人身份的信息,可以是文字标识、图形标识、数字标识、字母标识等。例如,说话人甲、说话人乙、说话人丙标签信息可以用“甲”、“乙”、“丙”三个文字分别表示这三个说话人的身份,也可以用数字“1”、“2”、“3”分别表示说话人甲、说话人乙、说话人丙这三个说话人的身份。
33.在本发明一实施例中,语音数据与说话人标签信息关联,可以是通过将语音数据和说话人标签信息进行一一对应存储,具体可以按照如下表1所示的对应关系将二者对应存储。
34.表1语音数据与说话人标签信息的对应关系表
35.语音数据说话人标签信息语音数据1说话人甲语音数据2说话人乙
……
36.在本发明另一实施例中,语音数据与说话人标签信息关联,还可以是每条语音数据携带有对应的说话人标签信息。例如,说话人甲说的语音数据携带有标识甲的身份信息“甲”的文字标签。
37.步骤s20,将所述语音数据输入预设的双向循环神经网络,以将所述语音数据转换成连续向量,并将所述连续向量量化成语音文本内容离散向量,计算所述连续向量与所述语音文本内容离散向量的差值。
38.在本发明实施例中,将语音数据转换成连续向量,具体可以是从语音数据中提取出梅尔频谱(mel频谱),该梅尔频谱存在潜在与之对应的编码向量(即连续向量),具体可以是一个长度为256维的一维数组,比如,(1.1,3.3,2.5,1.2,
……
)。从语音数据中提取出梅尔频谱可以采用本领域技术人员所熟知的提取技术,例如,对音频信号进行预加重、分帧和加窗处理,再对每帧信号进行短时傅立叶变换stft,得到短时幅度谱;再将短时幅度谱通过
mel滤波器组得到mel频谱。
39.语音文本内容离散向量,是通过查找码书,用最近的码书向量代替上述连续向量,所得到的离散向量。比如,上述的连续向量(1.1,3.3,2.5,1.2,
……
)所对应的码书为(1,3,2,1,
……
)。此时,可计算得上述连续向量与语音文本内容离散向量的差值为(0.1,0.3,05,0.2,
……
)。
40.在本发明的另一实施例中,可以在将语音数据输入预设的双向循环神经网络之前,先将语音数据转换成连续向量,并将连续向量量化成语音文本内容离散向量,然后再将连续向量和语音文本内容离散向量输入到双向循环神经网络,计算出连续向量与语音文本内容离散向量的差值。
41.在一示例性实施例中,所述语音数据包括第一语音、第二语音和第三语音;所述第一语音、第二语音与第一说话人标签信息关联,所述第三语音与第二说话人标签信息关联。
42.可以理解的,上述第一语音和第二语音对应的说话人均为第一说话人,第三语音对应的说话人为第二说话人。
43.在上述步骤s20中,所述将所述语音数据转换成连续向量,并将所述连续向量量化成语音文本内容离散向量,计算所述连续向量与所述语音文本内容离散向量的差值,包括:
44.将所述第一语音转换成第一连续向量,并将所述第一连续向量量化成第一语音文本内容离散向量,计算所述第一连续向量与所述第一语音文本内容离散向量的第一差值。
45.将所述第二语音转换成第二连续向量,并将所述第二连续向量量化成第二语音文本内容离散向量,计算所述第二连续向量与所述第二语音文本内容离散向量的第二差值。
46.将所述第三语音转换成第三连续向量,并将所述第三连续向量量化成第三语音文本内容离散向量,计算所述第三连续向量与所述第三语音文本内容离散向量的第三差值。
47.其中,上述第一差值、第二差值和第三差值的计算方法可参照上述实施例的连续向量与语音文本内容离散向量的差值的计算方法,在此不再赘述。
48.步骤s30,根据所述差值计算预设的目标优化函数的损失值。
49.在一实施例中,结合上述示例性实施例,根据所述第一差值、第二差值和第三差值计算预设的目标优化函数的损失值,其中,所述预设的目标优化函数为:
50.l=

(y1!=y2)‖s
a
(x1)

s
b
(x1)‖+(y1==y2)‖s
a
(x1)

s
a
(x2)‖;
51.其中,l为损失值;y1表示第一说话人;y2表示第二说话人;s
a
(x1)表示第一语音经预设的双向循环神经网络处理后得到的第一差值;s
a
(x2)表示第二语音经预设的双向循环神经网络处理后得到的第二差值;s
b
(x1)表示第三语音经预设的双向循环神经网络处理后得到的第三差值。
52.步骤s40,当所述损失值未满足预设要求时,根据所述损失值调整所述双向循环神经网络的参数,并使用新的语音数据对已调整参数的双向循环神经网络进行训练。
53.步骤s50,当所述损失值满足预设要求时,将所述差值确定为与所述说话人标签信息关联的说话人音色特征信息。
54.在本发明实施例中,预设要求通常是指损失值是否小于等于预设的阈值,例如,预设的阈值为0.1,0.3等。当上述损失值大于预设要求,则表示损失值未满足预设要求,否则,损失值满足预设要求。
55.在一实施例中,当损失值未满足预设要求时,根据损失值调整双向循环神经网络
的参数,继续向已调整参数的双向循环神经网络输入新的语音数据进行训练。其中,新的语音数据可以是从训练数据集中随机抽取的4或8条语音数据,随机抽取的语音数据条数可以根据实际需要确定,在此不做具体限定。新的语音数据可以是包括第一说话人和/或第二说话人的语音数据,也可以是其他说话人的语音数据。
56.当损失值未满足预设要求时,重复上述训练步骤,直至损失值满足预设要求为止。
57.在本发明实施例中,通过损失值对双向循环神经网络的参数进行调整,以期使同一说话人说不同句子的音色特征信息的差异尽可能小,不同说话人说同一句子的音色特征信息的差异尽可能大,从而得到能够很好地表征说话人的音色特征信息,进而提高语音转换的效果。
58.在一实施例中,上述步骤s50包括:
59.计算所述第一差值和第二差值的平均值,将所述平均值确定为与第一说话人标签信息关联的第一说话人音色特征信息。
60.将所述第三差值确定为与第二说话人标签信息关联的第二说话人音色特征信息。
61.作为一示例,当根据第一差值、第二差值和第三差值计算预设的目标优化函数的损失值满足预设要求时,计算所述第一差值和第二差值的平均值,并将该平均值确定为第一说话人音色特征信息。将第三差值确定为第二说话人音色特征信息。
62.作为另一示例,当根据第一差值、第二差值和第三差值计算预设的目标优化函数的损失值未满足预设要求时,根据当前计算所得的损失值对双向循环神经网络的参数进行调整,并继续向已调整参数的双向循环神经网络投入新的语音数据进行训练,得到新的损失值,判断该新的损失值是否满足预设要求,若满足,则输出与各个说话人标签信息对应的说话人音色特征信息。
63.在一实施例中,在上述步骤s50之后,还包括:
64.获取待转换的源语音数据和目标说话人标签信息。
65.获取所述说话人标签信息与说话人音色特征信息的对应关系,根据所述对应关系获取与所述目标说话人标签信息对应的目标说话人音色特征信息。
66.提取所述源语音数据的源语音文本内容离散向量,通过语音转换模型对所述源语音文本内容离散向量和所述目标说话人音色特征信息进行语音合成,得到目标语音数据。
67.其中,源语音数据通常是指未经转换的原始语音数据。目标说话人标签信息是指期望转换成的说话人的身份信息,例如,目标说话人为甲,则目标说话人标签信息可以是甲的名字或者代号。
68.在本发明实施例中,说话人标签信息与说话人音色特征信息的对应关系,具体是指说话人标签信息与说话人音色特征信息一一对应。例如,说话人甲的标签信息对应甲的音色特征信息,说话人乙的标签信息对应乙的音色特征信息。
69.作为一示例,可以预先构建说话人标签信息与说话人音色特征信息的对应关系表,如下表2所示。
70.表2说话人标签信息与说话人音色特征信息的对应关系表
[0071][0072][0073]
其中,目标说话人音色特征信息可根据目标说话人标签信息从上述对应关系表中查询获得。
[0074]
在本发明实施例中,提取所述源语音数据的源语音文本内容离散向量,可以参照上述“将所述语音数据转换成连续向量,并将所述连续向量量化成语音文本内容离散向量”的步骤,在此不再赘述。
[0075]
作为一示例,假设源语音数据为说话人甲说的一段语音,期望将该段语音中的甲的音色特征转换成乙的音色特征,从而得到目标语音数据,则可以根据上述方法先获取到说话人乙的音色特征信息,以及源语音文本内容离散向量,然后通过语音转换模型对该源语音文本内容离散向量和乙的音色特征信息进行语音合成,得到目标语音数据。
[0076]
在一实施例中,在根据所述源语音文本内容离散向量和所述目标说话人音色特征信息进行语音合成,得到目标语音数据之前,包括:
[0077]
获取若干语音训练数据,对所述若干语音训练数据进行矢量量化处理,得到若干训练语音文本内容离散向量;所述若干语音训练数据携带有训练说话人标签信息。
[0078]
获取与训练说话人标签信息对应的训练说话人音色特征信息。
[0079]
使用所述若干训练语音文本内容离散向量和所述训练说话人音色特征信息对预设的对抗生成网络进行训练,以获得所述语音转换模型。
[0080]
在一实施例中,对所述若干语音训练数据进行矢量量化处理,得到若干训练语音文本内容离散向量,包括:
[0081]
对所述若干语音训练数据进行归一化处理,得到若干训练语音连续向量。
[0082]
根据预设的码书,查找出与所述训练语音连续向量对应的训练语音文本内容离散向量。
[0083]
作为一示例,可以采用如图2所示的vq技术对若干语音训练数据进行矢量量化处理,具体的,将语音训练数据(即图2中的audio x)经由encoder(编码向量)变为latent code(离散向量)的大致过程如下:由于神经网络的特性,语音训练数据具有对应的潜在编码向量v(为连续向量),该编码向量为长度为256维的一维数组,将该编码向量输入输入层(即图2中的in)后,经in层进行归一化处理,得到归一化向量(即图2中的in(v)),再通过查找码书,找出与该归一化向量最近的码书,并用该码书代替该归一化向量,即可得到训练语音文本内容离散向量。
[0084]
在一实施例中,所述若干语音训练数据包括第一语音训练数据;所述训练说话人声音色特征信息包括第一训练说话人音色特征信息和第二训练说话人音色特征信息。
[0085]
所述使用所述若干训练语音文本内容离散向量和所述训练说话人音色特征信息对预设的对抗生成网络进行训练,以获得所述语音转换模型,包括:
[0086]
使用所述第一语音训练数据和所述第二训练说话人音色特征信息对预设的对抗生成网络的生成器进行训练,得到生成语音数据。
[0087]
使用所述第一语音训练数据和所述第一训练说话人音色特征信息对预设的解码器进行训练,得到重构语音数据。
[0088]
使用所述生成语音数据、所述重构语音数据以及所述若干语音训练数据对预设的对抗生成网络的鉴别器进行训练,完成训练后得到语音转换模型。
[0089]
作为一示例,可参照如图3所示的训练方法训练获得语音转换模型。具体的,图3中的目标说话人d_vector1为第二训练说话人音色特征信息,源说话人d_vector1为第一训练说话人音色特征信息,audio x为第一语音训练数据,latent code为第一语音训练数据经vq技术处理后的第一语音文本内容离散向量,generator为对抗生成网络的生成器,decoder为解码器,x1为重构语音数据,x2为生成语音数据,discriminator为对抗生成网络的鉴别器。
[0090]
具体的,在训练时,将第一语音文本内容离散向量同时投入decoder和generator,与此同时,始终给decoder投入第一训练说话人音色特征信息,获得生成语音数据;始终给generator投入第二训练说话人音色特征信息,获得重构语音数据;使用生成语音数据、重构语音数据以及若干语音训练数据对预设的对抗生成网络的鉴别器进行训练,以期得到如下鉴别结果:生成语音数据的鉴别结果为假,对应的说话人为第二训练说话人,重构语音数据的鉴别结果为假,对应的说话人为第一训练说话人,语音训练数据的鉴别结果为真,对应的说话人为一训练说话人。
[0091]
在本发明实施例中,按照上述训练方法可以规范化对抗生成网络的生成方法,降低语音转换模型的训练难度,并且能够提高模型的转换效果。
[0092]
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
[0093]
在一实施例中,提供一种音色特征提取装置,该音色特征提取装置与上述实施例中音色特征提取方法一一对应。如图4所示,该音色特征提取装置包括语音数据获取模块11、差值计算模块12、损失值计算模块13、训练模块14和说话人音色特征信息确定模块15。各功能模块详细说明如下:
[0094]
语音数据获取模块11,用于获取至少两个说话人的语音数据,其中,至少一个说话人的语音数据至少包括两条语音,所述语音数据与说话人标签信息关联。
[0095]
差值计算模块12,用于将所述语音数据输入预设的双向循环神经网络,以将所述语音数据转换成连续向量,并将所述连续向量量化成语音文本内容离散向量,计算所述连续向量与所述语音文本内容离散向量的差值。
[0096]
损失值计算模块13,用于根据所述差值计算预设的目标优化函数的损失值。
[0097]
训练模块14,用于当所述损失值未满足预设要求时,根据所述损失值调整所述双向循环神经网络的参数,并使用新的语音数据对已调整参数的双向循环神经网络进行训练。
[0098]
说话人音色特征信息确定模块15,用于当所述损失值满足预设要求时,将所述差值确定为与所述说话人标签信息关联的说话人音色特征信息。
[0099]
在一实施例中,所述语音数据包括第一语音、第二语音和第三语音;所述第一语音、第二语音与第一说话人标签信息关联,所述第三语音与第二说话人标签信息关联。
[0100]
上述差值计算模块12包括:第一差值计算单元、第二差值计算单元和第三差值计算单元。
[0101]
其中,第一差值计算单元,用于将所述第一语音转换成第一连续向量,并将所述第一连续向量量化成第一语音文本内容离散向量,计算所述第一连续向量与所述第一语音文本内容离散向量的第一差值。
[0102]
第二差值计算单元,用于将所述第二语音转换成第二连续向量,并将所述第二连续向量量化成第二语音文本内容离散向量,计算所述第二连续向量与所述第二语音文本内容离散向量的第二差值。
[0103]
第三差值计算单元,用于将所述第三语音转换成第三连续向量,并将所述第三连续向量量化成第三语音文本内容离散向量,计算所述第三连续向量与所述第三语音文本内容离散向量的第三差值。
[0104]
上述损失值计算模块13可用于:
[0105]
根据所述第一差值、第二差值和第三差值计算预设的目标优化函数的损失值,其中,所述预设的目标优化函数为:
[0106]
l=

(y1!=y2)‖s
a
(x1)

s
b
(x1)‖+(y1==y2)‖s
a
(x1)

s
a
(x2)‖;
[0107]
其中,l为损失值;y1表示第一说话人;y2表示第二说话人;s
a
(x1)表示第一语音经预设的双向循环神经网络处理后得到的第一差值;s
a
(x2)表示第二语音经预设的双向循环神经网络处理后得到的第二差值;s
b
(x1)表示第三语音经预设的双向循环神经网络处理后得到的第三差值。
[0108]
在一实施例中,上述训练模块14包括第一说话人音色特征信息确定单元和第二说话人音色特征信息确定单元。
[0109]
第一说话人音色特征信息确定单元,用于计算所述第一差值和第二差值的平均值,将所述平均值确定为与第一说话人标签信息关联的第一说话人音色特征信息;
[0110]
第二说话人音色特征信息确定单元,用于将所述第三差值确定为与第二说话人标签信息关联的第二说话人音色特征信息。
[0111]
在一实施例中,上述音色特征提取装置还包括:获取模块、目标说话人音色特征信息获取模块、语音合成模块。
[0112]
获取模块,用于获取待转换的源语音数据和目标说话人标签信息。
[0113]
目标说话人音色特征信息获取模块,用于获取所述说话人标签信息与说话人音色特征信息的对应关系,根据所述对应关系获取与所述目标说话人标签信息对应的目标说话人音色特征信息。
[0114]
语音合成模块,用于提取所述源语音数据的源语音文本内容离散向量,通过语音转换模型对所述源语音文本内容离散向量和所述目标说话人音色特征信息进行语音合成,得到目标语音数据。
[0115]
在一实施例中,上述音色特征提取装置还包括:语音训练数据获取模块、训练说话人音色特征信息获取模块、语音转换模型训练模块。
[0116]
其中,语音训练数据获取模块,用于获取若干语音训练数据,对所述若干语音训练
数据进行矢量量化处理,得到若干训练语音文本内容离散向量;所述若干语音训练数据携带有训练说话人标签信息。
[0117]
训练说话人音色特征信息获取模块,用于获取与训练说话人标签信息对应的训练说话人音色特征信息。
[0118]
语音转换模型训练模块,用于使用所述若干训练语音文本内容离散向量和所述训练说话人音色特征信息对预设的对抗生成网络进行训练,以获得所述语音转换模型。
[0119]
在一实施例中,所述若干语音训练数据包括第一语音训练数据;所述训练说话人声音色特征信息包括第一训练说话人音色特征信息和第二训练说话人音色特征信息。
[0120]
上述语音转换模型训练模块包括生成语音数据训练单元、重构语音数据训练单元、鉴别器训练单元。
[0121]
生成语音数据训练单元,用于使用所述第一语音训练数据和所述第二训练说话人音色特征信息对预设的对抗生成网络的生成器进行训练,得到生成语音数据。
[0122]
重构语音数据训练单元,用于使用所述第一语音训练数据和所述第一训练说话人音色特征信息对预设的解码器进行训练,得到重构语音数据。
[0123]
鉴别器训练单元,用于使用所述生成语音数据、所述重构语音数据以及所述若干语音训练数据对预设的对抗生成网络的鉴别器进行训练,完成训练后得到语音转换模型。
[0124]
在一实施例中,上述语音训练数据获取模块可用于:
[0125]
对所述若干语音训练数据进行归一化处理,得到若干训练语音连续向量。
[0126]
根据预设的码书,查找出与所述训练语音连续向量对应的训练语音文本内容离散向量。
[0127]
关于音色特征提取装置的具体限定可以参见上文中对于音色特征提取方法的限定,在此不再赘述。上述音色特征提取装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
[0128]
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括可读存储介质、内存储器。该可读存储介质存储有操作系统、计算机可读指令和数据库。该内存储器为可读存储介质中的操作系统和计算机可读指令的运行提供环境。该计算机设备的数据库用于存储音色特征提取方法所涉及的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机可读指令被处理器执行时以实现一种音色特征提取方法。本实施例所提供的可读存储介质包括非易失性可读存储介质和易失性可读存储介质。
[0129]
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可读指令,处理器执行计算机可读指令时实现以下步骤:
[0130]
获取至少两个说话人的语音数据;其中,至少一个说话人的语音数据至少包括两条语音,所述语音数据与说话人标签信息关联;
[0131]
将所述语音数据输入预设的双向循环神经网络,以将所述语音数据转换成连续向
量,并将所述连续向量量化成语音文本内容离散向量,计算所述连续向量与所述语音文本内容离散向量的差值;
[0132]
根据所述差值计算预设的目标优化函数的损失值;
[0133]
当所述损失值未满足预设要求时,根据所述损失值调整所述双向循环神经网络的参数,并使用新的语音数据对已调整参数的双向循环神经网络进行训练;
[0134]
当所述损失值满足预设要求时,将所述差值确定为与所述说话人标签信息关联的说话人音色特征信息。
[0135]
在一个实施例中,提供了一个或多个存储有计算机可读指令的计算机可读存储介质,本实施例所提供的可读存储介质包括非易失性可读存储介质和易失性可读存储介质。可读存储介质上存储有计算机可读指令,计算机可读指令被一个或多个处理器执行时实现以下步骤:
[0136]
获取至少两个说话人的语音数据;其中,至少一个说话人的语音数据至少包括两条语音,所述语音数据与说话人标签信息关联;
[0137]
将所述语音数据输入预设的双向循环神经网络,以将所述语音数据转换成连续向量,并将所述连续向量量化成语音文本内容离散向量,计算所述连续向量与所述语音文本内容离散向量的差值;
[0138]
根据所述差值计算预设的目标优化函数的损失值;
[0139]
当所述损失值未满足预设要求时,根据所述损失值调整所述双向循环神经网络的参数,并使用新的语音数据对已调整参数的双向循环神经网络进行训练;
[0140]
当所述损失值满足预设要求时,将所述差值确定为与所述说话人标签信息关联的说话人音色特征信息。
[0141]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指令相关的硬件来完成,所述的计算机可读指令可存储于一非易失性可读取存储介质或易失性可读存储介质中,该计算机可读指令在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
[0142]
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
[0143]
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改
或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。