首页 > 乐器声学 专利正文
语音转化方法、装置、设备及存储介质与流程

时间:2022-02-06 阅读: 作者:专利查询

语音转化方法、装置、设备及存储介质与流程

1.本技术涉及自然语言处理技术领域,尤其涉及一种语音转化方法、装置、设备及计算机可读存储介质。


背景技术:

2.目前,通过语音合成模型和声音克隆技术,能够将从通过语音合成模型输出的语音转化为特定说话人发出的声音,以满足个性化语音输出的要求,从而达到模拟某个人说话的目的。但在模型的语料训练数据比较少的时候,语音合成模型输出的语音与真实语音相似度不高。并且语音合成模型需要将输入文本数据进入模型,以基于文本生成特定的音频,无法实现实时通过说话人的语音转化为模拟另一个说话人的特定音频,音频的转换效率较慢。


技术实现要素:

3.本技术的主要目的在于提供一种语音转化方法、装置、设备及计算机可读存储介质,旨在提高语音转化模型的语音转化效率,以及提升语音转化模型生成语音的自然度和真实性。
4.第一方面,本技术提供一种语音转化方法,所述语音转化方法包括以下步骤:获取第一语音;
5.将所述第一语音输入训练好的语音转化模型的第一编码器,得到所述第一编码器输出的语音表达特征向量;
6.基于语言表达特征库,根据所述语言表达特征向量确定目标表达特征向量;
7.将所述第一语音输入所述语音转化模型的语音识别子模型,得到所述语音识别子模型输出的与所述第一语音对应的文本向量;
8.对所述目标表达特征向量和所述文本向量进行向量整合,得到第一整合语音向量;
9.将所述第一整合语音向量输入所述语音转化模型的语音生成子模型,得到所述语音生成子模型输出的第二语音。
10.第二方面,本技术还提供一种语音转化装置,所述语音转化装置包括:
11.第一语音获取模块,用于获取第一语音;
12.语音表达特征向量获取模块,用于将所述第一语音输入训练好的语音转化模型的第一编码器,得到所述第一编码器输出的语音表达特征向量;
13.目标表达特征向量确定模块,用于基于语言表达特征库,根据所述语言表达特征向量确定目标表达特征向量;
14.文本向量获取模块,用于将所述第一语音输入所述语音转化模型的语音识别子模型,得到所述语音识别子模型输出的与所述第一语音对应的文本向量;
15.向量整合模块,用于对所述目标表达特征向量和所述文本向量进行向量整合,得
到第一整合语音向量;
16.第二语音生成模块,用于将所述第一整合语音向量输入所述语音转化模型的语音生成子模型,得到所述语音生成子模型输出的第二语音。
17.第三方面,本技术还提供一种计算机设备,所述计算机设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序,其中所述计算机程序被所述处理器执行时,实现如上述的语音转化方法的步骤。
18.第四方面,本技术还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其中所述计算机程序被处理器执行时,实现如上述的语音转化方法的步骤。
19.本技术提供一种语音转化方法、装置、设备及计算机可读存储介质,本技术通过获取第一语音;将所述第一语音输入训练好的语音转化模型的第一编码器,得到所述第一编码器输出的语音表达特征向量;基于语言表达特征库,根据所述语言表达特征向量确定目标表达特征向量;将所述第一语音输入所述语音转化模型的语音识别子模型,得到所述语音识别子模型输出的与所述第一语音对应的文本向量;对所述目标表达特征向量和所述文本向量进行向量整合,得到第一整合语音向量;将所述第一整合语音向量输入所述语音转化模型的语音生成子模型,得到所述语音生成子模型输出的第二语音,通过语音转化模型的第一编码器、语音识别子模型以及语音生成子模型能够将第一语音转化为与第一语音表达方式不同的第二语音,能够实现实时对语音进行转化并有效提升了语音转化的速率;以及语言表达特征库中可以存储由多个历史语音对应的表达特征合成的表达特征,在较少语料训练数据的情况下能够有效提升语音转化模型生成语音的自然度和真实性。
附图说明
20.为了更清楚地说明本技术实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
21.图1为本技术实施例提供的一种语音转化方法的流程示意图;
22.图2为本技术一实施例提供的一种语音转化模型的示意性框图;
23.图3为本技术另一实施例提供的一种语音转化模型的示意性框图;
24.图4为本技术实施例提供的一种语音转化装置的示意性框图;
25.图5为本技术一实施例涉及的计算机设备的结构示意框图。
具体实施方式
26.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
27.附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。
28.本技术实施例提供一种语音转化方法、装置、计算机设备及计算机可读存储介质。其中,该语音转化方法可应用于终端设备中,该终端设备可以是平板电脑、笔记本电脑、台式电脑等电子设备。也可以应用于服务器中,该服务器可以是单独的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(content delivery network,cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。
29.下面结合附图,对本技术的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
30.请参照图1,图1为本技术的实施例提供的一种语音转化方法的流程示意图。
31.如图1所示,该语音转化方法包括步骤s101至步骤s106。
32.步骤s101、获取第一语音。
33.示例性的,第一语音可以是基于第一说话人的说话录制得到的语音,对第一说话人的语音进行声纹、音色、声调、断句的调整,以达到转化为特定说话人发出的声音或基于特定说话人的语言表达习惯进行表达,从而满足个性化语音输出的要求,在一些使用场景下,还可以有效保护第一说话人的私隐。
34.示例性的,可以通过语音获取装置获取第一语音,可以理解的,语音获取装置与终端设备或服务器通信连接,语音获取装置获取第一语音后,将第一语音发送给终端设备或服务器,在终端设备或服务器中对第一语音进行处理,以对第一语音的声调、语气、语速、断句位置、音色中的至少一项进行调整。
35.示例性的,还可以通过录音信息获取第一语音,可以理解的,录音信息是说话人预先录制好的语音,可以对录音信息进行处理,以更改录音信息中说话人的语音表达,从而达到转变语音表达的目的,实现语音转化。在一些需要提供语音样本的使用场景中,能够有效保护提供语音样本对应的说话人的私隐。
36.步骤s102、将所述第一语音输入训练好的语音转化模型的第一编码器,得到所述第一编码器输出的语音表达特征向量。
37.如图2所示,图2为本技术一实施例提供的一种语音转化模型的结构性框图,其中,语音转化模型包括第一编码器、语言表达特征库、语音识别子模型和语音生成子模型。
38.示例性的,语音转化模型能够实现对语音的转化,且训练好的语音转化模型能够存储在区块链中,以使有需要的终端进行调用。
39.本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
40.示例性的,将第一语音输入语音转化模型的第一编码器,以从第一语音中提取语言表达特征向量。
41.示例性的,第一编码器能够对第一语音进行编码处理,以从第一语音中提取到语言表达特征向量。可以理解的,语言表达特征向量用于指示说话人在说第一语音时的声调、语气、语速、断句位置、音色中的至少一项。例如,第一语音中的断句位置为:“我/是一个学
生”“/”表示在表达时断句的位置,经过语音转化模型处理后,输出的第二语音可以是“我是/一个/学生”从而达到改变第一语音的语言表达的目的。
42.示例性的,第一编码器在进行编码处理时,对第一语音中的不同声调、不同的断句位置进行不同的编码,如文字发第二声调,可以编码为“2”,进行断句的位置可以加入符号
“‑”
,音色可以对应字母的编码,例如a,如获取到第一语音后,得到第一语音对应的语言表达特征向量。
43.示例性的,通过对第一语音对应的语言表达特征向量进行处理,可以改变第一语音,从而达到语音转化的目的。例如,可以是对语言表达特征向量进行修改,或替换第一语音对应的语言表达特征向量,以改变第一语音。
44.步骤s103、基于语言表达特征库,根据所述语言表达特征向量确定目标表达特征向量。
45.示例性的,可以通过用户设置的语言表达相似度,根据语言表达特征向量确定目标表达特征向量,例如,设置为相似度不超过20%,可以通过语言表达特征向量在语言表达特征库中筛选与语言表达特征向量的相似度不超过20%的表达特征向量,并在筛选出来的语言表达特征向量中确定目标表达特征向量。
46.示例性的,相似度可以是两个向量的向量差的模,与从第一语音提取到的语言表达特征向量的模的比值计算得到的。
47.可以理解的,语言表达特征库中存有多个说话人对应的表达特征或同个说话人不同的表达特征,可以是通过历史语音获取的语言表达特征,并保存在语言表达特征库中;也可以是通过至少两个历史语音获取的语言表达特征进行合成的语言表达特征。可以理解的,若用户希望将第一语音转化为指定人的第二语音,可以在语言表达特征库中寻找指定人对应的表达特征对第一语音进行处理;若用户只需保护第一语音的对应的说话人的信息,可以在语言表达特征库中寻找合成的语言表达特征对第一语音进行处理。
48.示例性的,通过至少两个历史语音获取的语言表达特征进行合成,可以有效在语音样本较少的时候,得到较多的语言表达特征,且得到的语言表达特征的真实性较高,从而提高语音合成后得到的语音的相似度和自然度,达到降低对语音样本依赖的目的。
49.在一些实施例中,所述语言表达特征库包括多个表达特征向量,所述基于语言表达特征库,根据所述语言表达特征向量确定目标表达特征向量,包括:计算所述语言表达特征向量与所述语言表达特征库中各个所述表达特征向量的向量差;响应于输入指令,确定向量差范围;确定所述向量差大小在所述向量差范围内的表达特征向量为目标表达特征向量。
50.示例性的,通过语言表达特征向量,遍历语言表达特征库中的所有表达特征向量,其中,遍历的时候对语言表达特征向量和表达特征向量进行向量差的计算,得到语言表达特征向量与语言表达特征库中的每一个表达特征向量的向量差。
51.示例性的,响应于输入指令,确定向量差范围,以及确定向量差大小在所述向量差范围内的表达特征向量为目标表达特征向量。
52.可以理解的,向量差用于表示第一语音的表达特征的第二语音的表达特征差别程度,第一语音与第二语音的差别程度越大,向量差越大。
53.示例性的,语言表达特征向量还包括多个音素向量元,在用户需要较为精准地调
整第一语音时,可以通过调整第一语音中语言表达特征向量的每一个音素向量元,即确定语言表达特征向量中的每一个音素向量元与表达特征向量中每一个对应的音素向量元的向量差,以确定目标表达向量,从而达到精准调整第一语音的目的。
54.例如,响应于用户输入的语速调整指令,确定第一语音的表达特征向量中语速对应的音素向量元,根据第一语音提取的语言表达特征向量和语言表达特征库中的表达特征向量确定目标表达特征向量,例如,若第一语音的语速为240音节/分钟,期望调整后达到300音节/分钟,响应于输入的300音节/分钟,确定语速对应的音素向量元的向量差范围为大于60,在语言表达特征库中计算与语言表达特征向量中语速音素向量元的向量差,并将向量差大于60的表达特征向量确定为目标表达特征向量。可以理解的,其他语言表达特征对应的音素向量元,如声调、音色等均可按照上述实施过程进行实施,在此不予撰述。上述对语速的调整为示例性举例说明,对语速的调整具体实施方式不予限定。
55.步骤s104、将所述第一语音输入所述语音转化模型的语音识别子模型,得到所述语音识别子模型输出的与所述第一语音对应的文本向量。
56.示例性的,将第一语音输入语音转化模型中的语音识别子模型,以对第一语音进行语音识别,得到第一语音对应的文本向量,可以理解的,文本向量用于指示第一语音中说话的字词。
57.在一些实施例中,所述语音识别子模型包括卷积层和时序分类层,所述将所述第一语音输入所述语音转化模型的语音子模型,得到所述语音识别子模型输出的与所述第一语音对应的文本向量,包括:将所述第一语音输入所述卷积层进行特征提取处理,得到第一语音的语音向量;将所述第一语音的语音向量输入所述时序分类层进行转换处理,得到与所述第一语音对应的文本向量。
58.示例性的,基于人工智能的网络对语音完成识别,以得到第一语音对应的文本向量。
59.示例性的,语音识别子模型包括多个批标准化的卷积层、pw(pointwise)卷积层和时序分类层(connectionist temporal classification),输入的第一语音先通过具有批标准化的卷积层转变为高维向量,其中,每一个卷积层均与批标准化层和线性整流连接,第一语音进入卷积层后进行向量特征提取,得到第一语音的语音向量,然后通过与卷积层连接的批标准化层进行数据批量标准化,具体的,在批标准化层中计算语音向量的均值和方差,根据均值和方差对向量进行正态化处理,根据批标准化层的参数和正态化处理之后的向量对输入的语音向量的值进行更新,从而得到更新后的语音向量,避免了梯度消失与梯度爆炸的问题,将更新后的语音向量输入到线性整流函数(relu)中,进行线性整流之后输出语音向量,并将批标准化的卷积层输出的语音向量输入至pw(pointwise)卷积层。
60.示例性的,在pw(pointwise)卷积层的卷积核的尺寸为1*1*m,m为上一层的通道数,在pw(pointwise)卷积层中会将从具有批标准化的卷积层输出的语音向量在深度方向上进行加权组合,得到pw(pointwise)卷积层的输出,pw(pointwise)卷积层的层数可以比常规卷积层数更多,运算速率更快。
61.示例性的,经过pw(pointwise)卷积层处理后进入时序分类层(connectionist temporal classification)进行第一语音对应的文本的生成,ctc处理例如定义输入的时间步为t,每个时间步上的特征维度记作m,则可以得到x=(x1,x2,...,xt)、xt=(xt1,
xt2,...,xtm)。同样的,每个输出的时间步也为t,与输入一一对应,每个时间步输出的特征维度记作n,可以得到y=(y1,y2,...,yt)、yt=(yt1,yt2,...,ytn),假设第一语音为英文,在文本向量中有些位置可能没有字符,定义
“‑”
作为空白符加入字符集合中,则每个时间步输出维度为27,也即是27个字符在这个时间步上输出的概率,根据这些概率进行选取,每个时间步选取一个元素,就可以得到输出序列,定义一个b变换,对输出序列进行变换,变换成真实输出(比如下例中的state),把连续的相同字符删减为1个,并删去空白符,得到文本向量。例如,输出序列为π=(
‑‑
stta

t
‑‑‑
e),经b变换处理后得到单词state。
62.示例性的,对于其中一个真实输出,有多个输出序列可以通过b转换得到,若逐条遍历求得,会存在n的t次方种可能,为了增加计算速度,时序分类层(connectionist temporal classification)可以使用前向

后向算法来计算。
63.通过语音处理模型中的语音识别子模型对第一语音进行识别得到对应的文本向量,以通过目标表达特征向量和文本向量生成第二语音,且通过语音识别子模型的时序分类层,可以有效识别出第一语音中的每个音节/字词,以使目标表达特征向量能够对文本中的每个音节/字词进行整合,得到的第二语音更加接近真实语音。
64.s105、对所述目标表达特征向量和所述文本向量进行向量整合,得到第一整合语音向量。
65.示例性的,对目标表达特征向量和文本向量进行向量整合,可以得到第一整合向量,第一整合向量可以是携带语言表达特征的文本向量,对第一整合语音向量进行语音合成,以生成第二语音。
66.在一些实施例中,所述语音转化模型还包括第一解码器,所述对所述目表达特征向量和所述文本向量进行向量整合,得到第一整合语音向量,包括:将所述目标表达特征向量以及所述文本向量输入第一解码器进行向量对齐,得到对齐后的目标表达特征向量和文本向量;将对齐后的目标表达特征向量和文本向量进行合并,得到第二语音的语音向量。
67.示例性的,第一解码器与语音识别子模型、以及语言表达特征库连接,第一解码器获取语音识别子模型输出的第一语音对应的文本向量,以及获取语言表达特征库输出的目标表达特征向量,对文本向量和目标表达特征向量进行向量整合,向量整合可以例如是向量合并,以得到第一整合语音向量,可以理解的,第一整合语音向量可以是包括语言表达特征的文本向量,基于人工智能的网络对第一整合语音向量进行语音合成,可以生成第二语音。
68.示例性的,在对目标表达特征向量和文本向量进行向量整合之前,对目标表达特征向量和文本向量进行对齐处理,可以理解的,对齐处理为文本向量中的每一个向量元均有对应的目标表达特征向量,从而提升生成的第二语音的真实性。
69.s106、将所述第一整合语音向量输入所述语音转化模型的语音生成子模型,得到所述语音生成子模型输出的第二语音。
70.示例性的,语音生成子模型与第一解码器连接,用于获取第一解码器输出的第一整合语音向量,并对第一整合语音向量进行语音合成,得到第二语音并进行输出。
71.可以理解的,可以将第二语音输出至目标终端,或通过语音播放装置播放第二语音。若通过语音播放装置播放第二语音,可以实现实时对说话人的第一语音进行转化,以使听众听到是的转化之后得到的第二语音,可以有效保护说话人的隐私。
72.在一些实施例中,所述语音生成子模型包括声谱预测网络和声码器,所述将所述第二语音的语音向量输入所述语音转化模型的语音生成子模型,得到所述第二语音,包括:将所述第二语音的语音向量输入所述声谱预测网络,进行特征预测得到所述第二语音的语音向量的梅尔频谱;将所述第二语音的语音向量的梅尔频谱输入所述声码器,进行卷积处理得到所述第二语音。
73.示例性的,声谱预测网络可以通过第一整合语音向量来预测得到第二语音的梅尔频谱,可以理解的,第一整合语音向量通过短时傅里叶变换(stft)可以得到声谱图,梅尔频谱则是声谱图经梅尔滤波器处理后得到的。通常情况下,人耳对低频音调的感知较灵敏,在高频时人耳是很迟钝的,梅尔频谱能够分析出声波低频率中的细节,恰好对应了频率越高人耳越迟钝的客观规律,且较于声谱图大小更为合适,可以有效提升计算机的处理速度。
74.示例性的,声谱预测网络中还包括prenet层、lstm层、投影层和post

net层,将第二语音的语音向量输入第二解码器,解码过程从输入上一步的输出语音向量开始,通过prenet的输出和使用上一个解码步输出计算而得的上下文向量(context vector)做拼接后通过一个2层的单向lstm层,计算得到新的上下文向量,然后新的上下文向量(context vector)与单向lstm层的输出做拼接,送入投影层(linear projection)以预测输出,并通过线性转换得到第二语音的语音向量对应的梅尔频谱。
75.输出的梅尔频谱要通过一个5层卷积的post

net,post

net预测了残差,并加入到预测结果当中,来提升总体的效果,示例性的,每一个post

net是由512个滤波器组成。
76.经过post

net处理后的梅尔频谱进入声码器,声码器是一个波浪网络,可以通过扩大卷积对梅尔频谱进行处理,最终输出第二语音。
77.在一些实施例中,所述方法还包括:获取训练数据,所述训练数据包括多个第三语音和各所述第三语音对应的文本;根据所述训练数据对所述语音转化模型进行训练,得到训练好的语音转化模型。
78.示例性的,可以通过训练数据来对语音转化模型进行训练,以调整语音转化模型中的参数,可以理解的,调整后的语音转化模型合成输出的语音的真实性更高,提升听众的听觉体验感。
79.示例性的,可以获取多个第三语音,以及各个第三语音对应的文本,第三语音可以例如是历史输入到语音转化模型中的语音,获取到存储许可权限后,对输入到语音转化模型的语音进行存储。第三语音还可以是从服务器或区块链中获取的,可以理解的,获取第三语音时,对应获取第三语音的文本,以通过第三语音以及第三语音对应的文本对语音转化模型进行训练。
80.在一些实施例中,所述方法还包括:将所述第三语音输入所述语音识别子模型的卷积层中,得到所述卷积层输出的第三语音的语音向量;将所述第三语音的语音向量分割成预设数量的帧,其中,每一帧语音向量包括多个音素向量单元,预设数量为大于0的自然数;对每一帧语音向量中的多个音素向量单元进行聚类,得到多个聚类中心;计算每一帧语音向量与各所述聚类中心的距离;根据每一帧语音向量到各所述聚类中心的距离确定每一帧语音向量的权重。
81.示例性的,将第三语音输入语音识别子模型的卷积层,可以得到第三语音的语音向量,其中,语音向量包括多个音素向量元,可以理解的,音素向量元可以用于指示语音中
的每一个字的表达特征,例如声调、音色、声速以及是否停顿。
82.示例性的,将第三语音的语音向量分割成预设数量的帧,例如按照预设时间段对第三语音的语音向量进行分割,可以理解的,分割之后得到的每一帧语音向量包括多个音素向量单元。
83.示例性的,对每一帧语音向量的多个音素向量单元进行聚类,得到多个聚类中心,例如用x
t
表示一帧语音向量,则x
t
=(x1,x2,

x
t
),x1表示音素向量元,t表示序列长度,用于指示第三语音的语音向量分割得到的帧数量,通过对多个音素向量元进行聚类,得到多个聚类中心。
84.示例性的,计算每一帧语音向量到各个聚类中心的距离,并通过各个聚类中心的距离确定每一帧语音向量对应的权重,例如可以设定一个目标聚类中心,计算每一帧的语音向量到目标聚类中心以及其余聚类中心的距离,通过当前帧语音向量到其余聚类中心的距离和与当前帧语音向量到目标聚类中心的距离的比值,确定当前帧语音向量的权重,例如第a帧语音向量到目标聚类中心距离为10,到其余聚类中心的距离和为5,确定第a帧语音向量的权重为50%。可以理解的,上述确定语音向量的权重的方法为示例性举例,不对每一帧语音向量的权重确定予以限定。
85.示例性的,确定每一帧语音向量的权重之后,根据每一帧语音向量的权重,第三语音的语音向量和文本对语音转化模型进行训练,以在训练时更加关注权重高的一帧语音向量中所包含的音素向量元,从而达到更好的训练效果。
86.在一些实施例中,所述语音转化模型还包括第二编码器,所述根据所述每一帧语音向量的权重、所述第三语音的语音向量和所述文本对所述语音转化模型进行训练,包括:将所述文本输入所述第二编码器,得到文本序列向量;确定目标表达特征向量,对所述文本序列向量和所述目标表达特征向量进行向量整合,得到第二整合语音向量;将所述第二整合语音向量、所述第三语音的语音向量和所述第三语音的语音向量中每一帧对应的权重输入所述第二解码器,通过预设公式计算偏差值;根据所述偏差值调整所述语音转化模型的参数,得到训练好的语音转化模型。
87.示例性的,如图3所示,图3为本技术另一实施例提供的一种语音转化模型的示意性框图,其中,语音转化模型还包括第二编码器,第二编码器与解码器连接,用于将文本进行向量化处理。可以理解的,图中并未示出计算第三语音的语音向量中每一帧对应权重的结构。在语音转化模型中,应当存在能够计算第三语音的语音向量中每一帧对应权重的结构。
88.示例性的,在语言表达特征库中确定目标表达特征向量,并在第一解码器中对目标表达特征向量和文本序列向量进行整合,得到第二整合语音向量,例如,可以通过用于期望的语音输出结果在语言表达特征库中确定目标表达特征向量。
89.示例性的,通过将第三语音的语音向量中每一帧对应的权重,对第三语音的语音向量进行更新,得到更新后的语音向量,可以通过第二整合语音向量与更新后的语音向量计算偏差值,若偏差值小于预设差值,则表示语音转化模型训练完成;若偏差值不小于预设差值,则对语音转化模型的参数进行调整。
90.示例性的,预设公式可以如下式:
[0091][0092]
其中,l(x,y)为偏差值,w
t
为第t帧语音向量对应的权重,y
i
为所述第二整合语音向量,x
i
为所述第三语音的语音向量,n为所述第三语音的语音向量中音素向量元的数量。
[0093]
通过预设公式得到偏差值后,判断所述偏差值是否小于预设差值,其中,预设差值可以根据从第三语音中提取的语音表达特征向量和目标表达特征向量确定的。
[0094]
可以理解的,通过计算偏差值对语音转化模型进行调整,可以提高语音转化模型进行语音转化后得到语音的真实性和自然度。以及能够更加接近特定说话人的表达习惯。
[0095]
上述实施例提供的语音转化方法,通过语音转化模型的第一编码器、语音识别子模型以及语音生成子模型能够将第一语音转化为与第一语音表达方式不同的第二语音,能够实时实现对语音进行转化,并提高了语音的转化效率,以及语言表达特征库中可以存储由多个历史语音对应的表达特征合成的表达特征,因而在较少语料训练数据的情况下能够保证语音转化模型生成语音的自然度和真实性。
[0096]
请参阅图4,图4是本技术一实施例提供的一种语音转化装置的示意图,该语音转化装置可以配置于服务器或终端中,用于执行前述的语音转化方法。
[0097]
如图4所示,该语音转化装置,包括:第一语音获取模块110、语音表达特征向量获取模块120、目标表达特征向量确定模块130、文本向量获取模块140、向量整合模块150、第二语音生成模块160。
[0098]
第一语音获取模块110,用于获取第一语音。
[0099]
语音表达特征向量获取模块120,用于将所述第一语音输入训练好的语音转化模型的第一编码器,得到所述第一编码器输出的语音表达特征向量。
[0100]
目标表达特征向量确定模块130,用于基于语言表达特征库,根据所述语言表达特征向量确定目标表达特征向量。
[0101]
文本向量获取模块140,用于将所述第一语音输入所述语音转化模型的语音识别子模型,得到所述语音识别子模型输出的与所述第一语音对应的文本向量。
[0102]
向量整合模块150,用于对所述目标表达特征向量和所述文本向量进行向量整合,得到第一整合语音向量。
[0103]
第二语音生成模块160,用于将所述第一整合语音向量输入所述语音转化模型的语音生成子模型,得到所述语音生成子模型输出的第二语音。
[0104]
示例性的,目标表达特征向量确定模块130还包括向量差计算子模块、向量差范围确定子模块。
[0105]
向量差计算子模块,用于计算所述语言表达特征向量与所述语言表达特征库中各个所述表达特征向量的向量差。
[0106]
向量差范围确定子模块,用于响应于输入指令,确定向量差范围。
[0107]
目标表达特征向量确定模块130,还用于确定所述向量差大小为预设向量差阈值的表达特征向量为目标表达特征向量。
[0108]
示例性的,向量整合模块150还包括解码器子模块、向量合并子模块。
[0109]
解码器子模块,用于将所述目标表达特征向量以及所述文本向量输入第一解码器
进行向量对齐,得到对齐后的目标表达特征向量和文本向量。
[0110]
向量合并子模块,用于将对齐后的目标表达特征向量和文本向量进行合并,得到第二语音的语音向量。
[0111]
示例性的,文本向量获取模块140还包括卷积层子模块、时序分类层子模块。
[0112]
卷积层子模块,用于将所述第一语音输入所述卷积层进行特征提取处理,得到第一语音的语音向量。
[0113]
时序分类层子模块,用于将所述第一语音的语音向量输入所述时序分类层进行转换处理,得到与所述第一语音对应的文本向量。
[0114]
示例性的,语音转化装置还包括训练数据获取模块、模型训练模块。
[0115]
训练数据获取模块,用于获取训练数据,所述训练数据包括多个第三语音和各所述第三语音对应的文本。
[0116]
模型训练模块,用于根据所述训练数据对所述语音转化模型进行训练,得到训练好的语音转化模型。
[0117]
示例性的,语音转化装置还包括第三语音的语音向量确定模块、语音向量分割模块、聚类中心确定模块、聚类中心距离确定模块、权重确定模块。
[0118]
第三语音的语音向量确定模块,用于将所述第三语音输入所述语音识别子模型的卷积层中,得到所述卷积层输出的第三语音的语音向量。
[0119]
语音向量分割模块,用于将所述第三语音的语音向量分割成预设数量的帧,其中,每一帧语音向量包括多个音素向量单元,预设数量为大于0的自然数。
[0120]
聚类中心确定模块,用于对每一帧语音向量中的多个音素向量单元进行聚类,得到多个聚类中心。
[0121]
聚类中心距离确定模块,用于计算每一帧语音向量与各所述聚类中心的距离。
[0122]
权重确定模块,用于根据每一帧语音向量到各所述聚类中心的距离确定每一帧语音向量的权重。
[0123]
模型训练模块,还用于根据所述每一帧语音向量的权重、所述第三语音的语音向量和所述文本对所述语音转化模型进行训练。
[0124]
示例性的,模型训练模块还包括第二编码器子模块、第二整合语音向量确定子模块,模型参数调整子模块。
[0125]
第二编码器子模块,用于将所述文本输入所述第二编码器,得到文本序列向量。
[0126]
第二整合语音向量确定子模块,用于确定目标表达特征向量,对所述文本序列向量和所述目标表达特征向量进行向量整合,得到第二整合语音向量。
[0127]
解码器子模块,还用于将所述第二整合语音向量、所述第三语音的语音向量和所述第三语音的语音向量中每一帧对应的权重输入所述第二解码器,通过预设公式计算偏差值。
[0128]
模型参数调整子模块,用于根据所述偏差值调整所述语音转化模型的参数,得到训练好的语音转化模型。
[0129]
需要说明的是,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的装置和各模块、单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0130]
本技术的方法,可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络pc、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本技术可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本技术,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
[0131]
示例性地,上述的方法、装置可以实现为一种计算机程序的形式,该计算机程序可以在如图5所示的计算机设备上运行。
[0132]
请参阅图5,图5为本技术实施例提供的一种计算机设备的结构示意性框图。该计算机设备可以为服务器或终端。
[0133]
如图5所示,该计算机设备包括通过系统总线连接的处理器、存储器和网络接口,其中,存储器可以包括存储介质和内存储器。
[0134]
存储介质可存储操作系统和计算机程序。该计算机程序包括程序指令,该程序指令被执行时,可使得处理器执行任意一种语音转化方法。
[0135]
处理器用于提供计算和控制能力,支撑整个计算机设备的运行。
[0136]
内存储器为存储介质中的计算机程序的运行提供环境,该计算机程序被处理器执行时,可使得处理器执行任意一种语音转化方法。
[0137]
该网络接口用于进行网络通信,如发送分配的任务等。本领域技术人员可以理解,图5中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
[0138]
应当理解的是,处理器可以是中央处理单元(central processing unit,cpu),该处理器还可以是其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field

programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0139]
其中,在一个实施例中,所述处理器用于运行存储在存储器中的计算机程序,以实现如下步骤:
[0140]
获取第一语音;
[0141]
将所述第一语音输入训练好的语音转化模型的第一编码器,得到所述第一编码器输出的语言表达特征向量;
[0142]
基于语言表达特征库,根据所述语言表达特征向量确定目标表达特征向量;
[0143]
将所述第一语音输入所述语音转化模型的语音识别子模型,得到所述语音识别子模型输出的与所述第一语音对应的文本向量;
[0144]
对所述目标表达特征向量和所述文本向量进行向量整合,得到第一整合语音向量;
[0145]
将所述第一整合语音向量输入所述语音转化模型的语音生成子模型,得到所述语音生成子模型输出的第二语音。
[0146]
在一个实施例中,所述处理器在实现基于语言表达特征库,根据所述语言表达特征向量确定目标表达特征向量时,用于实现:
[0147]
计算所述语言表达特征向量与所述语言表达特征库中各个所述表达特征向量的向量差;
[0148]
响应于输入指令,确定向量差范围;
[0149]
确定所述向量差大小在所述向量差范围内的表达特征向量为目标表达特征向量。
[0150]
在一个实施例中,所述处理器在实现对所述目标表达特征向量和所述文本向量进行向量整合,得到第一整合语音向量时,用于实现:
[0151]
将所述目标表达特征向量以及所述文本向量输入所述语音转化模型的解码器进行向量对齐,得到对齐后的目标表达特征向量和文本向量;
[0152]
将对齐后的目标表达特征向量和文本向量进行合并,得到第二语音的语音向量。
[0153]
在一个实施例中,所述处理器在实现将所述第一语音输入所述语音转化模型的语音识别子模型,得到所述语音识别子模型输出的与所述第一语音对应的文本向量时,用于实现:
[0154]
将所述第一语音输入所述语音识别子模型的卷积层进行特征提取处理,得到第一语音的语音向量;
[0155]
将所述第一语音的语音向量输入所述语音识别子模型的时序分类层进行转换处理,得到与所述第一语音对应的文本向量。
[0156]
在一个实施例中,所述处理器在实现语音转化方法时,用于实现:
[0157]
获取训练数据,所述训练数据包括多个第三语音和各所述第三语音对应的文本;
[0158]
根据所述训练数据对所述语音转化模型进行训练,得到训练好的语音转化模型。
[0159]
在一个实施例中,所述处理器在实现语音转化方法时,用于实现:
[0160]
将所述第三语音输入所述语音识别子模型的卷积层中,得到所述卷积层输出的第三语音的语音向量;
[0161]
将所述第三语音的语音向量分割成预设数量的帧,其中,每一帧语音向量包括多个音素向量单元,预设数量为大于0的自然数;
[0162]
对每一帧语音向量中的多个音素向量单元进行聚类,得到多个聚类中心;
[0163]
计算每一帧语音向量与各所述聚类中心的距离;
[0164]
根据每一帧语音向量到各所述聚类中心的距离确定每一帧语音向量的权重;
[0165]
所述处理器在实现根据所述训练数据对所述语音转化模型进行训练,得到训练好的语音转化模型时,用于实现:
[0166]
根据所述每一帧语音向量的权重、所述第三语音的语音向量和所述文本对所述语音转化模型进行训练。
[0167]
在一个实施例中,所述处理器在实现根据所述每一帧语音向量的权重、所述第三语音的语音向量和所述文本对所述语音转化模型进行训练时,用于实现:
[0168]
将所述文本输入所述语音转化模型的第二编码器,得到文本序列向量;
[0169]
确定目标表达特征向量,对所述文本序列向量和所述目标表达特征向量进行向量
整合,得到第二整合语音向量;
[0170]
将所述第二整合语音向量、所述第三语音的语音向量和所述第三语音的语音向量中每一帧对应的权重输入所述语音转化模型的解码器,通过预设公式计算偏差值;
[0171]
根据所述偏差值调整所述语音转化模型的参数,得到训练好的语音转化模型。
[0172]
需要说明的是,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述语音转化的具体工作过程,可以参考前述语音转化控制方法实施例中的对应过程,在此不再赘述。
[0173]
本技术实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序中包括程序指令,所述程序指令被执行时所实现的方法可参照本技术语音转化方法的各个实施例。
[0174]
其中,所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元,例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备,例如所述计算机设备上配备的插接式硬盘,智能存储卡(smart media card,smc),安全数字(secure digital,sd)卡,闪存卡(flash card)等。
[0175]
应当理解,在此本技术说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本技术。如在本技术说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
[0176]
还应当理解,在本技术说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
[0177]
上述本技术实施例序号仅仅为了描述,不代表实施例的优劣。以上所述,仅为本技术的具体实施方式,但本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应以权利要求的保护范围为准。