首页 > 乐器声学 专利正文
模型训练方法及装置、语音唤醒方法及装置与流程

时间:2022-02-15 阅读: 作者:专利查询

模型训练方法及装置、语音唤醒方法及装置与流程

1.本技术属于数据处理技术领域,具体涉及一种模型训练方法及装置、语音唤醒方法及装置、电子设备和可读存储介质。


背景技术:

2.目前,语音交互已成为人机交互的一种重要形式。其中,语音唤醒功能作为语音交互的入口,成功应用于各种不同类型的电子设备,例如包括智能音箱、智能手机、智能家居设备、智能车载设备等等。
3.例如,用户通过指定的唤醒词,可以成功唤醒智能音箱,从而可以通过语音控制音箱播放音频;又如,用户通过指定的唤醒词,可以成功唤醒手机,从而可以通过语音控制手机拨打电话。
4.在现有技术中,经常会出现因语音判断不准确,导致唤不醒或者误唤醒等现象发生。


技术实现要素:

5.本技术实施例的目的是提供一种模型训练方法,能够解决在现有技术中,经常会出现因语音判断不准确,导致唤不醒或者误唤醒等现象发生的问题。
6.第一方面,本技术实施例提供了一种模型训练方法,该方法包括:获取音频训练数据的第一特征信息,所述音频训练数据包括唤醒音频和非唤醒音频;通过待训练的声学模型、生成对抗网络模型,以及所述第一特征信息,输出所述音频训练数据的音素信息和语义信息;通过待训练的所述生成对抗网络模型,以及所述音素信息、所述语义信息,输出所述音频训练数据的第二特征信息;根据所述第一特征信息和所述第二特征信息,对所述声学模型和所述生成对抗网络模型进行训练。
7.第二方面,本技术实施例提供了一种语音唤醒方法,该方法包括:获取第一音频的第三特征信息;通过所述声学模型、以及所述第三特征信息,输出所述第一音频的第一音素信息;在所述第一音素信息与所述唤醒音频的预设音素信息匹配的情况下,输出唤醒指令;其中,所述声学模型是由第一方面所述模型训练方法训练得到的。
8.第三方面,本技术实施例提供了一种模型训练装置,该装置包括:第一获取模块,用于获取音频训练数据的第一特征信息,所述音频训练数据包括唤醒音频和非唤醒音频;第一输出模块,用于通过待训练的声学模型、生成对抗网络模型,以及所述第一特征信息,输出所述音频训练数据的音素信息和语义信息;第二输出模块,用于通过待训练的所述生成对抗网络模型,以及所述音素信息、所述语义信息,输出所述音频训练数据的第二特征信息;训练模块,用于根据所述第一特征信息和所述第二特征信息,对所述声学模型和所述生成对抗网络模型进行训练。
9.第四方面,本技术实施例提供了一种语音唤醒装置,该装置包括:第二获取模块,用于获取第一音频的第三特征信息;第三输出模块,用于通过所述声学模型、以及所述第三
特征信息,输出所述第一音频的第一音素信息;第四输出模块,用于在所述第一音素信息与所述唤醒音频的预设音素信息匹配的情况下,输出唤醒指令;其中,所述声学模型是由第一方面所述模型训练方法训练得到的。
10.第五方面,本技术实施例提供了一种电子设备,该电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面或第二方面所述的方法的步骤。
11.第六方面,本技术实施例提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如第一方面或第二方面所述的方法的步骤。
12.第七方面,本技术实施例提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现如第一方面或第二方面所述的方法。
13.这样,在本技术的实施例中,在语音唤醒功能中,需要对声学模型进行训练,以确保声学模型对音频判断的准确率较高。首先,将包括唤醒音频和非唤醒音频的大量音频作为音频训练数据,提取第一特征信息,将第一特征信息输入声学模型,输出音频训练数据的音素信息。其次,将第一特征信息输入生成对抗网络模型,输出音频训练数据的语义信息。然后,将音素信息输入生成对抗网络模型,生成对抗网络模型结合语义信息和音素信息,输出音频训练数据的第二特征信息。进一步地,基于输出的第二特征信息和第一特征信息,对声学模型和生成对抗网络模型训练,以使得第二特征信息和第一特征信息之间的区别最小化。可见,在本技术的实施例中,主要采用结合音素信息和语义信息两种音频特征的方式,以增强音频语义特征信息的表征,来实现对整个功能中的模型训练,从而达到对声学模型的训练目的,使得声学模型判断音频的准确率较高,进而提高判断唤醒音频的准确率,避免唤不醒或者误唤醒的现象发生。
附图说明
14.图1是本技术实施例的模型训练方法的流程图;
15.图2是本技术实施例的模型训练方法的说明示意图;
16.图3是本技术实施例的模型训练方法的网络结构示意图;
17.图4是本技术实施例的语音唤醒方法的流程图;
18.图5是本技术实施例的模型训练装置的框图;
19.图6是本技术实施例的语音唤醒装置的框图;
20.图7是本技术实施例的电子设备的硬件结构示意图之一;
21.图8是本技术实施例的电子设备的硬件结构示意图之二。
具体实施方式
22.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员获得的所有其他实施例,都属于本技术保护的范围。
23.本技术的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对
象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
24.下面结合附图,通过具体的实施例及其应用场景对本技术实施例提供的模型训练方法进行详细地说明。
25.参见图1,示出了本技术一个实施例的模型训练方法的流程图,该方法应用于电子设备,包括:
26.步骤110:获取音频训练数据的第一特征信息,音频训练数据包括唤醒音频和非唤醒音频。
27.其中,唤醒音频,为用于输出唤醒指令的音频,除唤醒音频以外的其它音频,为非唤醒音频。
28.在本实施例中,基于包括唤醒音频和非唤醒音频的音频训练数据,对唤醒功能中的模型进行训练,以提高唤醒功能中,对音频的判断准确率。
29.第一特征信息为基于音频训练数据中的大量音频得到的特征信息的总和。
30.在本实施例中,第一特征信息用于表示音频训练数据的fbank特征。
31.可选地,基于音频训练数据,对训练语料进行fbank特征提取,一般可提取80维度的特征,采样率为16khz。
32.步骤120:通过待训练的声学模型、生成对抗网络模型,以及第一特征信息,输出音频训练数据的音素信息和语义信息。
33.其中,通过待训练的声学模型输出音频训练数据的音素信息。
34.需要说明的是,声学模型为语音识别或者语音唤醒中,用于识别声音的模型。
35.在该步骤中,将第一特征信息作为输入,通过声学模型,输出音频训练数据的音素信息。
36.可选地,音素信息包括音素概率矩阵。其中,对于音频训练数据中的各个音频,每一帧都会对应一组音素概率序列。
37.另外,通过待训练的生成对抗网络模型输出音频训练数据的语义信息。
38.可选地,本实施例中的生成对抗网络模型以变分自动编码器(conditional variational auto

encoders,简称c

vae)为基础,可以认为,生成对抗网络模型包括编码器。
39.因此,在该步骤中,将第一特征信息作为输入,通过编码器,输出音频训练数据的语义信息。
40.其中,语义信息为音频训练数据中的大量音频得到的语义信息的总和。
41.示例性地,通过编码器,可以得到音频训练数据中的各个音频,每一帧对应的语义信息。
42.本实施例的第二特征信息为语义表征隐变量。
43.步骤130:通过待训练的生成对抗网络模型,以及音素信息、语义信息,输出音频训练数据的第二特征信息。
44.在本实施例中,利用了生成对抗(vawgan)网络,vawgan网络是一种深度学习模型,是近年来复杂分布上无监督学习最具前景的方法之一。模型通过框架中的至少两个模块:生成模块(generative model)和鉴别模块(discriminative model)的互相博弈学习产生相当好的输出。
45.可选地,生成模块包括生成器,鉴别模块包括鉴别器。
46.在该步骤中,将声学模型的输出(即音频训练数据的音素信息)和编码器的输出(即音频训练数据的语义信息)拼接,输入生成器,输出音频训练数据的第二特征信息。
47.在本实施例中,第二特征信息用于表示音频训练数据的fake特征。
48.其中,第一特征信息是基于音频训练数据得到的真实特征,而第二特征信息是基于模型输出得到的合成特征。
49.参见图2,编码器的输出z代表语义表征隐变量;声学模型输出a(x)代表音素后验概率矩阵,横轴为时间维度,纵轴为音素后验概率序列。由于这两者都能够代表音频的语义信息表征,所以将其进行合并,能够更好地增强音频语义特征信息的表征,使得建模生成的声学模型能够更好地表征音频每一帧的音素概率。
50.步骤140:根据第一特征信息和第二特征信息,对声学模型和生成对抗网络模型进行训练。
51.在该步骤中,对声学模型和vawgan网络进行训练,以调整各个模型中的参数,最终得到训练好的声学模型和vawgan网络。
52.在训练过程中,声学模型参数a、编码器参数φ、生成器参数θ、鉴别器参数ψ,分别得到优化。
53.其中,在该步骤中,训练的目的在于,使得合成的第二特征信息与真实的第一特征信息之间,区别达到最小化,这样,由声学模型识别出来的音频是最接近真实音频的,从而可以提高对音频的判断准确率。
54.这样,在本技术的实施例中,在语音唤醒功能中,需要对声学模型进行训练,以确保声学模型对音频判断的准确率较高。首先,将包括唤醒音频和非唤醒音频的大量音频作为音频训练数据,提取第一特征信息,将第一特征信息输入声学模型,输出音频训练数据的音素信息。其次,将第一特征信息输入生成对抗网络模型,输出音频训练数据的语义信息。然后,将音素信息输入生成对抗网络模型,生成对抗网络模型结合语义信息和音素信息,输出音频训练数据的第二特征信息。进一步地,基于输出的第二特征信息和第一特征信息,对声学模型和生成对抗网络模型训练,以使得第二特征信息和第一特征信息之间的区别最小化。可见,在本技术的实施例中,主要采用结合音素信息和语义信息两种音频特征的方式,以增强音频语义特征信息的表征,来实现对整个功能中的模型训练,从而达到对声学模型的训练目的,使得声学模型判断音频的准确率较高,进而提高判断唤醒音频的准确率,避免唤不醒或者误唤醒的现象发生。
55.在本技术另一个实施例的模型训练方法的流程中,步骤140,包括:
56.子步骤a1:对声学模型和生成对抗网络模型进行训练,直至第一特征信息与第二特征信息之间的第一误差率满足第一预设条件。
57.在该步骤中,将第一特征信息和第二特征信息输入鉴别器,输出第一特征信息与第二特征信息的区别。
58.可选地,第一特征信息与第二特征信息的区别通过第一误差率来表示。
59.对于本实施例,一种解释为,本技术最终要达到的训练目的,使得第一特征信息与第二特征信息之间的第一误差率小于某阈值,因此,第一预设条件为:第一误差率小于该阈值。
60.对于本实施例,又一种解释为,本技术最终要达到的训练目的,达到预设的迭代次数,以使得第一特征信息与第二特征信息之间的第一误差率不再变化,达到最小值,因此,第一预设条件为:达到预设的迭代次数下的误差率。
61.示例性地,在一次实验中,选择迭代次数为200000次。
62.在本实施例中,基于第一预设条件,达到最终的训练效果,使得第一特征信息与第二特征信息之间区别最小化,从而提高声学模型对音频的判断准确率。
63.在本技术另一个实施例的模型训练方法的流程中,在步骤120之前,该方法还包括:
64.步骤b1:对声学模型进行训练,直至音频训练数据的音素信息与预设音素信息的匹配率满足第四预设条件。
65.可选地,音频训练数据还包括各个音频对应的文本标注。
66.可选地,利用训练好的、准确率较高的语音识别网络,结合各个音频对应的文本标注,将音频训练数据进行对齐,得到音频训练数据中的每个音频每一帧对应的音素标签,进一步地,所有的音素标签形成本实施例的预设音素信息。
67.其中,预设音素信息包括每个音频每一帧对应的音素标签。
68.本实施例中的匹配率是基于音频训练数据中的各个帧的音素概率序列与对应帧的音素标签之间的匹配,得到的总匹配率。
69.可选地,本实施例的训练过程为:
70.建立音频训练数据的fbank特征x和预设音素信息之间的映射关系。
71.第一步,通过声学模型,以及第一特征信息,输出各个帧的音素概率序列;通过语音识别网络,得到各个帧的音素标签。
72.第二步,利用交叉熵损失函数,度量推理得到音素概率序列z
p
和音素标签之间的误差损失函数:
[0073][0074]
z
p
=[p
i1
,p
i2
,...,p
ic
]
ꢀꢀ
(2)
[0075]
其中,m为所有音素标签之和;y
ic
为音素标签的符号函数(0或者1),若第i帧的音素标签等于c,则取1,否则取0;p
ic
为第i帧属于c的预测概率;z
p
为音素概率序列。
[0076]
其中,z
p
根据输入的fbank特征,由声学模型推理得到:
[0077]
z
p
=a(x)
ꢀꢀ
(3)
[0078]
其中,a为声学模型的参数,训练声学模型过程中,通过不断迭代,最小化(1)中的交叉熵损失,使得声学模型不断收敛。
[0079]
其中,匹配率满足第四预设条件,对应为:音素概率序列z
p
和音素标签之间的误差l最小化。
[0080]
在本实施例中,在将输出的音频训练数据的音素信息用于编码器的输入之前,可
按照上述训练方法对声学模型进行初步训练,以使通过声学模型得到的音频训练数据的音素信息与预设音素信息的区别最小化。可见,在本实施例提供的训练方法的基础上,结合上一实施例提供的训练方法,可达到对声学模型进行更加精细的训练目的,以确保声学模型对音频判断的准确率尽可能地高。
[0081]
在本技术另一个实施例的模型训练方法的流程中,生成对抗网络模型包括鉴别模块和生成模块,步骤140,包括:
[0082]
子步骤c1:对生成模块和声学模型进行训练,直至通过生成模块输出的第二特征信息满足第二预设条件。
[0083]
子步骤c2:对鉴别模块进行训练,直至第一特征信息与通过生成模块输出的第二特征信息之间的第二误差率满足第三预设条件。
[0084]
由前述实施例可知,在本技术中,以变分自动编码器为基础,将vawgan网络合并到解码器中来提升vae效果。其中,vawgan包括两部分,一部分是用于产生合成的频谱的生成器,另一部分用于判断合成的频谱是否为真实的频谱的鉴别器。可以理解为:解码器包括生成器和鉴别器。
[0085]
在vawgan网络中,目标函数为:
[0086]
j
vawgan
=l(x;φ,θ)+αj
wgan
ꢀꢀ
(4)
[0087]
其中,l(x;φ,θ)为编码器部分的目标函数:
[0088][0089]
其中,d
kl
(q
φ
(z|x)||p
θ
(z))表示鉴别模块q
φ
(z|x)和真实后验概率p(z|x)之间的相对熵(kullback

leibler divergence,简称kl散度)。先验概率p
θ
(z)为标准多维高斯分布。q
φ
(z|x)和p
θ
(x|z)分别为编码器和解码器,服从多维高斯分布,其均值向量和协方差矩阵分别为(μ
φ
(z),σ
φ
(z))和(μ
θ
(x),σ
θ
(x))。因此,右边两项可以简化为:
[0090][0091][0092]
其中,k为中间变量z的维数,l为对q
φ
(z|x)取样的次数。由于取样过程是一个非连续的操作,无法求导,因此无法通过反向传播来更新编码器和解码器的网络参数。于是引入另一个随机变量ε对隐藏变量z进行再参数化,令z
(l)
=μ
θ
(x)+ε
(l)

θ
(x),ε(l)~n(0,i),则:
[0093][0094]
其中,d为x的样本数。
[0095]
至此,可以得到优化vawgan网络的目标损失函数。
[0096]
其中,声学模型a(x)的参数是随着训练过程,根据损失函数动态变化的,使得模型不断收敛的;编码器的输出z是根据编码器的输出动态变化的。
[0097]
基于以上内容,继续解释声学模型a(x)和vawgan如何同时训练,使得声学模型a(x)达到更优效果。
[0098]
j
wgan
表示vawgan部分的目标函数:
[0099][0100]
其中,α是vawgan的损失系数,d
ψ
为鉴别器对特征真假的判定输出。将a(x)结合z送入生成器,再由鉴别器判断。上式的后半段为生成器二维卷积神经网络的损失函数:
[0101][0102]
由于声学模型a(x)在此过程中需要不断优化参数,所以优化生成器的目标函数变为:
[0103][0104]
其中,min代表最小化生成器和声学模型损失,求解最佳的生成器和声学模型a的参数;上式后半部分为声学模型损失函数,需要结合生成器损失函数,使得整体损失达到最优值。
[0105]
由于生成器中增加了声学模型的损失函数优化,鉴别器二维卷积神经网络的损失函数变为:
[0106][0107]
优化鉴别器的目标函数为:
[0108][0109]
其中,max代表最大化鉴别器的损失函数,即鉴别器的目标是最大化区分真实特征和fake特征之间的差距,从而不断优化鉴别器的模型参数。
[0110]
在本实施例中,解码器由生成器和鉴别器组成。在训练过程中,首先固定鉴别器参数,训练生成器和声学模型,使生成器整体的损失函数l
g
尽量小,即第二特征信息满足第二预设条件,得到生成的fbank特征x

(即第二特征信息);然后固定生成器和声学模型参数,训练鉴别器,使得鉴别器的损失函数l
d
尽量大,也就是

l
d
最小化,即第一特征信息与第二特征信息之间的第二误差率满足第三预设条件。
[0111]
需要说明的是,在一种解释中,本实施例中的两个步骤是交替重复进行的。例如,第一次:基于鉴别器的第一参数,进行步骤c1,对生成器和声学模型进行训练,使得生成器整体的损失函数l
g
尽量小;进一步地,基于本次训练后的生成器和声学模型的参数,进行步骤c2,对鉴别器进行训练;第二次,因在第一次的步骤c2中,对鉴别器的参数进行了调整,因此,基于调整后的第二参数,对生成器和声学模型进行训练,使得生成器整体的损失函数l
g
尽量小;进一步地,基于本次训练后的生成器和声学模型的参数,进行步骤c2,对鉴别器进行训练。依次类推,直至完成迭代次数。
[0112]
对应地,第二误差率用于表示一次重复步骤中得到的误差率,第一误差率用于表示最终训练得到的误差率。
[0113]
在又一种解释中,本实施例中的两个步骤分别代表两种类型的步骤。例如,步骤c1,代表对生成器和声学模型训练的所有步骤,可以是多次重复步骤的概述;步骤c2,代表对鉴别器训练的所有步骤,可以是多次重复步骤的概述。
[0114]
对应地,第一误差率和第二误差率均用于表示最终训练得到的误差率。
[0115]
而在此解释下,步骤c1和步骤c2之间,不限定顺序。
[0116]
其中,生成器采用二维卷积神经网络,包括4个卷积层。4个卷积层的过滤器大小分别为9*1、7*1、7*1、1025*1,步长分别为3、3、3、1,过滤器深度分别为32、16、8、1,激活函数采用lrelu函数。
[0117]
鉴别器采用二维卷积神经网络,包括3个卷积层和1个全连接层。3个卷积层的过滤器大小分别为7*1、7*1、115*1,步长均为3,过滤器深度分别为16、32、64,激活函数采用lrelu函数。
[0118]
声学模型和编码器结构一致,采用二维卷积神经网络,包括括5个卷积层和1个全连接层。5个卷积层的过滤器大小均为7*1,步长均为3,过滤器深度分别为16、32、64、128、256,激活函数采用lrelu函数。网络结构如图3所示。训练过程中利用随机梯度下降法(stochastic gradient descent,sgd)来更新网络模型参数。
[0119]
在本实施例中,提供了一种基于生成对抗网络的语音唤醒声学模型训练方法,提升声学模型建模效果。其中,使用了以变分自编码器为基础的生成对抗网络、声学模型相结合来实现语音唤醒系统的训练。在声学模型中结合vawgan网络,能够较好地提升声学模型的建模质量,实现高质量的语音唤醒。
[0120]
在本技术另一个实施例的模型训练方法的流程中,步骤120,包括:
[0121]
子步骤d1:通过待训练的声学模型,以及第一特征信息,输出音频训练数据中的各个音频的目标帧对应的音素信息。
[0122]
子步骤d2:通过待训练的生成对抗网络模型,以及第一特征信息,输出音频训练数据中的各个音频的目标帧对应的语义信息。
[0123]
可选地,目标帧包括音频训练数据中的每个音频的每一帧。
[0124]
可选地,目标帧包括音频训练数据中的每个音频的部分帧。其中,部分帧可以按照一定的频率进行采集,以确保目标帧在音频训练数据中均匀分布。
[0125]
对应地,基于获取的目标帧的音素信息,再获取对应帧的语义信息,从而将任意帧的音素信息和语义信息相结合,生成该帧对应的fake特征,以与该帧对应的fbank特征进行比对。
[0126]
进一步地,依次将目标帧中的每一帧进行特征比对,从而完成整个音频训练数据的特征比对。
[0127]
在本实施例中,提供了获取音频训练数据的音素信息和语义信息的方法,以对本实施例进行更详细的说明。其中,本实施例针对音频训练数据,有规律地针对其中的目标帧,获取对应的音素信息和语义信息,以生成该帧的合成特征,从而用于与该帧的真实特征进行比对。可见,本实施例基于目标帧的特征比对,可以推理出音频训练数据的整体情况,以用于本技术中的模型训练。
[0128]
参见图4,示出了本技术另一个实施例的语音唤醒方法的流程图,应用于电子设备,该方法包括:
[0129]
步骤150:获取第一音频的第三特征信息。
[0130]
其中,本技术提供的模型训练方法和语音唤醒方法分别对应应用于两个阶段,第一阶段为前述实施例中的训练阶段,另一阶段为本实施例中的唤醒阶段。
[0131]
在该步骤中,第三特征信息用于表示第一音频的fbank特征。
[0132]
在本实施例中,第一音频可以是一段音频流。因此,将一段音频流式送入存储缓冲器(buffer),一般帧长为10ms,为了减小计算量可采用跳帧的方式送入(如每3帧送入1帧),随后对其提取特征。
[0133]
步骤160:通过声学模型、以及第三特征信息,输出第一音频的第一音素信息。
[0134]
其中,声学模型是由上述任一实施例中的模型训练方法训练得到的。
[0135]
将提取的fbank特征输入前述实施例训练好的声学模型进行推理,得到对应的第一音频的第一音素信息。
[0136]
其中,第一音素信息包括音素概率矩阵。
[0137]
步骤170:在第一音素信息与唤醒音频的预设音素信息匹配的情况下,输出唤醒指令。
[0138]
其中,唤醒指令用于唤醒终端设备,应用于语音唤醒功能中。
[0139]
该步骤对应为维特比解码步骤。
[0140]
在该步骤中,将步骤160得到的音素概率矩阵送入唤醒音频的解码图,利用维特比算法进行解码,即可得到一个得分,判断该得分是否大于某阈值,如果“是”,则唤醒,如果“否”,则继续送入下一帧数据。
[0141]
其中,这里的得分可以理解为:第一音素信息与唤醒音频的预设音素信息的关联程度,关联程度大于某阈值,则第一音素信息与唤醒音频的预设音素信息匹配。
[0142]
示例性地,基于第一音素信息,通过解码可以得到送入的音频流中的各个帧对应的概率最高的音素标签,与唤醒音频中的各个帧对应的预设音素标签进行比对,若相似度大于某设定值,则第一音素信息与唤醒音频的预设音素信息的关联程度大于某阈值。
[0143]
这样,基于前述实施例,采用结合音素信息和语义信息两种音频特征的方式,以增强音频语义特征信息的表征,来实现对整个功能中的模型训练。因此,在本实施例中,在唤醒阶段中,通过训练好的声学模型对接收到第一音频的推理计算,可以获取更为准确的第一音频的音素信息,从而在将第一音频与唤醒音频比对后,能够准确、及时地唤醒手机等终端设备。
[0144]
综上所述,语音唤醒的建模过程,通常是训练一个声学模型建立语音特征和音素之间的映射,然后利用最优路径算法解码。但是由于低功耗和快速响应的需求,声学模型资源受限,经常容易出现声学模型判断不准确,导致唤不醒或者误唤醒的情况。基于此,在本技术中,在语音唤醒声学模型训练阶段,使用了以变分自编码器为基础的生成对抗网络,结合声学模型,能够较好地提升声学模型的建模质量,使得音素推理更准确,能够降低误唤醒,提升唤醒率。
[0145]
需要说明的是,本技术实施例提供的模型训练方法,执行主体可以为模型训练装置,或者该模型训练装置中的用于执行模型训练方法的控制模块。本技术实施例中以模型训练装置执行模型训练方法为例,说明本技术实施例提供的模型训练装置。
[0146]
图5示出了本技术另一个实施例的模型训练装置的框图,该装置包括:
[0147]
第一获取模块10,用于获取音频训练数据的第一特征信息,音频训练数据包括唤醒音频和非唤醒音频;
[0148]
第一输出模块20,用于通过待训练的声学模型、生成对抗网络模型,以及第一特征
信息,输出音频训练数据的音素信息和语义信息;
[0149]
第二输出模块30,用于通过待训练的生成对抗网络模型,以及音素信息、语义信息,输出音频训练数据的第二特征信息;
[0150]
训练模块40,用于根据第一特征信息和第二特征信息,对声学模型和生成对抗网络模型进行训练。
[0151]
这样,在本技术的实施例中,在语音唤醒功能中,需要对声学模型进行训练,以确保声学模型对音频判断的准确率较高。首先,将包括唤醒音频和非唤醒音频的大量音频作为音频训练数据,提取第一特征信息,将第一特征信息输入声学模型,输出音频训练数据的音素信息。其次,将第一特征信息输入生成对抗网络模型,输出音频训练数据的语义信息。然后,将音素信息输入生成对抗网络模型,生成对抗网络模型结合语义信息和音素信息,输出音频训练数据的第二特征信息。进一步地,基于输出的第二特征信息和第一特征信息,对声学模型和生成对抗网络模型训练,以使得第二特征信息和第一特征信息之间的区别最小化。可见,在本技术的实施例中,主要采用结合音素信息和语义信息两种音频特征的方式,以增强音频语义特征信息的表征,来实现对整个功能中的模型训练,从而达到对声学模型的训练目的,使得声学模型判断音频的准确率较高,进而提高判断唤醒音频的准确率,避免唤不醒或者误唤醒的现象发生。
[0152]
可选地,训练模块40,包括:
[0153]
第一训练单元,用于对声学模型和生成对抗网络模型进行训练,直至第一特征信息与第二特征信息之间的第一误差率满足第一预设条件。
[0154]
可选地,生成对抗网络模型包括鉴别模块和生成模块;训练模块40,包括:
[0155]
第二训练单元,用于对生成模块和声学模型进行训练,直至通过生成模块输出的第二特征信息满足第二预设条件;
[0156]
第三训练单元,用于对鉴别模块进行训练,直至第一特征信息与通过生成模块输出的第二特征信息之间的第二误差率满足第三预设条件。
[0157]
可选地,第一输出模块20,包括:
[0158]
第一输出单元,用于通过待训练的声学模型,以及第一特征信息,输出音频训练数据中的各个音频的目标帧对应的音素信息;
[0159]
第二输出单元,用于通过待训练的生成对抗网络模型,以及第一特征信息,输出音频训练数据中的各个音频的目标帧对应的语义信息。
[0160]
需要说明的是,本技术实施例提供的语音唤醒方法,执行主体可以为语音唤醒装置,或者该语音唤醒装置中的用于执行语音唤醒方法的控制模块。本技术实施例中以语音唤醒装置执行语音唤醒方法为例,说明本技术实施例提供的语音唤醒装置。
[0161]
图6示出了本技术另一个实施例的模型训练装置的框图,该装置包括:
[0162]
第二获取模块50,用于获取第一音频的第三特征信息;
[0163]
第三输出模块60,用于通过声学模型、以及第三特征信息,输出第一音频的第一音素信息;
[0164]
第四输出模块70,用于在第一音素信息与唤醒音频的预设音素信息匹配的情况下,输出唤醒指令;
[0165]
其中,声学模型是由前述任一实施例中的模型训练方法训练得到的。
[0166]
这样,基于前述实施例,采用结合音素信息和语义信息两种音频特征的方式,以增强音频语义特征信息的表征,来实现对整个功能中的模型训练。因此,在本实施例中,在唤醒阶段中,通过训练好的声学模型对接收到第一音频的推理计算,可以获取更为准确的第一音频的音素信息,从而在将第一音频与唤醒音频比对后,能够准确、及时地唤醒手机等终端设备。
[0167]
本技术实施例中的模型训练装置/语音唤醒装置可以是装置,也可以是终端中的部件、集成电路、或芯片。该装置可以是移动电子设备,也可以为非移动电子设备。示例性的,移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra

mobile personal computer,umpc)、上网本或者个人数字助理(personal digital assistant,pda)等,非移动电子设备可以为服务器、网络附属存储器(network attached storage,nas)、个人计算机(personal computer,pc)、电视机(television,tv)、柜员机或者自助机等,本技术实施例不作具体限定。
[0168]
本技术实施例中的模型训练装置/语音唤醒装置可以为具有动作系统的装置。该动作系统可以为安卓(android)动作系统,可以为ios动作系统,还可以为其他可能的动作系统,本技术实施例不作具体限定。
[0169]
本技术实施例提供的模型训练装置/语音唤醒装置能够实现上述对应方法实施例实现的各个过程,为避免重复,这里不再赘述。
[0170]
可选地,如图7所示,本技术实施例还提供一种电子设备100,包括处理器101,存储器102,存储在存储器102上并可在所述处理器101上运行的程序或指令,该程序或指令被处理器101执行时实现上述任一模型训练方法/语音唤醒方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
[0171]
需要说明的是,本技术实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。
[0172]
图8为实现本技术实施例的一种电子设备的硬件结构示意图。
[0173]
该电子设备1000包括但不限于:射频单元1001、网络模块1002、音频输出单元1003、输入单元1004、传感器1005、显示单元1006、用户输入单元1007、接口单元1008、存储器1009、以及处理器1010等部件。
[0174]
本领域技术人员可以理解,电子设备1000还可以包括给各个部件供电的电源(比如电池),电源可以通过电源管理系统与处理器1010逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图8中示出的电子设备结构并不构成对电子设备的限定,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置,在此不再赘述。
[0175]
其中,在一种场景下,处理器1010,用于获取音频训练数据的第一特征信息,所述音频训练数据包括唤醒音频和非唤醒音频;通过待训练的声学模型、生成对抗网络模型,以及所述第一特征信息,输出所述音频训练数据的音素信息和语义信息;通过待训练的所述生成对抗网络模型,以及所述音素信息、所述语义信息,输出所述音频训练数据的第二特征信息;根据所述第一特征信息和所述第二特征信息,对所述声学模型和所述生成对抗网络模型进行训练。
[0176]
这样,在本技术的实施例中,在语音唤醒功能中,需要对声学模型进行训练,以确
保声学模型对音频判断的准确率较高。首先,将包括唤醒音频和非唤醒音频的大量音频作为音频训练数据,提取第一特征信息,将第一特征信息输入声学模型,输出音频训练数据的音素信息。其次,将第一特征信息输入生成对抗网络模型,输出音频训练数据的语义信息。然后,将音素信息输入生成对抗网络模型,生成对抗网络模型结合语义信息和音素信息,输出音频训练数据的第二特征信息。进一步地,基于输出的第二特征信息和第一特征信息,对声学模型和生成对抗网络模型训练,以使得第二特征信息和第一特征信息之间的区别最小化。可见,在本技术的实施例中,主要采用结合音素信息和语义信息两种音频特征的方式,以增强音频语义特征信息的表征,来实现对整个功能中的模型训练,从而达到对声学模型的训练目的,使得声学模型判断音频的准确率较高,进而提高判断唤醒音频的准确率,避免唤不醒或者误唤醒的现象发生。
[0177]
可选地,处理器1010,还用于对所述声学模型和所述生成对抗网络模型进行训练,直至所述第一特征信息与所述第二特征信息之间的第一误差率满足第一预设条件。
[0178]
可选地,所述生成对抗网络模型包括鉴别模块和生成模块;处理器1010,还用于对所述生成模块和所述声学模型进行训练,直至通过所述生成模块输出的所述第二特征信息满足第二预设条件;对所述鉴别模块进行训练,直至所述第一特征信息与通过所述生成模块输出的所述第二特征信息之间的第二误差率满足第三预设条件。
[0179]
可选地,处理器1010,还用于通过待训练的所述声学模型,以及所述第一特征信息,输出所述音频训练数据中的各个音频的目标帧对应的音素信息;通过待训练的所述生成对抗网络模型,以及所述第一特征信息,输出所述音频训练数据中的各个音频的所述目标帧对应的语义信息。
[0180]
其中,在另一种场景下,处理器1010,用于获取第一音频的第三特征信息;通过声学模型、以及所述第三特征信息,输出所述第一音频的第一音素信息;在所述第一音素信息与所述唤醒音频的预设音素信息匹配的情况下,输出唤醒指令;其中,所述声学模型是由前述场景训练得到的。
[0181]
这样,基于前述实施例,采用结合音素信息和语义信息两种音频特征的方式,以增强音频语义特征信息的表征,来实现对整个功能中的模型训练。因此,在本实施例中,在唤醒阶段中,通过训练好的声学模型对接收到第一音频的推理计算,可以获取更为准确的第一音频的音素信息,从而在将第一音频与唤醒音频比对后,能够准确、及时地唤醒手机等终端设备。
[0182]
综上所述,语音唤醒的建模过程,通常是训练一个声学模型建立语音特征和音素之间的映射,然后利用最优路径算法解码。但是由于低功耗和快速响应的需求,声学模型资源受限,经常容易出现声学模型判断不准确,导致唤不醒或者误唤醒的情况。基于此,在本技术中,在语音唤醒声学模型训练阶段,使用了以变分自编码器为基础的生成对抗网络,结合声学模型,能够较好地提升声学模型的建模质量,使得音素推理更准确,能够降低误唤醒,提升唤醒率。
[0183]
应理解的是,本技术实施例中,输入单元1004可以包括图形处理器(graphics processing unit,gpu)10041和麦克风10042,图形处理器10041对在视频处理捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频处理的图像数据进行处理。显示单元1006可包括显示面板10061,可以采用液晶显示器、有机发光二极管等形式
来配置显示面板10061。用户输入单元1007包括触控面板10071以及其他输入设备10072。触控面板10071,也称为触摸屏。触控面板10071可包括触摸检测装置和触摸控制器两个部分。其他输入设备10072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、动作杆,在此不再赘述。存储器1009可用于存储软件程序以及各种数据,包括但不限于应用程序和动作系统。处理器1010可集成应用处理器和调制解调处理器,其中,应用处理器主要处理动作系统、用户页面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1010中。
[0184]
本技术实施例还提供一种可读存储介质,所述可读存储介质上存储有程序或指令,该程序或指令被处理器执行时实现上述模型训练方法/语音唤醒方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
[0185]
其中,所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质,包括计算机可读存储介质,如计算机只读存储器(read

only memory,rom)、随机存取存储器(random access memory,ram)、磁碟或者光盘等。
[0186]
本技术实施例另提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现上述模型训练方法/语音唤醒方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
[0187]
应理解,本技术实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。
[0188]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,或者网络设备等)执行本技术各个实施例所述的方法。
[0189]
上面结合附图对本技术的实施例进行了描述,但是本技术并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本技术的启示下,在不脱离本技术宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本技术的保护之内。