一种基于Savitzky-Golay滤波器平滑方法的语音唤醒系统与流程

一种基于savitzky
‑
golay滤波器平滑方法的语音唤醒系统
技术领域
1.本发明涉及语音唤醒领域，特别是涉及一种语音唤醒系统的唤醒方法及系统。

背景技术：

2.随着智能设备的发展，语音交互被广泛应用，而语音唤醒系统是启用语音交互的关键。语音唤醒系统的目标，是在无手动操作的情况下，在连续语音输入中找到设定关键词。由于该系统通常在边缘设备上运行，边缘设备的内存小、计算力有限，因此语音唤醒系统应同时满足高准确率，指误唤醒次数和误拒次数均少、运行所用内存小、计算量少的要求。
3.但是直接用语音唤醒系统的神经网络模型输出作为唤醒判断依据时，输出噪声过大，系统将被不稳定地误唤醒，导致语音唤醒系统整体的稳定性和准确性不高。

技术实现要素：

4.本发明的目的是提供一种语音唤醒系统的唤醒方法及系统，能够提高语音唤醒系统整体的稳定性和准确性。
5.为实现上述目的，本发明提供了如下方案：一种语音唤醒系统的唤醒方法，包括：获取语音流连续的声学特征帧；根据语音流连续的声学特征帧，利用语音唤醒系统神经网络，确定连续的非关键词的概率和关键词的概率；所述语音唤醒系统神经网络以声学特征帧为输入，以非关键词的概率和关键词的概率为输出；利用savitzky
‑
golay滤波器对非关键词的概率和关键词的概率进行平滑处理；利用平滑处理后的非关键词的概率和平滑处理后的关键词的概率确定语音唤醒系统当前帧的输出。
6.可选地，所述获取语音流连续的声学特征帧，具体包括：利用麦克风获取连续的语音流；对连续的语音流进行特征提取，确定连续的声学特征帧。
7.可选地，所述根据语音流连续的声学特征帧，利用语音唤醒系统神经网络，确定连续的非关键词的概率和关键词的概率，具体包括：获取语音唤醒系统的关键词和非关键词；对关键词和非关键词进行标记；不同关键词的标签不同，不同非关键词的标签相同；获取关键词和非关键词已提取的连续声学特征帧；以连续的声学特征帧为输入，以标签的概率为输出，构建与训练语音唤醒系统神经网络；标签的概率对应非关键词的概率和关键词的概率；以连续的声学特征帧为输入，使训练后的语音唤醒系统神经网络生成连续的非关
键词的概率和关键词的概率。
8.可选地，所述利用平滑处理后的非关键词的概率和平滑处理后的关键词的概率确定语音唤醒系统当前帧的输出，具体包括：根据平滑处理后的非关键词的概率和平滑处理后的关键词的概率确定最大概率；若最大概率为非关键词，则不唤醒语音唤醒系统；若最大概率为关键词，且最大概率大于或等于设定唤醒阈值，且距离上次唤醒时间已超过设定时限，则根据相应的关键词唤醒语音唤醒系统；反之，则不唤醒语音唤醒系统。
9.一种语音唤醒系统的唤醒系统，包括：声学特征帧获取模块，用于获取语音流连续的声学特征帧；概率确定模块，用于根据语音流连续的声学特征帧，利用语音唤醒系统神经网络，确定连续的非关键词的概率和关键词的概率；所述语音唤醒系统神经网络以声学特征帧为输入，以非关键词的概率和关键词的概率为输出；概率平滑处理模块，用于利用savitzky
‑
golay滤波器对非关键词的概率和关键词的概率进行平滑处理；语音唤醒系统当前帧的输出确定模块，用于利用平滑处理后的非关键词的概率和平滑处理后的关键词的概率确定语音唤醒系统当前帧的输出。
10.可选地，所述声学特征帧获取模块具体包括：语音流获取单元，用于利用麦克风获取连续的语音流；声学特征帧确定单元，用于对连续的语音流进行特征提取，确定连续的声学特征帧。
11.可选地，所述概率确定模块具体包括：数据获取单元，用于获取语音唤醒系统的关键词和非关键词；数据标记单元，用于对关键词和非关键词进行标记；不同关键词的标签不同，不同非关键词的标签相同；特征获取单元，用于获取关键词和非关键词已提取的连续声学特征帧；语音唤醒系统神经网络构建单元，用于以连续的声学特征帧为输入，以标签的概率为输出，构建与训练语音唤醒系统神经网络；标签的概率对应非关键词的概率和关键词的概率；非关键词和关键词概率生成单元，用于以连续的声学特征帧为输入，使训练后的语音唤醒系统神经网络生成连续的非关键词的概率和关键词的概率。
12.可选地，所述语音唤醒系统当前帧的输出确定模块具体包括：最大概率确定单元根据平滑处理后的非关键词的概率和平滑处理后的关键词的概率确定最大概率；语音唤醒系统的输出第一确定单元，用于若最大概率为非关键词，则不唤醒语音唤醒系统；语音唤醒系统的输出第二确定单元，用于若最大概率为关键词，且最大概率大于或等于设定唤醒阈值，且距离上次唤醒时间已超过设定时限，则根据相应的关键词唤醒语音唤醒系统；反之，则不唤醒语音唤醒系统。
13.根据本发明提供的具体实施例，本发明公开了以下技术效果：本发明所提供的一种语音唤醒系统的唤醒方法及系统，利用savitzky
‑
golay滤波器对非关键词的概率和关键词的概率进行平滑处理，滤除输出噪声，使系统不再被频繁误唤醒。并且，采用savitzky
‑
golay滤波器进行平滑处理，避免了采用平均平滑滤波器，会滤除局部细节趋势，导致关键词被误拒的次数增加。savitzky
‑
golay滤波器保留了概率输出原本的趋势，关键词被误拒的次数减少，提高了语音唤醒系统整体的稳定性和准确性。
附图说明
14.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
15.图1为本发明所提供的一种语音唤醒系统的唤醒方法流程示意图；图2为本发明所提供的一种语音唤醒系统的唤醒系统结构示意图。
具体实施方式
16.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
17.本发明的目的是提供一种语音唤醒系统的唤醒方法及系统，能够提高语音唤醒系统整体的稳定性和准确性。
18.为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。
19.图1为本发明所提供的一种语音唤醒系统的唤醒方法流程示意图。如图1所示，本发明所提供的一种语音唤醒系统的唤醒方法，包括：s101，获取语音流连续的声学特征帧；s101具体包括：利用麦克风获取连续的语音流；对连续的语音流进行特征提取，确定连续的声学特征帧。
20.s102，根据语音流连续的声学特征帧，利用语音唤醒系统神经网络，确定连续的非关键词的概率和关键词的概率；所述语音唤醒系统神经网络以声学特征帧为输入，以非关键词的概率和关键词的概率为输出；s102，具体包括：获取语音唤醒系统的关键词和非关键词；对关键词和非关键词进行标记；不同关键词的标签不同，不同非关键词的标签相同；例如：非关键词标签记为0，关键词的标签记为1，2，3，
…
，n。
21.获取关键词和非关键词已提取的连续声学特征帧；例如：梅尔频率倒谱系数。
22.以连续的声学特征帧为输入，以标签的概率为输出，构建与训练语音唤醒系统神
经网络；标签的概率对应非关键词的概率和关键词的概率；中间的网络层可为线性层或卷积层等，作为特征提取层使用；最后一层为线性层与softmax层的组合，作为分类层使用。根据选定的关键词数目，输入通过特征提取层与分类层后，最终输出一个长度为n+1的向量，该向量中每个值代表其下标标签对应的关键词被命中的概率。
23.固定语音唤醒系统神经网络的所有参数，完成对非关键词和关键词的声学建模，将该语音唤醒模型部署至硬件设备上。
24.由于语音唤醒系统的输入为固定帧数的声学特征，一旦得到新的声学特征帧，可将它与之前已生成的特征帧拼接，得到新的语音唤醒系统神经网络输入。
25.s103，利用savitzky
‑
golay滤波器对非关键词的概率和关键词的概率进行平滑处理；savitzky
‑
golay滤波器的基本原理是最小二乘拟合，用拟合值代替原始概率输出，可以去除高频噪声点，平滑每个标签的概率输出。拟合值可由savitzky
‑
golay系数与原各标签的概率输出卷积得到。savitzky
‑
golay系数仅由平滑窗口长度与多项式阶数决定，因此首次完成savitzky
‑
golay系数计算后，可重复使用该系数，减小计算量。对神经网络的概率输出进行savitzky
‑
golay滤波器平滑，相当于对概率输出进行有限长单位冲激响应滤波器平滑，平滑计算简单方便，在滤除噪声的同时，保证概率输出的趋势，即关键词被唤醒的趋势不变。
26.s104，利用平滑处理后的非关键词的概率和平滑处理后的关键词的概率确定语音唤醒系统当前帧的输出。
27.s104具体包括：根据平滑处理后的非关键词的概率和平滑处理后的关键词的概率确定最大概率；若最大概率为非关键词，则不唤醒语音唤醒系统；若最大概率为关键词，且最大概率大于或等于设定唤醒阈值，且距离上次唤醒时间已超过设定时限，则根据相应的关键词唤醒语音唤醒系统；反之，则不唤醒语音唤醒系统。
28.相对于现有的语音唤醒技术，本发明在较小计算代价下，减小语音唤醒系统神经网络输出的噪声，使得语音唤醒系统更加稳定，降低系统的误唤醒率。
29.这个优点来自于对概率输出，按照标签分别用savitzky
‑
golay滤波器平滑。在未经过savitzky
‑
golay滤波器平滑前，直接将模型概率输出作为唤醒依据，会导致系统输出噪声过大，系统将被不稳定地误唤醒。若采用平均平滑滤波器，则会滤除局部细节趋势，导致关键词被误拒的次数增加。而使用savitzky
‑
golay滤波器，不但可以滤除输出噪声，系统将不再被频繁误唤醒，也保留了概率输出原本的趋势，关键词被误拒的次数减少，提高了语音唤醒系统整体的稳定性和准确性。
30.图2为本发明所提供的一种语音唤醒系统的唤醒系统结构示意图，如图2所示，本发明所提供的一种语音唤醒系统的唤醒系统，包括：声学特征帧获取模块201，用于获取语音流连续的声学特征帧；概率确定模块202，用于根据语音流连续的声学特征帧，利用语音唤醒系统神经网络，确定连续的非关键词的概率和关键词的概率；所述语音唤醒系统神经网络以声学特征帧为输入，以非关键词的概率和关键词的概率为输出；
概率平滑处理模块203，用于利用savitzky
‑
golay滤波器对非关键词的概率和关键词的概率进行平滑处理；语音唤醒系统当前帧的输出确定模块204，用于利用平滑处理后的非关键词的概率和平滑处理后的关键词的概率确定语音唤醒系统当前帧的输出。
31.所述声学特征帧获取模块201具体包括：语音流获取单元，用于利用麦克风获取连续的语音流；声学特征帧确定单元，用于对连续的语音流进行特征提取，确定连续的声学特征帧。
32.所述概率确定模块202具体包括：数据获取单元，用于获取语音唤醒系统的关键词和非关键词；数据标记单元，用于对关键词和非关键词进行标记；不同关键词的标签不同，不同非关键词的标签相同；特征获取单元，用于获取关键词和非关键词已提取的连续声学特征帧；语音唤醒系统神经网络构建单元，用于以连续的声学特征帧为输入，以标签的概率为输出，构建与训练语音唤醒系统神经网络；标签的概率对应非关键词的概率和关键词的概率；非关键词和关键词概率生成单元，用于以连续的声学特征帧为输入，使训练后的语音唤醒系统神经网络生成连续的非关键词的概率和关键词的概率。
33.所述语音唤醒系统当前帧的输出确定模块204具体包括：最大概率确定单元根据平滑处理后的非关键词的概率和平滑处理后的关键词的概率确定最大概率；语音唤醒系统的输出第一确定单元，用于若最大概率为非关键词，则不唤醒语音唤醒系统；语音唤醒系统的输出第二确定单元，用于若最大概率为关键词，且最大概率大于或等于设定唤醒阈值，且距离上次唤醒时间已超过设定时限，则根据相应的关键词唤醒语音唤醒系统；反之，则不唤醒语音唤醒系统。
34.本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。
35.本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。