首页 > 乐器声学 专利正文
一种语音唤醒方法、装置、电子设备及存储介质与流程

时间:2022-02-18 阅读: 作者:专利查询

一种语音唤醒方法、装置、电子设备及存储介质与流程

1.本发明涉及信息处理技术领域,尤其涉及一种语音唤醒方法、装置、电子设备及存储介质。


背景技术:

2.随着信息技术和物联网技术的快速发展,越来越多搭载智能语音服务的产品走进了人们的生活中,例如智能手机或者智能手表等,而人们在使用智能语音服务时,可以通过特定的语音指令来唤醒智能语音服务。
3.然而目前在通过特定语音指令来唤醒智能语音服务的过程中,往往会受到环境噪音、电视背噪、相似发音短语等影响,容易发生误唤醒的情况。
4.因此,如何更好的实现智能语音服务的唤醒已经成为业界亟待结局的问题。


技术实现要素:

5.本发明提供一种语音唤醒方法、装置、电子设备及存储介质,用以解决现有技术中如何更好地实现智能设备的语音唤醒的问题。
6.本发明提供一种语音唤醒方法,包括:
7.基于唤醒语音的音频特征,确定所述唤醒语音的唤醒置信度;
8.在所述唤醒置信度处于预置可疑置信度区间的情况下,将所述唤醒语音的音频特征发送至云服务器,其中,所述云服务器部署有唤醒异常检测模型,所述唤醒异常检测模型用于对所述唤醒语音进行异常检测;
9.根据接收到的所述云服务器反馈的异常检测结果,执行所述异常检测结果对应的唤醒操作。
10.根据本发明提供的一种语音唤醒方法,在所述将所述唤醒语音的音频特征发送至云服务器之前,还包括:
11.提取多个语音样本的音频特征样本,每个所述音频特征样本均带有标注信息;
12.将多个所述音频特征样本输入初始异常检测网络,得到多个所述音频特征样本的异常预测结果;
13.根据多个所述异常预测结果和多个所述标注信息,更新所述初始异常检测网络的参数,在满足预设条件的情况下,停止更新,得到所述唤醒异常检测模型。
14.根据本发明提供的一种语音唤醒方法,所述异常预测结果是基于标注信息为真实类别标注的所述音频特征样本得到的,所述根据多个所述异常预测结果和多个所述标注信息,更新所述初始异常检测网络的参数,包括:
15.基于多个所述异常预测结果和预设特征中心构建目标函数;
16.对所述目标函数进行最小化处理,得到最小化处理结果,以根据所述最小化处理结果更新所述深度支持向量描述网络的参数。
17.根据本发明提供的一种语音唤醒方法,所述初始异常检测网络为深度支持向量描
述网络,所述基于多个所述异常预测结果和预设特征中心构建目标函数,包括:
18.当所述深度支持向量描述网络进行预设次数的迭代时,对所述深度支持向量描述网络对应的半径参数进行更新,得到更新后的半径参数;
19.基于更新后的半径参数、所述预设特征中心和所述异常预测结果,确定所述目标函数。
20.根据本发明提供的一种语音唤醒方法,所述预置可疑置信度区间通过以下步骤得到,包括:
21.将多个预选唤醒语音的音频特征输入唤醒模型,得到多个所述预选唤醒语音的打分结果;
22.基于每个所述预选唤醒语音和所述预选唤醒语音的打分结果,确定所述预置可疑置信度区间;
23.其中,所述预置可疑置信度区间包括第一区间阈值和第二区间阈值,所述第一区间阈值小于所述第二区间阈值。
24.根据本发明提供的一种语音唤醒方法,所述根据接收到的所述云服务器反馈的异常检测结果,执行所述异常检测结果对应的唤醒操作,包括:
25.在所述异常检测结果表征所述唤醒语音为真实类别的情况下,执行唤醒操作;
26.或,在所述异常检测结果表征所述唤醒语音为非真实类别的情况下,不唤醒终端设备。
27.根据本发明提供的一种语音唤醒方法,在所述基于唤醒语音的音频特征,确定所述唤醒语音的唤醒置信度之后,还包括:
28.在所述唤醒语音的唤醒置信度高于所述预置可疑置信度区间的第二区间阈值的情况下,执行唤醒操作;
29.或,在所述唤醒语音的唤醒置信度低于所述预置可疑置信度区间的第一区间阈值的情况下,不唤醒终端设备。
30.本发明还提供一种语音唤醒装置,包括:
31.第一确定单元,用于基于唤醒语音的音频特征,确定所述唤醒语音的唤醒置信度;
32.检测单元,用于在所述唤醒置信度在预置可疑置信度区间的情况下,将所述唤醒语音的音频特征发送至云服务器,其中,所述云服务器部署有唤醒异常检测模型,所述唤醒异常检测模型用于对所述唤醒语音进行异常检测;
33.第一执行单元,用于根据接收到的所述云服务器反馈的异常检测结果,执行所述异常检测结果对应的唤醒操作。
34.本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述语音唤醒方法的步骤。
35.本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述语音唤醒方法的步骤。
36.本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述语音唤醒方法的步骤。
37.本发明提供的一种语音唤醒方法、装置、电子设备及存储介质,通过预置可疑置信
度区间,在获取唤醒语音的音频特征后,确定处于可疑置信度区间内的唤醒语音的音频特征,通过将该唤醒语音的音频特征发送至云服务器进行唤醒异常检测,对唤醒语音做进一步检测,根据接收到的云服务器反馈的异常检测结果,执行更加可靠的唤醒操作,从而把传统的语音识别问题转换成对唤醒语音进行异常检测问题来处理,提高了终端唤醒率,同时降低了终端误唤醒率。
附图说明
38.为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
39.图1是本发明实施例提供的语音唤醒方法的流程示意图;
40.图2是本发明实施例提供的语音唤醒方法的整体流程图;
41.图3是本发明实施例提供的语音唤醒装置的结构示意图;
42.图4是本发明实施例提供的电子设备的实体结构示意图。
具体实施方式
43.为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
44.下面结合图1

图4描述本发明实施例的一种语音唤醒方法、装置、电子设备及存储介质。
45.需要说明的是,在人机交互领域,对于语音唤醒技术来说,在保证较高的唤醒成功率的同时,必然会无法避免误唤醒的发生。为了降低误唤醒对用户影响,通常会设计一套降低误唤醒的解决方案。
46.目前,降低误唤醒的技术思路通常是对语音唤醒进行二次校验的解决方案。通常是通过在云端服务器上接入一个功能更强大的唤醒模型,对唤醒语音进行二次检测,提高唤醒率,同时降低误唤醒率。通过在云端部署大型唤醒模型的方式,原理上与终端的唤醒模型一致,都是通过对音频是否为唤醒词的置信度进行评估,可以认为云端模型的能力范围是包含终端的能力范围的,且只有云端模型的能力高出终端模型的能力越多,识别的效果才会越好。然而,在实际纷繁复杂的干扰环境下,提升云端模型的能力是个很大的挑战。
47.图1是本发明实施例提供的语音唤醒方法的流程示意图,如图1所示,包括:
48.步骤s1,基于唤醒语音的音频特征,确定所述唤醒语音的唤醒置信度;
49.具体地,本发明实施例所描述的唤醒语音指的是终端设备外部存在的可能唤醒终端设备的语音,其可以是用户的真实唤醒语音,也可以是外部噪音,也可以是由真实唤醒语音与外界噪音组成的混合语音。本发明实施例的语音唤醒方法可应用于终端设备,该终端设备例如可以为包含语音接收和/或处理模块并可根据用户语音执行对应的语音唤醒和/或语音控制的智能家居设备,但本发明实施例不以此为限。该智能家居设备例如可以为智
能冰箱、智能电视、智能空调、智能烤箱和智能音箱等设备。
50.本发明实施例所描述的音频特征可以是唤醒语音的滤波器组(filter banks,fbank)音频特征,也可以是唤醒语音的梅尔频率倒谱系数(mel

frequency cepstral coefficients,mfcc)特征,本发明实施例中对此不做具体限定。
51.在本发明的实施例中,对唤醒语音进行滤波器组(filter banks,fbank)音频特征提取。fbank音频特征是根据人耳处理唤醒语音的方式提取的音频特征,通过对fbank音频特征的处理,以获得类似于人耳对音频进行处理的效果,可以提高语音唤醒的准确性。
52.通过对唤醒语音进行预加重、分帧、加窗、短时傅里叶变换、梅尔滤波、去均值等处理,可以获得唤醒语音的fbank特征。
53.其中,预加重,是为了消除发声过程中,声带和嘴唇造成的效应,来补偿唤醒语音收到发音系统所压抑的高频部分,并且能突显高频的共振峰;分帧,将唤醒语音分为帧,通常帧长和帧移可以根据具体的情况而定;加窗,对每帧信号加一个hamming/hanning窗,使每帧信号两端衰减至接近0;短时傅里叶变换(short time fourier transform,stft),用于得到向量特征,并将能量(幅值)谱转化为功率谱;梅尔(mel)滤波,通过mel滤波器组进行滤波,以得到符合人耳听觉习惯的声谱,最后通常取对数将单位转换成db;去均值,用于减少训练集与测试集之间的不匹配,均衡频谱,提升信噪比。
54.本发明实施例所描述的置信度用于表征可以成功唤醒终端设备的概率。
55.本发明实施例所描述的唤醒置信度指的是唤醒语音的音频特征通过初始检测确定的成功唤醒终端设备的概率,其具体是通过将唤醒语音的音频特征输入终端唤醒模型进行初次检测后得到的检测结果。
56.本发明实施例中的终端唤醒模型指的是终端设备内部存储的语音识别模型,用于初步识别外界语音是否为真实唤醒语音。
57.步骤s2,在所述唤醒置信度处于预置可疑置信度区间的情况下,将所述唤醒语音的音频特征发送至云服务器,其中,所述云服务器部署有唤醒异常检测模型,所述唤醒异常检测模型用于对所述唤醒语音进行异常检测;
58.具体地,本发明实施例所描述的预置可疑置信度区间指的是存在很大概率会被误判,造成终端的误唤醒的置信度区间。
59.在现实场景中,终端设备外部往往充斥着各种噪音,包括环境噪音、电视背噪、相似发音短语等,这些噪音容易造成对终端的误唤醒,此时,在唤醒终端的音频中存在非唤醒音频,这些非唤醒音频不是用户发出的唤醒音频,对此,为了找出并排除这些非唤醒音频,降低误唤醒率,需要设定终端的可疑置信度区间,对唤醒终端的音频进行二次检测。
60.本发明实施例所描述的唤醒异常检测模型布置于云服务器,其具体可以是通过对音频训练样本进行训练后得到的,该检测模型用于对输入的唤醒语音音频特征进行异常检测,并输出异常检测结果,对异常唤醒音频进行排除,从而降低误唤醒率。
61.其中,音频训练样本是由多组携带有标注信息的唤醒语音的音频特征样本组成的。
62.进一步地,在唤醒语音的唤醒置信度处于预置可疑置信度区间的情况下,可以将唤醒语音的音频特征发送至云端服务器,通过云端服务器内部部署的语音检测模型,对输入的唤醒语音的音频特征进行异常检测。
63.步骤s3,根据接收到的所述云服务器反馈的异常检测结果,执行所述异常检测结果对应的唤醒操作;
64.具体地,本发明实施例所描述的异常检测结果指的是唤醒语音的音频特征输入到云服务器内部的语音检测模型得到的检测结果,其可以包括表征唤醒语音为真实唤醒语音的检测结果和表征唤醒语音为非真实唤醒语音的检测结果。
65.进一步地,根据接收到的云服务器反馈的异常检测结果,执行异常检测结果对应的唤醒操作,即:
66.在异常检测结果表征为唤醒语音为真实唤醒语音的检测结果时,执行终端唤醒操作;在异常检测结果表征唤醒语音为非真实唤醒语音的检测结果时,不唤醒终端。
67.本发明实施例提供的语音唤醒方法,通过预置可疑置信度区间,在获取唤醒语音的音频特征后,确定处于可疑置信度区间内的唤醒语音的音频特征,通过将该唤醒语音的音频特征发送至云服务器进行唤醒异常检测,对唤醒语音做进一步检测,根据接收到的云服务器反馈的异常检测结果,执行更加可靠的唤醒操作,从而把传统的语音识别问题转换成对唤醒语音进行异常检测问题来处理,提高了终端唤醒率,同时降低了终端误唤醒率。
68.可选地,在所述将所述唤醒语音的音频特征发送至云服务器之前,还包括:
69.提取多个语音样本的音频特征样本,每个所述音频特征样本均带有标注信息;
70.将多个所述音频特征样本输入初始异常检测网络,得到多个所述音频特征样本的异常预测结果;
71.根据多个所述异常预测结果和多个所述标注信息,更新所述初始异常检测网络的参数,在满足预设条件的情况下,停止更新,得到所述唤醒异常检测模型。
72.具体地,本发明实施例所描述的初始异常检测网络可以是基于现有深度神经网络得到,其可以为深度卷积神经网络,还可以为其他可以实现异常检测的深度神经网络,在本发明实施例中对此不做具体限定。
73.本发明实施例所描述的预设条件指的是模型预先设置的收敛条件,用于判决模型训练过程中网络参数的更新,以完成模型训练。
74.在将所述唤醒语音的音频特征发送至云服务器之前,需要对云服务器中部署的语音检测模型进行训练,具体训练过程如下:
75.提取多个语音样本的音频特征,获取多个音频特征样本和每个音频特征样本对应的标签标注信息,每个音频特征样本对应的标注信息是已知的,其中,标注信息包括真实类别标注和非真实类别标注,其是根据唤醒语音的音频特征样本预先确定的,并与唤醒语音的音频特征样本是一一对应的,也就是说,训练样本中的每一个唤醒语音的音频特征样本,都预先设定好携带一个与之对应的标注信息。
76.在此基础上,将每个音频特征样本和每个音频特征样本对应的标注信息的组合作为一个训练样本,即将每个带有标注信息的音频特征样本作为一个训练样本,由此即可获得多个训练样本。
77.进一步地,在获得多个训练样本之后,再将多个训练样本依次输入至初始异常检测网络,根据初始异常检测网络的每一次异常预测结果,对初始异常检测网络的网络参数进行调整,在更新后的网络参数满足预设条件的情况下,停止更新,即可得到训练好的唤醒异常检测模型。
svdd损失的目标函数为:
[0093][0094]
其中,c表示提取到的特征所在特征空间的特征中心,即超球体球心;r表示特征空间半径参数,即超球体的半径;v表示超参数表示控制异常点的比例;λ表示惩罚因子;w为网络权重参数;φ(x
i
;w)表示训练数据通过自编码器网络之后在特征域的向量,即为异常预测结果。
[0095]
其中,公式中第一项r2用来最小化超球体的体积;第二项是一个针对落在超球体外面的点的惩罚项,超参数ν∈(0,1]控制球的体积和落在超球体外面的点之间的权衡,最后一项是权重f

范式正则化项,防止网络过拟合,参数λ控制正则化的权重,l为网络总的隐藏层数,其中l∈{1,...,l},w
l
为每一层的权重参数。
[0096]
通过对目标函数进行最小化处理,根据最小化处理结果更新deep svdd网络的参数,以训练出网络权重参数w,更新半径参数r,将离球心的距离与特征半径比较,大于特征半径的就判断为异常数据,小于特征半径的为正常数据,因此,模型训练中尽可能让正常数据映射到球心c附近,异常数据映射到远离球心c。
[0097]
在one

class svdd模式中,由于单类分类器中的数据全部为单类,于是one

class svdd损失的目标函数为:
[0098][0099]
即最小化到超球体球心的平均距离;
[0100]
其中,c表示提取到的特征所在特征空间的特征中心,即超球体球心,v表示超参数表示控制异常点的比例,λ表示惩罚因子,w为网络权重参数,φ(x
i
;w)表示训练数据通过自编码器网络之后在特征域的向量,即异常预测结果。
[0101]
单分类one

class svdd模式训练时,由于简化了半径,因此不需要对半径参数进行迭代更新。
[0102]
本发明实施例的方法,基于深度支持向量描述网络,从异常检测的角度出发,通过单分类one class分类技术,能够集中关注对标注信息为真实类别的唤醒语音音频处理上,而不用依赖分析多种多样的误唤醒音频,降低了模型训练的难度,实现对非唤醒音频进行排除,降低终端误唤醒率的同时,提高终端唤醒率。
[0103]
本发明实施例所描述的预设次数指的是预先设置的迭代参数,其具有可以设定为5、8、10等,具体数值可以根据实际模型计算需求进行设定,例如,当设定预设次数为5,则deep svdd网络每进行5次迭代,更新一次半径参数,得到更新后的半径参数。
[0104]
在本发明的实施例中,深度支持向量描述网络每进行预设次数的迭代,更新一次半径参数,得到更新后的半径参数,可以通过以下步骤进行更新,具体为:
[0105]
根据各个唤醒语音音频特征样本经过自编码器网络后得到的异常预测结果和预设半径参数,对soft

boundary svdd目标函数进行预设次数最小化处理,以得到预设次数迭代后的最小权重参数,从而根据当前最小权重参数来更新deep svdd网络的权重参数,其中,预设特征半径可以通过线搜索方法(line search)进行获取。
[0106]
基于任一异常预测结果和当前最小权重参数,对soft

boundary svdd目标函数进行最小化处理,得到当前最小半径参数,以根据当前最小半径参数更新deep svdd网络的半径参数,即最小半径参数为此次更新后的半径参数;
[0107]
进一步地,基于更新后的半径参数、预设特征中心和多个异常预测结果,对soft

boundary svdd目标函数进行最小化处理,得到当前最小网络参数,从而根据当前最小网络参数来更新deep svdd网络的参数。
[0108]
在上述实施例的基础之上,优选地,在soft

boundary svdd模式训练时,输入的唤醒语音的音频特征可以采用40维矩阵数据,超参数v值取0.05,特征中心c取网络初始化映射后的均值,运用典型的二阶段训练,初始阶段学习率设置为10e

4,子阶段学习率设置为10e

5,采用adam算法和批归一化算法batch normalization进行优化,利用最近的网络权重参数w,根据网络学到的潜层特征更新半径参数r,可以设定deep svdd网络每进行5次迭代更新一次r值。
[0109]
本发明实施例的方法,通过深度支持向量描述deep svdd网络构建初始异常检测模型,可以直接学习唤醒语音的音频特征到特征域的映射关系,通过网络参数更新方式,将映射结果在特征域中紧缩在一个超球体中,达到确定唤醒音频的共性特征的效果。
[0110]
可选地,所述预置可疑置信度区间通过以下步骤得到,包括:
[0111]
将多个预选唤醒语音的音频特征输入唤醒模型,得到多个所述预选唤醒语音的打分结果;
[0112]
基于每个所述预选唤醒语音和所述预选唤醒语音的打分结果,确定所述预置可疑置信度区间;
[0113]
其中,所述预置可疑置信度区间包括第一区间阈值和第二区间阈值,所述第一区间阈值小于所述第二区间阈值。
[0114]
具体地,本发明实施例所描述的唤醒模型可以部署在终端设备里,用于对终端外部唤醒语音进行初始检测。
[0115]
本发明实施例所描述的打分结果指的是唤醒模型判定输入的预选唤醒语音的音频特征是否为真实唤醒语音输出的判定结果,打分值越高,说明唤醒语音越接近真实唤醒语音,从而可以通过模型输出的打分结果,确定唤醒语音的唤醒置信度。
[0116]
本发明实施例所描述的第一区间阈值可以是表征终端的唤醒阈值,终端的唤醒阈值指的是在没有外界噪音干扰的情况下,判定语音能够成功唤醒终端的置信度阈值;也就是说在没有外界噪音干扰的情况下,若唤醒语音音频特征的唤醒置信度大于终端的唤醒阈值时,可唤醒终端,若该唤醒置信度小于终端的唤醒阈值时,终端将不会被唤醒。
[0117]
本发明实施例所描述的第二区间阈值可以是表征终端的模糊唤醒阈值,模糊唤醒阈值指的是在外界存在噪音干扰时,判定语音能够成功唤醒终端的唤醒置信度阈值。
[0118]
在本发明的实施例中,预置可疑置信度区间是基于第一区间阈值与第二区间阈值确定的阈值区间,即处于终端的唤醒阈值与终端的模糊唤醒阈值之间的区间。终端的唤醒阈值小于终端的模糊唤醒阈值。由于外界噪音的存在,在外界语音音频特征的唤醒置信度大于终端的唤醒阈值,且小于终端模糊唤醒阈值,即处于预置可疑置信度区间时,存在很大概率终端误唤醒的情况。
[0119]
在本发明的实施例中,将多个预选唤醒语音音频特征输入终端唤醒模型,得到每
个预选唤醒语音的打分结果,通过对每个预选唤醒语音及其对应的打分结果进行统计判别,可以确定出第一区间阈值和第二区间阈值,即可以得到终端的唤醒阈值和终端的模糊唤醒阈值。
[0120]
因此,本发明的实施例中,通过设定可疑置信度区间,即终端的误唤醒阈值区间,对处于该区间内的唤醒语音将进行唤醒异常检测,可以进一步确定唤醒音频为真实唤醒语音还是非真实唤醒语音,以降低终端误唤醒率。
[0121]
本发明实施例的方法,通过获取大量的唤醒语音的音频特征,将每个唤醒语音的音频特征输入唤醒模型,得到对应的打分结果,通过对各个打分结果进行统计判别,确定预置可疑置信度区间,基于预置可疑置信度区间,可以可靠地筛选出需要发送到云服务器进行异常检测的唤醒语音,有利于降低终端误唤醒率。
[0122]
可选地,所述根据接收到的所述云服务器反馈的异常检测结果,执行所述异常检测结果对应的唤醒操作,包括:
[0123]
在所述异常检测结果表征所述唤醒语音为真实类别的情况下,执行唤醒操作;
[0124]
或,在所述异常检测结果表征所述唤醒语音为非真实类别的情况下,不唤醒终端。
[0125]
本发明实施例的方法,通过将处于预置可疑置信度区间的唤醒语音发送到云服务器进行二次检测,根据接收到的云服务器反馈的异常检测结果,可以更加准确地判断出唤醒语音的类别,提高了终端唤醒率,降低了终端误唤醒率。
[0126]
可选地,在所述基于唤醒语音的音频特征,确定所述唤醒语音的唤醒置信度之后,还包括:
[0127]
在所述唤醒语音的唤醒置信度高于所述预置可疑置信度区间的第二区间阈值的情况下,执行唤醒操作;
[0128]
或,在所述唤醒语音的唤醒置信度低于所述预置可疑置信度区间的第一区间阈值的情况下,不唤醒终端设备。
[0129]
通过本发明实施例的方法,通过终端内部的唤醒模型对唤醒语音进行初次检测,确定处于预置可疑置信度区间外的唤醒语音的唤醒操作,实现终端设备对唤醒语音的初次检测效果。
[0130]
图2是本发明实施例提供的语音唤醒方法的整体流程图,如图2所示,首先,提取唤醒语音的音频特征,将该音频特征输入终端唤醒模型进行第一次检测,得到唤醒语音的唤醒置信度;然后,通过将大量唤醒语音输入终端唤醒模型进行判决打分,根据打分结果确定终端的预置可疑置信度区间、其第一区间阈值即唤醒阈值和第二区间阈值即模糊唤醒阈值。
[0131]
当唤醒语音音频特征的唤醒置信度高于模糊唤醒阈值时,终端将执行唤醒操作;当该唤醒语音音频特征的唤醒置信度低于唤醒阈值时,不唤醒终端设备。
[0132]
当唤醒语音音频特征的唤醒置信度处于唤醒阈值和模糊唤醒阈值之间,即处于预置可疑置信度区间时,唤醒数据的音频特征数据将会被发送到云端服务器进行二次检测,即通过云端服务器内部的语音检测模型对唤醒语音音频特征进行异常检测,通过云端语音检测模型的异常检测后,云端服务器将异常检测结果反馈给终端,当异常检测结果表征该唤醒语音为真实类别的情况下,执行唤醒操作;当异常检测结果表征该唤醒语音为非真实类别的情况下,不唤醒终端。
[0133]
通过本发明实施例的方法,提出一种基于异常检测技术的方法,通过对可疑置信度区间内的唤醒语音进行二次检测,从而实现在不降低唤醒率的基础上,降低误唤醒率。
[0134]
下面对本发明提供的语音唤醒装置进行描述,上文描述的语音唤醒方法可应用于下文描述的语音唤醒装置中,二者可相互对应参照。
[0135]
图3是本发明实施例提供的语音唤醒装置的结构示意图,如图3,包括:
[0136]
第一确定单元310,用于基于唤醒语音的音频特征,确定所述唤醒语音的唤醒置信度;
[0137]
检测单元320,用于在所述唤醒置信度在预置可疑置信度区间的情况下,将所述唤醒语音的音频特征发送至云服务器,其中,所述云服务器部署有唤醒异常检测模型,所述唤醒异常检测模型用于对所述唤醒语音进行异常检测;
[0138]
第一执行单元330,用于根据接收到的所述云服务器反馈的异常检测结果,执行所述异常检测结果对应的唤醒操作。
[0139]
本发明实施例提供的语音唤醒装置,具体执行上述各语音唤醒方法实施例流程,具体请详见上述各语音唤醒方法实施例的内容,在此不再赘述。
[0140]
本发明实施例提供的语音唤醒装置,通过预置可疑置信度区间,在获取唤醒语音的音频特征后,确定处于可疑置信度区间内的唤醒语音的音频特征,通过将该唤醒语音的音频特征发送至云服务器进行唤醒异常检测,对唤醒语音做进一步检测,根据接收到的云服务器反馈的异常检测结果,执行更加可靠的唤醒操作,从而把传统的语音识别问题转换成对唤醒语音进行异常检测问题来处理,提高了终端唤醒率,同时降低了终端误唤醒率。
[0141]
可选地,所述装置,还包括特征提取单元、输入单元和更新单元;
[0142]
其中,所述特征提取单元,用于提取多个语音样本的音频特征样本,每个所述音频特征样本均带有标注信息;
[0143]
所述输入单元,用于将多个所述音频特征样本输入初始异常检测网络,得到多个所述音频特征样本的异常预测结果;
[0144]
所述更新单元,用于根据多个所述异常预测结果和多个所述标注信息,更新所述初始异常检测网络的参数,在满足预设条件的情况下,停止更新,得到所述唤醒异常检测模型。
[0145]
可选地,所述异常预测结果是基于标注信息为真实类别标注的所述音频特征样本得到的,所述更新单元还包括构建子单元和处理子单元;
[0146]
其中,所述构建子单元,用于基于多个所述异常预测结果和预设特征中心构建目标函数;
[0147]
所述处理子单元,用于对所述目标函数进行最小化处理,得到最小化处理结果,以根据所述最小化处理结果更新所述初始异常检测网络的参数。
[0148]
可选地,所述初始异常检测网络为深度支持向量描述网络,所述构建子单元还用于:
[0149]
当所述深度支持向量描述网络进行预设次数的迭代时,对所述深度支持向量描述网络对应的半径参数进行更新,得到更新后的半径参数;
[0150]
基于更新后的半径参数、所述预设特征中心和所述异常预测结果,确定所述目标函数。
[0151]
可选地,所述装置,还包括打分单元和第二确定单元;
[0152]
其中,所述打分单元,用于将多个预选唤醒语音的音频特征输入唤醒模型,得到多个所述预选唤醒语音的打分结果;
[0153]
所述第二确定单元,用于基于每个所述预选唤醒语音和所述预选唤醒语音的打分结果,确定所述预置可疑置信度区间;
[0154]
其中,所述预置可疑置信度区间包括第一区间阈值和第二区间阈值,所述第一区间阈值小于所述第二区间阈值。
[0155]
可选地,所述第一执行单元330还用于:
[0156]
在所述异常检测结果表征所述唤醒语音为真实类别的情况下,执行唤醒操作;
[0157]
或,在所述异常检测结果表征所述唤醒语音为非真实类别的情况下,不唤醒终端设备。
[0158]
可选地,所述装置,还包括:
[0159]
第二执行单元,用于在所述唤醒语音的唤醒置信度高于所述预置可疑置信度区间的第二区间阈值的情况下,执行唤醒操作;
[0160]
或,在所述唤醒语音的唤醒置信度低于所述预置可疑置信度区间的第一区间阈值的情况下,不唤醒终端设备。
[0161]
图4是本发明实施例提供的电子设备的实体结构示意图,如图4所示,该电子设备可以包括:处理器(processor)410、通信接口(communications interface)420、存储器(memory)430和通信总线440,其中,处理器410,通信接口420,存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令,以执行上述语音唤醒方法,该方法包括:基于唤醒语音的音频特征,确定所述唤醒语音的唤醒置信度;在所述唤醒置信度处于预置可疑置信度区间的情况下,将所述唤醒语音的音频特征发送至云服务器,其中,所述云服务器部署有唤醒异常检测模型,所述唤醒异常检测模型用于对所述唤醒语音进行异常检测;根据接收到的所述云服务器反馈的异常检测结果,执行所述异常检测结果对应的唤醒操作。
[0162]
此外,上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read

only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0163]
另一方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的语音唤醒方法,该方法包括:基于唤醒语音的音频特征,确定所述唤醒语音的唤醒置信度;在所述唤醒置信度处于预置可疑置信度区间的情况下,将所述唤醒语音的音频特征发送至云服务器,其中,所述云服务器部署有唤醒异常检测模型,所述唤醒异常检测模型用于对所述唤醒语音进行异常检
测;根据接收到的所述云服务器反馈的异常检测结果,执行所述异常检测结果对应的唤醒操作。
[0164]
又一方面,本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的语音唤醒方法,该方法包括:基于唤醒语音的音频特征,确定所述唤醒语音的唤醒置信度;在所述唤醒置信度处于预置可疑置信度区间的情况下,将所述唤醒语音的音频特征发送至云服务器,其中,所述云服务器部署有唤醒异常检测模型,所述唤醒异常检测模型用于对所述唤醒语音进行异常检测;根据接收到的所述云服务器反馈的异常检测结果,执行所述异常检测结果对应的唤醒操作。
[0165]
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
[0166]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
[0167]
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。