首页 > 乐器声学 专利正文
一种设备的唤醒方法及其电子设备与流程

时间:2022-02-13 阅读: 作者:专利查询

一种设备的唤醒方法及其电子设备与流程

1.本技术涉及设备唤醒技术,尤其涉及一种设备的唤醒方法及其电子设备。


背景技术:

2.随着科学技术的不断发展,越来越多的智能设备应运而生,但现有的智能设备不能满足用户在不同声音场景下的语音识别。


技术实现要素:

3.有鉴于此,本技术实施例期望提供一种设备的唤醒方法及其电子设备。
4.为解决上述问题,本技术的技术方案是这样实现的:
5.根据本技术的一方面,提供一种电子设备的唤醒方法,所述方法包括:
6.电子设备在第一状态下,采集语音信号;
7.将所述语音信号输入第一语音识别模型进行识别;
8.如果识别失败,所述电子设备从所述第一状态切换到第二状态;其中,所述电子设备在所述第一状态下的功率消耗低于所述第二状态下的功率消耗;
9.在所述第二状态下,将所述语音信号输入第二语音识别模型进行识别,所述第二语音识别模型的识别精度高于所述第一语音识别模型;
10.如果识别成功,唤醒所述电子设备。
11.上述方案中,所述方法还包括:
12.如果利用所述第二语音识别模型对所述语音信号识别成功,将所述语音信号输入所述第一语音识别模型,以对所述第一语音识别模型进行训练。
13.上述方案中,将所述语音信号输入第一语音识别模型进行识别,包括:
14.将所述语音信号对应的第一语音特征信息与所述第一语音识别模型中的第二语音特征信息进行匹配;
15.在所述第二状态下,将所述语音信号输入第二语音识别模型进行识别,包括:
16.在所述第二状态下,将所述第一语音特征信息与所述第二语音识别模型中的第三语音特征信息进行匹配;
17.或者,在所述第二状态下,将所述第一语音特征信息与所述第二语音特征信息匹配失败的特征信息与所述第二语音识别模型中的第三语音特征信息进行匹配。
18.上述方案中,所述第二语音识别模型的识别精度高于所述第一语音识别模型,包括:
19.所述第二语音识别模型中存储的特征样本维度多于所述第一语音识别模型中存储的特征样本维度;
20.和或,所述第一语音识别模型基于嵌入式处理器进行识别,所述第二语音识别模型基于中央处理器进行识别。
21.上述方案中,所述第二语音识别模型中存储的特征样本维度多于所述第一语音识
别模型中存储的特征样本维度,包括:
22.所述第一语音识别模型中存储的特征样本至少包括声纹特征信息和关键字词信息;
23.所述第二语音识别模型中存储的特征样本至少包括声纹特征信息、关键字词信息、语速特征信息、音色特征信息中的至少三种特征组合,且所述第二语音识别模型中的特征信噪比小于所述第一语音识别模型中的特征信噪比。
24.上述方案中,所述第一语音特征信息中至少包括:声纹特征信息、关键字词信息、语速特征信息、音色特征信息;
25.所述将所述第一语音特征信息与所述第二语音识别模型中的第三语音特征信息进行匹配,包括:
26.将所述第一语音特征信息中对应的特征信息与所述第二语音识别模型中对应的特征信息进行一一匹配;
27.获得表征所述第一语音特征信息与所述第三语音特征信息是否匹配的结果。
28.上述方案中,在将所述语音信号输入第二语音识别库模型进行识别之前,所述方法还包括:
29.对采集的所述语音信号进行降噪处理,以得到经降噪处理后的语音信号。
30.上述方案中,所述电子设备从所述第一状态切换到第二状态,包括:
31.向中央处理器发送识别指令,以使得所述中央处理器基于所述识别指令和所述第二语音识别模型对所述语音信号进行识别。
32.上述方案中,在采集语音信号之前,所述方法还包括:
33.基于第一参数采集目标对象的第一语音样本数据,基于所述第一语音样本数据对所述第一语音识别模型进行训练;
34.基于第二参数采集目标对象的第二语音样本数据,基于所述第二语音样本数据对所述第二语音识别模型进行训练;
35.其中,所述第一参数和所述第二参数均表征语音采集次数,且所述第二参数表征的语音采集次数大于所述第一参数表征的语音采集次数。
36.根据本技术的另一方面,提供一种电子设备,包括:
37.采集单元,用于在第一状态下,采集语音信号;
38.识别单元,用于将所述语音信号输入第一语音识别模型进行识别;以及在第二状态下,将所述语音信号输入第二语音识别模型进行识别,所述第二语音识别模型的识别精度高于所述第一语音识别模型;
39.切换单元,用于如果识别失败,从所述第一状态切换到所述第二状态;其中,所述第一状态下的功率消耗低于所述第二状态下的功率消耗;
40.唤醒单元,用于如果在所述第二状态下识别成功,唤醒所述电子设备。
41.本技术提供的一种设备的唤醒方法及其电子设备,通过在不同状态下以不同级别的语音识别模型对采集到的语音信号进行识别,可以在最大程度降低设备功耗的情况下提高语音识别精度,以满足用户在不同场景下的语音输入,提高用户的唤醒识别体验。
附图说明
42.图1为本技术中处理方法的流程实现示意图;
43.图2为本技术中电子设备的结构组成示意图一;
44.图3为本技术中电子设备的结构组成示意图二;
45.图4为本技术中电子设备的结构组成示意图三。
具体实施方式
46.以下结合说明书附图及具体实施例对本技术的技术方案做进一步的详细阐述。
47.图1为本技术中处理方法的流程实现示意图,如图1所示,包括:
48.步骤101,电子设备在第一状态下,采集语音信号;
49.本技术中,该方法可以应用于具有语音输入功能的电子设备,比如该电子设备可以是手机、电视、平板、音箱、学习机、录音笔、智能家居等等。当该电子设备处于休眠状态下时,用户对该电子设备输入语音唤醒指令可以将其唤醒。本技术中,该电子设备在休眠状态下时其功耗通常较低,当用户对处于低功耗状态下的电子设备输入唤醒指令时,该电子设备可以在低功耗状态下采集到该唤醒指令所对应的语音信号。
50.步骤102,将所述语音信号输入第一语音识别模型进行识别;
51.本技术中,该电子设备在低功耗状态下如果采集到语音信号,该电子设备还可以在低功耗状态下,将采集的语音信号输入到第一语音识别模型进行识别。
52.具体地,该电子设备通过该第一语音识别模型可以对该语音信号的语音特征进行识别,以得到该语音信号对应的第一语音特征信息。然后将该第一语音特征信息与第一语音识别模型中的第二语音特征信息进行匹配,以根据匹配结果确定是否唤醒该电子设备。
53.这里,该第一语音识别模型具体可以是基于嵌入式处理器对该语音信号进行识别,该嵌入式处理器包括但不限于数字信号处理芯片(dsp,digital signal process)、现场可编程逻辑门阵列(fpga,field programmable gate array)电路、嵌入式神经网络处理器(npu,neural

network processing units),其中,通过dsp或fpga可以对该语音信号进行关键词识别;通过npu可以对该语音信号进行声纹识别。
54.本技术中,该电子设备还可以在第一状态以前基于第一参数采集目标对象的第一语音样本数据,基于该第一语音样本数据对该第一语音识别模型进行不断训练而生成最终的用于唤醒该电子设备的第一语音识别模型,其中该第一参数表征语音采集次数。
55.比如,该电子设备是智能音箱,在智能音箱的初始使用阶段,该智能音箱会提示用户分别输入三次语音指令,如“小度、小度”,以对该智能音箱中的第一语音识别模型进行训练,以建立属于用户自己的语音识别模型。智能音箱在采集到用户分三次输入的语音指令“小度、小度”后,可以成功建立属于用户自己处于当时状态下的语音识别模型,这样用户在下次以同样状态下输入语音指令“小度、小度”时,就可以唤醒该电子设备。
56.这里,同样状态是指用户当前的语音情绪、语音环境与用户当时训练该语音识别模型时的语音情绪、语音环境是相同的。比如,同样是开心时候输入的语音唤醒指令。
57.步骤103,如果识别失败,所述电子设备从所述第一状态切换到第二状态;其中,所述电子设备在所述第一状态下的功率消耗低于所述第二状态下的功率消耗;
58.本技术中,如果该电子设备基于该第一语音特征信息与第一语音识别模型中的第
二语音特征信息的匹配结果,确定第一语音特征信息与该第二语音特征信息匹配成功,则唤醒该电子设备自身,或唤醒与该电子设备通信连接的目标设备。
59.这里,当该电子设备基于采集的语音信号唤醒目标设备时,该目标设备可以是与该电子设备(如手机)通信连接的音箱、冰箱、电饭煲、洗衣机、空调、热水器等智能设备,且该目标设备可以通过无线的方式与该电子设备连接。
60.本技术中,如果该电子设备基于该第一语音特征信息与第一语音识别模型中的第二语音特征信息的匹配结果,确定第一语音特征信息与该第二语音特征信息匹配失败,则先不唤醒该电子设备本身或与该电子设备通信连接的目标设备,而是控制该电子设备从第一状态切换到第二状态。其中,该电子设备在该第一状态下的功率消耗低于该第二状态下的功率消耗。
61.这里,第一状态可以表征电子设备处于低功耗状态,第二状态可以表征电子设备处于高功耗状态。
62.比如,在第一状态下,电子设备的中央处理器(cpu,central processing unit)是不参与数据计算的,仅作为数据传输的载体,而在第二状态下,cpu则参与数据计算,从而就会提高电子设备的功率消耗。
63.本技术中,该电子设备从第一状态切换到第二状态时,具体可以通过向cpu发送识别指令,以使得cpu基于该识别指令和第二语音识别模型对该语音信号进行识别。
64.步骤104,在所述第二状态下,将所述语音信号输入第二语音识别模型进行识别,所述第二语音识别模型的识别精度高于所述第一语音识别模型;
65.本技术中,该电子设备在第二状态下,将该语音信号输入第二语音识别模型进行识别,具体可以是在第二状态下,将该第一语音特征信息与该第二语音识别模型中的第三语音特征信息进行匹配,根据匹配结果确定是否唤醒电子设备本身或与该电子设备信号连接的目标设备。
66.这里,第二语音识别模型具体可以是基于cpu进行语音识别。
67.本技术中,由于第二语音识别模型是基于cpu进行语音识别,而第一语音识别模型是基于嵌入式处理器进行语音识别,而cpu的数据处理能力要高于嵌入式处理器,所以第二语音识别模型的识别精度高于第一语音识别模型。
68.本技术通过第二语音识别模型对该语音信号对应的第一语音特征信息进行识别,可以提高语音识别的准确率,以避免电子设备产生的误唤醒操作。
69.本技术中,该电子设备在第二状态下,将该语音信号输入第二语音识别模型进行识别,具体还可以是在第二状态下,将第一语音特征信息与第二语音特征信息匹配失败的特征信息与第二语音识别模型中的第三语音特征信息进行匹配。通过第二语音识别模型仅对第一语音识别模型识别失败的部分特征信息进行识别,可以提高语音识别效率,减少数据重复识别的时间。
70.本技术中,该电子设备在将语音信号输入第二语音识别模型进行识别之前,还可以对采集的语音信号进行降噪处理,以得到经降噪处理后的语音信号,然后将经降噪处理后的语音信号输入到第二语音识别模型进行识别。如此,通过对语音信号进行降噪后识别,可以提高语音识别精度,避免一些环境噪音对语音信号的识别造成干扰。
71.本技术中,该第二语音识别模型具体是由该电子设备基于第二参数采集目标对象
的第二语音样本数据,基于该第二语音样本数据对该第二语音识别模型进行反复训练而生成的最终的用于唤醒电子设备的语音识别模型。这里,该第二参数具体表征语音采集次数,且该第二参数表征的语音采集次数大于第一语音识别模型对应的第一参数表征的语音采集次数。
72.比如,该电子设备在基于目标对象的语音样本数据训练第一语音识别模型时,只需要采集三次目标对象的语音信号即可。而在基于目标对象的语音样本数据训练第二语音识别模型时,则需要采集五次以上目标对象在不同语音场景下的语音信号。比如,开心时候的语音信号、不开心时候的语音信号、感冒时的语音信号、兴奋时的语音信号、激动时的语音信号、喊叫时的语音信号等等。
73.本技术中,该电子设备在对第二语音识别模型进行训练时,还可以输出提示音,以提醒用户以不同情绪的声音输入语音指令,以丰富第二语音识别模型的样本数据。比如,开心时的声音、悲伤时的声音、感冒时的声音、喊叫时的声音、激动时的声音等等。
74.本技术中,第二语音识别模型中存储的特征样本维度多于第一语音识别模型中存储的特征样本维度。
75.比如:第一语音识别模型中存储的特征样本至少包括声纹特征信息和关键字词信息;而第二语音识别模型中存储的特征样本至少包括声纹特征信息、关键字词信息、语速特征信息、音色特征信息中的至少三种特征组合,且第二语音识别模型中的特征信噪比小于第一语音识别模型中的特征信噪比。
76.本技术中,该电子设备在第一状态下采集的语音信号所对应的第一语音特征信息中也可以至少包括:声纹特征信息、关键字词信息、语速特征信息、音色特征信息和音量特征信息;该电子设备在将第一语音特征信息与第二语音识别模型中的第三语音特征信息进行匹配时,具体可以将该第一语音特征信息中对应的特征信息与第二语音识别模型中对应的特征信息进行一一匹配;然后获得表征第一语音特征信息与第三语音特征信息是否匹配的结果。
77.比如,将第一语音特征信息中的声纹特征信息与第二语音识别模型中的声纹特征信息进行匹配,以判断该语音信号的输入对象是否是目标用户,获得第一判断结果;将第一语音特征信息中的关键字词与第二语音识别模型中的关键字词进行匹配,以判断该语音信号中对应的关键字词是否是预设唤醒词,获得第二判断结果;将该第一语音特征信息中的语速特征信息与第二语音识别模型中的语速特征信息进行匹配,以判断该语音信号中对应的语速是否超出预设的语速阈值范围,获取第三判断结果;将该第一语音特征信息中的音色特征信息与第二语音识别模型中的音色特征信息进行匹配,以判断该语音信号中对应的音色是否超出预设的音色阈值范围,获取第四判断结果;将第一语音特征信息中的音量特征信息与第二语音识别模型中的音量特征信息进行匹配,以判断该语音信号中对应的音量是否超出预设的音量阈值范围,获取第五判断结果;然后根据该第一判断结果、第二判断结果、第三判断结果、第四判断结果和第五判断结果,获得表征该第一语音特征信息与该第三语音特征信息是否匹配的识别结果。
78.步骤105,如果识别成功,唤醒所述电子设备。
79.本技术中,如果该电子设备基于该第一语音特征信息与第二语音识别模型中的第三语音特征信息的匹配结果,或者,基于该第一语音特征信息与第二语音特征信息匹配失
败的特征信息与该第三语音特征信息的匹配结果,确定该第一语音特征信息与该第三语音特征信息匹配成功,则确定当前用户是目标用户,则唤醒该电子设备本身,或唤醒与该电子设备通信连接的目标设备。
80.这里,当该电子设备基于采集的语音信号唤醒目标设备时,该目标设备可以是与该电子设备(如手机)通信连接的音箱、冰箱、电饭煲、洗衣机、空调、热水器等智能设备,且该目标设备可以通过无线的方式与该电子设备连接。
81.本技术中,如果利用第二语音输入模型对该语音信号识别成功,该电子设备还可以将该语音信号输入该第一语音识别模型,通过该语音信号对该第一语音识别模型进行再次训练,以提高第一语音识别模型的识别精度,以便用户再次对该电子设备进行语音唤醒时,能够使该电子设备在低功耗状态下,利用第一语音识别模型即可唤醒电子设备本身或目标设备,从而降低电子设备的功耗的同时提高语音识别准确度。
82.由于电子设备在低功耗状态下利用第一语音识别模型对语音信号识别时,具体是基于嵌入式处理器对语音信号进行识别,所以可以理解本技术在第一语音识别阶段是通过硬件上的直接加速,能够快速响应用户需求。如果在第一语音识别阶段利用第一语音模型识别失败,则将该电子设备由低功耗状态切换到高功耗状态,并在高功耗状态下以第二语音识别模型对采集到的语音信号进行识别,由于第二语音识别模型是基于cpu或基于音频处理对象(apo)的软件数字信号处理对语音信号进行识别,其识别精度高于第一语音识别模型,所以第二语音识别模型的模型可以设置的更复杂,识别的参数更多,但同时消耗更多的功率。本技术通过不同层次的语音识别模型,可以在最大程度降低设备功耗的情况下满足用户在不同语音环境下的语音识别需要,比如用户90%的时间处于正常语音输入状态,处于其他情绪状态的情况占10%。由于在低功耗状态下的第一语音识别模型可以基本满足对用户正常语音的识别需求,因此可以最大程度降低设备功耗。而当用户处于其他情绪状态的情况,例如用户在感冒时输入的语音信号,用户在哭泣时输入的语音信号、用户在兴奋时输入的语音信号等等,这时第一语音识别模型识别效果可能不够好,可以继续通过第二语音识别模型来识别,此时的识别率会更精确,但由于用户处于其他情绪状态的情况占比较低,设备处于高功耗的状态进行语音识别的场景较少,因此本技术的上述方案,即降低了设备功耗同时提高用户的唤醒识别体验。
83.图2为本技术中电子设备的结构组成示意图一,如图2所示,该电子设备包括:
84.采集单元201,用于在第一状态下,采集语音信号;
85.输入单元202,用于将所述语音信号输入第一语音识别模型进行识别;以及在第二状态下,将所述语音信号输入第二语音识别模型进行识别,所述第二语音识别模型的识别精度高于所述第一语音识别模型;
86.切换单元203,用于如果识别失败,从所述第一状态切换到所述第二状态;其中,所述第一状态下的功率消耗低于所述第二状态下的功率消耗;
87.唤醒单元204,用于如果在所述第二状态下识别成功,唤醒所述电子设备。
88.本技术中,该电子设备可以是手机、电脑、电视、音箱、平板、录音笔、表等具有语音输入功能的电子设备。
89.这里,该第二语音识别模型的识别精度高于第一语音识别模型,具体可以体现在:所述第二语音识别模型中存储的特征样本维度多于所述第一语音识别模型中存储的特征
样本维度;和或,所述第一语音识别模型基于嵌入式处理器进行识别,所述第二语音识别模型基于中央处理器进行识别。
90.这里,所述第二语音识别模型中存储的特征样本维度多于所述第一语音识别模型中存储的特征样本维度,具体可以包括:
91.所述第一语音识别模型中存储的特征样本至少包括声纹特征信息和关键字词信息;所述第二语音识别模型中存储的特征样本至少包括声纹特征信息、关键字词信息、语速特征信息、音色特征信息中的至少三种特征组合,且所述第二语音识别模型中的特征信噪比小于所述第一语音识别模型中的特征信噪比。
92.在进一步的方案中,该输入单元202,还用于如果利用所述第二语音识别模型对所述语音信号识别成功,将所述语音信号输入所述第一语音识别模型,以对所述第一语音识别模型进行训练。
93.在进一步的方案中,该电子设备还包括:
94.匹配单元205,具体用于在第一状态下,将所述语音信号对应的第一语音特征信息与所述第一语音识别模型中的第二语音特征信息进行匹配;以及在第二状态下,将所述第一语音特征信息与所述第二语音识别模型中的第三语音特征信息进行匹配;或者,在第二状态下,将所述第一语音特征信息与所述第二语音特征信息匹配失败的特征信息与所述第二语音识别模型中的第三语音特征信息进行匹配。
95.在进一步方案中,第一语音特征信息中至少包括:声纹特征信息、关键字词信息、语速特征信息、音色特征信息;识别单元202,具体还可以将所述第一语音特征信息中对应的特征信息与所述第二语音识别模型中对应的特征信息进行一一匹配,以获得表征所述第一语音特征信息与所述第三语音特征信息是否匹配的结果。
96.本技术中,该电子设备还包括:
97.降噪单元206,用于对采集的所述语音信号进行降噪处理,以得到经降噪处理后的语音信号。
98.输入单元202,具体用于将经降噪处理后的语音信号输入到第二语音识别模型。
99.本技术中,该电子设备还包括:
100.发送单元207,用于向中央处理器发送识别指令,以使得所述中央处理器基于所述识别指令和所述第二语音识别模型对所述语音信号进行识别。
101.本技术中,该采集单元201,具体还用于基于第一参数采集目标对象的第一语音样本数据,以使得电子设备基于所述第一语音样本数据对所述第一语音识别模型进行训练;以及基于第二参数采集目标对象的第二语音样本数据,以使得电子设备基于所述第二语音样本数据对所述第二语音识别模型进行训练;
102.其中,所述第一参数和所述第二参数均表征语音采集次数,且所述第二参数表征的语音采集次数大于所述第一参数表征的语音采集次数。
103.需要说明的是:上述实施例提供的电子设备在进行设备唤醒时,仅以上述各程序模块的划分进行举例说明,实际应用中,可以根据需要而将上述处理分配由不同的程序模块完成,即将装置的内部结构划分成不同的程序模块,以完成以上描述的全部或者部分处理。另外,上述实施例提供的电子设备与上述提供的唤醒方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
104.图3为本技术中电子设备的结构组成示意图二,如图3所示,该电子设备可以包括:
105.麦克风301,用于在电子设备处于第一状态(如:低功耗状态)下,采集语音信号;
106.嵌入式处理器302,用于在电子设备处于第一状态下将所述语音信号输入第一语音识别模型进行识别;并在识别失败时将该语音信号发送给处理器驱动层303。
107.这里,该嵌入式处理器302包括但不限于dsp、fpga电路、npu,其中,通过dsp或fpga可以对该语音信号进行关键词识别;通过npu可以对该语音信号进行声纹识别。
108.处理器驱动层303,用于将嵌入式处理器302发送的语音信号发送给框架层。
109.降噪装置304,位于框架层,用于对接收到的该语音信号进行降噪处理,然后再将经降噪处理后的语音信号发送给cpu 305或音频处理对象(apo,audio processing objects)。
110.cpu 305或apo也位于框架层,用于将该语音信号输入到第二语音识别模型进行识别。此时,该电子设备处于第二状态(比如高功耗状态)。
111.这里,apo为windows音频流提供基于软件的数字信号处理。apo是com主机对象(host object),包含为提供特定数字信号处理(dsp)效果而编写的算法。这种能力被非正式地称为“音效”。apo的示例包括均衡器,混响,颤音,回声消除(aec)和自动增益控制(agc)。apo是基于com的实时进程中对象。
112.本技术中,由于第一语音识别模型是基于嵌入式处理器进行识别,第二语音识别模型基于cpu或基于音频处理对象(apo)的软件数字信号处理进行识别,所以这里的第二语音识别模型的识别精度高于第一语音识别模型。另外,该第二语音识别模型中存储的特征样本维度多于第一语音识别模型中存储的特征样本维度。比如,第一语音识别模型中存储的特征样本至少包括声纹特征信息和关键字词信息;第二语音识别模型中存储的特征样本至少包括声纹特征信息、关键字词信息、语速特征信息、音色特征信息中的至少三种特征组合,且第二语音识别模型中的特征信噪比小于第一语音识别模型中的特征信噪比。
113.本技术通过第一语音识别模型可以在电子设备处于低功耗状态下对用户的语音信号进行初步识别,如果识别成功则可以在不增加设备功耗的情况下唤醒设备本身或与该电子设备信号连接的目标设备。如果识别失败,则可以由低功耗状态切换到高功耗状态,以在高功耗状态下通过第二语音识别模型对用户的语音信号进行再次识别,如果识别成功则唤醒设备本身或与该电子设备通信连接的目标设备。这里,通过第二语音识别模型可以提高用户语音识别的准确度。
114.本技术中,如果第二语音识别模型基于cpu 305对该语音信号识别成功,则将识别成功的结果可以发给检测结果输出单元306,然后由检测结果输出单元306将识别成功的结果发给应用层307,应用层307基于该检测结果唤醒电子设备本身或与该电子设备无线连接的目标设备。
115.这里,当该电子设备基于采集的语音信号唤醒目标设备时,该目标设备可以是与该电子设备(如手机)通信连接的音箱、冰箱、电饭煲、洗衣机、空调、热水器等智能设备,且该目标设备可以通过无线的方式与该电子设备连接。
116.本技术通过电子设备在低功耗状态下以第一语音识别模型和嵌入式处理器对语音信号识别,能够在不增加设备功耗的情况下快速响应用户,并且在识别成功的情况下唤醒设备本身或与该电子设备无线连接的目标设备,如果第一语音模型识别失败,则从低功
耗状态切换到高功耗状态下以第二语音识别模型和cpu对采集到的语音信号进行识别,由于第二语音识别模型的识别精度高于第一语音识别模型,所以通过第二语音识别模型对语音信号进行识别,可以满足用户在不同声音环境下的语音输入,比如用户在感冒时输入的语音信号,用户在哭泣时输入的语音信号、用户在兴奋时输入的语音信号等等,能够提高语音识别精度。
117.本技术中,如果所述第二语音识别模型基于cpu 305或基于音频处理对象(apo)的软件数字信号处理对所述语音信号识别成功,还可以将该语音信号经处理器驱动层303发送到嵌入式处理器302,由嵌入式处理器302将该语音信号作为语音样本对该第一语音识别模型进行再次训练。从而能够提高第一语音识别模型的识别精度,以便用户再次进行语音唤醒时,能够在设备处于低功耗状态下,利用第一语音识别模型即可唤醒电子设备本身或目标设备,从而降低电子设备的功耗,提高语音识别准确度。
118.本技术实施例还提供了一种电子设备,该电子设备包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器,
119.其中,所述处理器用于运行所述计算机程序时,执行:电子设备在第一状态下,采集语音信号;
120.将所述语音信号输入第一语音识别模型进行识别;
121.如果识别失败,所述电子设备从所述第一状态切换到第二状态;其中,所述电子设备在所述第一状态下的功率消耗低于所述第二状态下的功率消耗;
122.在所述第二状态下,将所述语音信号输入第二语音识别模型进行识别,所述第二语音识别模型的识别精度高于所述第一语音识别模型;
123.如果识别成功,唤醒所述电子设备。
124.所述处理器还用于运行所述计算机程序时,执行:如果利用所述第二语音识别模型对所述语音信号识别成功,将所述语音信号输入所述第一语音识别模型,以对所述第一语音识别模型进行训练。
125.所述处理器还用于运行所述计算机程序时,执行:将所述语音信号对应的第一语音特征信息与所述第一语音识别模型中的第二语音特征信息进行匹配;
126.在所述第二状态下,将所述语音信号输入第二语音识别模型进行识别,包括:
127.在所述第二状态下,将所述第一语音特征信息与所述第二语音识别模型中的第三语音特征信息进行匹配;
128.或者,在所述第二状态下,将所述第一语音特征信息与所述第二语音特征信息匹配失败的特征信息与所述第二语音识别模型中的第三语音特征信息进行匹配。
129.所述处理器还用于运行所述计算机程序时,执行:所述第二语音识别模型中存储的特征样本维度多于所述第一语音识别模型中存储的特征样本维度;
130.和或,所述第一语音识别模型基于嵌入式处理器进行识别,所述第二语音识别模型基于中央处理器进行识别。
131.所述处理器还用于运行所述计算机程序时,执行:所述第一语音识别模型中存储的特征样本至少包括声纹特征信息和关键字词信息;
132.所述第二语音识别模型中存储的特征样本至少包括声纹特征信息、关键字词信息、语速特征信息、音色特征信息中的至少三种特征组合,且所述第二语音识别模型中的特
征信噪比小于所述第一语音识别模型中的特征信噪比。
133.所述第一语音特征信息中至少包括:声纹特征信息、关键字词信息、语速特征信息、音色特征信息;
134.所述处理器还用于运行所述计算机程序时,执行:
135.将所述第一语音特征信息中对应的特征信息与所述第二语音识别模型中对应的特征信息进行一一匹配;
136.获得表征所述第一语音特征信息与所述第三语音特征信息是否匹配的结果。
137.所述处理器还用于运行所述计算机程序时,执行:对采集的所述语音信号进行降噪处理,以得到经降噪处理后的语音信号。
138.所述处理器还用于运行所述计算机程序时,执行:向中央处理器发送识别指令,以使得所述中央处理器基于所述识别指令和所述第二语音识别模型对所述语音信号进行识别。
139.在采集语音信号之前,所述处理器还用于运行所述计算机程序时,执行:
140.基于第一参数采集目标对象的第一语音样本数据,基于所述第一语音样本数据对所述第一语音识别模型进行训练;
141.基于第二参数采集目标对象的第二语音样本数据,基于所述第二语音样本数据对所述第二语音识别模型进行训练;
142.其中,所述第一参数和所述第二参数均表征语音采集次数,且所述第二参数表征的语音采集次数大于所述第一参数表征的语音采集次数。
143.图4本技术中电子设备的结构组成示意图三,电子设备400可以是移动电话、计算机、数字广播终端、信息收发设备、游戏控制台、平板设备、医疗设备、健身设备、个人数字助理、录音机等具有音频采集功能的终端。图4所示的电子设备400包括:至少一个处理器401、存储器402、至少一个网络接口404和用户接口403。电子设备400中的各个组件通过总线系统405耦合在一起。可理解,总线系统405用于实现这些组件之间的连接通信。总线系统405除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图4中将各种总线都标为总线系统405。
144.其中,用户接口403可以包括显示器、键盘、鼠标、轨迹球、点击轮、按键、按钮、触感板或者触摸屏等。
145.可以理解,存储器402可以是易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(rom,read only memory)、可编程只读存储器(prom,programmable read

only memory)、可擦除可编程只读存储器(eprom,erasable programmable read

only memory)、电可擦除可编程只读存储器(eeprom,electrically erasable programmable read

only memory)、磁性随机存取存储器(fram,ferromagnetic random access memory)、快闪存储器(flash memory)、磁表面存储器、光盘、或只读光盘(cd

rom,compact disc read

only memory);磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(ram,random access memory),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的ram可用,例如静态随机存取存储器(sram,static random access memory)、同步静态随机存取存储器(ssram,synchronous static random access memory)、动态随机存取存储器(dram,
dynamic random access memory)、同步动态随机存取存储器(sdram,synchronous dynamic random access memory)、双倍数据速率同步动态随机存取存储器(ddrsdram,double data rate synchronous dynamic random access memory)、增强型同步动态随机存取存储器(esdram,enhanced synchronous dynamic random access memory)、同步连接动态随机存取存储器(sldram,synclink dynamic random access memory)、直接内存总线随机存取存储器(drram,direct rambus random access memory)。本技术实施例描述的存储器402旨在包括但不限于这些和任意其它适合类型的存储器。
146.本技术实施例中的存储器402用于存储各种类型的数据以支持电子设备400的操作。这些数据的示例包括:用于在电子设备400上操作的任何计算机程序,如操作系统4021和应用程序4022;联系人数据;电话簿数据;消息;图片;音频等。其中,操作系统4021包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序4022可以包含各种应用程序,例如媒体播放器(media player)、浏览器(browser)等,用于实现各种应用业务。实现本技术实施例方法的程序可以包含在应用程序4022中。
147.上述本技术实施例揭示的方法可以应用于处理器401中,或者由处理器401实现。处理器401可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器401中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器401可以是通用处理器、数字信号处理器(dsp,digital signal processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器401可以实现或者执行本技术实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本技术实施例所公开的方法的步骤,可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中,该存储介质位于存储器402,处理器401读取存储器402中的信息,结合其硬件完成前述方法的步骤。
148.在示例性实施例中,电子设备400可以被一个或多个应用专用集成电路(asic,application specific integrated circuit)、dsp、可编程逻辑器件(pld,programmable logic device)、复杂可编程逻辑器件(cpld,complex programmable logic device)、现场可编程门阵列(fpga,field

programmable gate array)、通用处理器、控制器、微控制器(mcu,micro controller unit)、微处理器(microprocessor)、或其他电子元件实现,用于执行前述方法。
149.在示例性实施例中,本技术实施例还提供了一种计算机可读存储介质,例如包括计算机程序的存储器402,上述计算机程序可由电子设备400的处理器401执行,以完成前述方法所述步骤。计算机可读存储介质可以是fram、rom、prom、eprom、eeprom、flash memory、磁表面存储器、光盘、或cd

rom等存储器;也可以是包括上述存储器之一或任意组合的各种设备,如移动电话、计算机、平板设备、个人数字助理等。
150.一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器运行时,执行上述各实施例中的方法步骤。
151.在本技术所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为
一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
152.上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
153.本技术所提供的几个方法实施例中所揭露的方法,在不冲突的情况下可以任意组合,得到新的方法实施例。
154.本技术所提供的几个产品实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的产品实施例。
155.本技术所提供的几个方法或设备实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的方法实施例或设备实施例。
156.以上所述,仅为本技术的具体实施方式,但本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应以所述权利要求的保护范围为准。