语音识别方法、本地语音识别装置及智能电子设备与流程

1.本发明涉及语音识别技术领域，特别涉及一种语音识别方法、本地语音识别装置及智能电子设备。

背景技术：

2.语音交互作为一种新的信息传播方式，正在逐渐应用于智能家居、无触摸控制、语音助手等。语音识别技术对语音识别的响应速度等要求较高。

技术实现要素：

3.本发明的主要目的是提出一种语音识别方法、本地语音识别装置及智能电子设备，旨在实现语音指令的本地识别，提高语音识别的响应效率。
4.为实现上述目的，本发明提出一种语音识别方法，所述语音识别方法包括以下步骤：
5.拾取用户发出的语音数据；
6.在所述语音数据对应的控制指令与所述本地存储的控制指令匹配成功后，获取所述本地存储的控制指令的置信度；
7.在所述本地存储的控制指令的置信度满足本地识别条件时，执行与所述语音数据对应的控制指令。
8.可选地，在所述拾取用户发出的语音数据的步骤之后，所述语音识别方法还包括：
9.将所述语音数据发送至云端；
10.所述在所述控制指令与本地存储的控制指令匹配成功后，获取所述本地存储的控制指令的置信度的步骤之后，所述语音识别方法还包括：
11.在所述本地存储的控制指令的置信度不满足本地识别条件时，获取云端返回的与所述语音数据对应的控制指令，并执行所述控制指令。
12.可选地，在所述拾取用户发出的语音数据的步骤之后，所述语音识别方法还包括：
13.将所述语音数据发送至云端；
14.对所述语音数据进行识别，以将所述语音数据对应的控制指令与本地存储的控制指令进行匹配；
15.在所述控制指令与本地存储的控制指令不匹配时，获取云端返回的与所述语音数据对应的控制指令，并执行所述控制指令。
16.可选地，所述在所述本地存储的控制指令的置信度满足本地识别条件时，执行所述控制指令的步骤具体包括：
17.获取所述本地存储的控制指令多次学习的置信度；
18.在所述本地存储的控制指令多次学习的置信度均达到预设阈值时，确定所述本
地存储的控制指令的置信度满足本地识别条件，并执行所述控制指令。
19.可选地，所述在所述本地存储的控制指令的置信度满足本地识别条件时，执行所述控制指令的步骤还包括：
20.获取云端返回与所述语音数据对应的控制指令；
21.在所述云端返回的与所述语音数据对应的控制指令与所述本地存储的控制指令一致时，执行所述控制指令。
22.可选地，所述将所述语音数据发送至云端的步骤之后，所述语音识别方法包括：
23.获取云端返回与所述语音数据对应的交互内容；
24.在所述交互内容为媒体流时，删除所述语音数据；
25.在所述交互内容为控制指令时，将所述语音数据及与所述语音数据对应的控制指令及与所述控制指令的触发时间进行存储。
26.可选地，所述语音识别方法还包括：
27.对存储的所有控制指令进行分类，在多类所述控制指令中的任一类所述控制指令数量达到预设条数时，对该类所述控制指令进行多次学习及验证；
28.在该类所述控制指令每次验证的置信度达到预设阈值时，将该类所述控制指令存储为本地存储的控制指令。
29.可选地，在所述本地存储的控制指令的置信度满足本地识别条件时，执行与所述语音数据对应的控制指令的步骤之后，所述语音识别方法还包括：
30.将所述语音数据及与所述语音数据对应的控制指令及与所述控制指令的触发时间进行存储。
31.本发明还提出一种本地语音识别装置，所述本地语音识别装置包括：存储器、处理器，所述存储器上存储有语音识别程序，所述语音识别程序被所述处理器执行时实现如上所述的语音识别方法的步骤。
32.本发明还提出一种智能电子设备，其特征在于，所述智能电子设备包括：存储器、处理器，所述存储器上存储有语音识别程序，所述语音识别程序被所述处理器执行时实现如上所述的语音识别方法的步骤。
33.本发明通过语音识别方法通过拾取用户发出的语音数据，并将所述语音数据对应的控制指令与本地存储的控制指令进行匹配，以在语音数据对应的控制指令与所述本地存储的控制指令匹配成功后，获取所述本地存储的控制指令的置信度，从而在所述本地存储的控制指令的置信度满足本地识别条件时，执行与所述语音数据对应的控制指令。本发明可以采用本地识别的方式响应用户发出的语音数据对应的控制指令，有利于提高语音识别的响应效率。
附图说明
34.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。
35.图1为本发明语音识别方法第一实施例的流程示意图；
36.图2为本发明语音识别方法第二实施例的流程示意图；
37.图3为本发明语音识别方法第三实施例的流程示意图；
38.图4为本发明语音识别方法第四实施例的流程示意图；
39.图5为图1中步骤s300一实施例的细化流程示意图；
40.图6为图1中步骤s300另一实施例的细化流程示意图；
41.图7为本发明语音识别方法第五实施例的流程示意图；
42.图8为本发明语音识别方法第六实施例的流程示意图；
43.图9为本发明语音识别方法第七实施例的流程示意图；
44.图10为本发明实施例方案涉及的智能电子设备硬件运行环境的终端结构示意图。
45.本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。
具体实施方式
46.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
47.需要说明，若本发明实施例中有涉及方向性指示(诸如上、下、左、右、前、后
……
)，则该方向性指示仅用于解释在某一特定姿态(如附图所示) 下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。
48.另外，若本发明实施例中有涉及“第一”、“第二”等的描述，则该“第一”、
ꢀ“
第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。
49.本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，a和/或b，可以表示：单独存在a，同时存在a和b，单独存在b这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。
50.本发明提出一种语音识别方法，适用于具有语音拾取功能的分布式智能电子设备中，例如移动终端、遥控器、智能家居设备、智能音箱等，也可以应用于手机、平板电脑等智能电子设备的语音助理。
51.近年智能音箱产品快速发展，随着智能家居产品增多，5g通信快速发展，智能音箱作为物联网的重要人机交互入口，在未来具有巨大的发展潜力和市场需求，其使用场景也越来越广泛，例如音乐聆听，电话会议，物联网控制，语音助手等功能。目前智能电子设备的语音指令的识别有两种方式，一种是发送到云端进行处理，一种是对指令进行简单的本地处理和分析。云端处理对网络的实时性要求很高，较低和不稳定的网速对音箱的体验非常不好。固定的本地指令处理则能够识别的指令有限，灵活性不够，这两种方式都会使智能电子设备较低响应效率。
52.参照图1至图9，在本发明一实施例中，该语音识别方法包括以下步骤：
53.步骤s100、拾取用户发出的语音数据；
54.本实施例中，用户发出的声音信息可以通过设置在智能电子设备上的麦克风来拾取，也可以是其他与智能电子设备的外接设备连接的语音信号拾取设备，例如智能手环等，智能手环可以只作为语音信号拾取设备，将采集到的语音信号发送至智能电子设备，智能电子设备对接收到的语音数据作后续处理，或者，用户为了提高拾取到的语音数据的清晰度，可以使用专门用来拾取语音数据的设备进行语音数据的拾取并将其存储到智能电子设备上，在进行语音控制时，只需要到特定路径下获取存储的语音数据即可。在智能电子设备上的麦克风来拾取语音数据时，经由麦克风接收声音(音频数据)，麦克风的输出端还可以连接有音频处理器，音频处理器可以将这样的语音信号处理为音频数据，具体可以将模拟的音频数据，转换为数字的语音数据，也即音频处理器可以将声音信息先转换为数字信息。处理后的音频(语音) 数据可以经wifi等无线的宽带互联网、4g或5g等网络发送的格式发送至云端。处理后的音频(语音)数据还可以在电话通话模式的情况下转换为可经由射频单元发送到移动通信基站的格式输出。
55.参照图2，步骤s200、根据所述语音数据识别与所述语音数据对应的本地存储的控制指令，并获取与所述本地存储的控制指令的置信度：该步骤具体包括：
56.步骤s210、将所述语音数据对应的控制指令与本地存储的控制指令进行匹配；
57.本实施例中，智能音箱的交互分两类，一类是内容服务，例如播送新闻，音乐。一类是控制指令，例如打开蓝牙，调整音量，或者跟智能家具相关，例如关闭卧室灯，打开电视。对于前一种内容服务，用户的语音数据被发送到云端后，云端服务器发回来的是一个媒体流。对于后一种控制指令，云端返回的是一个控制字符串，本实施例可以将用户发出的语音数据发送至云端。并且每向云端发送一个语音数据，本地同时保存该语音数据，并等待该语音数据的云端返回内容。如果云端返回的是媒体流，本地删除该语音数据，如果云端返回的是控制指令，则本地以表格的形式保存该语音数据和控制指令，以及触发时间，从而将语音数据与控制指令关联起来，形成映射关系，并生成控制指令-语音数据表格，具体可以如下表格进行表示。其中，语音数据可以采用二进制数字进行表示，控制指令采用程序可以运行的字符串进行表示。
58.控制指令语音数据触发时间open bedroom light0101010010101001
…
2021-06-14close bedroom light1101010010101001
…
2021-06-14open tv1111010010101001
…
2021-06-15close microwave0001010010101001
…
2021-06-16
………………
59.例如，当用户发出“打开卧室灯”的语音数据，本地存储的语音数据则为0101010010101001
…
，发送至云端后，云端返回来的则是open bedroomlight，同理，当用户发出“关闭卧室灯”的语音数据，本地存储的语音数据则为1101010010101001
…
，发送至云端后，云端返回来的则是close bedroomlight。
60.可以理解的是，根据用户的不同，拾取到的语音数据的语音特征也就不同，至少会存在用户音色特征(如，儿童、老人、中年、青年、男人、女人等) 的不同，以及语种(例如普
通话，方言如粤语、客家话、藏语，外语如英语、法语、日语等)的不同。在不同的用户发出各自的语音数据，以控制同一目标设备时，例如用户在用普通话、方言、外语等不同语音特征发出“打开卧室灯”的语音数据时，拾取到的语音数据会不同，向云端发送这些语音数据，云端识别出这些不同语音数据对应同一个控制指令。本地接收到根据不同语音数据返回的为同一控制指令时，可以将同一个控制指令对应的不同语音数据进行关联，从而使得用户发送的语音数据与控制指令之间可以形成多对一的映射关系。
61.并且，智能电子设备会将所有的语音数据和从云端返回来的与该语音数据对应的控制指令都以表格的形式进行存储，从而形成控制指令-语音数据库。当拾取到用户再次发出的语音数据时，该语音数据可能对应为用户发出的初次控制指令，例如智能电子设备中的各个功能模块的初次语音控制，或者用户新添置的电器设备，例如初次采用语音控制的方式来控制新添加的微波炉，也可能为发出过多次的语音数据而对应的控制指令，例如对日常电器设备的常用控制，例如打开/关闭蓝牙、调节音箱音量、打开电视及打开空调等。或者，该语音数据还可能是不会被用户存储过的内容服务，例如播送实时新闻，或者收听广播等。
62.步骤s220、从本地存储的控制指令中识别出与当前拾取的用户发出的语音数据对应的控制指令：
63.具体地，可以先从控制指令-语音数据库中通过查表的方式，对用户当前发出的语音数据进行比对和匹配，以确定用户当前发出的语音数据和控制指令是否已经被存储。在识别到用户当前发出的语音数据与存储的任意语音数据均不匹配时，则可以确定用户发出的是一个初次控制指令或者是一个内容服务。在识别到用户当前发出的语音数据与存储的语音数据中的一个匹配时，则可以确定用户当前发送的语音数据的特征与存储的语音数据的语音特征相同，并可以通过读取表格获取与该语音数据对应的控制指令，以从已存储的语音数据和与该语音数据关联的控制指令中识别出该语音数据对应的控制指令。
64.步骤s230、在所述控制指令与本地存储的控制指令匹配成功后，获取所述本地存储的控制指令的置信度；
65.本实施例中，本地将所有的控制指令和语音数据存储起来后，可以对整理收集的控制指令-语音数据表格中的控制指令进行归类，并采用训练模型(或者称为学习模型)对每一类控制指令进行学习，以获得每一类控制指令的置信度。其中，一类控制指令表示一个具体的控制指令，例如“open bedroomlight”，在进行归类时，将表格中所有的“open bedroom light”归为一类并统计其数量。同理，其他如与“打开电视”对应的“open tv”控制指令等各个控制指令均可以分别归为一类。通过学习模型对所有的控制指令进行学习，并保存学习模型，完成学习过程，以得到每一类控制指令的置信度。在实际应用时，智能电子设备会不断的累积存储用户每次发出的语音数据和该语音数据对应的控制指令，并且一旦该控制指令达到学习触发条件时，会对该控制指令进行学习。这样，经过一段时间的使用之后，随着控制指令学习样本的增多，该控制指令的置信度也会随之提高，直至置信度达到本地识别所需要满足的条件，从而完成学习过程。如此，用户可以根据自己的语言习惯发出自己的语音作为语音控制指令，相较于在出厂时设置标准语音作为固定的本地识别触发的控制指令，或者通过用户录入固定的语音数据，以作为本地识别触发的控制指
令，导致本地识别的控制指令有限，灵活性较低。本发明可以根据用户发出的语音数据进行动态学习，不局限用户群体及用户语种可以实时添加语音数据及与语音数据对应的控制指令，极大地提高了语音识别的灵活性。
66.步骤s300、在所述本地存储的控制指令的置信度满足本地识别条件时，执行所述控制指令。
67.本实施例中，本地存储的控制指令可通过对控制指令-语音数据库中满足学习触发条件的一类控制指令采用学习模型对该类控制指令进行学习，在学习后的控制指令的置信度满足可以实现本地识别的条件时，则确定已学习的控制指令置信度能够反映的语音识别可信程度，故此已学习的控制指令置信度能够反映用户当前输入的语音数据具有满足本地识别条件的语义理解结果的可靠性较高，可以执行当前输入的语音数据对应的控制指令。
68.该控制指令可以应用于智能音箱、手机等自身控制，例如开关智能音箱、播放本地音乐、调节音量等。在完成本地识别后，可以控制智能音箱中对应的功能模块工作，以响应该控制指令，例如打开对应的应用程序或者控制对应的硬件电路工作等。
69.该控制指令也可以用于控制目标设备，例如应用于遥控器、控制终端等控制终端中，可以将控制终端与目标设备建立连接，例如可以蓝牙、wifi、 zigbee等无线通信方式实现通讯，通过控制终端控制空调、电视、智能灯等。在用于控制目标设备时，拾取到用户发出的控制语音数据后，将其与存储的语音数据进行对比，获取对应的控制指令，并在确定该控制指令满足本地识别条件时，将该控制指令发送至对应的目标设备，以使目标设备执行该控制指令对应的控制动作。智能电子设备还可以应用于物联网系统中，物联网系统包括物联网服务器，物联网服务器可以与各个智能家居中的电器设备连接，用户可以通过语音向智能电子设备发送控制指令，并且被智能电子设备本地识别后，直接通过4g或5g等网络将控制指令发送至物联网服务器，以便物联网服务器将控制指令转发至相应地目标设备，最终实现对目标设备的控制。或者智能电子设备，例如智能音箱还可以与终端如手机连接，智能音箱生成控制指令后，通过蓝牙等发送至终端，终端再通过网络例如wifi、4g、5g等将控制指令发送至物联网服务器，最后物联网服务器将控制指令发送至相应地电器设备，实现对目标设备的控制。
70.本发明通过语音识别方法通过拾取用户发出的语音数据，并将所述语音数据对应的控制指令与本地存储的控制指令进行匹配，以在语音数据对应的控制指令与所述本地存储的控制指令匹配成功后，获取所述本地存储的控制指令的置信度，从而在所述本地存储的控制指令的置信度满足本地识别条件时，执行与所述语音数据对应的控制指令。本发明可以采用本地识别的方式响应用户发出的语音数据对应的控制指令，有利于提高语音识别的响应效率。
71.参照图3，在一实施例中，拾取用户发出的语音数据的步骤之后，语音识别方法包括还包括：
72.步骤s110、将所述语音数据发送至云端；
73.步骤s200、根据所述语音数据识别与所述语音数据对应的本地存储的控制指令，并获取与所述本地存储的控制指令的置信度的步骤之后，所述语音识别方法还包括：
74.步骤s400、在所述本地存储的控制指令的置信度不满足本地识别条件时，获取云
端返回的与所述语音数据对应的控制指令，并执行所述控制指令。
75.本实施例中，在学习后的控制指令的置信度满足可以实现本地识别的条件，可以采用本地识别的方式进行语音控制，并直接执行指令，同时忽略云端解析的过程，也即接收云端返回的控制指令但不会据此执行，有利于提高语音控制的响应速度。然而，在学习后的控制指令的置信度不满足可以实现本地识别的条件时，则确定已学习的控制指令置信度还不能反映的语音识别可信程度，故此已学习的控制指令置信度能够反映用户当前输入的语音数据具有满足本地识别条件的语义理解结果的可靠性较低，还不能据此执行当前输入的语音数据对应的控制指令。也即还未达到采用本地识别的方式响应用户发出的语音数据对应的控制指令的条件。此时，则可以通过将语音数据发送至云端，并获取的语音数据对应的控制指令的方式，执行该控制指令。如此，即可实现本地识别和云端识别两种方式兼容，并且在拾取到的语音数据未能达到满足本地识别条件时，通过云端识别的方式对用户输出的语音数据进行响应。可以理解的是，在拾取到用户发出的语音数据，并在音频处理器将语音数据进行处理后得到数字信号后，音频处理器可以将数字语音数据同时发送给本地语音识别处理器和云端，从而使得语音识别处理器和云端同时对语音数据进行处理，实现本地识别和云端识别同步进行，在本地存储的控制指令的置信度不满足本地识别条件时，能够及时获取云端的控制指令，并快速响应该控制指令，能够保证语音识别的准确性和响应效率。
76.参照图4，在一实施例中，拾取用户发出的语音数据的步骤之后，语音识别方法包括还包括：
77.步骤s110、将所述语音数据发送至云端；
78.步骤s210、将所述语音数据对应的控制指令与本地存储的控制指令进行匹配；
79.步骤s500、在所述控制指令与本地存储的控制指令不匹配时，获取云端返回的与所述语音数据对应的控制指令，并执行所述控制指令。
80.本实施例中，在用户当前发出的语音数据与存储的语音数据中的一个匹配时，例如用户发出的是一个初次控制指令，或者为不同的用户发出的一个语音控制，或者用户采用的不同语种发出的一个语音控制，并可以通过读取表格而获取与该语音数据对应的控制指令。此时，用户当前发送的控制语音数据的特征与存储的语音数据的语音特征未能匹配，则可以确定该控制指令同样未被存储，或者该语音数据与控制指令之间还没有建立关联或者映射关系，导致语音数据对应的控制指令与已存储的控制指令之间不能匹配。此时，则可以通过将语音数据发送至云端，以实现云端识别，并获取语音数据对应的控制指令的方式执行该控制指令。在这个过程中，本地仍然会存储该语音数据和与该语音数据对应的控制指令，并将该语音数据和与该语音数据对应的控制指令作为学习样本。一旦任意一类控制指令达到学习条件，并且该控制指令的置信度达到本地识别所需要满足的条件，在用户再次发出该语音数据时，即可通过本地识别来实现语音控制。本发明可以实时更新语音数据-控制指令库，不局限特定用户和特定用语，有利于提高本地语音识别控制的灵活性。本发明还可以解决完全依靠云端识别，在网络较低和不稳定的网速，导致实时性较低，影响响应速度的问题。
81.参照图5，在一实施例中，步骤s300、在所述本地存储的控制指令的置信度满足本地识别条件时，执行所述控制指令的步骤具体包括：
82.步骤s310、获取所述本地存储的控制指令多次学习的置信度；
83.步骤s320、在所述本地存储的控制指令多次学习的置信度均达到预设阈值时，确定所述本地存储的控制指令的置信度满足本地识别条件，并执行所述控制指令。
84.本实施例中，利用控制指令的置信度表示本地语音识别的可信程度，置信度越大，表示可信程度越高，反之置信度越小，表示可信程度越低。在智能电子设备使用的过程中，每拾取到一个语音数据，并往云端发送一个用户语音数据，在云端返回的是控制指令时，智能音箱会议表格的形式保存该语音数据和该语音对应的控制指令。随着用户时间的增加，本地存储的历史语音数据也会增加，在任一个控制指令达到学习触发条件后，会对该控制指令进行多次学习，在多次学习的过程中，该控制指令每次学习的置信度均达到预设阈值时，例如达到99％时，则可以确定该指令学习完成，可以用于本地识别。如此，可以实现对用户常用指令的本地识别，既满足了快速响应的要求，又可以不断添加可以用于本地识别的控制指令，使智能电子设备能够灵活的在本地识别各种控制指令，可以实现在没有网络，不能进行云端识别的情况下，也能够完成智能电子设备的语音控制。
85.参照图6，在一实施例中，步骤s300、所述在所述本地存储的控制指令的置信度满足本地识别条件时，执行所述控制指令的步骤还包括：
86.步骤s330、获取云端返回与所述语音数据对应的控制指令；
87.步骤s340、在所述云端返回的与所述语音数据对应的控制指令与所述本地存储的控制指令一致时，执行所述控制指令。
88.可以理解的是，为了提高智能电子设备的响应速度，本实施例会同步进行语音识别和云端识别，具体而言在拾取到用户发出的语音数据后，会将语音数据对应的控制指令与存储的控制指令匹配成功后，即确定该语音数据表征为控制指令。这这个过程中，该语音数据会同步上传到云端，云端会对该语音数据进行识别，从而返回一个与该语音数据对应的控制指令至智能电子设备，在进行本地识别，且确定在本地存储的控制指令的置信度满足本地识别条件后，可以将置信度满足本地识别条件的控制指令与云端返回的控制指令进行对比，在本地识别的控制指令和云端识别的控制指令相同，也即一致时，则可以进一步确定本地识别的可靠性较高，从而执行该控制指令。在本地识别的控制指令和云端识别的控制指令不一致时，则可以确定本地识别的可靠性较低，则执行云端返回的控制指令。当然在其他实施例中，在本地识别的控制指令和云端识别的控制指令不一致时，也可以向用户和云端报错，以检测语音控制是否出现故障。
89.参照图7，在一实施例中，所述语音识别方法还包括：
90.步骤s610、获取云端返回与所述语音数据对应的交互内容；
91.步骤s620、在所述交互内容为媒体流时，删除所述语音数据；
92.步骤s630、在所述交互内容为控制指令时，将所述语音数据及与所述语音数据对应的控制指令及与所述控制指令的触发时间进行存储。
93.本实施例中，在智能电子设备使用的过程中，不管是在智能电子设备的初始使用阶段，还是在经过一段时间的使用之后，用户多次采用语音控制智能电子设备，使得存储的历史语音数据对应的控制指令满足本地识别条件的阶段，智能电子设备都将每个接收到的语音数据发送至云端。并且在语音数据对应的交互内容为控制指令时，均会对该语音数据和控制指令进行存储。这些语音数据和与语音数据对应的控制指令将被收集起来，形
成本地学习的训练样本。在语音数据对应的交互内容为媒体流时，智能电子设备中的处理器将对该媒体流进行解析，以获得媒体流中的音频数据，并转换成音频信号后输出为声音，从而播送新闻、音乐、广播等。
94.参照图8，在一实施例中，所述语音识别方法还包括：
95.步骤s710、对存储的所有控制指令进行分类，在多类所述控制指令中的任一类所述控制指令数量达到预设条数时，对该类所述控制指令进行多次学习及验证；
96.步骤s720、在该类所述控制指令每次验证的置信度达到预设阈值时，将该类所述控制指令存储为本地存储的控制指令。
97.为了提高语音识别的效率，建立本地识别机制，本实施例可以利用多分类学习模型对每个控制指令进行分类，多分类学习模型利用收集的历史语音数据，对每个满足学习条件的控制指令进行训练，以得到每个满足学习条件的控制指令多次学习过程中，每次学习的置信度。具体而言，可以对收集的语音数据-控制指令表格进行整理，并对表格中的数据以控制指令的方式进行归类。当众多控制指令中出现一类的数量达到预设条数，例如常用控制指令中的“open bedroom light”的条数达到100以上，具体可以是100条，120 条，150条，200条等时，则可以确定“open bedroom light”这一控制指令达到了本地学习的条件，并对该控制指令进行学习，或者称为训练。而其他控制指令的数量未达到学习条件时，则继续收集累加控制指令，直至达到学习条件。并且，在实际应用时，可以设置预设学习周期，例如每天设置一个固定的时间，例如夜间，或者其他用户使用较少的时间，或者对收集的所有语音数据样本进行计数，在样本每达到一个数量区间时进行学习。
98.具体可以将收集的所有控制指令打乱，然后分为大小差不多的四份，随后开始学习。学习时，在分好的四份控制指令中，随机取三份数据，将这三份控制指令的控制指令作为输出，将这三份控制指令对应的语音数据作为输入，并进行有监督的学习。将剩下的一份进行验证。每一轮学习验证完成之后，再将所有的控制指令重新打乱再重复地进行学习和验证，如是进行4次学习。如果每次验证集里面学习的控制指令(条数达到预设条数的控制指令) 的平均置信度都达到99％以上时，认为该指令学习完成，可以本地识别。参照下表，下表为一个示例性实施例中，“open bedroom light”这一控制指令在经过4次学习，并且每次学习后的置信度表格。从下表中可以获知，“openbedroom light”这一控制指令的平均置信度都达到99％以上时，由此可以确定该指令已完成学习，可以进行本地识别，也即当用户再次发出“打开卧室灯
”ꢀ
的语音数据时，可以从历史语音数据中识别出该控制指令为“open bedroomlight”，再通过查表获知“open bedroom light”这一控制指令多次学习的置信度均为99％以上，则可以确定改控制指令的置信度满足本地识别条件，此时智能音箱可以通过无线通讯，物联网络等将该控制指令发送至卧室灯，从而打开卧室灯。
99.控制指令第几次测试置信度open bedroom light199.2open bedroom light299.8open bedroom light399.5open bedroom light499.7
100.以此类推，可以利用多分类学习模型，对每一个满足学习条件的控制指令及其对应的语音数据进行逐个学习，并保存多分类学习模型到智能电子设备当中，完成用户常用
语音控制指令的学习过程。
101.可以理解的是，随着用户使用次数增加，各个收集的历史语音数据会不断的进行累加，经过长期的使用和模型的反复训练之后，可以逐次迭代各个提高控制指令的置信度，使控制指令的置信度达到本地识别条件，从而实现用户的常用指令都会达到99％的识别率，大大提高了指令的响应效率。
102.参照图9，在一实施例中，所述语音识别方法还包括：
103.步骤s730、将所述语音数据及与所述语音数据对应的控制指令及与所述控制指令的触发时间进行存储。
104.本实施例中，在拾取到的语音数据对应的控制指令别满足识别条件时，这条控制指令可以通过本地识别来完成，并直接执行该指令，同时本地也可以直接存储该语音数据及与语音数据对应的控制指令，以及与该控制指令的触发时间存储。和/或，存储云端返回的该语音数据及与语音数据对应的控制指令，以及与该控制指令的触发时间存储。
105.在一些实施例中，还可以在一些常用高频的语音数据对应的控制指令被用户多次发出时，并被本地识别及执行后，可以对本地存储的语音数据及与语音数据对应的控制指令进行标记，在本地识别成功后，再次拾取到该语音数据(还可以设置为拾取到该语音数据达到预设次数后)时，直接获取与该语音数据关联的控制指令并执行，不再执行步骤s300和步骤s400的动作，以进一步提高响应效率。例如“打开卧室灯”、“关开卧室灯”、“打开电视”、“关闭电视”等，在用户对电视、卧室灯常用且高频的电器设备进行语音控制时，智能电子设备接收用户输入的控制语音后，将其与存储的语音数据进行对比，获取到对应的控制指令，且为标记的控制指令后，即可直接执行所述控制指令对应的控制动作。
106.本发明还提出一种本地语音识别装置，所述本地语音识别装置包括：存储器、处理器，所述存储器上存储有语音识别程序，所述语音识别程序被所述处理器执行时实现如上所述的语音识别方法的步骤。
107.本实施例中，存储器可用于存储软件程序以及各种数据。存储数据区可存储根据智能音箱的使用所创建的数据(比如语音数据-控制指令表、用户控制习惯等)等。处理器过运行或执行存储在存储器内的软件程序和/或模块，以及调用存储在存储器内的数据执行时实现如上所述的语音识别方法。该本地语音识别装置可以应用于智能电子设备中，并且可以与智能电子设备的中央处理器连接，以使中央处理器根据本地语音识别装置输出的控制指令，实行对应的功能。本地语音识别装置也可以直接控制智能电子设备中的电路模块工作，实行智能电子设备对应的功能。
108.本发明还提出一种智能电子设备，所述智能电子设备包括：存储器、处理器，所述存储器上存储有语音识别程序，所述语音识别程序被所述处理器执行时实现如上所述的语音识别方法的步骤。
109.该智能电子设备可以是智能音箱、移动终端、遥控器等。
110.在一实施例中，语音识别的处理过程可以通过本地语音识别处理器来实现，该处理器可以是智能电子设备的中央处理器，也可以是专门用于进行语音识别的处理器。同时还可以在智能电子设备中设置存储器，存储器中可以存储有实现上述方法的程序，同时还可以存储有上述控制指令-语音数据库。在本地语音识别处理器是智能电子设备的控制中心(cpu)时，利用各种接口和线路连接整个智能电子设备的各个部分，通过运行或执行存
储在存储器内的软件程序和/或模块，以及调用存储在存储器内的数据，执行智能电子设备的各种功能和处理数据，从而响应该控制指令。处理器还可以是单片机、通用处理器、数字信号处理器(digital signal processor，dsp)、专用集成电路 (application specificintegrated circuit，asic)、现场可编程门阵列 (field-programmable gate array，fpga)或者其他可编程逻辑器件等。
111.存储器105可用于存储软件程序以及各种数据。存储器105可主要包括存储程序区和存储数据区，可选地，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能等)等；存储数据区可存储根据智能音箱的使用所创建的数据(比如语音数据-控制指令表、用户控制习惯等) 等。可选地，存储器105可以包括高速随机存取存储器105，还可以包括非易失性存储器105，例如至少一个磁盘存储器105件、闪存器件、或其他易失性固态存储器105件。本发明智能电子设备可以在智能电子设备中采用本地识别的方式响应用户发出的语音数据对应的控制指令，利于提高语音识别的响应效率。
112.本发明还提出一种可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的语音识别的步骤。在本发明提供的智能电子设备和计算机可读存储介质的实施例中，包含了上述语音识别各实施例的全部技术特征，说明书拓展和解释内容与上述方法的各实施例基本相同，在此不做再赘述。
113.参照图10，本发明实施例的终端可以是pc，也可以是智能手机、平板电脑、电子书阅读器、mp4(moving picture experts group audio layer iv，动态影像专家压缩标准音频层面3)播放器、便携计算机等具有显示功能的可移动式终端设备。如图1所述，该终端可以包括处理器101(例如cpu)，通信总线102，用户接口103，网络接口104，存储器105。其中，通信总线102 用于实现这些组件之间的连接通信；用户接口103可以包括显示屏(display)、输入单元比如键盘(keyboard)；网络接口104可选的可以包括标准的有线接口、无线接口(如wi-fi接口)；存储器105可以是高速ram存储器105，也可以是稳定的存储器105(non-volatile memory)，例如磁盘存储器105，存储器105可选的还可以是独立于前述处理器101的存储装置。
114.本领域技术人员可以理解，图10中示出的智能电子设备硬件运行环境的终端结构并不构成对本发明智能电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。
115.以上所述仅为本发明的可选实施例，并非因此限制本发明的专利范围，凡是在本发明的发明构思下，利用本发明说明书及附图内容所作的等效结构变换，或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。