1.本发明涉及智能家居技术领域,尤其涉及一种自主学习家居场景下的语音控制方法、系统、设备及介质。
背景技术:2.智能家居语音控制在获取用户语音指令后,首先通过asr进行语音转文字,然后将文字进行分词处理,获得用户语音指令中的【空间】信息以及【设备信息】。
3.若用户语音指令中未包含【空间】信息,行业普遍做法要么是默认直接对用户家中所有该类型的设备进行控制,要么是通过二次澄清询问用户是要控制哪个【空间】下的设备。当用户在不同的空间范围内说“打开灯”指令的时候,其真实意图是不一样的。
4.比如,用户在刚进家门的时候说“打开灯”(未包含明确的空间信息),真实意图是打开玄关以及客厅的灯;而用户在进入主卧房间的时候或者躺在床上说打开灯的时候,其真实意图仅仅是打开卧室的灯。
5.当前的nlu以及nlp技术尚不能做到精确理解用户在不同场景下同一模糊指令的意图差别。
技术实现要素:6.鉴于上述问题,本发明提供了一种自主学习家居场景下的语音控制方法、系统、设备及计算机存储介质,解决智能家居场景下,用户语音指令模糊时机器无法准确判断用户意图的问题。
7.为实现上述技术效果,本发明采用的技术方案为:
8.一方面,本发明提供了一种自主学习家居场景下的语音控制方法,所述方法包括:
9.第一步:接收拾音设备发送的用户语音指令和所述拾音设备所在空间信息;
10.第二步:对所述语音指令进行语音识别处理,在预存的语料库中查询是否有与所述语音识别的结果相符的用户自定义配置的意图控制逻辑,若有则直接执行所述意图控制逻辑,所述意图控制逻辑包括与所述语音识别的结果相符的目标设备的类型、空间和目标动作,结束流程;若无则执行第三步;
11.第三步:在预存的所述意图库中查询是否有与所述语音识别的结果和所述拾音设备所在空间信息相符的系统默认的意图控制逻辑,若有则直接执行所述意图控制逻辑,并向用户发出是否执行正确的询问,进入第四步;若无则执行第五步;
12.第四步:获取用户对所述意图控制逻辑是否执行正确的反馈信息,若正确则将所述意图控制逻辑录入所述语料库中与所述用户的语音识别的结果相符的所述用户自定义配置的意图控制逻辑中;若不正确则执行第五步;
13.第五步:提醒用户存在无法执行所述语音指令的问题。
14.作为优选方案,所述语音识别处理包括以下方式中的至少一种:声纹识别、asr识别、asr识别+分词处理、asr识别+nlu理解。
15.作为优选方案,所述语音识别处理的结果包括以下语料中的至少一种:用户声纹信息、目标设备的类型或名称、目标设备所在空间、目标设备所需执行的动作。
16.作为优选方案,在第二步还包括:根据对所述语音指令进行语音识别处理的结果,预先判断所述语音指令是否满足在所述语料库中进行查询的要求,若满足则进行后续查询步骤,若不满足则直接执行第五步。
17.另一方面,本发明提供了一种自主学习家居场景下的语音控制系统,所述系统包括:
18.采集模块,用于接收拾音设备发送的用户语音指令和所述拾音设备所在空间信息;
19.识别模块,用于对所述语音指令进行语音识别处理;
20.第一匹配模块,用于在预存的语料库中查询与所述语音识别的结果相符的用户自定义配置的意图控制逻辑;
21.第一执行模块,用于执行所述第一匹配模块查询到的所述用户自定义配置的意图控制逻辑;
22.第二匹配模块,用于在预存的所述意图库中查询与所述语音识别的结果和所述拾音设备所在空间信息相符的系统默认的意图控制逻辑;
23.第二执行模块,用于执行所述第二匹配模块查询到的所述系统默认的意图控制逻辑;
24.确认模块,用于在所述第二执行模块执行完毕所述系统默认的意图控制逻辑后,与用户确认是否执行正确,并将执行正确的所述意图控制逻辑录入所述语料库中与所述用户的语音识别的结果相符的所述用户自定义配置的意图控制逻辑中;
25.提醒模块,用于提醒用户存在无法执行语音指令的问题。
26.作为优选方案,所述识别模块包括以下模块中的至少一种:声纹识别模块、asr识别模块、asr识别+分词处理模块、asr识别+nlu理解模块。
27.作为优选方案,所述识别模块语音处理的结果包括以下语料中的至少一种:用户声纹信息、目标设备的类型或名称、目标设备所在空间、目标设备所需执行的动作。
28.作为优选方案,所述系统还包括预判模块,用于对所述识别模块得到的语音识别的结果,预先判断所述语音指令是否满足所述语料库中的查询要求,若满足则输出至所述第一匹配模块,若不满足则输出至所述提醒模块。
29.再一方面,本发明提供了一种自主学习家居场景下的语音控制设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现如上所述的语音控制方法。
30.另一方面,本发明还提供了一种计算机存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现如上所述的语音控制方法。
31.与现有技术相比,本发明的有益效果包括:
32.从实际生活场景以及对话的习惯出发,通过用户的反馈来帮助机器更好地理解用户在不同空间下关于一个模糊语令背后所对应的真实意图。同时,考虑到每个人的语言习惯差异以及所处空间的差异,针对每个用户与机器对话的历史数据都存储一套nlu学习的逻辑以达到千人千面的效果。
附图说明
33.本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
34.图1为本发明实施例的基于用户习惯的智能家居语音控制方法的流程图。
35.图2为本发明实施例的基于用户习惯的智能家居语音控制系统的结构框图。
具体实施方式
36.为使本发明的目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。附图中给出了本发明的若干实施例。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容更加透彻全面。
37.本发明实施例中的术语解释如下:
38.asr:automatic speech recognition(自动语音识别技术),是一种将人的语音转换为文本的技术。
39.nlp:natural language processing(自然语言处理),是使用自然语言同计算机进行通讯的技术。研究用电子计算机模拟人的语言交际过程,使计算机能理解和运用人类社会的自然语言如汉语、英语等,实现人机之间的自然语言通信,以代替人的部分脑力劳动,包括查询资料、解答问题、摘录文献、汇编资料以及一切有关自然语言信息的加工处理。
40.本发明提供一种自主学习家居场景下的语音控制方法,应用在智慧家庭生态系统中,所述智慧家庭生态系统包括智能家居应用(app)、语音采集设备和多个智能家居设备,语音采集设备与智能家居应用之间通过无线或有线的方式进行通讯,智能家居设备与智能家居应用之间也通过无线或有线的方式进行通讯,当用户想要通过语音控制某个智能家居设备时,用户发出语音信息,然后由语音采集设备采集用户发出的语音信息,当语音采集设备采集到用户发出的语音信息时,将该语音信息发送给智能家居应用。
41.本发明实施例中提供了一种自主学习家居场景下的语音控制方法及系统,系统用于实现该语音控制方法。可以理解的是,该系统即为上述智能家居应用(app),本实施例中的语音采集设备采用拾音设备(智能音箱、语音助手等)。
42.请参照图1所示,本发明实施例提供了一种自主学习家居场景下的语音控制方法,包括以下步骤:
43.第一步:接收拾音设备发送的用户语音指令和拾音设备所在空间信息;
44.需要说明的是,拾音设备可以为智能音箱、语音助手等,在拾音设备登录系统后,在系统上自动存储对应拾音设备的信息,包括id信息、所在空间信息等,因此当系统获取到该拾音设备的语音指令时,可以自动识别出该拾音设备所在空间信息,从广义上来说,就是在获取语音指令的同时也获取了拾音设备所在空间信息。用户语音指令例如用户说“打开灯”、“打开空调”、“打开电视”,而其中的“灯”、“空调”、“电视”应当是具有智能控制能力的智能家居设备。
45.第二步:对语音指令进行语音识别处理,在预存的语料库中查询是否有与该语音识别的结果相符的用户自定义配置的意图控制逻辑,若有则直接执行该用户自定义配置的意图控制逻辑,其中,用户自定义配置的意图控制逻辑包括与所述语音识别的结果相符的
目标设备的类型、空间和目标动作,结束流程;若无则执行第三步;
46.其中,目标设备类型为目标智能家居设备的类型,如空调、灯或电视,目标动作为通过用户语音指令控制对应目标智能家居设备所执行的动作,如打开或关闭(灯),调高或调低(空调温度)等
47.具体来说,在该步骤中,语音识别处理可以包括以下方式中的至少一种:声纹识别、asr识别、asr识别+分词处理、asr识别+nlu理解。
48.为了确定用户的身份、用户想要控制的智能家居设备以及对要控制的智能家居设备执行的动作,可以使用电声学仪器来对用户语音指令进行声纹识别,声纹信息同指纹一样具有身份识别的作用。根据预设的语音识别算法,可以识别语音指令中用户的声纹信息。
49.系统在识别到用户的声纹信息,根据该声纹信息在预存的语料库中查询是否有与该声纹信息相符的用户自定义配置的意图控制逻辑,如用户在语料库中完整录入了与该声纹信息相符的“目标设备的类型、空间和目标动作”,那么此时,根据该声纹信息就可以直接查询到上述这些信息,通过控制该空间内的该类型的目标设备执行该目标动作,就可以完成该用户自定义配置的意图控制逻辑。
50.如果用户在语料库中缺少了与该声纹信息相符的“目标设备的类型、空间和目标动作”的任一,系统可以选择对语音指令进行asr识别和简单的分词处理,或者asr识别+nlu理解,得到语音指令中的目标设备的类型、空间和目标动作,同样可以实现执行该用户自定义配置的意图控制逻辑。
51.一些情况下,用户的语音指令中缺少目标设备所在空间信息,如用户只说了“打开灯”,但是不知道是“打开客厅的灯”还是“打开卧室的灯”,此时,根据用户习惯也无从得知,即语料库中也缺乏与该语音指令对应的用户自定义配置的设备所在空间信息。此时进入第三步。
52.进一步地,在该步骤中还可以包括:根据对语音指令进行语音识别处理的结果,预先判断所述语音指令是否满足在语料库中进行查询的要求,若满足则进行后续查询步骤,若不满足则直接执行第五步。这种情况是针对不被语料库支持的语音指令,如没有权限的用户发出的语音指令,就直接报错,提醒用户发出正确的语音指令,可以由拾音设备执行报错。
53.第三步:在预存的意图库中查询是否有与语音识别的结果和拾音设备所在空间信息相符的系统默认的意图控制逻辑,若有则直接执行意图控制逻辑,并向用户发出是否执行正确的询问,进入第四步;若无则执行第五步;
54.意图库的内容可参照下表1所示:
55.语料拾音设备所在房间意图(设备执行动作)打开灯客厅玄关灯+客厅灯打开灯主卧卧室灯
56.当用户的语音指令中缺乏目标设备所在空间信息,而只有目标设备的类型和目标动作时,如用户说“打开灯”,而客厅和主卧的灯都处于该用户的同一智慧家庭生态系统,此时很难判断用户的真正意图是“打开客厅的灯”还是“打开主卧的灯”。此时,可以根据拾音设备所在空间信息判断用户所处空间,拾音设备一般设置为仅在一定空间,如客厅或主卧空间内有效,因此,当语音指令是由客厅内的拾音设备发出的,那么就可以判断用户此时正
处于客厅内,与用户语音指令中的目标设备的类型和目标动作结合,得到系统默认的意图控制逻辑,即当拾音设备所在空间为客厅,则执行打开客厅内的灯(包括玄关灯+客厅灯),或者,当拾音设备所在空间为主卧,则执行打开卧室灯。
57.这样就能解决智能家居场景下,用户语音指令模糊时机器无法准确判断用户意图的问题。
58.进一步地,在执行完毕系统默认的意图控制逻辑后,系统还可以询问用户:是否执行正确?由拾音设备发出询问。
59.第四步:获取用户对意图控制逻辑是否执行正确的反馈信息,若正确则将意图控制逻辑录入语料库中与用户的语音识别的结果相符的用户自定义配置的意图控制逻辑中;若不正确则执行第五步;
60.在该步骤,若用户回答执行正确,则将该语音指令与该系统默认的意图控制逻辑相互关联并下发到该用户账号下自定义配置的意图控制逻辑,存储在对应的语料库中,下次对于同样语音指令直接执行该意图控制逻辑,不再二次询问用户是否执行正确。若用户回答执行不正确,则下次不再执行该系统默认的意图控制逻辑;
61.第五步:提醒用户存在无法执行语音指令的问题。
62.该步骤可以由拾音设备实现,提醒用户可以在系统自定义设置该语音指令想要控制的目标设备的类型、空间和目标动作(该步骤非必要,可省略)。
63.请参考图2所示,本发明实施例提供了一种自主学习家居场景下的语音控制系统,该系统包括:
64.采集模块11,用于接收拾音设备发送的用户语音指令和拾音设备所在空间信息;
65.识别模块12,用于对语音指令进行语音识别处理;
66.第一匹配模块13,用于在预存的语料库中查询与所述语音识别的结果相符的用户自定义配置的意图控制逻辑;
67.第一执行模块14,用于执行第一匹配模块13查询到的用户自定义配置的意图控制逻辑;
68.第二匹配模块15,用于在预存的所述意图库中查询与语音识别的结果和拾音设备所在空间信息相符的系统默认的意图控制逻辑;
69.第二执行模块16,用于执行第二匹配模块查询到的系统默认的意图控制逻辑;
70.确认模块17,用于在第二执行模块执行完毕系统默认的意图控制逻辑后,与用户确认是否执行正确,并将执行正确的意图控制逻辑录入语料库中与用户的语音识别的结果相符的用户自定义配置的意图控制逻辑中;
71.提醒模块18,用于提醒用户存在无法执行语音指令的问题。
72.其中,识别模块12具体可包括以下模块中的至少一种:声纹识别模块、asr识别模块、asr识别+分词处理模块、asr识别+nlu理解模块。
73.该识别模块12语音处理的结果可包括以下语料中的至少一种:用户声纹信息、目标设备的类型或名称、目标设备所在空间、目标设备所需执行的动作。
74.该系统还可包括一预判模块19,用于对识别模块12得到的语音识别的结果,预先判断该语音指令是否满足语料库中的查询要求,若满足则输出至第一匹配模块13,若不满足则输出至提醒模块18,直接报错。
75.此外,本发明的实施例还提供一种自主学习家居场景下的语音控制设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述各实施例的方法的步骤。
76.此外,本发明的实施例还提供一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述各实施例的方法的步骤。
77.本发明从实际生活场景以及对话的习惯出发,通过用户的反馈来帮助机器更好地理解用户在不同空间下关于一个模糊语令背后所对应的真实意图。同时,考虑到每个人的语言习惯差异以及所处空间的差异,针对每个用户与机器对话的历史数据都存储一套nlu学习的逻辑以达到千人千面的效果。
78.以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。另外,本发明中未涉及部分均与现有技术相同或可采用现有技术加以实现。