首页 > 乐器声学 专利正文
与语音命令设备中的智能助理的多模式交互的制作方法

时间:2022-02-24 阅读: 作者:专利查询

与语音命令设备中的智能助理的多模式交互的制作方法

1.本公开一般涉及语音命令设备,具体地,涉及一种用于与语音命令设备中的智能助理进行紧急多模式交互的方法和系统。


背景技术:

2.语音用户接口提供了一种与在语音命令设备上操作的智能个人助理(intelligent personal assistant,ipa)或虚拟助理(virtual assistant,va)交互的方式。通俗地说,ipa或va被称为“智能助理”。语音命令设备是可通过语音用户接口控制的设备(即,语音控制设备)。语音用户接口使与设备的口语人类交互成为可能,使用语音识别来理解语音命令(即,口语命令)和问题,并使用文本到语音来输出回复。随着自动语音识别(automatic speech recognition,asr)和自然语言理解(natural language understanding,nlu)的进步,语音用户接口在诸如但不限于汽车、移动设备(例如,智能手机、平板电脑、手表等)、电器(例如,洗衣机、烘干机等)、娱乐设备(例如,电视、智能扬声器等)等的设备中变得越来越流行。


技术实现要素:

3.技术问题
4.本公开的实施例提供了用于与智能助理进行多模式交互的方法和装置(系统)。
5.问题的解决方案
6.一个实施例提供了一种方法,该方法包括:检测电子设备上的智能助理的激活;响应于所述激活,将智能助理从睡眠模式唤醒;以及基于所述激活的类型,确定智能助理在监听模式期间起作用的词汇量。
7.另一实施例提供了一种电子设备,该电子设备包括至少一个传感器单元、至少一个输入/输出(i/o)单元、至少一个处理器和存储指令的非暂时性处理器可读存储器设备,该指令在被至少一个处理器执行时使得至少一个处理器执行操作。操作包括经由至少一个传感器单元检测与电子设备的物理交互,以及响应于所述物理交互,从睡眠模式激活电子设备上的智能助理。
8.一个实施例提供了一种非暂时性处理器可读介质,该非暂时性处理器可读介质包括程序,该程序在被处理器执行时执行一种方法,该方法包括:检测电子设备上的智能助理的激活;响应于所述激活,将智能助理从睡眠模式唤醒;以及基于所述激活的类型,确定智能助理在监听模式期间起作用的词汇量。
9.从下面当结合附图时,通过示例的方式示出一个或多个实施例的原理的详细描述中,一个或多个实施例的这些和其他方面和优点将变得明显。
附图说明
10.为了更全面地理解实施例的性质和优点,以及优选的使用模式,应该参考结合附
图阅读的以下详细描述,其中:
11.图1示出了在一个或多个实施例中,用于实施与体现在电子设备50中的智能助理的紧急多模式交互的示例计算架构;
12.图2示出了一个或多个实施例中的电子设备的示例集群;
13.图3示出了在一个或多个实施例中,体现在电子设备中的示例语音用户接口系统;
14.图4示出了在一个或多个实施例中,涉及与体现在多个电子设备中的智能助理的多模式交互的第一示例场景;
15.图5示出了在一个或多个实施例中,涉及与体现在多个电子设备中的智能助理的多模式交互的第二示例场景;
16.图6示出了在一个或多个实施例中,涉及与体现在多个电子设备中的智能助理的多模式交互的第三示例场景;
17.图7示出了在一个或多个实施例中,涉及与体现在多个电子设备中的智能助理的多模式交互的第四示例场景;
18.图8示出了在一个或多个实施例中,涉及与体现在多个电子设备中的智能助理的多模式交互的第五示例场景;
19.图9示出了在一个或多个实施例中,涉及与体现在多个电子设备中的智能助理的多模式交互的第六示例场景;
20.图10示出了在一个或多个实施例中,涉及与体现在多个电子设备中的智能助理的多模式交互的第七示例场景;
21.图11是在一个或多个实施例中,用于实施与电子设备中的智能助理的多模式交互的示例过程的流程图;
22.图12是在一个或多个实施例中,用于实施电子设备中的智能助理的物理事件激活的示例过程910的流程图;和
23.图13是示出包括对实施所公开的实施例有用的计算机系统的信息处理系统的高级框图。
具体实施方式
24.以下描述是为了说明一个或多个实施例的一般原理的目的,并不意味着限制本文要求保护的发明构思。此外,本文描述的特定特征可以在各种可能的组合和置换中的每一种中与其他描述的特征组合使用。除非本文中另有具体定义,否则所有术语都将被赋予其最广泛的可能解释,包括说明书中暗示的含义以及本领域技术人员理解的和/或在字典、论文等中定义的含义。
25.一个或多个实施例一般涉及语音命令设备,具体地,涉及一种用于与语音命令设备中的智能助理进行紧急多模式交互的方法和系统。一个实施例提供了一种方法,该方法包括:检测电子设备上的智能助理的激活;响应于所述激活,将智能助理从睡眠模式唤醒;以及基于所述激活的类型,确定智能助理在监听模式期间起作用的词汇量。
26.另一实施例提供了一种电子设备,该电子设备包括至少一个传感器单元、至少一个输入/输出(i/o)单元、至少一个处理器和存储指令的非暂时性处理器可读存储器设备,该指令在被至少一个处理器执行时使得至少一个处理器执行操作。操作包括经由至少一个
传感器单元检测与电子设备的物理交互,以及响应于所述物理交互,从睡眠模式激活电子设备上的智能助理。
27.一个实施例提供了一种非暂时性处理器可读介质,该非暂时性处理器可读介质包括程序,该程序在被处理器执行时执行一种方法,该方法包括:检测电子设备上的智能助理的激活;响应于所述激活,将智能助理从睡眠模式唤醒;以及基于所述激活的类型,确定智能助理在监听模式期间起作用的词汇量。
28.由于语音通常在存在一个或多个语音命令设备的环境中存在,并且只有一小部分语音是针对特定语音命令设备的,因此语音命令设备遇到的挑战之一是确定哪个语音是针对该设备的。
29.传统上,用户可以通过与语音输入按钮交互来指示来自用户的话语(即,语音命令)是针对特定语音命令设备的。例如,语音输入按钮可以是耦合到设备或与设备集成的专用物理按钮或另一类型的i/o组件。作为另一示例,语音输入按钮可以是显示在耦合到设备或与设备集成的显示器上的图形用户界面(gui)的软件组件。
30.另一传统解决方案是用户产生特定话语(例如,单词或短语),其指示特定语音命令设备来注意该特定话语之后的语音命令。通俗地说,这种特定话语被称为“唤醒词”。例如,使用来自的note9
tm
智能手机,用户可以按下手机一侧的专用物理按钮并发出语音命令。可替代地,用户可以首先说出特定话语,诸如“hi”,然后用语音命令跟随该特定话语。
31.一个或多个实施例提供了一种语音用户接口系统,用于基于用户在使用设备时通常执行的与设备的一个或多个物理交互来激活在电子设备上操作的语音代理(即,智能助理)。在一个实施例中,语音用户接口系统被配置为在适当的时候监听与设备如何被物理操纵相串接而有意义的语音交互。与需要来自用户的显式激活(例如,经由与语音输入按钮交互或说出特定话语)的传统解决方案不同,该语音用户接口系统提供语音代理的自动唤醒,其中,唤醒是隐式的(即,不需要来自用户的显式激活)。
32.图1示出了在一个或多个实施例中,用于实施与体现在电子设备50中的智能助理的紧急多模式交互的示例计算架构10。计算架构10包括电子设备50,电子设备50包括资源,诸如一个或多个处理器单元55和一个或多个存储单元60。一个或多个应用可以利用电子设备50的资源在电子设备50上执行/操作。
33.电子设备50的示例包括但不限于台式计算机、移动电子设备(例如,平板电脑、智能手机、膝上型电脑等)、可穿戴设备(例如,智能手表等)、物联网(iot)设备、智能家电(诸如,智能电视、智能烤箱、智能洗衣机、智能灯等)。
34.在一个实施例中,电子设备50包括集成在电子设备50中或耦合到电子设备50的一个或多个传感器单元70,诸如相机、麦克风、gps、运动传感器等。传感器单元70可用于捕获内容和/或基于传感器的上下文信息。例如,电子设备50上的应用可以利用至少一个传感器单元70来捕获内容和/或基于传感器的上下文信息,诸如用于音频数据(例如,语音命令、环境噪声等)的麦克风、用于图像数据(例如,电子设备50周围环境的静止和/或视频图像等)的相机、用于位置数据(例如,位置坐标)的gps、用于邻近/运动数据(例如,指示电子设备50邻近范围内的用户30的数据)的运动传感器等。
35.在一个实施例中,电子设备50包括集成在电子设备50中或耦合到电子设备50的一
个或多个i/o单元65。在一个实施例中,一个或多个i/o单元65包括但不限于物理用户界面(physical user interface,pui)和/或gui,诸如键盘、小键盘、触摸界面、触摸屏、旋钮、按钮、显示屏等。在一个实施例中,用户30可以利用至少一个i/o单元65来配置一个或多个用户偏好、配置一个或多个参数(例如,用户许可)、提供输入(例如,搜索查询)等。
36.在一个实施例中,电子设备50是语音命令设备。电子设备50上的一个或多个应用包括但不限于被配置为便于与电子设备50的免手持(hands

free)用户交互的语音用户接口系统200。在一个实施例中,系统200提供语音代理205,其中,语音代理205是被配置为允许用户30经由语音控制电子设备50的智能助理。
37.在一个实施例中,语音代理205具有至少两种不同的操作模式:睡眠模式,其中语音代理205处于睡眠状态(即,不活动或处于断电状态);以及监听模式,其中语音代理205处于唤醒状态(即,活动或处于通电状态)并监听来自用户30的语音命令(例如,经由至少一个传感器单元70捕获的语音命令)。
38.如本文稍后详细描述的,在一个实施例中,系统200包括监听代理250(图3),该监听代理250被配置为:(1)检测用于将语音代理205从睡眠模式唤醒(即,激活)的一个或多个激活条件,以及(2)响应于检测到一个或多个激活条件,触发语音代理205从睡眠模式转换到监听模式。
39.在一个实施例中,语音代理205可以经由不同类型的激活方法来激活。例如,在一个实施例中,语音代理205经由唤醒词激活被显式地激活。唤醒词激活是需要来自用户30的针对电子设备50的特定唤醒词的显式话语(“用户话语”)的示例激活条件。在一个实施例中,语音代理205被配置为响应于系统200检测到(例如,经由监听代理250和至少一个传感器单元70)唤醒词的用户话语而从睡眠模式唤醒。例如,响应于麦克风捕获到唤醒词的用户话语,语音代理205被从睡眠模式唤醒。
40.作为另一示例,在一个实施例中,语音代理205经由物理事件激活被自动激活,而不需要用户话语。物理事件激活是需要作为用户30使用电子设备50的典型情况的物理交互的示例激活条件。在一个实施例中,语音代理205被配置为响应于系统200检测到(例如,经由监听代理250和至少一个传感器单元70和/或至少一个i/o单元65)与电子设备50的物理交互,自动从睡眠模式唤醒。能够自动将语音代理205从睡眠模式唤醒的不同物理交互的示例包括但不限于与电子设备50的可移动/可旋转/可调节构件的机械交互(即,机械致动),诸如门关闭激活(例如,用户30关闭电子设备50的门)、邻近交互(例如,用户30在电子设备50的物理邻近范围内、用户30已经进入包括电子设备50的房间)、用户界面(ui)激活(诸如pui的致动(例如,用户30与旋钮、按钮和/或另一硬件i/o单元65交互)或gui的致动(例如,用户30与触摸屏和/或另一软件i/o单元65交互))。
41.例如,如果电子设备50包括智能洗衣机,则响应于至少一个传感器单元70检测到洗衣机的洗涤室的门关闭,语音代理205被自动从睡眠模式唤醒,从而使用户30不必显式地发出针对电子设备50的唤醒词来唤醒语音代理205。
42.在一个实施例中,系统200被配置为基于用于激活语音代理205的激活方法的类型,利用不同的交互反馈方法来向用户30提供反馈(例如,指示语音代理205的当前模式的视觉和/或语音反馈和/或响应等)。
43.在一个实施例中,系统200被配置为基于上下文信息(诸如但不限于用户30的上下
文、电子设备50的上下文(诸如当前状态(即,当前配置))、用户30和/或电子设备50的环境(诸如时间、天、温度、天气、环境照明、位置等))来控制电子设备50可以经由语音命令被调用/触发来执行的动作的数量和类型。
44.在一个实施例中,系统200被配置为基于语音标识(id)来确定产生经由监听代理250检测到的用户话语的用户30的身份,并且基于用户30的身份来控制用户30可以经由语音来请求电子设备50执行的动作。在一个实施例中,语音id涉及基于用户话语确定用户30的语音图案/质量(例如,声音、韵律、方言、音调等),以及将语音图案/质量与已识别/已标识的语音记录(例如,保存在一个或多个存储单元60上的)的语音图案/质量进行比较。例如,如果电子设备50包括智能洗衣机,则系统200可以在系统200检测到洗衣机的门关闭之后仅许可特定的授权用户30(诸如家中的成年人)经由语音启动洗衣机,而不必致动物理ui或gui。在检测到洗衣机的门关闭之后将洗衣机的启动限制为仅来自成年人的语音命令确保了洗衣机的安全操作。例如,这样的限制可以防止未授权用户30(诸如儿童)能够启动洗衣机(例如,在关闭洗衣机的门之后,儿童可能进入到洗衣机内并尝试经由语音开启洗衣机)。
45.在一个实施例中,系统200被配置为基于用于激活语音代理205的激活方法的类型和语音id来识别由监听代理250检测到的一个或多个用户话语不是针对电子设备50的,从而降低用户语音激活电子设备50上的无意的或非期望的动作的可能性。
46.在一个实施例中,系统200被配置为基于用于激活语音代理205的激活方法的类型和/或电子设备50的当前状态来将系统200解释用户话语所需的词汇量调整为仅与上下文相关,从而确保仅对适合于电子设备50的当前状态的语音命令起作用。
47.在一个实施例中,电子设备50上的一个或多个应用还可以包括加载到电子设备50上或下载到电子设备50的一个或多个软件移动应用90,诸如相机应用、社交媒体应用等。电子设备50上的软件移动应用90可以与系统200交换数据。
48.在一个实施例中,电子设备50包括通信单元80,该通信单元80被配置为通过通信网络/连接40(例如,无线连接(诸如wi

fi连接或蜂窝数据连接)、有线连接或两者的组合)与一个或多个远程设备20和/或一个或多个其他电子设备50交换数据。通信单元80可以包括可操作来连接到通信网络(例如,通信网络40)并且将通信操作和媒体从电子设备50交换到连接到通信网络40的其他设备的任何合适的通信电路。通信单元80可操作来使用任何合适的通信协议(例如,wi

fi(例如,ieee 802.11协议)、蓝牙、高频系统(例如,900mhz、2.4ghz和5.6ghz通信系统)、红外、gsm、gsm加edge、cdma、四频带和其他蜂窝协议、voip、tcp

ip或任何其他合适的协议)来与通信网络40接口。
49.例如,远程设备20可以包括提供用于托管一个或多个在线服务(例如,在线社交媒体服务、在线数据源等)和/或分发一个或多个软件移动应用90的在线平台的远程服务器(例如,管理网络资源的计算机、设备或程序等)。作为另一示例,系统200可以从维护和分发系统200的更新的远程设备20加载到电子设备50上或下载到电子设备50。作为又一示例,远程设备20可以包括提供可配置计算系统资源的共享池和更高级服务的云计算环境。
50.图2示出了一个或多个实施例中的电子设备50的示例集群100。集群100包括用户30可以经由语音控制的不同电子设备50(诸如电子设备1、电子设备2、

、和电子设备n)的组合,其中,n为正整数。
51.在一个实施例中,不同电子设备50的集群100可以位于彼此的邻近范围内(例如,家中的一个或多个房间内)。例如,集群100包括位于厨房中的以下电子设备50中的至少一个:智能微波炉、智能炉灶、智能烤箱、智能洗碗机、家庭中枢等。作为另一示例,集群100包括位于洗衣房中的以下电子设备50中的至少一个:智能洗衣机、智能烘干机等。
52.在一个实施例中,集群100的每个电子设备50被配置为通过通信网络/连接(例如,无线连接(诸如wifi连接或蜂窝数据连接)、有线连接或两者的组合)与集群100的一个或多个其他电子设备50交换数据。
53.在一个实施例中,用户30可以经由唤醒词激活来同时激活集群100的所有电子设备50的所有语音代理205。
54.在一个实施例中,用户30可以经由仅涉及一个电子设备50的物理事件激活,仅自动激活集群100的该电子设备50的一个语音代理205。由于流行的语音用户接口通常跨多个电子设备50共享相同的唤醒词(例如,唤醒词用于激活不同的语音命令设备,唤醒词用于激活不同的语音命令设备,唤醒短语“hey”用于激活不同的语音命令设备等),物理事件激活消除了知晓哪个特定电子设备50正在被唤醒词激活的问题,从而降低了多个电子设备50被同时激活的可能性。物理事件激活使用户30不必说出唤醒词,并且还使用户30不必指定哪个特定电子设备50应当注意语音命令。
55.在一个实施例中,集群100的电子设备50可以作为控制集群100的一个或多个其他电子设备50的主设备来操作(例如,响应于一个或多个语音命令,触发/调用一个或多个其他电子设备50来执行一个或多个动作)。
56.在一个实施例中,在集群100的一个电子设备50处执行的动作可以触发集群100的另一电子设备50的语音代理205从睡眠模式唤醒。例如,在集群100的第一电子设备50处执行的动作可以触发作为主设备操作的集群100的第二电子设备50的语音代理205从睡眠模式唤醒,并监听针对第一电子设备50的语音命令。
57.在一个实施例中,便携式或可移动电子设备50可以被添加到集群100或从集群100移除,诸如智能ai扬声器或智能手机。
58.图3示出了在一个或多个实施例中,体现在电子设备50中的示例语音用户接口系统200。在电子设备50中操作的语音代理205由语音用户接口系统200的一个或多个组件实施。
59.在一个实施例中,系统200包括ui&传感器逻辑单元210,该ui&传感器逻辑单元210被配置为:(1)接收由至少一个i/o单元65和/或至少一个传感器单元70捕获的ui&传感器数据,其中,ui&传感器数据指示与电子设备50的一个或多个物理交互,(2)响应于检测到的一个或多个物理交互,生成一个或多个激活信号,其中,一个或多个激活信号触发语音代理205自动从睡眠模式唤醒,以及(3)生成指示对电子设备50的当前状态的一个或多个调整/更新的控制数据。
60.在一个实施例中,系统200包括唤醒词检测单元240,该唤醒词检测单元240被配置为:(1)接收由至少一个传感器单元70(例如,麦克风)捕获的音频数据(即,数据中的声音),其中,音频数据包括环境噪声和/或一个或多个用户话语,(2)确定音频数据是否包括针对
电子设备50的唤醒词的显式用户话语,以及(3)响应于确定音频数据包括唤醒词的显式用户话语,生成一个或多个激活信号,其中,一个或多个激活信号触发语音代理205从睡眠模式唤醒。
61.在一个实施例中,系统200包括设备控制和状态逻辑单元220,该设备控制和状态逻辑单元220被配置为提供用于与电子设备50的一个或多个机械部件(“设备机构”)230通信的机电应用编程接口(api)。设备控制和状态逻辑单元220允许基于控制数据(例如,来自ui&传感器逻辑单元210和/或来自设备动作发起器274)经由机电api来控制一个或多个设备机构230。
62.在一个实施例中,设备控制和状态逻辑单元220被配置为生成指示以下中的至少一个的状态数据:电子设备50的当前状态,或者由电子设备50执行的一个或多个最近动作。
63.在一个实施例中,系统200包括监听代理250。当语音代理205处于睡眠模式时,监听代理250被配置为:(1)从ui&传感器逻辑单元210和/或唤醒词检测单元240接收一个或多个激活信号,以及(2)响应于一个或多个激活信号,从睡眠模式唤醒语音代理205,并将语音代理205置于监听模式。如上所述,语音代理205可以经由唤醒词激活被显式地唤醒,或者经由物理事件激活被自动唤醒。
64.当语音代理205处于监听模式时,监听代理250被配置为监听来自用户30的一个或多个语音命令。具体地,监听代理250被配置为:(1)接收由至少一个传感器单元70(例如,麦克风)捕获的音频数据,其中,音频数据包括环境噪声和/或一个或多个用户话语,以及(2)分析音频数据。
65.监听代理250包括用于分析音频数据的一个或多个组件。在一个实施例中,监听代理250包括环境噪声分析单元252,该环境噪声分析单元252被配置为分析音频数据以确定音频数据是否包括环境噪声。在一个实施例中,监听代理250包括话语捕获单元253,该话语捕获单元253被配置为:(1)分析音频数据以确定音频数据是否包括用户话语,以及(2)响应于确定音频数据包括用户话语,捕获/提取音频数据中的用户话语作为语音数据(即,包括口语语言的数据)。如本文稍后详细描述的,语音数据可以被转发到系统200的另一组件,用于自动语音识别(asr)。
66.在一个实施例中,监听代理250包括语音id分析单元255,该语音id分析单元255被配置为基于语音id来确定指示产生包括在音频数据中的用户话语的用户30的身份的用户id。如本文稍后详细描述的,用户id可以被转发到系统200的另一组件,用于确定用户30的一个或多个用户许可。
67.在一个实施例中,监听代理250包括语音开始停止单元254,该语音开始停止单元254被配置为:(1)在预定量的时间(即,定时窗口)内等待并监听用户话语,以及(2)当预定量的时间过去并且完整的用户话语不可用时,生成/发出超时。在一个实施例中,监听代理250被配置为生成不同类型的超时,其中,每种类型的超时都具有其自己对应的定时窗口。例如,在一个实施例中,监听代理250生成无说话超时(no

speak timeout),指示在该无说话超时的对应时间窗口过去之后没有检测到用户话语(即,监听代理250在该时间窗口期间检测到语音命令的缺失)。作为另一示例,在一个实施例中,监听代理250生成命令过长超时(command

too

long timeout),指示在该命令过长超时的对应时间窗口过去之后检测到的用户话语过长(即,用户话语不完整)。
68.在一个实施例中,系统200维护一个或多个激活规则,其中该一个或多个激活规则基于用于激活语音代理205的激活方法的类型(例如,唤醒词激活或物理事件激活)来适配用于控制电子设备50的一个或多个行为的一个或多个算法。例如,在一个实施例中,基于用于激活语音代理205的激活方法的类型,选择性地调整/调节控制监听代理250的一个或多个行为的一个或多个参数。
69.在一个实施例中,监听代理250包括激活调节表251,该激活调节表251被配置为维护一个或多个激活规则,其中该一个或多个激活规则用于基于用于激活语音代理205的激活方法的类型来适配控制监听代理250的一个或多个行为的一个或多个参数。例如,在一个实施例中,对于控制无说话超时的定时窗口的参数,如果语音代理205经由物理事件激活(例如,门关闭)被激活,则定时窗口较短(例如,1.5秒),而如果语音代理205经由唤醒词激活而被激活,则定时窗口较长(例如,10秒)。
70.在一个或多个实施例中,下面的表1提供了在激活调节表251中维护的激活规则的示例集合。
71.[表1]
[0072]
参数用于唤醒词激活的参数值用于物理事件激活的参数值无说话超时10秒1.5秒命令过长超时15秒5秒
[0073]
在一个实施例中,系统200包括语言解释器260,该语言解释器260被配置为解释包括在用户话语中的口语语言。在一个实施例中,语言解释器260包括asr单元262,该asr单元262被配置为从话语捕获单元253接收语音数据,并且基于asr将包括在语音数据中的口语语言识别并翻译成文本。
[0074]
在一个实施例中,语言解释器260包括自然语言理解(natural language understanding,nlu)单元263,该自然语言理解(nlu)单元263被配置为从asr单元262接收文本,并基于文本和nlu确定来自用户30的语音命令的意图。例如,在一个实施例中,意图指示用户30想要电子设备50现在或将来某个时候执行的动作。在一个实施例中,语言解释器260可以生成指示来自用户30的语音命令的意图的意图数据并将其转发给系统200的另一组件。
[0075]
在一个实施例中,语言解释器260维护可用于解释包括在用户话语中的口语语言的不同词汇表。在一个实施例中,语言解释器260被配置为基于用于激活语音代理205的激活方法的类型和/或电子设备50的当前状态,从可用的不同词汇表中选择特定词汇表来使用。例如,在一个实施例中,系统200被配置为当语音代理经由物理事件激活而被激活时,检测不是针对电子设备50的用户语音。在一个实施例中,如果语音代理经由物理事件激活而被激活,为了降低电子设备50基于用户语音执行非期望的或无意的动作的可能性,语言解释器260被配置为选择与可用的一个或多个其他词汇表相比缩减/更小的词汇表来使用。在一个实施例中,语言解释器260被配置为选择适用于仅解释基于电子设备50的当前状态可用的语音命令的词汇表来使用,从而确保电子设备50将执行用户30意图或期望电子设备50执行的动作。
[0076]
作为另一示例,如果电子设备50包括房间中的智能灯,并且语音代理205响应于指示用户30刚刚进入房间的基于传感器的上下文信息而被激活(例如,经由至少一个传感器
单元70(诸如运动传感器)检测到),则语言解释器260被配置为选择要在监听窗口(例如,在用户30进入房间之后的短暂时间段)期间使用的词汇表,其中该词汇表与可用的一个或多个其他词汇表相比缩减/更小,其中,所选择的词汇表仅包括用户30被许可作出的语音命令的受限/缩减集合。例如,仅当用户30发出语音命令“开灯”时,智能灯才会开启。这种限制防止了当用户30在就寝时间之后进入房间时智能灯自动开启,并降低了打扰房间中任何正在睡觉的居住者的可能性。相比之下,如果语音代理205响应于唤醒词激活而被激活,则语言解释器260被配置为选择要在监听窗口期间使用的词汇表,其中该词汇表比响应于物理事件激活而使用的词汇表更大。
[0077]
在一个实施例中,语言解释器260包括词汇表选择器表261,该词汇表选择器表261维护可供语言解释器260基于用于激活语音代理205的激活方法的类型和/或电子设备50的当前状态来选择和使用的不同词汇表。例如,在一个实施例中,如果电子设备50包括当前停止的智能洗衣机,并且语音代理205经由关闭洗衣机的洗涤室的门或者致动物理ui/gui而被激活,则语言解释器260从词汇表选择器表261中选择包括单词“启动(start)”的词汇表,从而使得用户30能够通过简单地发出单词“启动”来启动洗衣机(即,用户30不需要显式地发出电子设备50的唤醒词)。
[0078]
在一个或多个实施例中,下面的表2提供了词汇表选择器表261中维护的不同词汇表的示例集合。
[0079]
[表2]
[0080][0081]
在一个实施例中,系统200包括动作规划器270,该动作规划器270被配置为接收以下中的至少一个:(1)来自语言解释器260的意图数据,以及(2)来自语音id分析单元255的用户id。
[0082]
在一个实施例中,动作规划器270包括设备动作发起器274,该设备动作发起器274被配置为基于意图数据和/或用户id来规划/调度电子设备50现在或将来要执行的一个或多个动作。设备动作发起器274提供用于与设备控制和状态逻辑单元220通信的动作api。设备动作发起器274允许经由动作api对电子设备50的当前状态作出一个或多个调整/更新,
以执行一个或多个动作。
[0083]
在一个实施例中,系统200被配置为基于用于激活语音代理205的激活方法的类型,利用不同的交互反馈方法来向用户30提供反馈。在一个实施例中,系统200包括语音接口视觉反馈组件280,该语音接口视觉反馈组件280包括一个或多个i/o单元65(例如,一个或多个指示灯、显示屏等),用于显示指示语音代理205的当前模式的视觉反馈,诸如语音代理205是否正在监听(即,正在等待和监听用户话语)、语音代理205是否正在思考(即,正在解释用户话语)、语音代理205是否正在响应(即,正在提供反馈)、语音代理205是否处于睡眠模式等。例如,指示灯可以基于语音代理205的当前模式选择性地闪烁不同的颜色和/或调整强度/亮度(例如,如果语音代理205正在监听,则闪烁绿色,如果语音代理205正在思考,则闪烁黄色,如果语音代理205正在响应,则闪烁红色,如果语音代理205处于睡眠模式,则变暗),显示屏可以基于语音代理205的当前模式选择性地显示不同的短语(例如,如果语音代理205正在监听,则显示“正在监听
…”
,如果语音代理205正在思考,则显示“正在思考
…”
,如果语音代理205正在响应,则显示“正在响应
…”
)。
[0084]
在一个实施例中,系统200包括语音合成器单元290,该语音合成器单元290被配置为生成指示语音代理205的当前模式、错误(例如,超时)、和/或确收(acknowledgement)/确认(confirmation)的语音响应(例如,经由文本到语音)。在一个实施例中,系统200包括语音输出组件285,该语音输出组件285包括一个或多个i/o单元65(例如,扬声器等),用于输出从语音合成器单元290接收的语音响应。例如,系统200可以基于语音代理205的当前模式选择性地生成和输出不同的语音响应(例如,如果语音代理正在监听,则输出“正在监听
…”
,如果语音代理正在思考,则输出“正在思考
…”
,如果语音代理正在响应,则输出“正在响应
…”
)。
[0085]
在一个实施例中,动作规划器270包括视觉反馈单元272,该视觉反馈单元272被配置为触发语音接口视觉反馈组件280基于意图数据和/或用户id来显示特定的视觉反馈。在一个实施例中,动作规划器270包括语音反馈单元273,该语音反馈单元273被配置为触发语音合成器组件290来基于意图数据和/或用户id生成特定的语音响应。
[0086]
在一个实施例中,系统200被配置为基于用于激活语音代理205的激活方法的类型来选择性地生成和输出语音响应。例如,在一个实施例中,如果语音代理205经由唤醒词激活而被激活,并且系统200遇到错误(例如,语音命令包括语言解释器260所使用的词汇表中不包括的单词、超时、用户30不具有经由语音控制电子设备50的用户许可等),则系统200被配置为生成并输出指示接收到的语音命令未知的语音响应。作为另一示例,在一个实施例中,如果语音代理205经由物理事件激活而被激活,并且系统200遇到错误,则系统200被配置为不生成和输出指示没有接收到语音命令的语音响应。
[0087]
在一个实施例中,动作规划器270包括错误反馈表275,该错误反馈表275维护一个或多个错误反馈规则,用于基于用于激活语音代理205的激活方法的类型来控制系统200何时生成和输出语音响应。
[0088]
在一个或多个实施例中,下面的表3提供了错误反馈表275中维护的错误反馈规则的示例集合。
[0089]
[表3]
[0090]
激活方法的类型错误类型生成语音响应?
唤醒词激活没有接收到语音命令是物理事件激活没有接收到语音命令否唤醒词激活缺少需要的参数是物理事件激活缺少需要的参数是
[0091]
在一个实施例中,动作规划器270包括对应于一个或多个用户30的一个或多个用户许可表271,其中,每个用户许可表271维护对应用户30的一个或多个用户许可。动作规划器270利用对应于用户30的用户许可表271来基于用户30的用户id和/或用于激活语音代理205的激活方法的类型来确定用户30是否被授权经由语音控制电子设备30。
[0092]
在一个或多个实施例中,下面的表4提供了在对应于用户30的用户许可表271中维护的用户许可的示例集合。
[0093]
[表4]
[0094][0095]
图4示出了在一个或多个实施例中,涉及与体现在多个电子设备50中的智能助理的多模式交互的第一示例场景。在一个实施例中,用户30可以激活在最靠近用户30的电子设备50或最靠近用户30的电子设备50的集群的一部分中操作的语音代理205。如图4所示,位于洗衣房中的用户30可以经由唤醒词激活来激活智能洗衣机w的语音代理205和智能烘干机d的语音代理205,其中,智能洗衣机w和智能烘干机d在最靠近用户30的洗衣房中形成电子设备50的集群。例如,用户30经由唤醒词的显式发声来激活智能洗衣机w的语音代理205和智能烘干机d的语音代理。
[0096]
如图4所示,智能洗衣机w的语音代理205和智能烘干机d的语音代理205都响应于唤醒词而唤醒。在一个实施例中,如果电子设备50的语音代理205检测到用户30不在邻近范围内(例如,经由至少一个传感器单元70),则语音代理205确定电子设备50既不最靠近用户30,也不是最靠近用户30的电子设备50的集群的一部分,并且忽略来自用户30的唤醒词激活。例如,由于用户30不在智能冰箱fh和智能洗碗机dw的邻近范围内,所以厨房中的智能冰箱(作为家庭中枢操作)的语音代理205和厨房中的智能洗碗机dw的语音代理205都不会被唤醒词激活。
[0097]
如图4所示,用户30用语音命令跟随唤醒词,该语音命令包括询问智能烘干机d上还剩多少时间。智能洗衣机w的语音代理205确定该询问不是针对智能洗衣机w的,拒绝该询问,并且向用户30显示指示语音代理205正在转换回睡眠模式的视觉反馈(例如,智能洗衣机w的指示灯变暗)。智能烘干机d的语音代理205确定该询问是针对智能烘干机d的,向用户30显示指示语音代理205处于思考模式的视觉反馈,并且生成并向用户30输出指示智能烘干机d上剩余时间量的语音响应。
[0098]
图5示出了在一个或多个实施例中,涉及与体现在多个电子设备50中的智能助理的多模式交互的第二示例场景。在一个实施例中,用户30可以经由不同类型的激活方法(包
括物理事件激活)激活在电子设备50中操作的语音代理205,提供多模式交互。如图5所示,位于洗衣房中的用户30可以经由物理事件激活来自动激活洗衣房中特定电子设备50(诸如智能洗衣机w)的语音代理205。例如,用户30经由关闭智能洗衣机w的洗涤室的门来自动激活智能洗衣机w的语音代理205。与智能洗衣机w的这种物理交互使用户30不必显式地发出唤醒词来唤醒智能洗衣机w的语音代理205。此外,由于这种物理交互仅涉及智能洗衣机w,因此仅唤醒智能洗衣机w的语音代理205;它不会激活洗衣房中不同电子设备50(诸如智能烘干机d)的语音代理205。
[0099]
如图5所示,用户30经由包括请求启动的语音命令启动智能洗衣机w。语音命令很简单,不需要用户30显式地发出唤醒词来启动智能洗衣机w。智能洗衣机w的语音代理205确定该请求是针对智能洗衣机w的,并且触发/调用智能洗衣机w来启动洗涤循环。
[0100]
在一个实施例中,在电子设备50中操作的语音代理205被配置为确定该电子设备50可以与之组合使用的至少一个其他电子设备50。例如,基于智能洗衣机w和智能烘干机d执行的最近动作(例如,用户30首先经由智能洗衣机w洗涤衣物,然后经由智能烘干机d烘干洗涤过的衣物),智能洗衣机w的语音代理205确定智能洗衣机w和智能烘干机d可以组合使用。在一个实施例中,智能洗衣机w的语音代理205在智能洗衣机w的当前洗涤循环结束之前触发智能烘干机d的语音代理205从睡眠模式唤醒。在一个实施例中,智能洗衣机w的语音代理205或智能烘干机d的语音代理205向用户30提供反馈(例如,语音和/或视觉反馈),该反馈指示智能洗衣机w的当前洗涤循环何时终止。该反馈通知用户30什么时候洗涤过的衣物可以从智能洗衣机w中取出。
[0101]
在一个实施例中,在用户30已经从智能洗衣机w中取出洗涤过的衣物并将洗涤过的衣物放入干燥室之后,用户30经由关闭智能烘干机d的干燥室的门来自动激活智能烘干机d的语音代理205。
[0102]
图6示出了在一个或多个实施例中,涉及与体现在多个电子设备50中的智能助理的多模式交互的第三示例场景。在一个实施例中,在多个电子设备50中操作的语音代理205被配置为确定多个电子设备50中的哪个最适合于响应语音命令。如图6所示,位于洗衣房中的用户30可以经由唤醒词激活来激活洗衣房中每个电子设备50(诸如智能洗衣机w和/或智能烘干机d)的每个语音代理205。例如,用户30经由第一语音命令激活智能洗衣机w的语音代理205和智能烘干机d的语音代理205两者,其中该第一语音命令以唤醒词开始,随后是订购洗涤剂的第一请求。
[0103]
如图6所示,智能洗衣机w的语音代理205和智能烘干机d的语音代理205都响应于唤醒词而唤醒。在一个实施例中,智能烘干机d的语音代理205确定第一请求不是针对智能烘干机d的,拒绝第一请求,并且向用户30显示语音代理205正在转换回睡眠模式的视觉反馈(例如,智能烘干机d的指示灯变暗)。智能洗衣机w的语音代理205确定第一请求是针对智能洗衣机w的,并且向用户30显示语音代理205处于思考模式的视觉反馈。
[0104]
如图6所示,智能洗衣机w的语音代理205生成并向用户30输出语音响应,该语音响应标识用户30先前作出的对洗涤剂的购买以及洗涤剂交易的可用性。用户30经由第二语音命令响应语音代理205,该第二语音命令包括检查交易的第二请求。在一个实施例中,智能洗衣机w的语音代理205被配置为确定在用户30的邻近范围内是否存在最适合于响应第二请求的另一电子设备50。例如,智能洗衣机w的语音代理205确定厨房中的智能冰箱fh最适
合于响应第二请求,触发/调用智能冰箱fh以在智能冰箱fh的触摸屏上显示交易,并且在洗衣房中生成并向用户30输出指示交易被显示在智能冰箱fh上的语音响应。智能洗衣机w的语音代理205利用更有能力的附近电子设备50来响应第二请求,并且实现从语音交互(经由语音命令)到触摸交互(经由触摸屏)的自然模式切换。
[0105]
如图6所示,当用户30移动到厨房查看智能冰箱fh上显示的交易时,智能洗衣机w的语音代理205显示语音代理205正在转换回睡眠模式的视觉反馈(例如,智能洗衣机w的指示灯变暗)。
[0106]
图7示出了在一个或多个实施例中,涉及与体现在多个电子设备50中的智能助理的多模式交互的第四示例场景。在一个实施例中,用户30可以经由不同类型的激活方法(包括物理事件激活)激活在电子设备50中操作的语音代理205,提供多模式交互。如图7所示,位于厨房中的用户30可以经由物理事件激活来自动激活厨房中特定电子设备50(诸如智能烤箱o)的语音代理205。例如,用户30经由关闭智能烤箱o的烤箱室的门来自动激活智能烤箱o的语音代理205。与智能烤箱o的这种物理交互使用户30不必显式地发出唤醒词来唤醒智能烤箱o的语音代理205。此外,由于这种物理交互仅涉及智能烤箱o,因此仅唤醒智能烤箱o的语音代理205;它不会激活厨房中不同电子设备50(诸如智能微波炉m、智能炉灶r、智能洗碗机dw和/或智能冰箱fh)的语音代理205。
[0107]
如图7所示,用户30经由语音命令启动智能烤箱o,该语音命令包括以指定设置(例如,450度烘焙一小时,然后保温)进行烘焙的请求。语音命令很简单,不需要用户30显式地发出唤醒词来启动智能烤箱o。智能烤箱o的语音代理205确定该请求是针对智能烤箱o的,触发/调用智能烤箱o来执行该请求,并且经由智能烤箱o的控制表面向用户30显示视觉反馈,其中,视觉反馈指示设置。如果智能烤箱o的语音代理205仍处于监听模式(即,语音代理205的监听窗口尚未过去),则用户30可以发出包括调整设置的请求的另一语音命令。
[0108]
物理事件激活的其他示例包括但不限于:用户30经由关闭智能微波炉m的门(例如,在将食物放入智能微波炉m中以进行微波处理之后)来自动激活智能微波炉m的语音代理205,用户30经由关闭智能冰箱fh的门(例如,在将食物放入智能冰箱fh中以进行冷藏之后)来自动激活智能冰箱fh的语音代理205,用户30经由关闭智能洗碗机dw的洗碗室的门(例如,在将盘子放入洗碗室中以进行洗涤之后)来自动激活智能洗碗机dw的语音代理205等。
[0109]
在一个实施例中,由电子设备50的集群的一个电子设备50执行的活动可以激活该集群的一个或多个其他电子设备50的语音代理205。如图7所示,智能烤箱o、智能微波炉m、智能炉灶r、智能洗碗机dw和智能冰箱fh形成厨房中的电子设备50的集群。假设用户30正在查看显示在智能冰箱fh的触摸屏上的鸡肉帕尔马干酪的食谱。如果用户30想要烹饪该食谱,则用户30可以经由唤醒词激活或物理事件激活(例如,ui激活(诸如在触摸屏上选择食谱)、门关闭激活等)来唤醒在集群中操作的语音代理205。
[0110]
例如,假设用户30从智能冰箱fh中取出冷冻鸡肉,并且在将冷冻鸡肉放入智能微波炉m中以进行解冻之后关闭智能微波炉m的门。智能微波炉m的语音代理205响应于智能微波炉m的门关闭而被激活。当用户30发出语音命令“启动”时,语音代理205确定与语音命令相关的上下文信息,诸如执行语音命令所需的微波炉设置。例如,基于食谱和/或一个或多个在线数据源,语音代理205确定诸如解冻冷冻鸡肉所需的温度和时间量的微波炉设置,并
根据微波炉设置触发/调用智能微波炉m启动,并经由智能微波炉m的控制表面显示视觉反馈,其中,视觉反馈指示微波炉设置。用户30可以查看显示的微波炉设置,并在必要时经由语音交互(例如,发出语音命令)或触摸交互(例如,与控制表面交互)进行调整。
[0111]
如果食谱要求烧烤鸡肉,在智能微波炉m完成解冻鸡肉之前,智能炉灶r的语音代理205可以被激活。例如,假设智能微波炉m的语音代理205或集群的主设备在智能微波炉m完成解冻之前一分钟或几秒钟触发智能炉灶r的语音代理205唤醒。当用户30将包括解冻鸡肉的平底锅放在智能炉灶r上(在从智能微波炉m中取出鸡肉之后)并发出语音命令“启动”时,智能炉灶r的语音代理205确定与语音命令相关的上下文信息,诸如执行语音命令所需的炉灶设置。例如,基于食谱和/或一个或多个在线数据源,语音代理205确定诸如烧烤鸡肉所需的温度和时间量的炉灶设置,并根据炉灶设置触发/调用智能炉灶r启动,并经由智能炉灶r的控制表面显示视觉反馈,其中,视觉反馈指示炉灶设置。用户30可以查看显示的炉灶设置,并在必要时经由语音交互(例如,发出语音命令)或触摸交互(例如,与控制表面交互)进行调整。
[0112]
如果食谱要求鸡肉在烧烤之后进行烘焙,则智能烤箱o的语音代理205可以在智能炉灶r完成烧烤鸡肉之前被激活。例如,假设智能炉灶r的语音代理205或集群的主设备触发智能烤箱o的语音代理205在智能炉灶r完成烧烤之前几分钟唤醒并开始预热智能烤箱o。语音代理205确定与预热智能烤箱o相关的上下文信息,诸如预热智能烤箱o所需的烤箱设置。例如,语音代理205确定诸如烘焙鸡肉所需的温度和时间量的烤箱设置,并根据温度触发/调用智能烤箱o启动预热。当用户30将包括烧烤后的鸡肉的平底锅放入智能烤箱o并发出语音命令“启动”时,智能烤箱o的语音代理205触发/调用智能烤箱o根据烤箱设置启动烘焙,并经由智能烤箱o的控制表面显示视觉反馈,其中,视觉反馈指示烤箱设置。用户30可以查看显示的烤箱设置,并在必要时经由语音交互(例如,发出语音命令)或触摸交互(例如,与控制表面交互)进行调整。
[0113]
基于与用户30相关的上下文信息(例如,经由至少一个传感器单元70捕获的基于传感器的上下文信息、用户30的日历信息、为未来安排的语音命令等),在集群中操作的语音代理205(例如,主设备)可以在鸡肉在智能烤箱o中烘焙时确定用户30是否将离开或已经离开家(例如,去学校接孩子),并且在用户30不在时触发/调用智能烤箱o来停止烘焙。一旦检测到用户30已经回到家中,语音代理205可以触发/调用智能烤箱o来恢复烘焙。
[0114]
图8示出了在一个或多个实施例中,涉及与体现在多个电子设备50中的智能助理的多模式交互的第五示例场景。在一个实施例中,在多个位置(例如,不同房间)的多个电子设备50中操作的语音代理205利用上下文信息、确认(confirmation)和澄清(clarification)来解决多设备歧义消除。如图8所示,位于厨房中的用户30可以经由唤醒词激活来激活在厨房中的多个电子设备50(诸如智能微波炉m、智能炉灶r、智能烤箱o、和/或包括智能ai扬声器的智能家居设备h)中操作的语音代理205。例如,用户30经由第一语音命令激活语音代理205,其中该第一语音命令以唤醒词开始,随后是太热了的陈述。
[0115]
在一个实施例中,智能家居设备h作为控制不同房间中的多个电子设备50的主设备来操作。在一个实施例中,当智能家居设备h的语音代理205响应于唤醒词而唤醒时,语音代理205被配置为基于多个电子设备50中的每一个的当前状态(例如,多个电子设备50中的哪个是该陈述的起作用因素)来确定与该陈述相关的上下文信息。例如,如图8所示,如果智
能烤箱o的当前状态是智能烤箱o正在烘焙,则智能家居设备h的语音代理205确定智能烤箱o的当前状态与该陈述相关,并且通过在厨房中为用户30生成并输出询问其是否应该降低智能烤箱o的温度的语音响应来请求来自用户30的澄清。
[0116]
如图8所示,用户30经由澄清用户30感到热的第二语音命令来响应语音代理205。响应于来自用户30的该澄清,智能家居设备h的语音代理205基于除了智能烤箱o之外的多个电子设备50中的每一个的当前状态(例如,除了智能烤箱o之外的多个电子设备50中的哪个是该澄清的起作用因素)来确定与该澄清相关的上下文信息。例如,如图8所示,如果客厅中的智能空调ac的当前状态是智能空调ac的温度被设置得太高,则智能家居设备h的语音代理205确定智能空调ac的当前状态与该澄清相关,并且通过在厨房中为用户30生成并输出询问其是否应该降低智能空调ac的温度的语音响应来请求来自用户30的澄清。
[0117]
如图8所示,用户30经由第三语音命令响应语音代理205,其中该第三语音命令确认用户30想要语音代理205降低智能空调ac的温度。响应于来自用户30的该确认,智能家居设备h的语音代理205触发/调用智能空调ac以降低智能空调ac被设置到的温度。
[0118]
图9示出了在一个或多个实施例中,涉及与体现在多个电子设备50中的智能助理的多模式交互的第六示例场景。在一个实施例中,用户30可以激活在多个位置(例如,不同房间)的多个电子设备50中操作的语音代理205,提供连续的和跨设备的对话nlu。如图9所示,位于客厅中的用户30可以经由唤醒词激活来激活在客厅中或客厅的邻近范围内的多个电子设备50(诸如智能空调ac、智能电视t、和/或包括智能ai扬声器的智能家居迷你设备hm)中操作的语音代理205。例如,用户30经由第一语音命令激活语音代理205,其中该第一语音命令以唤醒词开始,随后是播放y比赛(例如,涉及y队的篮球比赛)的请求。
[0119]
在一个实施例中,智能家居迷你设备hm作为控制不同房间中的多个电子设备50的主设备来操作。在一个实施例中,当智能家居迷你设备hm的语音代理205响应于唤醒词而唤醒时,语音代理205被配置为确定该请求是针对多个电子设备50中的哪个(例如,电子设备50中的哪个最适合于执行该请求),并且触发/调用该请求所针对的电子设备50来执行该请求。例如,如图9所示,智能家居迷你设备hm的语音代理205确定该请求是针对智能电视t的,并且触发/调用智能电视t来开启y比赛。
[0120]
在一个实施例中,当用户30从客厅移动到厨房时,用户30可以经由唤醒词激活来激活在厨房中的多个电子设备50(诸如智能微波炉m、智能炉灶r、智能烤箱o、和/或智能家居设备h)中操作的语音代理205。例如,如图9所示,用户30经由第二语音命令激活语音代理205,其中该第二语音命令以唤醒词开始,随后是对比分的询问。
[0121]
在一个实施例中,智能家居设备h作为控制不同房间中的多个电子设备50的主设备来操作。在一个实施例中,当智能家居设备h的语音代理205响应于唤醒词而唤醒时,语音代理205被配置为基于多个电子设备50中的每一个的当前状态来确定与该询问相关的上下文信息。例如,如图9所示,智能家居设备h的语音代理205确定智能电视t上的y比赛是与该询问相关的上下文信息,调用应用(例如,软件移动应用90)来查询y比赛的当前比分,并且在厨房中为用户30生成并输出提供y比赛的当前比分的语音响应。
[0122]
图10示出了在一个或多个实施例中,涉及与体现在多个电子设备50中的智能助理的多模式交互的第七示例场景。在一个实施例中,多个用户30可以激活在多个位置(例如,不同房间)的多个电子设备50中操作的语音代理205,提供连续的、跨设备的和用户感知的
对话nlu。如图10所示,位于客厅中的第一用户a可以经由唤醒词激活来激活在客厅中或客厅的邻近范围内的多个电子设备50(诸如智能空调ac、智能电视t、和/或智能家居迷你设备hm)中操作的语音代理205。例如,第一用户a经由第一语音命令激活语音代理205,其中该第一语音命令以唤醒词开始,随后是清洁客厅的第一请求。
[0123]
在一个实施例中,智能家居迷你设备hm作为控制不同房间中的多个电子设备50的主设备来操作。在一个实施例中,当智能家居迷你设备hm的语音代理205响应于唤醒词而唤醒时,语音代理205被配置为确定第一请求是针对多个电子设备50中的哪个,并且触发/调用第一请求所针对的电子设备50来执行第一请求。例如,如图10所示,智能家居迷你设备hm的语音代理205确定第一请求是针对位于洗衣房中的智能吸尘器v的,触发/调用智能吸尘器v通过启动并移动到客厅来执行第一请求,并且在客厅中为第一用户a生成并输出确收/确认第一请求的语音响应。
[0124]
如图10所示,位于厨房中的第二用户b可以经由唤醒词激活来激活在厨房中或厨房的邻近范围内的多个电子设备50(诸如智能微波炉m、智能炉灶r、智能烤箱o、智能家居迷你设备hm、和/或智能冰箱fh)中操作的语音代理205。例如,第二用户b经由第二语音命令激活语音代理205,其中该第二语音命令以唤醒词开始,随后是停止清洁的第二请求。
[0125]
在一个实施例中,智能冰箱fh作为控制不同房间中的多个电子设备50的主设备来操作。在一个实施例中,当智能冰箱fh的语音代理205响应于唤醒词而唤醒时,语音代理205被配置为基于多个电子设备50中的每一个的当前状态来确定第二请求是针对多个电子设备50中的哪个。例如,如图10所示,智能冰箱fh的语音代理205确定第二请求是针对智能吸尘器v的,触发/调用智能吸尘器v通过移回到洗衣房并停止来执行第二请求,并且在厨房中为第二用户b生成并输出确收/确认第二请求的语音响应。
[0126]
在一个实施例中,如果在多个位置(例如,不同房间)的多个电子设备50中操作的语音代理205从多个用户30接收到冲突的语音命令,则语音代理205被配置为向多个用户30中的至少一个通知冲突。例如,如图10所示,智能冰箱fh的语音代理205确定第一请求和第二请求是冲突的语音命令,当第一用户a发出第一请求时,取消位于客厅中的第一用户a,并且在客厅中为第一用户a生成并输出通知第二用户b发出第二请求的语音响应。
[0127]
图11是在一个或多个实施例中,用于实施与电子设备中的智能助理的多模式交互的示例过程900的流程图。过程块901包括检测电子设备(例如,电子设备50)上的智能助理(例如,语音代理205)的激活。过程块902包括响应于激活,将智能助理从睡眠模式唤醒。过程块903包括基于激活的类型,确定智能助理在监听模式期间起作用的词汇量。
[0128]
在一个实施例中,过程块901

903可以由语音用户接口系统200的一个或多个组件来执行。
[0129]
图12是在一个或多个实施例中,用于实施电子设备中的智能助理的物理事件激活的示例过程910的流程图。过程块911包括检测与电子设备(例如,电子设备50)的物理交互。过程块912包括响应于物理交互,从睡眠模式激活电子设备上的智能助理(例如,语音代理205)。
[0130]
在一个实施例中,过程块911

912可以由语音用户接口系统200的一个或多个组件来执行。
[0131]
图13是示出包括对实施所公开的实施例有用的计算机系统600的信息处理系统的
高级框图。系统200可以结合在计算机系统600中。计算机系统600包括一个或多个处理器601,并且还可以包括电子显示设备602(用于显示视频、图形、文本和其他数据)、主存储器603(例如,随机存取存储器(ram))、存储设备604(例如,硬盘驱动器)、可移动存储设备605(例如,可移动存储驱动器、可移动存储器模块、磁带驱动器、光盘驱动器、其中存储有计算机软件和/或数据的计算机可读介质)、查看器接口设备606(例如,键盘、触摸屏、小键盘、定点设备)和通信接口607(例如,调制解调器、网络接口(诸如以太网卡)、通信端口或pcmcia插槽和卡)。通信接口607允许软件和数据在计算机系统和外部设备之间传送。系统600还包括前述设备/模块601至607连接到其的通信基础设施608(例如,通信总线、交叉棒或网络)。
[0132]
经由通信接口607传送的信息可以是信号的形式,诸如能够由通信接口607经由承载信号并且可以使用电线或电缆、光纤、电话线、蜂窝电话链路、射频(rf)链路和/或其他通信信道来实施的通信链路接收的电子、电磁、光学或其他信号。表示本文的框图和/或流程图的计算机程序指令可以被加载到计算机、可编程数据处理装置或处理设备上,以引起在其上执行的一系列操作来生成计算机实施的过程。在一个实施例中,过程900(图11)和过程910(图12)的处理指令可以作为程序指令存储在存储器603、存储设备604和/或可移动存储设备605上,以供处理器601执行。
[0133]
已经参考方法、装置(系统)和计算机程序产品的流程图图示和/或框图描述了实施例。这种图示/图的每个块或其组合可以通过计算机程序指令来实施。当提供给处理器时,计算机程序指令产生机器,使得经由处理器执行的指令创建用于实施流程图和/或框图中指定的功能/操作的装置。流程图/框图中的每个块可以表示硬件和/或软件模块或逻辑。在替代实施方式中,块中提到的功能可以不按图中提到的顺序发生、同时发生,等等。根据本公开的实施例的方法(或该方法的一些操作、动作、行动、块、步骤)可以由至少一个处理器(例如,处理器55)或电子设备(例如,电子设备50)之一来执行。
[0134]
术语“计算机程序介质”、“计算机可用介质”、“计算机可读介质”和“计算机程序产品”通常用于指诸如主存储器、辅助存储器、可移动存储驱动器、安装在硬盘驱动器中的硬盘以及信号的介质。这些计算机程序产品是用于向计算机系统提供软件的装置。计算机可读介质允许计算机系统从计算机可读介质中读取数据、指令、消息或消息包以及其他计算机可读信息。例如,计算机可读介质可以包括非易失性存储器,诸如软盘、rom、闪存、磁盘驱动器存储器、cd

rom和其他永久存储装置。例如,它可用于在计算机系统之间传输信息,诸如数据和计算机指令。计算机程序指令可以存储在计算机可读介质中,该计算机可读介质可以指导计算机、其他可编程数据处理装置或其他设备以特定方式运行,使得存储在计算机可读介质中的指令产生包括实施流程图和/或框图的一个或多个块中指定的功能/动作的指令的制品。
[0135]
如本领域技术人员将理解的,实施例的方面可以体现为系统、方法或计算机程序产品。因此,实施例的方面可以采取完全硬件实施例、完全软件实施例(包括固件、常驻软件、微代码等)、或结合软件和硬件方面的实施例的形式,这些实施例在本文中都可以通常被称为“电路”、“模块”或“系统”。此外,实施例的方面可以采取体现在其上体现有计算机可读程序代码的一个或多个计算机可读介质中的计算机程序产品的形式。
[0136]
可以利用一个或多个计算机可读介质的任何组合。计算机可读介质可以是计算机可读存储介质。计算机可读存储介质可以是,例如但不限于,电子、磁、光、电磁、红外或半导
体系统、装置或设备,或前述的任何合适的组合。计算机可读存储介质的更具体的示例(非穷举列表)将包括以下:具有一条或多条导线的电连接、便携式计算机软磁盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或闪存)、光纤、便携式光盘只读存储器(cd

rom)、光存储设备、磁存储设备或前述的任何合适的组合。在本文档的上下文中,计算机可读存储介质可以是能够包含或存储由指令执行系统、装置或设备使用或与指令执行系统、装置或设备相结合的程序的任何有形介质。
[0137]
用于执行一个或多个实施例的各方面的操作的计算机程序代码可以用一种或多种编程语言的任意组合来编写,包括面向对象的编程语言,诸如java、smalltalk、c++等,以及传统的过程编程语言,诸如“c”编程语言或类似的编程语言。程序代码可以完全在用户的计算机上执行,部分在用户的计算机上执行,作为独立的软件包执行,部分在用户的计算机上执行并且部分在远程计算机上执行,或者完全在远程计算机或服务器上执行。在后一种情况下,远程计算机可以通过任何类型的网络连接到用户的计算机,包括局域网(lan)或广域网(wan),或者可以连接到外部计算机(例如,通过使用互联网服务提供商的互联网)。
[0138]
上面参考方法、装置(系统)和计算机程序产品的流程图图示和/或框图描述了一个或多个实施例的方面。应当理解,流程图图示和/或框图的每个块以及流程图图示和/或框图中的块的组合可以通过计算机程序指令来实施。这些计算机程序指令可以被提供给专用计算机或其他可编程数据处理装置以产生机器,使得经由计算机或其他可编程数据处理装置的处理器执行的指令创建用于实施流程图和/或框图的一个或多个块中指定的功能/动作的装置。
[0139]
这些计算机程序指令也可以存储在计算机可读介质中,该计算机可读介质可以指导计算机、其他可编程数据处理装置或其他设备以特定方式运行,使得存储在计算机可读介质中的指令产生包括实施流程图和/或框图的一个或多个块中指定的功能/动作的指令的制品。
[0140]
计算机程序指令还可以被加载到计算机、其他可编程数据处理装置或其他设备上,以使得在计算机、其他可编程装置或其他设备上执行一系列操作步骤,从而产生计算机实施的过程,使得在计算机或其他可编程装置上执行的指令提供用于实施流程图和/或框图的一个或多个块中指定的功能/动作的过程。
[0141]
附图中的流程图和框图示出了根据各种实施例的系统、方法和计算机程序产品的可能实施方式的架构、功能和操作。在这点上,流程图或框图中的每个块可以表示模块、段或指令部分,其包括用于实施(多个)指定逻辑功能的一个或多个可执行指令。在一些替代实施方式中,块中提到的功能可以不按图中提到的顺序发生。例如,连续示出的两个块实际上可以基本上同时执行,或者这些块有时可以以相反的顺序执行,这取决于所涉及的功能。还将注意到,框图和/或流程图图示的每个块以及框图和/或流程图图示中的块的组合可以由基于专用硬件的系统来实施,其中该基于专用硬件的系统执行指定的功能或动作或者执行专用硬件和计算机指令的组合。
[0142]
除非明确说明,否则权利要求中对单数元素的引用并不意味着“一个和仅仅”,而是“一个或多个”。本领域普通技术人员当前已知或以后将知道的上述示例性实施例的元素的所有结构和功能等同物都旨在被本权利要求所涵盖。除非使用短语“用于

的装置”或“用于

的步骤”明确陈述了本文中的权利要求要素,否则不得根据35u.s.c.第112节第6段
的规定来解释该要素。
[0143]
本文使用的术语仅仅是为了描述特定的实施例,而不是为了限制本发明。如本文所使用的,单数形式的“一”、“一个”和“该”旨在也包括复数形式,除非上下文清楚地另有指示。将进一步理解,当在本说明书中使用时,术语“包括”和/或“包含”指定所陈述的特征、整数、步骤、操作、元件和/或组件的存在,但是不排除一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组的存在或添加。
[0144]
以下权利要求中的所有装置或步骤加功能元素的对应结构、材料、动作和等同物旨在包括用于结合具体要求保护的其他要求保护的元素来执行功能的任何结构、材料或动作。出于说明和描述的目的,已经呈现了实施例的描述,但是并不旨在穷尽或限制于所公开形式的实施例。在不脱离本发明的范围和精神的情况下,许多修改和变化对于本领域普通技术人员来说是明显的。
[0145]
尽管已经参照实施例的特定版本描述了实施例;然而,其他版本也是可能的。因此,所附权利要求的精神和范围不应局限于本文包含的优选版本的描述。