首页 > 乐器声学 专利正文
自动辅助动作执行和/或后台应用请求的动态延迟的制作方法

时间:2022-02-17 阅读: 作者:专利查询

自动辅助动作执行和/或后台应用请求的动态延迟的制作方法
自动辅助动作执行和/或后台应用请求的动态延迟


背景技术:

1.人类可以参与与本文中被称为“自动化助理”(也被称为“数字代理”、“聊天机器人”、“交互式个人助理”、“智能个人助理”、“助理应用”、“会话代理”等)的交互式软件应用的人

机对话。例如,人类(当他们与自动化助理交互时,可以被称为“用户”)可以使用在某些情况下可以被转换成文本然后被处理的口头自然语言输入(即,口头话语)和/或通过提供文本(例如,键入的)自然语言输入来向自动化助理提供命令和/或请求。自动化助理可以通过提供响应性用户界面输出来响应于请求,该响应性用户界面输出可以包括可听和/或可视的用户界面输出。
2.当用户正在操作其他应用时,自动化助理可能具有有限可用性会。结果,用户可能试图调用自动化助理来执行用户与其他应用关联的某些功能,但最终在自动化助理无法继续时,终止与自动化助理的对话会话。例如,自动化助理的有限可用性或有限功能可能意味着用户不能够借助经由自动化助理处理的声音命令来控制其他应用。这可能浪费诸如网络和处理带宽之类的计算资源,因为在对话会话期间对口头话语的任何处理都将不导致任何动作的执行。此外,因为该缺陷,在用户与他们相应的自动化助理交互时,用户可以避免操作可以以其他方式为用户执行的各种任务提供效率的其他应用。这样的任务的示例是经由安装在用户的计算设备上的应用来控制诸如加热系统、空调系统或其他气候控制系统之类的单独的硬件系统。这样的避免可以造成诸如智能恒温器和硬件系统内的其他受应用控制的设备之类的可能以其他方式由这种应用辅助的任何设备以及可能受益于这种应用或其对关联设备的控制的任何人员的低效。
3.此外,许多系统可以假定在访问应用的同时调用自动化助理为用户不再对与应用的进一步交互感兴趣的指示,并使应用暂停某些操作或关闭。当用户实际上正打算使自动化助理执行与该应用和/或另一应用相关的动作时,这可能浪费计算资源。在这种情形下,先前在与应用交互期间生成的任何数据可能丢失,由此迫使用户重新初始化应用和/或重复用应用进行的任何先前操作。


技术实现要素:

4.本文中阐述的一些实现方式可选地在客户端设备本地自动确定自动执行辅助动作的延迟。如本文中使用的,动作的“自动执行”可以意味着执行辅助动作,而首先并不需要明确的确认性用户界面输入。可以基于在实现了自动化助理的至少部分(例如,单独的和/或经由与一个或多个远程自动化助理部件交互)的客户端设备的自动化助理界面处提供的用户界面输入(例如,口头话语)来生成助理动作。在延迟期间,可以提供进一步的用户界面输入,以防止和/或修改辅助动作的执行。然而,在没有这样阻止用户界面输入的情况下,可以发生辅助动作的自动执行。基于取决于用户界面输入的一个或多个动态考虑因素来动态确定延迟的持续时间。例如,当用户输入是口头话语时,延迟的持续时间可以是基于一个或多个置信度度量,在一些实现方式中,置信度度量可以是基于口头话语的语音

文本转换。因此,延迟的持续时间可以是基于确定动作和/或动作的时隙值时利用的项的置信度度量。
另外,例如,延迟的持续时间可以另外地或替代地基于:针对动作的并从口头话语中确定的时隙值的长度;时隙值的历史可能性(跨用户群体和/或针对用户);作为动作和/或时隙值的基础的口头话语的自然语言内容的共同性;在提供口头话语时用户和/或设备的位置;以及表征其中提供了口头话语的场境(context)的事件和/或其他信息。
5.在确定延迟的持续时间时利用上述(和本文中的别处)的一个或多个因素寻求使执行辅助动作的等待时间最小化,同时当该因素指示动作可能已被自动化助理不适当解释和/或由用户不正确传送时选择性延迟辅助动作的执行。另外,辅助动作执行延迟的持续时间可以与该因素指示这种不适当解释和/或传送的程度相关。按这些和其他方式,执行辅助动作的等待时间至少选择性减少,这可以进一步减少当一个或多个附加的用户输入和/或辅助响应跟随执行时整个对话会话的持续时间。另外,按这些和其他方式,至少选择性增加执行辅助动作的等待时间,以向用户提供阻止执行动作的机会,由此不再浪费计算机和/或网络资源来执行不期望的助理动作并执行后续动作来补救该不期望的助理动作。因此,更一般地,本文中公开的实现方式寻求将执行辅助动作的等待时间的减少与浪费来执行不期望辅助动作的计算机和/或网络资源的利用的减少相平衡。
6.本文中阐述的一些实现方式另外地或替代地涉及自动化助理,该自动化助理为用户提供查看前台应用并同时使用自动化助理来控制后台应用的能力。例如,自动化助理可以用于响应于来自后台应用的应用通知,而不浪费针对任一应用的计算资源。在一些实现方式中,当用户正在操作第一应用时,可以向用户呈现基于第二应用的操作的通知。用户可以选择响应通知,尽管在显示面板的前台主动地查看第一应用和/或与第一应用交互。为了响应于该通知,用户可以提供针对自动化助理的输入,这可以确定该输入响应于来自第二应用的通知。响应输入可以被处理以识别诸如发送消息之类的第二应用要执行的动作,并且该动作可以在有或没有来自用户的进一步确认的情况下在后台执行。
7.该自动化助理可以根据自动化助理可用的各种不同信息来确定是否查询用户的确认。例如,用户可以接收与第二应用相关的通知(例如,“john says:

are you here?’(john说:“你在这里吗?”)”,而用户正在计算设备的图形用户界面的前台操作第一应用(例如,播客应用)。当用户响应于看到该通知而提供口头话语(例如,“i’m on the way.”(“我在路上。)”)时,自动化助理可以使用口头话语的内容来生成响应消息(例如,“草稿消息:

i’m on the way.’(

我在路上。’)”)。根据与通知关联和/或表征通知的信息,自动化助理可以选择使动作迫近通知渲染在计算设备的图形用户界面上,或者替代地,选择绕过提供动作迫近通知。
8.在一些实现方式中,可以由自动化助理渲染动作迫近通知,以便为用户提供在执行迫近动作之前确认和/或修改迫近动作的机会。此外,当确定迫近动作是用户通常将不期望确认和/或修改的动作时,可以绕过该动作迫近通知。例如,当用户在计算设备处操作诸如地图应用之类的第一应用并且在计算设备处接收到诸如消息收发应用之类的第二应用的通知时,可以将该消息通知给用户。例如,接收到的消息可以是来自用户经常向其传送消息的好友名字“matt”,并且通知可以是“matt:

what is your eta?’(“你的eta是?”)”。在查看了在计算设备的图形界面的前台暂时出现的通知后,用户可以用诸如“25分钟”之类的口头话语进行回答。响应于接收到该口头话语,自动化助理可以确定指示在预测用户是否将确认和/或修改消息的置信度的置信度度量。如果置信度度量满足阈值,由此指示预测用
户不期望确认和/或修改消息,则可以在不提供动作迫近通知的情况下传输消息。然而,如果置信度度量不满足阈值,则可以在一段持续时间内和/或直到用户选择确认和/或修改对应动作请求为止渲染动作迫近通知。
9.在一些实现方式中,自动化助理可以基于哪个应用最近提供了输出和/或接收了输入来偏向选择应用以接收动作请求的决策。例如,因为第二应用最近提供了关于来自“matt”的消息的通知,所以自动化助理可以选择第二应用进行动作。因此,当自动化助理选择了第二应用进行后续动作时,自动化助理可以生成动作请求以促进第二应用执行特定动作。
10.在一些实现方式中,自动化助理可以与第二应用交互,和/或第二应用可以经由应用编程接口(api)与自动化助理交互。自动化助理和第二应用可以彼此交互,以促进自动化助理生成与能够由第二应用执行的特定动作对应的动作请求。例如,基于提供通知的第二应用,第二应用可以使用api将动作数据推送到自动化助理,以便辅助自动化助理选择动作请求应该指向的动作。例如,按照以上提到的示例,第二应用可以推送诸如“{response_message(收件人:[“matt”,

];正文:[消息内容,

]之类的动作数据,自动化助理可以使用该动作数据来生成动作请求。具体地,动作请求可以包括将自然语言内容与“response_message”动作的“正文”相关的数据。
[0011]
当确定如何响应于来自用户的口头话语时,自动化助理还可以生成置信度度量。置信度度量可以反映计算出的用户将在向第二应用提供动作请求之前确认和/或修改动作请求的可能性。置信度度量还可以反映错误执行动作的感知成本(例如,网络或其他资源中的计算成本)。例如,如果确定置信度度量不满足特定阈值,则自动化助理可以使动作迫近通知被渲染在显示面板上。动作迫近通知可以指示用户可以在动作请求经由自动化助理提供到第二应用之前确认和/或修改动作请求。然而,如果确定置信度度量满足特定阈值,则自动化助理可以绕过使动作迫近通知被渲染在显示面板上。此外,除了绕过使动作迫近通知被呈现在显示面板上之外,自动化助理可以将动作请求提供到第二应用,以便第二应用执行动作(例如,将消息“25分钟”发送到所存储的名字为“matt”的联系人)。
[0012]
在一些实现方式中,当动作迫近通知被渲染在显示面板上时,在其间显示面板上渲染动作迫近通知的持续时间可以是基于置信度度量。例如,可以用表征来自用户的输入的一个或多个不同性质和/或方面的数据和/或所确定的待执行动作来确定置信度度量。例如,当来自用户的输入对应于与用户和/或一个或多个其他用户具有发送历史的特定消息相近的响应消息时,置信度度量可以至少相对于与用户和/或一个或多个其他用户很少发送的另一响应消息对应的另一置信度度量更高。另外地或替换地,当来自用户的输入对应于针对用户频繁向其传送消息的收件人的响应消息时,置信度度量可以至少相对于与针对不经常传送消息的另一收件人的另一响应消息对应的另一置信度度量更高。另外地或另选地,置信度度量可以是基于:当输入对应于已自动校正的消息时输入所针对的特定动作的重要性、当提供输入时用户的位置、当提供输入时与输入关联或正在进行的事件、合并到输入中的数据量和/或数据类型和/或可以与输入关联的任何其他信息。
[0013]
提供以上描述作为本公开的一些实现方式的概述。下面,更详细地描述对这些实现方式和其他实现方式的进一步描述。
[0014]
其他实现方式可以包括存储能由一个或多个处理器(例如,中央处理单元(cpu)、
图形处理单元(gpu)和/或张量处理单元(tpu))执行的指令的非暂态计算机可读存储介质,以执行诸如上述和/或本文中别处描述的方法中的一种或多种的方法。然而,其他实现方式可以包括含一个或多个处理器的一个或多个计算机和/或一个或多个机器人的系统,该处理器可操作,以执行所存储的指令来执行诸如上述和/或本文中别处描述的方法中的一种或多种之类的方法。
[0015]
应该理解,本文中更详细描述的以上构思和附加构思的所有组合被料想到是本文中公开的主题的部分。例如,出现在本公开结尾处的要求保护的主题的所有组合被料想到是本文中公开的主题的部分。
附图说明
[0016]
图1a、图1b、图1c、图1d、图1e和图1f例示了在动作初始化之前在各种不同的情况下采用的动态延迟。
[0017]
图2a、图2b和图2c例示了在初始化用户请求的动作之前生成和采用的动态延迟。
[0018]
图3例示了用于在经由自动化助理自动执行应用动作之前自动确定是否要延迟——以及延迟量的系统。
[0019]
图4例示了基于各种不同因素来动态延迟动作执行以及基于这样的因素绕过动作执行延迟的方法。
[0020]
图5是示例计算机系统的框图。
具体实施方式
[0021]
图1a至图1f例示了在各种不同情况下并且在动作初始化之前如何可以采用动作的动态延迟的持续时间。具体地,图1a例示了控制在图形用户界面106的前台渲染的第一应用的用户102的视图100,而第二应用提供通知并正在图形用户界面106的前台执行。第一应用可以是恒温器应用110,其可以提供用于控制恒温器应用110的不同特征的第一用户界面112以及用于控制恒温器应用110的温度设置的第二用户界面114。第二应用可以是在图形用户界面106的后台或至少不完全在前台执行的警报系统应用108。尽管在后台操作,但警报系统应用108可以使通知132被推送到计算设备104的操作系统和/或自动化助理130。然后,可以在计算设备104的显示面板138处渲染由警报系统应用108提供的通知。
[0022]
通知132可以指示由警报系统应用108控制的警报系统未进行保护(secure)(即,不主动监视用户102的住所)。计算设备104可以可选地响应于从警报系统应用108推送的通知而使输出118被渲染。当用户102正与恒温器应用110交互并打开他们家的暖气时,可以渲染通知132。为了简化使警报系统进行保护而不必突然停止他们正在用恒温器应用110做的事情,用户102可以向可以正在等待用户102的输入的自动化助理130提供输入,如自动化助理130的状态116所指示的。
[0023]
图1b例示了提供用于在与前台应用交互时控制后台应用的口头话语136的用户102的视图140。具体地,用户102可以提供可以作为对自动化助理130的输入134而接收的诸如“secure the alarm system(使警报系统进行保护)”之类的口头话语136。自动化助理130可以处理输入134,以识别用户102正打算初始化的意图。在一些实现方式中,计算设备104的动作引擎126可以生成与经由计算设备104可访问的一个或多个应用128的动作和/或
应用的意图对应的动作请求。
[0024]
在一些实现方式中,计算设备104还可以生成用于确定在向警报系统应用108提供动作请求之前是否提供一定延迟量的一个或多个置信度度量。换句话说,给定当前场境,可能存在用户在动作初始化之前将希望确认或修改的某些动作以及用户可能不期望在动作初始化之前确认或修改的其他动作。是否要实施延迟的确定可以是基于助理数据120和/或场境数据124,该助理数据120和/或场境数据124可以被处理,以确定可以在向警报系统应用108提供动作请求之前提供是否要实施延迟的指示的置信度度量。
[0025]
例如,当场境数据124和/或助理数据120指示用户先前已多次提供口头话语136而随后并不请求修改所得动作时,可以生成置信度度量以在动作初始化之前消除延迟。替代地或另外地,场境数据124可以指示警报系统应用108已提供了相对于经由计算设备104可访问的其他应用128推送的其他通知的最新通知132。因此,因为口头话语136和/或动作请求对应于将由警报系统应用108执行的动作,并且警报系统应用108提供了最新通知132,可以生成置信度度量,使得在初始化使警报系统进行保护的动作之前绕过延迟或者否则不实施延迟。在一些实现方式中,在计算设备104和/或与计算设备104通信的另一设备处提供的经训练的机器学习模型可以用于处理各种数据,以生成一个或多个置信度度量。例如,可以使用经训练的机器学习模型来处理助理数据120和/或场境数据124,以便生成用于确定在初始化动作之前是否要提供延迟的置信度度量。
[0026]
图1c例示了基于所确定的置信度度量在初始化动作之前使延迟被绕过的自动化助理130的视图150。具体地,在确定置信度度量后,自动化助理130可以确定在初始化用户102请求的动作之前是否要采用延迟。在一些实现方式中,当置信度度量满足特定阈值时,自动化助理130生成的动作请求可以被传输到警报系统应用108,而没有合并延迟。而是,自动化助理130可以经由操作系统将动作请求传输到后台应用,以便使后台应用执行动作。响应于接收到动作请求,警报系统应用108可以执行使警报系统进行保护的动作,并且可选地,提供指示成功执行了动作的另一通知152。自动化助理130还可以提供指示使警报系统进行保护的输出154,并在此后可以提供指示自动化助理130正在等待进一步输入的更新后状态156。
[0027]
作为在初始化动作之前绕过延迟的结果,可以消除在初始化动作之前表现出的浪费的等待时间,以便可以加快动作的执行。这在涉及应该以最少等待时间操作以便保护用户102的警报系统的情形下可能尤为重要。此外,在用户继续与自动化助理130交互以控制应用128时,这使所有应用128之间的等待时间能够减少。例如,作为自动化助理130被用于频繁执行某些动作的结果,各个动作和/或口头话语的对应置信度度量可以增加,由此减少了用户对自动化助理130的输入与对应动作的初始化之间的延迟。此外,通过在一些情形下采用动态延迟,可以向用户102提供自适应过程,通过该自适应过程确认或修改用户仅开始经由自动化助理130请求的动作请求。这可以辅助训练一个或多个受训练的机器学习模型,由此提供更准确的置信度度量,根据该置信度度量绕过延迟的实施和/或选择延迟的持续时间。
[0028]
图1d例示了提供口头话语164的用户102的视图160,口头话语164可以对应于可以根据经由自动化助理130选择的动态持续时间而延迟的动作请求。在诸如恒温器应用110之类的前台应用和诸如警报系统应用108之类的后台应用正在计算设备104处执行时,可以由
用户102提供口头话语164。当用户102正在查看恒温器应用110时,口头话语164可以被处理作为对自动化助理130的输入162。响应于接收到口头话语164,自动化助理130可以识别与口头话语164对应的动作和/或应用。
[0029]
图1e例示了响应于口头话语164而确定置信度度量并基于置信度度量来提供动作迫近通知174的计算设备104的视图170。置信度度量可以是基于各种不同的数据,这些数据可以指示用户102提供的口头话语164的频率低于口头话语136。结果,基于口头话语164生成的置信度度量可以小于基于口头话语136的置信度度量。在一些实现方式中,可以在计算设备104处生成置信度和/或另一置信度,以确定定时器172的持续时间,定时器172可以在向相应应用提供动作请求之前提供延迟的实时期满。例如,当置信度度量不满足省略动作迫近通知174的阈值时,置信度度量仍然可以被用于确定计时器172的持续时间。
[0030]
在一些实现方式中,置信度度量可以是基于在口头话语164中提供的内容量,因此定时器172的持续时间可以与来自用户102的口头话语的长度成正比或随其增加。替代地或另外地,可以基于口头话语的大部分内容是否包含由用户102和/或一个或多个其他用户常用的术语来生成置信度度量。因此,当口头话语164包括用户102和/或一个或更个其他用户最不常用的术语时,置信度度量可以相对于用户包含了更常用术语时更低。此外,当不太常用的术语包含在口头话语中时,定时器172的持续时间可以被设置为至少相对于当用户102包含了更常用术语时定时器172的设定持续时间更长的长度。
[0031]
在一些实现方式中,动作迫近通知174可以为用户提供通过轻击动作迫近通知174的部分来修改将暖气设置为70
°
的迫近动作的能力。替代地或另外地,用户可以提供诸如“confirmed(已确认)”之类的后续口头话语,或者轻击动作迫近通知174的不同部分,以便在自动化助理130将动作请求提交给恒温器应用110之前确认动作请求。替代地或另外地,用户102可以等待定时器172期满,使得当定时器172期满时,动作请求将被提交给恒温器应用110。
[0032]
图1f例示了响应于定时器172期满而向恒温器应用110提供动作请求的自动化助理130的视图180。因为用户102允许定时器172期满,所以自动化助理130可以确认定时器期满,并且作为响应,将所生成的动作请求提供给恒温器应用110。动作请求可以使恒温器应用110初始化将恒温器设置修改为70度的动作,如输出184所指示的。此外,自动化助理130可以提供指示自动化助理130正在等待用户102的进一步输入的更新后状态182。用户102可以经由图形用户界面106、口头输入和/或计算设备104可以接收的任何其他输入继续与恒温器应用110和/或警报系统应用108交互。然而,每个口头输入可以被处理以识别所期望动作,确定在初始化动作之前是否要延迟一段持续时间,并可选地基于动作、口头输入、一个或多个置信度度量和/或可以与口头输入关联的任何其他信息来确定延迟的持续时间。
[0033]
图2a至图2c例示了在初始化用户206请求的动作之前采用延迟。具体地,图2a例示了调用自动化助理执行动作并且当计算设备208不能在计算设备208的图形用户界面202的前台主动执行第三方应用时的用户206的视图200。例如,经由计算设备208可访问的自动化助理可以处于空闲模式,或者以其他方式等待来自用户206的输入,如状态204所指示的。当访问计算设备208时,用户206可以提供诸如“call,kay(呼叫,kay)”的口头话语210,口头话语210可以对应于对自动化助理的请求,以初始化对与用户206的账户相关联地存储的联系人(例如,“kay”)的电话呼叫。口头话语210可以在计算设备208的麦克风处接收并被转换成
音频数据,可以在设备上使用语音

文本处理和/或自然语言理解处理对该音频数据进行处理。基于对音频数据的处理,可以生成用于传输到相应应用以初始化动作——诸如,可以执行呼叫动作的电话呼叫应用——的动作请求。然而,基于口头话语210的内容、动作请求和/或可以与用户206与自动化助理之间的交互关联的任何其他信息,可以生成置信度度量以确定是否要延迟呼叫动作的初始化。
[0034]
在一些实现方式中,可以使用经训练的机器学习模型来处理表征用户206与自动化助理之间的交互的信息,以便辅助生成置信度度量。例如,在用户的事先许可下,可以处理与用户206和联系人关联的信息,以确定用户206与联系人通信的频率。此外,还可以使用该信息来确定用户调用自动化助理来执行电话呼叫的频率。如果用户206频繁地联系作为口头话语210的主题的联系人(例如,至少比一个或多个其他联系人更频繁)并且用户206频繁地调用自动化助理来执行电话呼叫(例如,至少比用户调用自动化助理执行其他动作更频繁),则置信度度量可以满足绕过所请求动作的初始化延迟的阈值。换句话说,自动化助理可以绕过响应于口头话语210而进行的呼叫动作延迟,并且可以经由自动化助理初始化对“kay”的呼叫。然而,当确定置信度度量不满足可以根据用户206正与自动化助理交互的场境而变化的特定置信度度量阈值时,自动化助理可以选择在动作初始化之前执行延迟。在一些实现方式中,置信度度量阈值可以是静态或动态的,并且还可以是基于诸如该用户、交互的场境、一个或多个动作、一个或多个应用、使用经训练的机器学习模型生成的其他数据和/或可以用于生成度量的任何其他信息之类的各种不同的数据。
[0035]
图2b例示了使动作迫近通知224被渲染在图形用户界面202处的自动化助理的视图220。在一些实现方式中,可选定时器222可以随动作迫近通知224被渲染。定时器222可以提供在延迟的持续时间内的实时期满指示,当在图形用户界面202处提供动作迫近通知224时,可以开始期满。此外,动作迫近通知224可以包括取消元素226,取消元素226可以在延迟的持续时间期间选择了取消元素226时取消迫近动作(例如,调用动作)。此外,用户可以点击动作迫近通知224的不包括取消元素226或定时器222的部分,以便确认迫近动作。通过在延迟定时器222期满之前确认迫近动作,用户206可以使迫近动作在延迟期满之前被初始化。
[0036]
例如,如图2c的视图230中例示的,用户206可以通过确认动作迫近通知224和/或等待定时器222的期满来初始化呼叫动作的执行。自动化助理可以初始化呼叫动作的执行,这可以导致在图形用户界面202的前台渲染应用界面232。在一些实现方式中,响应于用户206经由动作迫近通知224确认动作或等待延迟定时器222的期满,可以在设备上修改经训练的机器学习模型,以便实现后续置信度度量的生成。以这种方式,当用户随后在给定场境中更容易地确认呼叫动作时,由于经由经训练的机器学习模型处理一个或多个输入,置信度度量可以增大。一旦置信度度量的后续迭代满足置信度度量阈值,自动化助理可以在某些场境中绕过延迟呼叫动作。
[0037]
在一些实现方式中,数据可以表征当请求动作时、当提供动作迫近通知时、当动作请求被传输到另一应用时和/或在执行动作期间的用户206与自动化助理之间的交互。该数据可以用于训练用于处理根据联邦学习过程接收的输入的机器学习模型。例如,可以使用与一个或多个客户端设备通信的一个或多个服务器设备来实现联邦学习过程。当用户经由其相应的客户端设备与其相应的自动化助理交互时,每个客户端设备在用户的事先许可下
可以提供表征用户与自动化助理之间的交互的数据。该数据可以用于训练机器学习模型,并且经训练的机器学习模型和/或由此推导出的梯度可以被各客户端设备用来生成置信度度量。因此,当多个不同的用户确认某些动作迫近请求,取消某些动作请求,和/或以其他方式使用用于绕过动作延迟的特征时,经训练的机器学习模型可以被更新,以用于在生成后续置信度度量时使用。
[0038]
例如,在多个不同的用户在其相应的家中与其相应的自动化助理交互时确认警报系统“打开”动作时,可以使用联邦学习过程来训练将反映类似交互的这种增加的机器学习模型。结果,响应于用户在他们家种请求警报系统“打开”动作而随后生成的置信度度量可以满足特定阈值,这可以导致绕过警报系统“打开”动作执行中的延迟。以这种方式,可以消除原本可能由自动化助理表现出的浪费的等待时间,由此简化用户将不期望确认或修改的某些动作。此外,一些过程可以促进用户修改和/或确认对用户来说似乎重要或关键的某些动作,诸如发消息或呼叫具有某些称谓的某些联系人,和/或在诸如驾驶车辆、操作特定智能设备、穿过危险区域和/或当用户可能希望额外的机会来确认或修改所请求动作时与自动化助理交互之类的某些情况下。
[0039]
图3例示了用于在经由自动化助理304自动执行应用动作之前自动确定是否要延迟——以及延迟量的系统300。自动化助理304可以作为在诸如计算设备302和/或服务器设备之类的一个或多个计算设备处提供的助理应用的部分进行操作。用户可以经由助理接口320与自动化助理304交互,助理接口320可以是麦克风、照相机、触摸屏显示器、用户接口和/或任何其他能够提供用户与应用之间的接口的装置。例如,用户可以通过向助理接口320提供言语、文本和/或图形输入来初始化自动化助理304,以使自动化助理304执行功能(例如,提供数据、控制外围设备、访问代理、生成输入和/或输出等。)。计算设备302可以包括显示设备,该显示设备可以是包括触摸接口的显示面板,触摸接口用于接收允许用户经由触摸接口控制计算设备302的应用334的触摸输入和/或手势。在一些实现方式中,计算设备302可以没有显示设备,由此提供可听用户界面输出,而不提供图形用户界面输出。此外,计算设备302可以提供用于接收来自用户的口头自然语言输入的诸如麦克风之类的用户界面。在一些实现方式中,计算设备302可以包括触摸接口,并且可以没有照相机,但是可以可选地包括一个或多个其他传感器。
[0040]
计算设备302和/或其他第三方客户端设备可以通过诸如互联网之类的网络与服务器设备通信。另外,计算设备302和任何其他计算设备可以通过诸如wi

fi网络之类的局域网(lan)彼此通信。计算设备302可以将计算任务卸载到服务器设备,以便节省计算设备302处的计算资源。例如,服务器设备可以托管自动化助理304,和/或计算设备302可以将在一个或多个助理接口320处接收到的输入传输到服务器设备。然而,在一些实现方式中,自动化辅助304可以被托管在计算设备302处,并且可以在计算设备302处执行与自动化辅助操作关联的各种处理。
[0041]
在各种实现方式中,自动化助理304的全部或少于全部方面可以在计算设备302上实现。在这些实现方式中的一些中,自动化助理304的各方面经由计算设备302实现,并可以与可以实现自动化助理304的其他方面的服务器设备交互。服务器设备可以可选地经由多个线程服务于多个用户及其关联的辅助应用。在经由计算设备302实现自动化助理304的全部或少于全部方面的实现方式中,自动化助理304可以是与计算设备302的操作系统分离的
应用(例如,安装在操作系统的“顶层”)——或者可以替代地由计算设备302的操作系统直接实现(例如,考虑操作系统的应用,但与操作系统一体化)。
[0042]
在一些实现方式中,自动化助理304可以包括可以采用多个不同模块的输入处理引擎308和/或处理对计算设备302和/或服务器设备的输入和/或输出的引擎。例如,输入处理引擎308可以包括语音处理引擎316,语音处理引擎316可以处理在助理接口320处接收的音频数据以识别在音频数据中实施的文本。音频数据可以从例如计算设备302传输到服务器设备,以便保存计算设备302处的计算资源。另外地或替代地,可以在计算设备302处处理音频数据。
[0043]
将音频数据转换成文本的处理可以包括语音辩别算法,该语音辩别算法可以采用神经网络和/或统计模型来识别对应于词语或短语的音频数据组。从音频数据转换成的文本可以被数据解析引擎310解析,并作为文本数据对于自动化助理304是可用的,该文本数据可以用于生成和/或识别命令短语、意图、动作、时隙值和/或用户指定的任何其他内容。在一些实现方式中,由数据解析引擎310提供的输出数据可以被提供到参数引擎312,以确定用户是否提供了与能够由自动化助理304执行的特定意图、动作和/或例程和/或能够经由自动化助理304访问的应用或代理对应的输入。例如,助理数据322可以被存储在服务器设备和/或计算设备302处,并且可以包括定义能够由自动化助理304执行的一个或多个动作的数据以及执行这些动作所必需的参数。经由输入处理引擎308生成的助理数据322可以由输出生成引擎324处理,以便使自动化助理304经由助理接口320向用户提供输出,和/或初始化与一个或多个应用334关联的一个或多个动作。
[0044]
在一些实现方式中,计算设备302可以包括可以由第三方实体提供的一个或多个应用334,该第三方实体不同于提供计算设备302和/或自动化助理304的实体。自动化助理304和/或计算设备302的动作引擎318可以访问应用数据330,以确定能够由一个或多个应用334执行的一个或多个动作。此外,应用数据330和/或任何其他数据(例如,设备数据306)可以由自动化助理304访问以生成场境数据336,场境数据336可以表征特定应用334正在计算设备302处执行的场境和/或特定用户正访问自动化助理304和/或计算设备302的场境。
[0045]
当一个或多个应用334正在计算设备302处执行时,设备数据306可以表征在计算设备302处执行的各个应用334的当前操作状态。此外,应用数据330可以表征诸如在一个或多个应用334的方向上渲染的一个或多个图形用户界面的内容之类的执行应用334的一个或多个特征。在一些实现方式中,动作引擎318可以在自动化助理304的指导下初始化应用334的一个或多个动作的执行。此外,动作引擎318和/或自动化助理304可以使用由置信度度量引擎314确定的度量,以便响应于口头话语而对由自动化助理304识别的应用动作进行优先级排序和/或排序。另外地或替代地,延迟持续时间引擎326可以使用度量来确定是否要延迟将响应于用户而被初始化的动作以及延迟动作的持续时间。
[0046]
动作的初始化可以被延迟,以便给用户提供在自动化助理向特定应用提供动作请求之前确认或修改动作请求的机会。作为示例,计算设备302可以正在图形用户界面的前台执行第一应用以及在图形用户界面的后台执行第二应用。在该时间期间,第二应用可以使在图形用户界面的前台提供通知,并且该通知可以包括用户正被请求响应的内容。例如,第二应用可以是消息传递应用,并且通知可以对应于来自特定联系人的新消息。表征通知的数据可以与应用数据330一起存储,应用数据330可以是由自动化助理304可访问的。响应于
应答来自第二应用的通知,用户可以向计算设备302的助理接口320提供输入以响应于通知的内容。可以在输入处理引擎308处处理表征口头话语的音频数据,并且此后,可以在动作引擎318处处理基于口头话语的输入数据。动作引擎318可以识别用户正意图调用和/或初始化超出口头话语的应用和/或动作。此外,置信度度量引擎314还可以处理输入数据或其他数据,以确定动作的初始化是否应该被延迟。
[0047]
置信度度量引擎314可以确定可以用于确定是否要延迟所请求动作的初始化的置信度度量。置信度度量引擎314可以使用应用数据330、设备数据306、场境数据336、助理数据322和/或任何其他可以与所请求动作关联的信息。例如,应用数据330可以指示用户请求执行所请求动作的频率。替代地或另外地,场境数据336可以表征用户提供用于请求执行动作的口头话语的场境。替代地或另外地,助理数据322可以表征用户与自动化辅助304之间的历史交互。基于该数据中的一些或全部,置信度度量引擎314可以生成可以用于确定是否要延迟所请求动作的初始化的一个或多个置信度度量。
[0048]
当所确定的置信度度量指示所请求动作的初始化应该被延迟时,延迟持续时间引擎326可以使用置信度度量来确定延迟的持续时间的长度。例如,在一些实现方式中,延迟的持续时间的长度可以与口头话语中提供的自然语言内容的量成正比。替代地或另外地,延迟量可以与用户使所识别的动作执行所请求动作的频率成正比。替代地或另外地,可以基于由场境数据336表征的用户的位置和/或场境来确定延迟持续时间的长度。例如,当指示用户在存储在其日历中的事件期间提供了口头话语时,在自动化助理确定动作与日历事件无关时,动作可以被延迟。然而,当确定动作与日历事件相关时,诸如,当用户正请求自动化助理向日历事件的受邀者发送消息时,自动化助理可以使动作初始化的延迟被绕过。这可以减少当请求执行某些动作时常表现出的等待时间,还提高了用户可能期望反映或以其他方式给予额外关注的某些动作的准确性。通过提高这样的精确度,与重复动作和/或校正动作相关的计算资源可以被保存,因为用户重复和/或校正动作将不太频繁。
[0049]
图4例示了基于各种不同因素来动态延迟动作执行以及基于这样的因素绕过其他动作的执行延迟的方法400。方法400可以由能够初始化动作执行的一个或多个计算设备、应用和/或任何其他装置、模块和/或引擎来执行。方法400可以包括确定是否在计算设备处检测到口头话语的操作402。该口头话语可以是由一个或多个用户提供给作为计算设备的部分或与计算设备通信的一个或多个接口的口头输入。该口头话语可以是例如“tell matthew i’m on my way(告诉matthew我正在路上。)”。当计算设备不在前台执行应用、计算设备正在前台执行应用、或者计算设备正在前台执行一个或多个应用并正在后台执行一个或多个应用时,可以在计算设备处提供口头话语。前台和后台可以是指在计算设备的显示面板处渲染的图形用户界面。图形用户界面的前台可以是图形用户界面的后台“的顶层”的区域,因此对于正在查看图形用户界面的用户来说,至少相对于后台区域是最可见的。
[0050]
当在操作402处检测到口头话语时,方法400可以从操作402前进至操作404。替代地,当在操作402处未检测到口头话语时,计算设备可以继续监视来自一个或多个用户的口头话语或其他输入。操作404可以包括识别口头话语所针对的应用。在一些实现方式中,确定口头话语所针对的应用可以是基于口头话语的自然语言内容。例如,可以将口头话语的内容与一个或多个不同应用的应用数据进行比较,并且可以确定内容与应用数据之间的相关性。与口头话语的内容最相关的特定应用可以被识别为该口头话语的期望目标。
[0051]
方法400还可以包括基于口头话语生成动作请求的操作406。在一些实现方式中,可以基于被确定是口头话语的目标的特定应用来识别一个或多个动作。例如,计算设备可以确定消息传递应用是“tell matt i’m on my way(告诉matt我在路上)”的目标,并且因此,可以识别能够由消息收发应用执行的一个或多个动作。所识别的动作可以包括例如发送消息动作,该发送消息动作可以包括诸如但不限于联系人姓名和消息内容(例如,send_message{contact_name(name);message_content(text);...})之类的一个或多个时隙值。因此,因为发送消息动作包括姓名的时隙值,并且口头话语与发送消息同义,所以可以将发送消息动作确定为口头话语的目标动作。在一些实现方式中,为了生成动作请求,可以处理口头话语的自然语言内容,以识别选定动作的各时隙值的一个或多个值。例如,姓名“matthew”可以被分配给“contact_name”时隙值,文本“i'm on my way”可以被分配给“message_content”时隙值。
[0052]
方法400还可以包括基于动作请求和/或口头话语来生成置信度度量的操作408。置信度度量可以指示口头话语与动作请求的内容之间的相关程度。替代地或另外地,置信度度量可以用于预测在动作请求被传输到所识别的应用之前用户是否将修改或确认动作。例如,口头话语与动作请求的内容之间的相关程度可以依赖于语音

文本处理和/或自然语言理解处理的准确度。因此,当关联程度低时,置信度度量也可以低,或者以其他方式指示语音

文本处理和/或自然语言理解处理的准确度不足。然而,当关联程度高时,置信度度量也可以高,或者以其他方式指示语音

文本处理和/或自然语言理解处理至少足够准确。在一些实现方式中,置信度度量可以是基于在口头话语中提供的词语总数、口头话语内特定词语的使用频率、口头话语所涉及的动作、口头话语所涉及的应用、和/或可以作为应用度量基础的任何其他信息。
[0053]
方法400还可以包括确定置信度度量是否预测或者以其他方式指示对动作的进一步确认和/或修改的操作410。换句话说,当置信度度量特别低时,置信度度量可以指示用户有可能在自动化助理初始化动作之前确认或修改动作。替代地,当置信度度量相对高时,置信度度量可以指示用户有可能在自动化助理初始化动作之前不确认或修改动作。当置信度度量指示用户在自动化助理初始化动作之前不可能确认或修改动作时,方法400可以前进至操作420。操作420可以包括根据或响应于口头话语而初始化动作的执行。然而,当置信度度量指示用户有可能在自动化助理初始化动作之前确认或修改动作时,方法400可以前进至操作412。
[0054]
操作412可以包括在初始化动作和/或向所识别的应用传输动作请求之前确定延迟的持续时间。在一些实现方式中,延迟的持续时间可以是基于置信度度量。替代地或另外地,延迟的持续时间可以是基于置信度度量和/或一个或多个其他度量。例如,在一些实现方式中,可以根据表征用户提供口头话语的场境的信息来动态调整延迟的持续时间。例如,该信息可以表征用户的位置、在图形用户界面前台的应用、在图形用户界面后台的应用、最近经由计算设备或另一计算设备提供到用户的通知、动作的执行频率、所识别的应用的使用频率、口头话语内容的使用频率和/或任何其他可以与对应用执行动作的请求相关的信息。
[0055]
在一些实现方式中,方法400可以包括使动作迫近通知渲染在显示界面上的操作414。动作迫近通知可以向用户指示在延迟时段期满后将执行动作。在一些实现方式中,当
置信度度量指示动作请求将在动作初始化之前被确认或修改时,可以渲染动作迫近通知。动作迫近通知可以包括实时地表征延迟的持续时间期满的动态图形元素。在延迟的持续时间期间,用户可以选择在动作请求从自动化助理传输到所识别的应用之前确认和/或修改动作请求。此外,在一些实现方式中,动作迫近通知可以表征用户经由口头话语提供的内容。以这种方式,用户能够在动作初始化之前查看将用于动作的内容。然而,假定当置信度度量满足绕过延迟动作的阈值时,对内容的这种查看是不必要的。否则,当置信度度量不满足绕过延迟动作的阈值时,可以调用延迟定时器和/或可以在显示界面处渲染动作迫近通知,以便将动作延迟一段持续时间。此外,这段持续时间可以是基于置信度度量和/或任何其他可以与自动化助理关联的信息。
[0056]
方法400还可以包括初始化用于指示延迟的持续时间期满的实时定时器的操作416。可以初始化表征延迟的持续时间期满的实时计时器,而不管是否在显示界面处渲染动作迫近通知。以这种方式,尽管在某些实现方式中没有渲染动作迫近通知,但用户仍然可以有机会在动作初始化之前确认或修改动作请求。然而,当动作迫近通知被渲染在显示界面处时,实时定时器可以表现为随时间推移而变化以指示延迟的持续时间期满的图形元素。
[0057]
方法400还可以包括确定在延迟的持续时间期间是否存在动作修改的操作418。当确定在延迟的持续时间期间用户没有请求修改时,方法400可以前进至操作420,以初始化动作。然而,当存在用户在延迟的持续时间期间请求修改动作或动作请求的指示时,方法400可以返回到操作408。在操作408中,可以基于修改后的动作和/或修改后的动作请求来生成另一置信度度量。另选地,在一些实现方式中,当存在用户在延迟的持续时间期间请求修改动作或动作请求的指示时,方法400可以前进至操作420,以将修改后的动作请求发送到所识别的应用和/或经由自动化助理初始化修改后动作的执行。
[0058]
图5是示例计算机系统510的框图。计算机系统510通常包括经由总线子系统512与多个外围设备通信的至少一个处理器514。这些外围设备可以包括存储子系统524——包括例如存储器525和文件存储子系统526、用户界面输出设备520、用户界面输入设备522和网络接口子系统516。输入设备和输出设备使用户能够与计算机系统510交互。网络接口子系统516提供通向外部网络的接口,并被联接到其他计算机系统中的对应接口设备。
[0059]
用户界面输入设备522可以包括键盘、诸如鼠标、轨迹球、触摸板或绘图板之类的指向设备、扫描仪、装配在显示器中的触摸屏、诸如语音辨别系统之类的音频输入设备、麦克风和/或其他类型的输入设备。通常,使用术语“输入设备”旨在包括用于将信息输入到计算机系统510中或通信网络上的所有可能类型的设备和方式。
[0060]
用户界面输出设备520可以包括显示子系统、打印机、传真机或诸如音频输出设备之类的非可视显示器。显示子系统可以包括阴极射线管(crt)、诸如液晶显示器(lcd)之类的平板设备、投影设备或用于创建可见图像的某个其他机构。显示子系统还可以诸如经由音频输出设备提供非可视显示。通常,使用术语“输出设备”旨在包括用于将来自计算机系统510的信息输出到用户或另一机器或计算机系统的所有可能类型的设备和方式。
[0061]
存储子系统524存储提供本文中描述的模块和/或引擎中的一些或全部的功能的编程和数据结构。例如,存储子系统524可以包括执行方法400的选定方面,和/或实现计算设备104、计算设备208、计算设备302、自动化助理304、服务器设备、动作引擎、置信度度量引擎、延迟持续时间引擎和/或本文中讨论的任何其他应用、设备、装置和/或引擎中的一个
或多个的逻辑。
[0062]
这些软件模块和/或引擎通常由处理器514单独执行或与其他处理器组合地执行。存储器子系统524中使用的存储器525可以包括多个存储器,包括用于在程序执行期间存储指令和数据的主随机存取存储器(ram)530和固定指令被存储在其中的只读存储器(rom)532。文件存储子系统526可以为程序和数据文件提供持久存储,并可以包括硬盘驱动器、连同关联的可去除介质的软盘驱动器、cd

rom驱动器、光驱动器或可去除介质盒。实现某些实现方式的功能的模块和/或引擎可以由文件存储子系统526存储在存储子系统524中或者存储在处理器514可访问的其他机器中。
[0063]
总线子系统512提供用于让计算机系统510的各个组件和子系统按期望彼此通信的机制。虽然总线子系统512被示意性地示出为单条总线,但总线子系统的替代实现方式可以使用多条总线。
[0064]
计算机系统510可以是各种类型的,包括工作站、服务器、计算集群、刀片服务器、服务器场或任何其他数据处理系统或计算设备。由于计算机和网络不断变化的性质,图5中描绘的计算机系统510的描述仅旨在作为出于例示一些实现方式的目的的特定示例。可能具有比图5中描绘的计算机系统更多或更少的组件的计算机系统510的许多其他配置。
[0065]
在本文中描述的系统收集关于用户(或本文中常提到的,“参与者”)的个人信息或者可以使用个人信息的情形下,可以向用户提供控制程序或特征是否收集用户信息的(例如,关于用户的社交网络、社交动作或活动、职业、用户的偏好或用户的当前地理位置的信息)或控制是否和/或如何从内容服务器接收可能与用户更相关的内容的机会。另外,某个数据可以在它被储存或使用之前以一种或多种方式处理,使得个人可识别信息被去除。例如,可以对用户身份进行处理,使得不能确定用户的个人可识别信息,或者可以在获得地理位置信息(诸如,城市、邮政编码或州级)的情况下归纳用户的地理位置,使得不能确定用户的特定地理位置。因此,用户可以控制如何收集关于用户和/或供使用的信息。
[0066]
在一些实现方式中,一种由一个或多个处理器实现的方法包括诸如在计算设备处确定用户向计算设备的接口提供口头话语的操作,其中,计算设备经由接口提供对自动化助理的访问。该方法还可以包括基于用户提供口头话语来确定口头话语是针对与自动化助理分开可访问的应用。该方法还可以包括基于口头话语的自然语言内容来生成针对应用的动作请求以及用于预测在动作请求被提供给应用之前动作请求是否将被确认或修改的置信度度量。该方法还可以包括基于置信度度量来确定是否应该在图形用户界面的前台渲染动作迫近通知,其中,动作迫近通知表征动作请求的内容。该方法还可以包括当置信度度量指示应该渲染动作迫近通知时,该方法还包括:使动作迫近通知被渲染在图形用户界面的前台。该方法还可以包括当置信度指示不应该渲染动作迫近通知时,该方法还包括:绕过使动作迫近通知被渲染在图形用户界面的前台,并使动作请求经由自动化助理被提供到应用。
[0067]
在一些实现方式中,动作迫近通知包括动画图形元素,该动画图形元素表征动作请求将经由自动化助理提供到应用的延迟的实时期满。在一些实现方式中,动作请求将经由自动化助理提供到应用的延迟的持续时间是基于置信度度量。在一些实现方式中,使动作迫近通知被渲染在图形用户界面的前台包括:使动作迫近通知在延迟的持续时间期间或直到用户进行动作以确认和/或修改动作请求之前在前台被渲染。在一些实现方式中,生成
置信度度量包括:处理表征用户与自动化助理之间的历史交互的一个或多个特征的输入数据。在一些实现方式中,该方法还可以包括当置信度度量指示应该渲染动作迫近通知时,该方法还包括:确定用户在一段持续时间内确认了在图形用户界面的前台渲染的动作迫近通知;并响应于确定用户确认了动作迫近通知,使动作请求经由自动化助理被提供到应用。
[0068]
在一些实现方式中,该方法还可以包括当置信度度量指示应该渲染动作迫近通知时:确定用户在一段持续时间内未确认在图形用户界面的前台渲染的动作迫近通知;并响应于确定用户未确认动作迫近通知,使基于用户未确认动作迫近通知而修改经训练的机器学习模型。在一些实现方式中,确定口头话语是否是针对应用包括:识别应用提供了最新通知,其中,该最新通知对应于来自发送者的传入消息。
[0069]
在一些实现方式中,生成置信度度量包括识别传入消息的发送者,并且其中,基于发送者来生成置信度度量的值。在一些实现方式中,动作迫近通知包括基于口头话语的其他自然语言内容,并表征响应于传入消息的草稿消息。在一些实现方式中,生成置信度度量包括:确定响应于传入消息的草稿消息中所包括的字符和/或词语的数量,其中,动作请求将被确认和/或修改的置信度的程度与草稿消息中所包括的字符和/或词语的数量成正比。在一些实现方式中,生成置信度度量包括:确定草稿消息的文本内容与口头话语的自然语言内容之间的相关程度,其中,草稿消息的文本内容与口头话语的自然语言内容之间的较高对应度与较高的置信度度量相关。在一些实现方式中,当置信度度量指示应该渲染动作迫近通知时,该方法还包括:如果在延迟期满之前未接收到对用户请求的确认或修改,则在延迟之后使动作请求经由自动化助理提供到应用。
[0070]
在其他实现方式中,一种由一个或多个处理器实现的方法被阐述为包括诸如在计算设备处确定用户向其中正在执行第一应用和第二应用的计算设备的接口提供口头话语之类的操作。在一些实现方式中,第一应用正渲染在经由计算设备的显示面板可访问的图形用户界面的前台,并且计算设备提供对与第一应用和第二应用分开可访问的自动化助理的访问。在一些实现方式中,该方法还可以包括基于用户提供口头话语且在第一应用被渲染在图形用户界面的前台时,确定口头话语是否是针对第一应用和/或第二应用。在一些实现方式中,该方法还可以包括当确定口头话语是针对第二应用时,基于口头话语的自然语言内容来生成针对第二应用的动作请求以及用于预测在动作请求被提供给应用之前动作请求是否将被确认和/或修改的置信度度量。在一些实现方式中,该方法还可以包括基于置信度度量来确定是否在图形用户界面的前台渲染动作迫近通知,其中动作迫近通知包括表征向第二应用提供动作请求之前的延迟的持续时间的图形元素。在一些实现方式中,当置信度度量指示应该渲染动作迫近通知时,该方法还包括:使动作迫近通知被渲染在图形用户界面的前台。在一些实现方式中,该方法还可以包括当置信度指示应该渲染动作迫近通知时,该方法还包括:绕过使动作迫近通知渲染在图形用户界面的前台;并使动作请求经由自动化助理被提供到第二应用。
[0071]
在一些实现方式中,动作请求被提供到第二应用之前的延迟的持续时间是基于置信度度量,并使动作迫近通知被渲染在图形用户界面的前台包括:使动作迫近通知在延迟的持续时间期间或直到用户进行动作以确认和/或修改动作请求之前渲染在前台。在一些实现方式中,生成置信度度量包括:处理表征用户与自动化助理、用户与第一应用、和/或用户与第二应用之间的历史交互的一个或多个特征的输入数据。在一些实现方式中,该方法
还可以包括当置信度度量指示应该渲染动作迫近通知时:确定用户在持续时间内确认了在图形用户界面的前台渲染的动作迫近通知;并响应于确定用户确认了动作迫近通知,使动作请求经由自动化助理提供到第二应用。在一些实现方式中,该方法还可以包括当置信度度量指示应该渲染动作迫近通知时:确定用户没有在持续时间内确认在图形用户界面的前台渲染的动作迫近通知。在一些实现方式中,该方法还可以包括:响应于确定用户未确认动作迫近通知,使经训练的机器学习模型基于用户未确认动作迫近通知而被修改,其中,经训练的机器学习模型被用于生成置信度度量。
[0072]
在一些实现方式中,确定口头话语是否是针对第一应用和/或第二应用包括:识别提供最新通知的特定应用,其中,最新通知对应于来自发送者的传入消息,并且其中,第二应用是特定应用。在一些实现方式中,生成置信度度量包括识别传入消息的发送者,并且其中,动作请求被提供到第二应用之前的延迟的持续时间是基于发送者。在一些实现方式中,动作迫近通知包括基于口头话语的自然语言内容,并表征响应于传入消息的草稿消息。在一些实现方式中,生成置信度度量包括:确定响应于传入消息的草稿消息中所包括的字符和/或词语的数量,其中,动作请求被提供到第二应用之前的延迟的持续时间是基于草稿消息中所包括的字符和/或词语的数量。
[0073]
在一些实现方式中,生成置信度度量包括:确定草稿消息的文本内容与口头话语的自然语言内容之间的相关程度,其中,草稿消息的文本内容与口头话语的自然语言内容之间的较高对应度与动作请求被提供到第二应用之前的延迟的较短持续时间相关。在一些实现方式中,图形元素实时地表征将在显示面板上渲染动作迫近通知的持续时间的期满。在一些实现方式中,该方法还可以包括当置信度度量指示应该渲染动作迫近通知时,该方法还包括:如果在延迟期满之前未接收到对用户请求的确认或修改,则在延迟之后使动作请求经由自动化助理提供到应用。
[0074]
在其他实现方式中,一种由一个或多个处理器实现的方法被阐述为包括诸如在计算设备处确定用户向自动化助理提供口头话语之类的操作,其中,计算设备经由一个或多个自动化助理接口访问自动化助理。该方法还可以包括基于确定用户提供了口头话语,识别响应于由用户提供的口头话语而执行的动作。该方法还可以包括基于由用户提供的口头话语和/或响应于口头话语将执行的动作,确定在经由自动化助理提供的动作请求初始化动作之前的延迟的持续时间。该方法还可以包括在延迟的持续时间的实时期满期间,监视来自用户的用于在经由自动化助理初始化动作之前确认或修改动作请求的另一输入。该方法还可以包括:当基于该监视,确定用户在延迟的持续时间期间提供了用于确认或修改动作请求的另一输入时:响应于用户在延迟的持续时间期间提供该另一输入,使自动化助理至少暂时绕过初始化动作。该方法还可以包括:当基于该监视,确定用户在延迟的持续时间期间尚未提供用于确认或修改动作请求的另一输入时:响应于确定用户在延迟的持续时间期间没有提供另一输入,使自动化助理初始化动作的执行。
[0075]
在一些实现方式中,该方法还可以包括基于用户提供口头话语,访问表征用户提供口头话语的场境的一种或多种性质的场境数据,其中,确定延迟的持续时间是基于该场境数据。在一些实现方式中,该方法还可以包括基于用户提供口头话语,确定是否使在延迟的持续时间内经由计算设备的显示面板渲染动作迫近通知,其中,动作迫近通知表征延迟的持续时间的实时期满。在一些实现方式中,确定经由自动化助理初始化动作之前的延迟
的持续时间包括使用经训练的机器学习模型来处理表征口头话语的音频数据。
[0076]
虽然本文中已经描述和例示了许多实现方式,但用于执行功能和/或获得本文中描述的结果和/或优点中的一个或多个的各种其他装置和/或结构,并且这些变形形式和/或修改形式中的每个被认为是在本文中描述的实现方式的范围内。更一般地,本文中描述的所有参数、尺寸、材料和配置意味着是示例性的并且实际参数、尺寸、材料和/或配置将取决于使用教导的特定一个应用或多个应用。本领域的技术人员将辨别到或者仅仅使用常规实验就能够确定本文中描述的具体实现方式的许多等同物。因此,要理解,前述实现方式只是以示例的方式呈现并且在所附权利要求及其等同物的范围内,可以以与具体描述和要求保护的方式不同的方式来实践实现方式。本公开的实现方式针对的是本文中描述的每个独立的特征、系统、制品、材料、套件和/或方法。另外,如果这些特征、系统、制品、材料、套件和/或方法不是相互矛盾的,则两个或更多个特征、系统、制品、材料、套件和/或方法的任何组合被包括在本公开的范围内。