首页 > 乐器声学 专利正文
封装语音交互能力的处理方法、装置、设备与介质与流程

时间:2022-01-23 阅读: 作者:专利查询

封装语音交互能力的处理方法、装置、设备与介质与流程

1.本发明涉及语音交互领域,尤其涉及一种封装语音交互能力的处理方法、装置、设备与介质。


背景技术:

2.语音交互过程中,用户与终端(例如车载终端)之间可实现一次或连续的对话,也可基于事件而触发语音交互的过程。
3.现有相关技术中,各应用程序在调用语音录入与监听能力的情况下,需自行设计与配置语音交互能力,这将会对程序的运营方带来极大的困难,不便于语音交互的广泛使用。


技术实现要素:

4.本发明提供一种封装语音交互能力的处理方法、装置、设备与介质,以解决不便于语音交互的广泛使用的问题。
5.根据本发明的第一方面,提供了一种封装语音交互能力的处理方法,包括:
6.指定应用程序调取语音交互剧本的多种格式之后,在所述多种格式中,确定目标格式;所述格式定义了以下至少之一:交互条件与待输出语音信息的关系,和/或,待输出语音信息与待捕捉语音信息的关系,所述多种格式为开放于所述指定应用程序的格式;
7.基于所述目标格式,形成所述指定应用程序的可执行的语音交互剧本;所述语音交互剧本定义了以下至少之一:在指定的交互条件满足时,输出指定的待输出语音信息;在监听到指定的待捕捉语音信息时,输出指定的待输出语音信息;在输出指定的待输出语音信息之后,监听指定的待捕捉语音信息;
8.基于所述可执行的语音交互剧本,执行语音交互。
9.可选的,所述基于所述目标格式,形成所述指定应用程序的可执行的语音交互剧本,包括:
10.获取自定义的剧本填充信息;
11.将所述剧本填充信息填入所述目标格式,得到所述可执行的语音交互剧本。
12.可选的,所述在所述多种格式中,确定目标格式,包括:
13.对外反馈所述多种格式,并响应于选择操作,确定所述目标格式。
14.可选的,所述格式是自云端调取的,且所述格式能够在所述云端自定义调整。
15.可选的,所述多种格式是基于所述指定应用程序的程序标识确定的。
16.可选的,所述多种格式是基于所述指定应用程序的程序标识与对象信息确定的,所述对象信息包括当前用户的用户标识和/或当前车辆的车辆标识。
17.可选的,若所述语音交互剧本定义了:在指定的交互条件满足时,输出指定的待输出语音信息,则:
18.所述交互条件包括以下至少之一:
19.目标对象处于目标区域;所述目标对象指当前用户或当前车辆;
20.所述当前用户的车辆的状态处于目标状态;
21.所述车辆的检测装置检测到目标信息;
22.当前天气为目标天气;
23.所述目标对象所处环境满足目标环境信息;
24.所述当前用户的车辆或终端中的触发件被触发。
25.根据本发明的第二方面,提供了一种封装语音交互能力的处理装置,包括:
26.目标格式确定模块,用于指定应用程序调取语音交互剧本的多种格式之后,在所述多种格式中,确定目标格式;所述格式定义了以下至少之一:交互条件与待输出语音信息的关系,和/或,待输出语音信息与待捕捉语音信息的关系;所述多种格式为开放于所述指定应用程序的格式;
27.剧本形成模块,用于基于所述目标格式,形成所述指定应用程序的可执行的语音交互剧本;所述语音交互剧本定义了以下至少之一:在指定的交互条件满足时,输出指定的待输出语音信息;在监听到指定的待捕捉语音信息时,输出指定的待输出语音信息;在输出指定的待输出语音信息之后,监听指定的待捕捉语音信息;
28.语音交互执行模块,用于基于所述可执行的语音交互剧本,执行语音交互。
29.根据本发明的第三方面,提供了一种电子设备,包括处理器与存储器,
30.所述存储器,用于存储代码;
31.所述处理器,用于执行所述存储器中的代码用以实现第一方面及其可选方案涉及的方法。
32.根据本发明的第四方面,提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面及其可选方案所述的方法。
33.本发明提供的封装语音交互能力的处理方法、装置、设备与介质中,应用程序可调取语音交互剧本的目标格式,然后基于目标格式而形成可执行的语音交互剧本,在此基础上,通过将语音交互能力的封装(即封装为相应语音交互剧本的格式),各应用程序中可无需设计与配置复杂的处理逻辑,只需请求调取语音交互剧本的目标格式即可,降低了程序运营方的难度与负担,还可有助于语音交互的广泛使用。
附图说明
34.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
35.图1是本发明一实施例中封装语音交互能力的处理方法的流程示意图;
36.图2是本发明一实施例中步骤s12的流程示意图;
37.图3是本发明一实施例中封装语音交互能力的处理装置的程序模块示意图;
38.图4是本发明一实施例中电子设备的构造示意图。
具体实施方式
39.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
40.本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
41.下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
42.本发明实施例提供的封装语音交互能力的处理方法,可应用于终端,该终端可以为用户的终端,具体的,该终端可以为车载终端(即车机)、移动终端(例如手机、平板电脑、计算机),也可应用于服务器,例如应用程序的服务器。具体的,语音交互可发生于车辆(可理解为当前车辆)内环境中。
43.请参考图1,本发明实施例提供了一种封装语音交互能力的处理方法,包括:
44.s11:指定应用程序调取语音交互剧本的多种格式之后,在所述多种格式中,确定目标格式;
45.s12:基于所述目标格式,形成所述指定应用程序的可执行的语音交互剧本;
46.s13:基于所述可执行的语音交互剧本,执行语音交互。
47.所述语音交互剧本定义了以下至少之一:在指定的交互条件满足时,输出指定的待输出语音信息;在监听到指定的待捕捉语音信息时,输出指定的待输出语音信息;在输出指定的待输出语音信息之后,监听指定的待捕捉语音信息;
48.所述格式定义了以下至少之一:交互条件与待输出语音信息的关系,和/或,待输出语音信息与待捕捉语音信息的关系。
49.其中,交互条件与待输出语音信息的关系,可例如指交互条件满足时,输出待输出语音信息;
50.所述交互条件可理解为任意非语音输入的条件,以下给出交互条件的部分举例,实际的方案可不限于此:
51.目标对象处于目标区域;所述目标对象指当前用户或当前车辆;当前用户的位置可通过其用户终端的位置来表征;
52.所述当前用户的车辆(即当前车辆)的状态处于目标状态;例如当前车辆处于停车档位、当前车辆的空调处于开启状态(或制冷状态)等,
53.所述车辆(即当前车辆)的检测装置检测到目标信息;例如当前车辆的车内或车外图像采集部检测到目标信息、当前车辆的雷达探测到目标信息、当前车辆的车内换件检测部检测到目标信息等等;
54.当前天气为目标天气;其中的目标天气可以指气温处于某温度范围,也可以指天气为晴天、雨天等,还可以指特定的风力大小范围、雨量大小范围等,还可以指天气的警报等级等等;
55.所述目标对象所处环境满足目标环境信息;其可以指对目标对象所处环境进行描述的任意信息,例如交通状况的目标环境信息、声音环境的目标环境信息、空气环境的目标环境信息等等;
56.所述当前用户的车辆(即当前车辆)或终端(即用户终端)中的触发件被触发;其中的触发键可例如当前车辆和/或用户终端中实体或虚拟的按键、旋钮、开关等,亦或是兼具其他功能的按键、旋钮、开关等。
57.不论采用何种交互条件,均不脱离本发明实施例的范围。
58.其中,待输出语音信息与待捕捉语音信息的关系,可以指:捕捉到某待捕捉语音信息后,输出某待输出语音信息,也可以指:输出某待输出语音信息后,监听并捕捉某待捕捉语音信息;还可以指待输出语音信息与待捕捉语音信息的连续对话、交互;不论采用语音信息的何种往来方式,均不脱离本发明实施例的范围。
59.所述多种格式为开放于所述指定应用程序的格式;例如:该多种格式可以为所有语音交互剧本的格式,也可以为针对指定应用程序而针对性筛选的语音交互剧本的格式,还可为针对于指定应用程序的运行环境(例如ios系统、安卓系统、鸿蒙系统)而针对性筛选的语音交互剧本的格式,还可以为针对于运行指定应用程序的终端(例如其品牌、型号等)而针对性筛选的的语音交互剧本的格式。
60.其中一种实施方式中,所述多种格式是基于所述指定应用程序的程序标识确定的。进而可保证所调取的格式能够准确适配应用程序的需求。
61.一种举例中,所述多种格式是基于所述指定应用程序的程序标识与对象信息确定的,所述对象信息包括当前用户的用户标识和/或当前车辆的车辆标识。进而可保证所调取的格式能够准确适配用户、车辆的需求。
62.其中的用户标识可理解为能够对用户进行标识的任意信息,可例如名称、id、身份、职业等;
63.其中的车辆标识可理解为能够对车辆进行标识的任意信息,可例如车辆品牌、型号、唯一识别标识等。
64.以上方案中,通过将语音交互能力的封装(即封装为相应语音交互剧本的格式),各应用程序中可无需设计与配置复杂的处理逻辑,只需请求调取语音交互剧本的目标格式即可,降低了程序运营方的难度与负担,还可有助于语音交互的广泛使用。
65.其中一种实施方式中,步骤s12可以包括:
66.s121:获取自定义的剧本填充信息;
67.s122:将所述剧本填充信息填入所述目标格式,得到所述可执行的语音交互剧本。
68.其中的剧本填充信息,可例如待输出语音信息、待捕捉语音信息的具体内容,此外,至少部分待输出语音信息的具体内容可作为剧本填充信息而可实现自定义,也可不作为剧本填充信息而不实现自定义,至少部分待捕捉语音信息的具体内容可作为剧本填充信息而可实现自定义,也可不作为剧本填充信息而不实现自定义,交互条件的具体内容可作为剧本填充信息而可实现自定义,也可不作为剧本填充信息而不实现自定义。
69.具体举例中,可在步骤s11中调取一个目标格式,该目标格式可例如在交互条件a满足后,输出待输出语音信息b,监听并判断是否捕捉到待捕捉语音信息c1、待捕捉语音信息c2这两种待捕捉语音信息,在监听到待捕捉语音信息c1后,可输出待输出语音信息d1,在监听到待捕捉语音信息c2后,可输出待输出语音信息d2,进而,在步骤s121中,可获取到交互条件a、待输出语音信息b、待捕捉语音信息c1、待捕捉语音信息c2、待输出语音信息d1、待输出语音信息d2中至少之一的具体内容作为剧本填充信息,在步骤s121中,可将获取到的剧本填充信息填入目标格式,得到所述可执行的语音交互剧本。
70.此外,步骤s121中对剧本填充信息的获取可以是主动输入的,也可以是自动识别的。
71.以上方案中,可实现剧本格式的预先封装与格式中具体内容的主动获取,满足应用程序的真实需求,构建出兼顾个性化需求与普适处理逻辑的处理流程。
72.其中一种实施方式中,步骤s11的过程中,可以对外反馈所述多种格式,并响应于选择操作,确定所述目标格式。
73.其中的反馈,可以语音播放的方式实现,也可以可视的方式实现,例如,在调取多种格式后,可在人机交互界面中显示出每种格式的逻辑、用途、语音交互剧本的示例等等内容,以为目标格式的主动选择提供充分的依据,然后,可在人机交互界面中选择目标格式。
74.其他实施方式中,也可自动确定目标格式,例如:可根据当前用户、当前车辆、当前用户和/或当前车辆的所处位置、时间、用户终端的状态、当前车辆的状态等信息而自动确定目标格式。进而,可保证所确定的目标格式可以兼顾剧本的准确适配,以及操作负担的降低。
75.此外,所确定的目标格式的数量可以为一个,也可以为多个。
76.其中一种实施方式中,所述格式是自云端调取的,且所述格式能够在所述云端自定义调整。其中,格式中的任意内容均可自定义调整,进而,可便于适配实现各种多变的需求。
77.步骤s13的一种举例中,所述指定应用程序可调取所述可执行的语音交互剧本,进而基于所述可执行的语音交互剧本,执行语音交互。
78.请参考图3,本发明实施例提供了一种封装语音交互能力的处理装置2,包括:
79.目标格式确定模块21,用于指定应用程序调取语音交互剧本的多种格式之后,在所述多种格式中,确定目标格式;所述格式定义了以下至少之一:交互条件与待输出语音信息的关系,和/或,待输出语音信息与待捕捉语音信息的关系,所述多种格式为开放于所述指定应用程序的格式;
80.剧本形成模块22,用于基于所述目标格式,形成所述指定应用程序的可执行的语音交互剧本;所述语音交互剧本定义了以下至少之一:在指定的交互条件满足时,输出指定的待输出语音信息;在监听到指定的待捕捉语音信息时,输出指定的待输出语音信息;在输出指定的待输出语音信息之后,监听指定的待捕捉语音信息;
81.语音交互执行模块23,用于基于所述可执行的语音交互剧本,执行语音交互。
82.可选的,所述剧本形成模块22,具体用于:
83.获取自定义的剧本填充信息;
84.将所述剧本填充信息填入所述目标格式,得到所述可执行的语音交互剧本。
85.可选的,所述目标格式确定模块21,具体用于:
86.对外反馈所述多种格式,并响应于选择操作,确定所述目标格式。
87.可选的,所述格式是自云端调取的,且所述格式能够在所述云端自定义调整。
88.可选的,所述多种格式是基于所述指定应用程序的程序标识确定的。
89.可选的,所述多种格式是基于所述指定应用程序的程序标识与对象信息确定的,所述对象信息包括当前用户的用户标识和/或当前车辆的车辆标识。
90.可选的,若所述语音交互剧本定义了:在指定的交互条件满足时,输出指定的待输出语音信息,则:
91.所述交互条件包括以下至少之一:
92.目标对象处于目标区域;所述目标对象指当前用户或当前车辆;
93.所述当前用户的车辆的状态处于目标状态;
94.所述车辆的检测装置检测到目标信息;
95.当前天气为目标天气;
96.所述目标对象所处环境满足目标环境信息;
97.所述当前用户的车辆或终端中的触发件被触发。
98.请参考图3,提供了一种电子设备30,包括:
99.处理器31;以及,
100.存储器32,用于存储所述处理器的可执行指令;
101.其中,所述处理器31配置为经由执行所述可执行指令来执行以上所涉及的方法。
102.处理器31能够通过总线33与存储器32通讯。
103.本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以上所涉及的方法。
104.本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。
105.最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。