1.本发明涉及人机语音交互技术领域,尤其涉及一种语音交互方法、系统、存储介质以及计算机设备。
背景技术:2.现有技术,用户可以与智能设备(例如智能音箱进行)语音交互。用户可以通过智能设备进行订餐、订机票、播放音乐等操作。在与用户进行语音交互智能设备模拟人类与所述用户交互。
3.当所述智能设备与所述用户交互时,如果智能设备播放的声音是呆板的,公式化的、没有情感的,用户的体验感会很差。若所述智能设备播放的声音拟人化程度高,所述用户感到交互过程是有趣的,体验好。但是,现有的语音交互技术中,智能设备的拟人化程度仍须进行改进。
4.综上所述,现有技术在实际使用上显然存在不便与缺陷,所以有必要加以改进。
技术实现要素:5.针对上述的缺陷,本发明的目的在于提供一种语音交互方法、系统、存储介质以及计算机设备,可以提高人机交互的拟人化程度,提升用户体验。
6.为了实现上述目的,本发明提供了一种语音交互方法,包括:
7.获取音频信号,将所述音频信号进行自然语言理解处理,获得所述音频信号对应的自然语言理解结果;
8.根据所述自然语言理解结果生成对所述音频信号进行回复的文字表达式;
9.根据所述自然语言理解结果以及预定的所述文字表达式生成对所述音频信号进行回复的文字回复语句;
10.根据所述文字回复语句合成对应的语音信号。
11.根据所述的语音交互方法,获取音频信号,将所述音频信号进行自然语言理解处理,获得所述音频信号对应的自然语言理解结果的步骤包括:
12.获取音频信号,通过语音识别技术获得所述音频信号的文本结果;
13.根据所述文本结果进行自然语言理解处理,获得所述音频信号对应的自然语言理解结果。
14.根据所述的语音交互方法,所述自然语言理解结果包括所述音频信号的语义对应的领域以及意图。
15.根据所述的语音交互方法,根据所述自然语言理解结果生成对所述音频信号进行回复的文字表达式的步骤包括:
16.根据所述音频信号的语义对应的领域以及意图生成相对应的语气助词、第一词汇或者第一短语。
17.根据所述的语音交互方法,根据所述自然语言理解结果以及预定的所述文字表达
式生成对所述音频信号进行回复的文字回复语句的步骤包括:
18.根据所述自然语言理解结果生成对所述音频信号进行回复的第二词汇或者第二短语,将所述第二词汇或者所述第二短语通过连词连接生成原始文字回复语句;
19.将上述语气助词、第一词汇或者第一短语与所述原始文字回复语句组合生成所述文字回复语句。
20.根据所述的语音交互方法,根据所述文字回复语句合成对应的语音信号的步骤包括:
21.根据所述音频信号的语义对应的领域以及意图选择预定的方言语音合成系统将所述文字回复语句合成对应的方言语音信号。
22.根据所述的语音交互方法,根据所述文字回复语句合成对应的语音信号的步骤包括:
23.根据所述音频信号的语义对应的领域以及意图选择预定的女声语音合成系统将所述文字回复语句合成对应的女声语音信号。
24.为了实现上述目的,本发明还提供了一种语音交互系统,包括:
25.获取与语言理解模块,用于获取音频信号,将所述音频信号进行自然语言理解处理,获得所述音频信号对应的自然语言理解结果;
26.文字表达式生成模块,用于根据所述自然语言理解结果生成对所述音频信号进行回复的文字表达式;
27.文字回复语句生成模块,用于根据所述自然语言理解结果以及预定的所述文字表达式生成对所述音频信号进行回复的文字回复语句;
28.语音合成模块,用于根据所述文字回复语句合成对应的语音信号。
29.为了实现上述目的,本发明还提供了一种存储介质,用于存储一种用于执行上述任意一种语音交互方法的计算机程序。
30.为了实现上述目的,本发明还提供了一种计算机设备,包括存储介质、处理器以及存储在所述存储介质上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述任一项所述的语音交互方法。
31.本发明通过获取音频信号,将所述音频信号进行自然语言理解处理,获得所述音频信号对应的自然语言理解结果;根据所述自然语言理解结果生成对所述音频信号进行回复的文字表达式;根据所述自然语言理解结果以及预定的所述文字表达式生成对所述音频信号进行回复的文字回复语句;根据所述文字回复语句合成对应的语音信号。借此,本发明实现了提高人机交互的拟人化程度,提升用户体验。
附图说明
32.图1是本发明优选实施例的语音交互系统的示意图;
33.图2是本发明优选实施例的语音交互系统的示意图;
34.图3是本发明优选实施例的语音交互方法的流程图;
35.图4是本发明提供的计算机设备的结构示意图。
具体实施方式
36.为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
37.需要说明的,本说明书中针对“一个实施例”、“实施例”、“示例实施例”等的引用,指的是描述的该实施例可包括特定的特征、结构或特性,但是不是每个实施例必须包含这些特定特征、结构或特性。此外,这样的表述并非指的是同一个实施例。进一步,在结合实施例描述特定的特征、结构或特性时,不管有没有明确的描述,已经表明将这样的特征、结构或特性结合到其它实施例中是在本领域技术人员的知识范围内的。
38.此外,在说明书及后续的权利要求当中使用了某些词汇来指称特定组件或部件,所属领域中具有通常知识者应可理解,制造商可以用不同的名词或术语来称呼同一个组件或部件。本说明书及后续的权利要求并不以名称的差异来作为区分组件或部件的方式,而是以组件或部件在功能上的差异来作为区分的准则。在通篇说明书及后续的权利要求书中所提及的“包括”和“包含”为一开放式的用语,故应解释成“包含但不限定于”。以外,“连接”一词在此系包含任何直接及间接的电性连接手段。间接的电性连接手段包括通过其它装置进行连接。
39.参见图1~图2,在本发明的第一实施例中提供了本发明还提供了一种语音交互系统100,包括:
40.获取与语言理解模块10,用于获取音频信号,将所述音频信号进行自然语言理解处理,获得所述音频信号对应的自然语言理解结果;
41.文字表达式生成模块20,用于根据所述自然语言理解结果生成对所述音频信号进行回复的文字表达式;
42.文字回复语句生成模块30,用于根据所述自然语言理解结果以及预定的所述文字表达式生成对所述音频信号进行回复的文字回复语句;
43.语音合成模块40,用于根据所述文字回复语句合成对应的语音信号。
44.在该实施例中,智能音箱、带屏音箱、智能手机等智能设备可以采用该智能系统100实现与用进行人机语音交互。获取与语言理解模块10可以通过智能设备获取所述用户输入的音频信号,将所述音频信号进行自然语言理解处理,即将所述音频信号进行处理获得机器(智能设备)可以理解的所述自然语言理解结果。系统100(可以是系统100中的对话管理(dialog management,dm))根据所述自然语言理解结果判断需要对所述用户进行语音回复时,触发文字表达式生成模块20、文字回复语句生成模块30以及语音合成模块40。通过文字表达式生成模块20根据所述自然语言理解结果生成对所述音频信号进行回复的文字表达式,可以使得回复所述用户的回复语句更加拟人化、生动化。例如,当用户输入的音频信号为:“请播放儿歌”,则文字表达式生成模块20对应生成的文字表达式为:“聪明可爱的你”,而文字回复语句生成模块30根据所述自然语言理解结果以及文字表达式“聪明可爱的你”生成对所述音频信号进行回复的文字回复语句为“现在为聪明可爱的你播放小星星”,语音合成模块40朗读所述文字回复语句“现在为聪明可爱的你播放小星星”。由于在回复语句中添加了人类情绪、情感或意识表达的词,例如上例中“聪明可爱的你”,使得智能设备输出的语音信号富有情感,提升用户体验。
45.在本发明的第二实施例中,获取与语言理解模块10包括:
46.获取子模块11,用于获取音频信号;
47.识别子模块12,用于通过语音识别技术获得所述音频信号的文本结果;
48.理解子模块13,用于根据所述文本结果进行自然语言理解处理,获得所述音频信号对应的自然语言理解结果。
49.在该实施例中,获取子模块11通过智能设备获得音频信号,识别子模块12可以通过语音识别引擎通过asr(语音识别技术)获得所述音频信号的文本结果;理解子模块13可以通过自然语言处理引擎通过nlu技术将所述文本结果转化为机器可以理解的语言(即自然语言理解结果)。
50.在本发明的第三实施例中,所述自然语言理解结果包括所述音频信号的语义对应的领域以及意图。
51.在该实施例中,通过nlu技术进行自然语言理解可以获得所述音频信号的语义对应的领域以及意图。在nlu中,意图代表用户想要达到的目的,就是在语言表达中所体现出的“用户想干什么”,通过nlu技术解决人与机器之间的通讯问题。在nlu中,意图可以由槽位来表达,槽位就是意图的参数信息。槽位是指从句子中抽取出的特定概念。举个例子,比如用户对一个对话式智能设备说“今天北京天气怎么样”,意图就是“查询天气”。该意图对应的槽位是“今天”、“北京”。领域例如可以是属于天气、闲聊、日历、音乐、视频等,意图则相对更加具体,例如在天气领域里,分为查询天气、穿衣建议、天气预警等等意图。
52.在本发明的第四实施例中,文字表达式生成模块20包括:
53.第一词句获取子模块21,用于根据所述音频信号的语义对应的领域以及意图生成相对应的语气助词、第一词汇或者第一短语。
54.在该实施例中,文字表达式通过nlg技术生成。不同的领域或者不同的意图都影响生成的文字表达式,文字表达式可以使得最终的回复语句带有人类的情感,而不仅仅是简单地、机械地进行回复。文字表达式可以是语气助词,例如,“哦”、“啊”、“呀”。文字表达式也可以是词汇或者短句,文字表达式还可以包括表达形式,例如采用严谨的表达形式、简洁的表达形式。
55.在本发明的第五实施例中,文字回复语句生成模块30包括:
56.第一语句生成模块31,用于根据所述自然语言理解结果生成对所述音频信号进行回复的第二词汇或者第二短语,将所述第二词汇或者所述第二短语通过连词连接生成原始文字回复语句;
57.第二语句生成模块32,用于将上述语气助词、第一词汇或者第一短语与所述原始文字回复语句组合生成所述文字回复语句。
58.在该实施例中,第一语句生成模块31根据所述自然语言理解结果确定要回复的基本信息,可以通过nlg技术决定应该包含在正在构建的原始文字回复语句中的基本内容。确定需要传达的基本内容后,nlg系统需要合理的组织文本的顺序。例如在报道一场篮球比赛时,会优先表达【什么时间】【什么地点】【哪2支球队】,然后再表达【比赛的概况】,最后表达【比赛的结局】。还可以将各种基本内容聚合到一个句子中表达,因为并不是每一条信息都需要一个独立的句子来表达,将多个信息合并到一个句子里表达可能会更加流畅,也更易于阅读。当每一句的基本内容确定下来后,就可以将在各种基本内容之间加一些连接词就
组织成自然语言即所述原始文字回复语句。原始文字回复语句可以满足对所述音频信号进行回复,但是不够拟人化,欠缺人类的情感表达,由此,通过第二语句生成模块32将上述语气助词、第一词汇或者第一短语与所述原始文字回复语句组合生成所述文字回复语句,增加了情绪色彩。
59.在本发明的第六实施例中,语音合成模块40包括:
60.方言语音合成模块41,用于根据所述音频信号的语义对应的领域以及意图选择预定的方言语音合成系统将所述文字回复语句合成对应的方言语音信号。
61.在该实施例中,为了增加所述语音信号情绪表达,在进行语音合成时使用了不同的语音合成系统,根据所述音频信号的语义对应的领域以及意图使用不同的方言朗读所述文字回复语句。方言语音合成系统可以包括各种方言语音合成系统,例如四川方言合成系统,东北方言合成系统,闽南方言合成系统等
62.在本发明的第七实施例中,语音合成模块40包括:
63.女声语音合成模块42,用于根据所述音频信号的语义对应的领域以及意图选择预定的女声语音合成系统将所述文字回复语句合成对应的女声语音信号。
64.在该实施例中,女声语音合成系统可以包括不同年龄段的女声合成系统。
65.在本发明的第八实施例中,语音合成模块40包括:
66.男声语音合成模块43,用于根据所述音频信号的语义对应的领域以及意图选择预定的男声语音合成系统将所述文字回复语句合成对应的男声语音信号。
67.在本发明的第九实施例中,语音合成模块40包括:
68.童声语音合成模块44,用于根据所述音频信号的语义对应的领域以及意图选择预定的童声语音合成系统将所述文字回复语句合成对应的童声语音信号。
69.该语音交互系统100载不同意图或者领域下,合成的文字回复语句以及使用的语音合成模块40举例:
70.领域为音乐、意图为播放儿歌,生成的文字回复语句为现在为聪明可爱的你播放小星星,使用童声语音合成模块44用童音朗读“现在为聪明可爱的你播放小星星”。
71.领域为拨打电话、意图为拨打电话,生成的文字回复语句为正在拨打电话给
××
,使用年轻女声的女声语音合成系统朗读“正在拨打电话给
××”
72.领域为天气、意图为查询天气,生成的文字回复语句为今天天气晴,温度
…
,使用阳光灿烂的年轻女声的女声语音合成系统朗读“今天天气晴,温度
…”
73.领域为天气、意图为天气预警,生成的文字回复语句为注意防暑,使用严肃女声的女声语音合成系统朗读“今天有高温预警”。
74.领域为音乐、意图为播放流行音乐,生成的文字回复语句为现在为你播放周杰伦的歌曲,使用年轻女声的女声语音合成系统朗读“现在为你播放周杰伦的歌曲”。
75.领域为音乐、意图为播放儿歌,生成的文字回复语句现在为聪明可爱的你播放小星星,使用童声语音合成系统朗读“现在为聪明可爱的你播放小星星”。
76.图3是本发明实施例的语音交互方法的流程图,所述方法可以通过上述任一项所述的系统100实现,所述语音交互方法包括:
77.步骤s301,获取音频信号,将所述音频信号进行自然语言理解处理,获得所述音频信号对应的自然语言理解结果;通过获取与语言理解模块10实现;
78.步骤s302,根据所述自然语言理解结果生成对所述音频信号进行回复的文字表达式;通过文字表达式生成模块20实现;
79.步骤s303,根据所述自然语言理解结果以及预定的所述文字表达式生成对所述音频信号进行回复的文字回复语句;通过文字回复语句生成模块30实现;
80.步骤s304,根据所述文字回复语句合成对应的语音信号;通过语音合成模块40实现。
81.在该实施例中,所述方法可以通过上述任一项所述的系统100实现,具体实施过程参见上述描述,在此不再赘述。
82.在本发明的一个实施例中,步骤s301包括:
83.获取音频信号;通过获取子模块11实现;
84.通过语音识别技术获得所述音频信号的文本结果;通过识别子模块12实现;
85.根据所述文本结果进行自然语言理解处理,获得所述音频信号对应的自然语言理解结果;通过理解子模块13实现。
86.在本发明的一个实施例中,所述自然语言理解结果包括所述音频信号的语义对应的领域以及意图。
87.在本发明的一个实施例中,步骤s302包括:
88.根据所述音频信号的语义对应的领域以及意图生成相对应的语气助词、第一词汇或者第一短语;通过第一词句获取子模块21实现。
89.在本发明的一个实施例中,步骤s303包括:
90.根据所述自然语言理解结果生成对所述音频信号进行回复的第二词汇或者第二短语,将所述第二词汇或者所述第二短语通过连词连接生成原始文字回复语句;通过第一语句生成模块31实现;
91.将上述语气助词、第一词汇或者第一短语与所述原始文字回复语句组合生成所述文字回复语句;通过第二语句生成模块32实现。
92.在本发明的一个实施例中,步骤s304包括:
93.根据所述音频信号的语义对应的领域以及意图选择预定的方言语音合成系统将所述文字回复语句合成对应的方言语音信号;通过方言语音合成模块41实现。
94.在本发明的一个实施例中,步骤s304包括:
95.根据所述音频信号的语义对应的领域以及意图选择预定的女声语音合成系统将所述文字回复语句合成对应的女声语音信号;通过女声语音合成模块42实现。
96.在本发明的一个实施例中,步骤s304包括:
97.根据所述音频信号的语义对应的领域以及意图选择预定的男声语音合成系统将所述文字回复语句合成对应的男声语音信号;通过男声语音合成模块43实现。
98.在本发明的一个实施例中,步骤s304包括:
99.根据所述音频信号的语义对应的领域以及意图选择预定的童声语音合成系统将所述文字回复语句合成对应的童声语音信号;通过童声语音合成模块44实现。
100.本发明还提供一种存储介质,用于存储一种用于执行上述任意一种任务调度方法的计算机程序。例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本技术的方法和/或技术方案。而调用本技术的方法的程序指令,可能被存储
在固定的或可移动的存储介质中,和/或通过广播或其他信号承载媒体中的数据流而被传输和/或被存储在根据程序指令运行的计算机设备的存储介质中。在此,根据本技术的一个实施例中,包括一个如图4所示的计算机设备400,所述计算机设备400优选包括用于存储计算机程序的存储介质200和用于执行计算机程序的处理器300,其中,当该计算机程序被该处理器300执行时,触发该计算机设备400执行基于前述多个实施例中的方法和/或技术方案。
101.需要注意的是,本技术可在软件和/或软件与硬件的组合体中被实施,例如,可采用专用集成电路(asic)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中,本技术的软件程序可以通过处理器执行以实现上文步骤或功能。同样地,本技术的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,ram存储器,磁或光驱动器或软磁盘及类似设备。另外,本技术的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
102.根据本发明的方法可以作为计算机实现方法在计算机上实现、或者在专用硬件中实现、或以两者的组合的方式实现。用于根据本发明的方法的可执行代码或其部分可以存储在计算机程序产品上。计算机程序产品的示例包括存储器设备、光学存储设备、集成电路、服务器、在线软件等。优选地,计算机程序产品包括存储在计算机可读介质上以便当所述程序产品在计算机上执行时执行根据本发明的方法的非临时程序代码部件。
103.在优选实施例中,计算机程序包括适合于当计算机程序在计算机上运行时执行根据本发明的方法的所有步骤的计算机程序代码部件。优选地,在计算机可读介质上体现计算机程序。
104.综上所述,本发明通过获取音频信号,将所述音频信号进行自然语言理解处理,获得所述音频信号对应的自然语言理解结果;根据所述自然语言理解结果生成对所述音频信号进行回复的文字表达式;根据所述自然语言理解结果以及预定的所述文字表达式生成对所述音频信号进行回复的文字回复语句;根据所述文字回复语句合成对应的语音信号。借此,本发明实现了提高人机交互的拟人化程度,提升用户体验。
105.当然,本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。
106.本发明还公开了:a1、一种语音交互方法,包括:
107.获取音频信号,将所述音频信号进行自然语言理解处理,获得所述音频信号对应的自然语言理解结果;
108.根据所述自然语言理解结果生成对所述音频信号进行回复的文字表达式;
109.根据所述自然语言理解结果以及预定的所述文字表达式生成对所述音频信号进行回复的文字回复语句;
110.根据所述文字回复语句合成对应的语音信号。
111.a2、根据a1所述的语音交互方法,获取音频信号,将所述音频信号进行自然语言理解处理,获得所述音频信号对应的自然语言理解结果的步骤包括:
112.获取音频信号,通过语音识别技术获得所述音频信号的文本结果;
113.根据所述文本结果进行自然语言理解处理,获得所述音频信号对应的自然语言理
解结果。
114.a3、根据a1所述的语音交互方法,所述自然语言理解结果包括所述音频信号的语义对应的领域以及意图。
115.a4、根据a3所述的语音交互方法,根据所述自然语言理解结果生成对所述音频信号进行回复的文字表达式的步骤包括:
116.根据所述音频信号的语义对应的领域以及意图生成相对应的语气助词、第一词汇或者第一短语。
117.a5、根据a4所述的语音交互方法,根据所述自然语言理解结果以及预定的所述文字表达式生成对所述音频信号进行回复的文字回复语句的步骤包括:
118.根据所述自然语言理解结果生成对所述音频信号进行回复的第二词汇或者第二短语,将所述第二词汇或者所述第二短语通过连词连接生成原始文字回复语句;
119.将上述语气助词、第一词汇或者第一短语与所述原始文字回复语句组合生成所述文字回复语句。
120.a6、根据a3所述的语音交互方法,根据所述文字回复语句合成对应的语音信号的步骤包括:
121.根据所述音频信号的语义对应的领域以及意图选择预定的方言语音合成系统将所述文字回复语句合成对应的方言语音信号。
122.a7、根据a3所述的语音交互方法,根据所述文字回复语句合成对应的语音信号的步骤包括:
123.根据所述音频信号的语义对应的领域以及意图选择预定的女声语音合成系统将所述文字回复语句合成对应的女声语音信号。
124.a8、根据a3所述的语音交互方法,根据所述文字回复语句合成对应的语音信号的步骤包括:
125.根据所述音频信号的语义对应的领域以及意图选择预定的男声语音合成系统将所述文字回复语句合成对应的男声语音信号。
126.a9、根据a3所述的语音交互方法,根据所述文字回复语句合成对应的语音信号的步骤包括:
127.根据所述音频信号的语义对应的领域以及意图选择预定的童声语音合成系统将所述文字回复语句合成对应的童声语音信号。
128.b10、一种语音交互系统,包括:
129.获取与语言理解模块,用于获取音频信号,将所述音频信号进行自然语言理解处理,获得所述音频信号对应的自然语言理解结果;
130.文字表达式生成模块,用于根据所述自然语言理解结果生成对所述音频信号进行回复的文字表达式;
131.文字回复语句生成模块,用于根据所述自然语言理解结果以及预定的所述文字表达式生成对所述音频信号进行回复的文字回复语句;
132.语音合成模块,用于根据所述文字回复语句合成对应的语音信号。
133.b11、根据b1所述的语音交互系统,获取与语言理解模块包括:
134.获取子模块,用于获取音频信号;
135.识别子模块,用于通过语音识别技术获得所述音频信号的文本结果;
136.理解子模块,用于根据所述文本结果进行自然语言理解处理,获得所述音频信号对应的自然语言理解结果。
137.b12、根据b10所述的语音交互系统,所述自然语言理解结果包括所述音频信号的语义对应的领域以及意图。
138.b13、根据b12所述的语音交互系统,文字表达式生成模块包括:
139.第一词句获取子模块,用于根据所述音频信号的语义对应的领域以及意图生成相对应的语气助词、第一词汇或者第一短语。
140.b14、根据b13所述的语音交互系统,文字回复语句生成模块包括:
141.第一语句生成模块,用于根据所述自然语言理解结果生成对所述音频信号进行回复的第二词汇或者第二短语,将所述第二词汇或者所述第二短语通过连词连接生成原始文字回复语句;
142.第二语句生成模块,用于将上述语气助词、第一词汇或者第一短语与所述原始文字回复语句组合生成所述文字回复语句。
143.b15、根据b12所述的语音交互系统,语音合成模块包括:
144.方言语音合成模块,用于根据所述音频信号的语义对应的领域以及意图选择预定的方言语音合成系统将所述文字回复语句合成对应的方言语音信号。
145.b16、根据b12所述的语音交互系统,语音合成模块包括:
146.女声语音合成模块,用于根据所述音频信号的语义对应的领域以及意图选择预定的女声语音合成系统将所述文字回复语句合成对应的女声语音信号。
147.b17、根据b12所述的语音交互系统,语音合成模块包括:
148.男声语音合成模块,用于根据所述音频信号的语义对应的领域以及意图选择预定的男声语音合成系统将所述文字回复语句合成对应的男声语音信号。
149.b18、根据b12所述的语音交互系统,语音合成模块包括:
150.童声语音合成模块,用于根据所述音频信号的语义对应的领域以及意图选择预定的童声语音合成系统将所述文字回复语句合成对应的童声语音信号。
151.c19、一种存储介质,用于存储一种用于执行a1~a9中任意一种语音交互方法的计算机程序。
152.d20、一种计算机设备,包括存储介质、处理器以及存储在所述存储介质上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现a1~a9任一项所述的语音交互方法。