首页 > 乐器声学 专利正文
语音处理方法、装置以及系统与流程

时间:2022-01-19 阅读: 作者:专利查询

语音处理方法、装置以及系统与流程

1.本发明涉及语音处理技术领域,尤其涉及一种语音处理方法、装置以及系统。


背景技术:

2.现有的智能设备可以与用户进行多轮语音对话,每一轮语音对话几乎都要进行asr、nlp以及tts,而不管是asr、nlp或者tts的过程都要,调用到云服务器,且在比如对外合作时,例如天气查询时也会被相应的收费,而目前基于云端服务器主要有以下两种收费,一种是license,即一次购买保多年;另外一种就是按次数调用进行收费。
3.而在实际上使用智能设备如智能音箱、智慧屏、手机等,往往存在多轮对话或者一天中重复类似对话的情况,多次调用服务器造成成本增加。
4.综上所述,现有技术在实际使用上显然存在不便与缺陷,所以有必要加以改进。


技术实现要素:

5.针对上述的缺陷,本发明的目的在于提供一种语音处理方法、装置以及系统,可以减少服务器资源浪费,并且提高语音交互的效率。
6.为了实现上述目的,本发明提供了一种语音处理方法,包括:
7.获取用户的音频信号,将所述音频信号进行语言理解处理,获得第一意图以及第一槽位信息组合;所述第一槽位信息组合包括至少一个第一槽位信息;
8.根据所述第一意图生成至少一个第二槽位信息组合;所述第二槽位信息组合包括至少一个第二槽位信息;
9.分别根据槽位信息组合进行回复处理,获得回复结果;
10.分别将所述回复结果进行语音合成,获得语音合成结果;
11.将对应所述第一槽位信息组合的第一语音合成结果输出。
12.根据所述的方法,根据所述第一意图生成至少一个第二槽位信息组合的步骤包括:
13.获取与所述第一意图对应的至少一个第二槽位,根据所述第二槽位填充第二槽位信息。
14.根据所述的方法,根据所述第一意图生成至少一个第二槽位信息组合的步骤包括:
15.从所述用户的历史数据中判断是否具有与所述第一意图相同的第二意图,若是,则获取与所述第二意图对应的第二槽位信息组合。
16.根据所述的方法,获取与所述第二意图对应的第二槽位信息组合的步骤之后还包括:
17.将至少一个所述第二槽位信息与对应的第一槽位信息进行置换,获得预选第三槽位信息组合,判断所述预选第三槽位信息组合是否与所述第二槽位信息组合以及所述第一槽位信息组合均不相同,若均不相同,则所述预选第三槽位信息组合为第三槽位信息组合。
18.根据所述的方法,分别根据槽位信息组合进行回复处理,获得回复结果的步骤还包括:
19.根据所述第三槽位信息组合进行回复处理,获得第三回复结果。
20.根据所述的方法,分别根据槽位信息组合进行回复处理,获得回复结果的步骤包括:
21.通过nlg技术根据所述第一槽位信息组合生成第一回复结果;
22.通过nlg技术根据所述第二槽位信息组合生成第二回复结果。
23.为了实现上述目的,本发明还提供了一种语音处理装置,包括:
24.语言理解模块,用于获取用户的音频信号,将所述音频信号进行语言理解处理,获得第一意图以及第一槽位信息组合;所述第一槽位信息组合包括至少一个第一槽位信息;
25.第二槽位信息生成模块,用于根据所述第一意图生成至少一个第二槽位信息组合;所述第二槽位信息组合包括至少一个第二槽位信息;
26.回复结果获取模块,用于分别根据槽位信息组合进行回复处理,获得回复结果;
27.语音结果获取模块,用于分别将所述回复结果进行语音合成,获得语音合成结果;
28.输出模块,用于将对应所述第一槽位信息组合的第一语音合成结果输出。
29.为了实现上述目的,本发明还提供了一种语音处理系统,包括:
30.语音识别模块,用于获取用户的音频信号,通过语音识别技术获得所述音频信号的文本结果;
31.自然语言理解模块,用于根据所述文本结果通过nlu技术进行语言理解处理,获得第一意图以及第一槽位信息组合;
32.对话管理模块,用于接收所述第一意图以及第一槽位信息组合,根据所述第一意图对历史数据进行查询,获得至少一个第二槽位信息组合;并且根据第一槽位信息组合以及第二槽位信息组合生成指令;
33.语言生成模块,用于根据所述指令进行回复处理,分别获得与各个槽位信息组合对应的回复结果;对应所述第一槽位信息组合获得的回复结果为第一回复结果;
34.语音合成模块,用于分别根据所述回复结果进行语音合成,获得语音合成结果,并输出根据所述第一回复结果获得的第一语音合成结果。
35.为了实现上述目的,本发明还提供了一种存储介质,用于存储一种用于执行上述任意一种语音处理方法的计算机程序。
36.为了实现上述目的,本发明还提供了一种计算机设备,包括存储介质、处理器以及存储在所述存储介质上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述的语音处理方法。
37.本发明获取用户的音频信号,将所述音频信号进行语言理解处理,获得第一意图以及第一槽位信息组合;所述第一槽位信息组合包括至少一个第一槽位信息;根据所述第一意图生成至少一个第二槽位信息组合;所述第二槽位信息组合包括至少一个第二槽位信息;第二槽位信息组合是根据第一意图生成的,所述用户在后续的语音交互的对话过程中的后续音频信号通过自然语言理解处理后获得的槽位信息组合可能与第二槽位信息组合相同。分别根据槽位信息组合进行回复处理,获得回复结果;分别将所述回复结果进行语音合成,获得语音合成结果;将对应所述第一槽位信息组合的第一语音合成结果输出。借此,
understanding)服务器进行计算,调用两次nlu服务器计算的结果仅是一个意图槽位的更改,是对于服务器资源的浪费。实际上当进行一轮对话时,是可以根据该轮对话或者历史轨迹去预测后续的对话情况的。为了减少服务器的资源浪费,优化多轮对话的语音交互过程,通过预测与所述用户后续的语音交互的过程中的后续音频信号对应的第二槽位信息组合,在同一轮对话的语音交互过程中,将第二槽位信息组合与第一槽位信息组合一同处理,保存与所述第二槽位信息组合相关的处理结果,当后续音频信号通过自然语言处理获得的槽位信息组合与第二槽位信息组合相同时,则直接调用与所述第二槽位信息组合相关的处理结果,不需要再次通过服务器处理,节约服务器资源,同时提升语音交互过程的效率。具体的是,获取用户的音频信号,可以通过智能设备获取;将所述音频信号进行语言理解处理,获得第一意图以及第一槽位信息组合;可以通过nlu服务器进行语言理解处理获得;所述第一槽位信息组合包括至少一个第一槽位信息;例如,上述的两轮对话中,通过nlu服务器进行语言理解处理可以分析出第一轮对话中所述用户的第一意图为查询天气,查询天气的第一意图至少对应有时间槽位以及地点槽位,由此,当第一意图为查询天气时,其对应的第一槽位信息组合包括至少两个第一槽位信息,nlu服务器可以分析出第一轮对话的时间槽位对应的第一槽位信息为今天,地点槽位对应的第一槽位信息为深圳。第二槽位信息生成模块20根据所述第一意图生成至少一个第二槽位信息组合。例如,可以根据大数据分析,当所述用户在第一轮对话中的第一意图为查询天气时,获得在后续的对话中出现概率大于预定阈值的意图,则根据所述意图对应的第二槽位填入第二槽位信息,该意图可以与第一意图相同,也可以不相同。例如当一轮对话中的第一意图为查询天气,在后续的对话中继续出现查询天气的意图的概率大于预定阈值,则根据查询天气的意图生成第二槽位信息组合。具体地,当意图为查询天气时,其至少对应有时间槽位以及地点槽位,例如,对应所述时间槽位填充的第二槽位信息为后天,对应所述地点槽位填充的第二槽位信息为北京,获得一个第二槽位信息组合;或者,对应所述时间槽位填充的第二槽位信息为今天,对应所述地点槽位填充的第二槽位信息为上海,获得一个第二槽位信息组合;回复结果获取模块30分别根据槽位信息组合进行回复处理,获得回复结果。例如,根据时间槽位为今天、地点槽位深圳的第一槽位信息组合获得回复结果为深圳今天天气晴,最高气温35℃;根据时间槽位为后天、地点槽位北京的第二槽位信息组合获得回复结果为北京后天天气晴,最高气温35℃;根据时间槽位为今天、地点槽位上海的第二槽位信息组合获得回复结果为上海今天天气晴,最高气温32℃;以此类推;在该过程中,只需要调用一次回复结果获取模块30对应的云服务器,就可以获得上述多个回复结果。语音结果获取模块40分别将所述回复结果进行语音合成,获得语音合成结果;在该过程中,只需要调用一次语音结果获取模块40的云服务器,就可以分别获得上述多个回复结果的语音合成结果并且进行保存,即将上述的多个回复结果转换为语音,同时保存。输出模块50将对应所述第一槽位信息组合的第一语音合成结果输出。当下一轮对话进行时,若所述用户询问:叮当叮当,今天上海天气怎样;此时,可以直接调用保存的对应的语音合成结果进行输出,效率高,减少服务器资源的浪费。
53.在本发明的第二实施例中,第二槽位信息生成模块20包括:
54.填充子模块21,用于获取与所述第一意图对应的至少一个第二槽位,根据所述第二槽位填充第二槽位信息。
55.在该实施例中,通过获取与所述第一意图对应的至少一个第二槽位生成第二槽位
信息,例如,当第一意图为查询天气时,其至少对应有两个第二槽位,分别为时间槽位以及地点槽位,可以对应所述时间槽位填充的第二槽位信息为后天,对应所述地点槽位填充的第二槽位信息为北京,获得一个第二槽位信息组合;或者,对应所述时间槽位填充的第二槽位信息为今天,对应所述地点槽位填充的第二槽位信息为上海,获得一个第二槽位信息组合。
56.在本发明的第三实施例中,第二槽位信息生成模块20包括:
57.历史数据获取模块22,用于从所述用户的历史数据中判断是否具有与所述第一意图相同的第二意图,若是,则获取与所述第二意图对应的第二槽位信息组合。
58.在该实施例中,通过所述用户的对话的历史数据中的第二意图,判断是否具有与所述第一意图相同的第二意图,例如,用户的第一意图为查询天气,查询历史数据,具有查询天气的第二意图,并且该第二意图对应的第二槽位信息组合为今天,上海,则可以获取与所述第二意图对应的第二槽位信息组合:明天,上海。当历史数据中具有多个第二意图都为查询天气,则分别获取与所述第二意图对应的第二槽位信息组合,从而获得多个第二槽位信息组合。
59.优选的是,该装置100还包括:
60.第三槽位信息生成模块60,用于将至少一个所述第二槽位信息与对应的第一槽位信息进行置换,获得预选第三槽位信息组合,判断所述预选第三槽位信息组合是否与所述第二槽位信息组合以及所述第一槽位信息组合均不相同,若均不相同,则所述预选第三槽位信息组合为第三槽位信息组合。
61.在该实施例中,通过置换槽位信息来获取更多的槽位组合。例如,第一槽位信息组合包括对应时间槽位的今天以及对应地点槽位的深圳,第二槽位信息组合包括对应时间槽位的明天以及对应地点槽位的上海;将第一槽位信息组合的时间槽位的今天与第二槽位信息组合的时间槽位的明天置换,组成两个预选第三槽位信息组合分别为今天,上海;以及明天,深圳;第三槽位信息生成模块60所述预选第三槽位信息组合与所述第二槽位信息组合以及所述第一槽位信息组合均不相同,两个预选第三槽位信息组合均为第三槽位信息组合。
62.优选的是,回复结果获取模块30还包括:
63.第三回复结果获取子模块33,用于根据所述第三槽位信息组合进行回复处理,获得第三回复结果。
64.在该实施例中,回复结果获取模块30还包括第三回复结果获取子模块33,使得第三槽位信息组合可以与第一槽位信息组合以及第二槽位信息组合在回复处理中调用服务器一同处理。
65.在本发明的第四实施例中,回复结果获取模块30包括:
66.第一回复结果获取子模块31,用于通过nlg技术根据所述第一槽位信息组合生成第一回复结果;
67.第二回复结果获取子模块32,用于通过nlg技术根据所述第二槽位信息组合生成第二回复结果。
68.在该实施例中,回复结果获取模块30调用一次云服务器可以同时对所述第一槽位信息组合以及所述第二槽位信息组合分别生成第一回复结果以及第二回复结果。
69.在本发明的第五实施例中,语音结果获取模块40包括:
70.第一语音结果获取子模块41,用于通过tts技术根据所述第一回复结果生成第一语音结果;
71.第二语音结果获取子模块42,用于通过tts技术根据所述第二回复结果生成第二语音结果。
72.在该实施例中,语音结果获取模块40调用一次云服务器可以同时对所述第一回复结果以及第二回复结果分别生成第一语音结果以及第二语音结果。
73.在本发明的第六实施例中,语言理解模块10包括:
74.语音识别子模块11,用于通过语音识别技术获得所述音频信号的文本结果;
75.语言理解子模块12,用于根据所述文本结果通过nlu技术进行语言理解处理,获得第一意图以及第一槽位信息组合。
76.图3是本发明实施例的语音处理方法的流程图,所述方法可以通过上述任一项所述的装置100实现,所述语音处理方法包括:
77.步骤s301,获取用户的音频信号,将所述音频信号进行语言理解处理,获得第一意图以及第一槽位信息组合;所述第一槽位信息组合包括至少一个第一槽位信息;通过语言理解模块10实现;
78.步骤s302,根据所述第一意图生成至少一个第二槽位信息组合;所述第二槽位信息组合包括至少一个第二槽位信息;通过第二槽位信息生成模块20实现;
79.步骤s303,分别根据槽位信息组合进行回复处理,获得回复结果;通过回复结果获取模块30实现;
80.步骤s304,分别将所述回复结果进行语音合成,获得语音合成结果;通过语音结果获取模块40实现;
81.步骤s305,将对应所述第一槽位信息组合的第一语音合成结果输出;通过输出模块50实现。
82.在该实施例中,所述方法可以通过上述任一项所述的装置100实现,具体实施过程参见上述描述,在此不再赘述。
83.在本发明的一个实施例中,步骤s302包括:
84.获取与所述第一意图对应的至少一个第二槽位,根据所述第二槽位填充第二槽位信息;通过填充子模块21实现。
85.在本发明的一个实施例中,步骤s302包括:
86.从所述用户的历史数据中判断是否具有与所述第一意图相同的第二意图,若是,则获取与所述第二意图对应的第二槽位信息组合;通过历史数据获取模块22实现。
87.在本发明的一个实施例中,获取与所述第二意图对应的第二槽位信息组合的步骤之后还包括:
88.将至少一个所述第二槽位信息与对应的第一槽位信息进行置换,获得预选第三槽位信息组合,判断所述预选第三槽位信息组合是否与所述第二槽位信息组合以及所述第一槽位信息组合均不相同,若均不相同,则所述预选第三槽位信息组合为第三槽位信息组合;通过第三槽位信息生成模块60实现。
89.在本发明的一个实施例中,步骤s303还包括:
90.根据所述第三槽位信息组合进行回复处理,获得第三回复结果;通过第三回复结果获取子模块33实现。
91.在本发明的一个实施例中,步骤s303包括:
92.通过nlg技术根据所述第一槽位信息组合生成第一回复结果;通过第一回复结果获取子模块31实现;
93.通过nlg技术根据所述第二槽位信息组合生成第二回复结果;通过第二回复结果获取子模块32实现。
94.在本发明的一个实施例中,步骤s304包括:
95.通过tts技术(语音合成技术)根据所述第一回复结果生成第一语音结果;通过第一语音结果获取子模块41实现;
96.通过tts技术根据所述第二回复结果生成第二语音结果;通过第二语音结果获取子模块42实现。
97.在本发明的一个实施例中,步骤s301包括:
98.通过语音识别技术获得所述音频信号的文本结果;通过语音识别子模块11实现;
99.根据所述文本结果通过nlu技术进行语言理解处理,获得第一意图以及第一槽位信息组合;通过语言理解子模块12实现。
100.图4是语音处理系统500的结构示意图,语音处理系统500包括:
101.语音识别模块510,用于获取用户的音频信号,通过语音识别技术获得所述音频信号的文本结果;
102.自然语言理解模块520,用于根据所述文本结果通过nlu技术进行语言理解处理,获得第一意图以及第一槽位信息组合;
103.对话管理模块530,用于接收所述第一意图以及第一槽位信息组合,根据所述第一意图对历史数据进行查询,获得至少一个第二槽位信息组合;并且根据第一槽位信息组合以及第二槽位信息组合生成指令;
104.语言生成模块540,用于根据所述指令进行回复处理,分别获得与各个槽位信息组合对应的回复结果;对应所述第一槽位信息组合获得的回复结果为第一回复结果;
105.语音合成模块550,用于分别根据所述回复结果进行语音合成,获得语音合成结果,并输出根据所述第一回复结果获得的第一语音合成结果。
106.在该实施例中,自然语言理解模块520使用了nlu技术进行语言理解处理,nlu技术中的意图代表用户想要达到的目的,就是在语言表达中所体现出的“用户想干什么”,解决的是人与人,人与机器之间的通讯问题。在nlu中,意图可以由槽位来表达,槽位中的槽位信息就是意图的参数信息。槽位是指从句子中抽取出的特定概念。举个例子,所述用户与智能设备进行语音交互时说“今天北京天气怎么样”,其意图就是“查询天气”,则表达该意图的槽位信息为“今天”、“北京”。对话管理模块530优选为对话管理(dm)。dm是对话系统的大脑,它主要干两件事情:1)维护和更新对话的状态。对话状态是一种机器能够处理的数据表征,包含所有可能会影响到接下来决策的信息,如nlu模块的输出、用户的特征等;2)基于当前的对话状态,选择接下来合适的动作。举一个具体的例子,用户说「帮我叫一辆车回家」,此时对话状态包括nlu模块的输出、用户的位置、历史行为等特征。在这个状态下,系统接下来的动作可能有几种:1)向用户询问起点,如「请问从哪里出发」;2)向用户确认起点,如「请问
从公司出发吗」;3)直接为用户叫车,「马上为你叫车从公司回家」。
107.假设用户与智能设备的对话为:
108.用户:叮当叮当,今天深圳天气怎样?
109.智能设备:今天深圳天气晴,最高气温35℃;
110.上述对话过程中语音处理系统500的操作过程为:
111.语音识别模块510通过智能设备的前端麦克风阵列接收到所述用户的音频信号(即“叮当叮当,今天深圳天气怎样”的音频),并将所述音频信号发送至云端服务器asr(automatic speech recognition)引擎进行处理,获得所述音频信号的文本结果(即“叮当叮当,今天深圳天气怎样”的文本);自然语言理解模块520通过nlu技术分析获得第一意图为查询天气,以及第一槽位信息组合为今天,深圳;其将不仅是将这次的信息填充至槽位发送给对话管理模块530,优选为对话管理(dm,dialog management),dm不仅是将第一槽位信息组合填充至预定的槽位,并且根据所述用户对话的历史数据或者根据用户询问习惯分析获得的历史数据来预测所述用户的后续对话的音频信号对应的槽位信息组合;将获得历史槽位信息(即第二槽位信息组合)也填充到预定的槽位中,例如获得的第二槽位信息组合为明天,上海;上述例子中的第一槽位信息组合以及第二槽位信息组合共同生成查询天气的指令,该指令中包括两个时间槽位,对应的槽位信息为今天以及明天,还包括两个地点槽位,对应的槽位信息为深圳以及上海。在后台根据该指令查询天气时查询的是今天、明天深圳以及上海的天气怎么,即一次调用与服务器的查询就解决了至少两次的查询任务,进行查询时分别对应的槽位信息组合可以是“今天”“深圳”、“今天”“上海”、“明天”“深圳”、“明天”“上海”,同时后台生成分别对应各个槽位信息组合的查询结果的界面,可以用于所述用户后续对话时直接调用相对应的查询结果。而最终通过语音合成模块550通过tts技术输出到用户的只是根据所述用户的音频信号(即“叮当叮当,今天深圳天气怎样”的音频)进行回复的第一语音合成结果(即“今天深圳天气晴,最高气温35℃”的音频)。语言生成模块540根据nlg技术(自然语言生成技术)生成人类可以理解的语言,其分别对应各个槽位信息组合的查询结果输出人类能理解的语言并且发送到语音合成模块550,语音合成模块550根据用户输入的音频信号来播报内容,如今天深圳天气晴,最高气温

、明天深圳天气晴,最高气温

、今天上海天气晴,最高气温

、明天上海天气晴,最高气温

。通过对dm优化多轮对话的语音交互过程,使每次查询天气的成本由原本的多次查询仅变成一次,节省了与天气服务提供商配合时可能产生的成本,同时节省了中间步骤,当nlu检测到下一轮对话的意图也为查询天气时,仅需要根据槽位信息组合调用上一轮保存的结果即可,快速高效。优化了dm对话管理的流程及处理效率、完全省去了nlg、tts等对应服务器的重复计算,能更快的反馈结果给所述用户。
112.本发明还提供一种存储介质,用于存储一种用于执行上述任意一种任务调度方法的计算机程序。例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本技术的方法和/或技术方案。而调用本技术的方法的程序指令,可能被存储在固定的或可移动的存储介质中,和/或通过广播或其他信号承载媒体中的数据流而被传输和/或被存储在根据程序指令运行的计算机设备的存储介质中。在此,根据本技术的一个实施例中,包括一个如图5所示的计算机设备400,所述计算机设备400优选包括用于存储计算机程序的存储介质200和用于执行计算机程序的处理器300,其中,当该计算机程序被该
处理器300执行时,触发该计算机设备400执行基于前述多个实施例中的方法和/或技术方案。
113.需要注意的是,本技术可在软件和/或软件与硬件的组合体中被实施,例如,可采用专用集成电路(asic)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中,本技术的软件程序可以通过处理器执行以实现上文步骤或功能。同样地,本技术的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,ram存储器,磁或光驱动器或软磁盘及类似设备。另外,本技术的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
114.根据本发明的方法可以作为计算机实现方法在计算机上实现、或者在专用硬件中实现、或以两者的组合的方式实现。用于根据本发明的方法的可执行代码或其部分可以存储在计算机程序产品上。计算机程序产品的示例包括存储器设备、光学存储设备、集成电路、服务器、在线软件等。优选地,计算机程序产品包括存储在计算机可读介质上以便当所述程序产品在计算机上执行时执行根据本发明的方法的非临时程序代码部件。
115.在优选实施例中,计算机程序包括适合于当计算机程序在计算机上运行时执行根据本发明的方法的所有步骤的计算机程序代码部件。优选地,在计算机可读介质上体现计算机程序。
116.综上所述,本发明获取用户的音频信号,将所述音频信号进行语言理解处理,获得第一意图以及第一槽位信息组合;所述第一槽位信息组合包括至少一个第一槽位信息;根据所述第一意图生成至少一个第二槽位信息组合;所述第二槽位信息组合包括至少一个第二槽位信息;第二槽位信息组合是根据第一意图生成的,所述用户在后续的语音交互的对话过程中的后续音频信号通过自然语言理解处理后获得的槽位信息组合可能与第二槽位信息组合相同。分别根据槽位信息组合进行回复处理,获得回复结果;分别将所述回复结果进行语音合成,获得语音合成结果;将对应所述第一槽位信息组合的第一语音合成结果输出。
117.当然,本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。
118.本发明还公开了:a1、一种语音处理方法,包括:
119.获取用户的音频信号,将所述音频信号进行语言理解处理,获得第一意图以及第一槽位信息组合;所述第一槽位信息组合包括至少一个第一槽位信息;
120.根据所述第一意图生成至少一个第二槽位信息组合;所述第二槽位信息组合包括至少一个第二槽位信息;
121.分别根据槽位信息组合进行回复处理,获得回复结果;
122.分别将所述回复结果进行语音合成,获得语音合成结果;
123.将对应所述第一槽位信息组合的第一语音合成结果输出。
124.a2、根据a1所述的方法,根据所述第一意图生成至少一个第二槽位信息组合的步骤包括:
125.获取与所述第一意图对应的至少一个第二槽位,根据所述第二槽位填充第二槽位信息。
126.a3、根据a1所述的方法,根据所述第一意图生成至少一个第二槽位信息组合的步骤包括:
127.从所述用户的历史数据中判断是否具有与所述第一意图相同的第二意图,若是,则获取与所述第二意图对应的第二槽位信息组合。
128.a4、根据a3所述的方法,获取与所述第二意图对应的第二槽位信息组合的步骤之后还包括:
129.将至少一个所述第二槽位信息与对应的第一槽位信息进行置换,获得预选第三槽位信息组合,判断所述预选第三槽位信息组合是否与所述第二槽位信息组合以及所述第一槽位信息组合均不相同,若均不相同,则所述预选第三槽位信息组合为第三槽位信息组合
130.a5、根据a4所述的方法,分别根据槽位信息组合进行回复处理,获得回复结果的步骤还包括:
131.根据所述第三槽位信息组合进行回复处理,获得第三回复结果。
132.a6、根据a1所述的方法,分别根据槽位信息组合进行回复处理,获得回复结果的步骤包括:
133.通过nlg技术根据所述第一槽位信息组合生成第一回复结果;
134.通过nlg技术根据所述第二槽位信息组合生成第二回复结果。
135.a7、根据a6所述的方法,分别将所述回复结果进行语音合成,获得语音合成结果的步骤包括:
136.通过tts技术根据所述第一回复结果生成第一语音结果;
137.通过tts技术根据所述第二回复结果生成第二语音结果。
138.a8、根据a1所述的方法,将所述音频信号进行语言理解处理,获得第一意图以及第一槽位信息组合的步骤包括:
139.通过语音识别技术获得所述音频信号的文本结果,根据所述文本结果通过nlu技术进行语言理解处理,获得第一意图以及第一槽位信息组合。
140.b9、一种语音处理装置,包括:
141.语言理解模块,用于获取用户的音频信号,将所述音频信号进行语言理解处理,获得第一意图以及第一槽位信息组合;所述第一槽位信息组合包括至少一个第一槽位信息;
142.第二槽位信息生成模块,用于根据所述第一意图生成至少一个第二槽位信息组合;所述第二槽位信息组合包括至少一个第二槽位信息;
143.回复结果获取模块,用于分别根据槽位信息组合进行回复处理,获得回复结果;
144.语音结果获取模块,用于分别将所述回复结果进行语音合成,获得语音合成结果;
145.输出模块,用于将对应所述第一槽位信息组合的第一语音合成结果输出。
146.b10、根据b9所述的装置,第二槽位信息生成模块包括:
147.填充子模块,用于获取与所述第一意图对应的至少一个第二槽位,根据所述第二槽位填充第二槽位信息。
148.b11、根据b9所述的装置,第二槽位信息生成模块包括:
149.历史数据获取模块,用于从所述用户的历史数据中判断是否具有与所述第一意图相同的第二意图,若是,则获取与所述第二意图对应的第二槽位信息组合。
150.b12、根据b11所述的装置,还包括:
151.第三槽位信息生成模块,用于将至少一个所述第二槽位信息与对应的第一槽位信息进行置换,获得预选第三槽位信息组合,判断所述预选第三槽位信息组合是否与所述第二槽位信息组合以及所述第一槽位信息组合均不相同,若均不相同,则所述预选第三槽位信息组合为第三槽位信息组合。
152.b13、根据b12所述的装置,回复结果获取模块还包括:
153.第三回复结果获取子模块,用于根据所述第三槽位信息组合进行回复处理,获得第三回复结果。
154.b14、根据b9所述的装置,回复结果获取模块包括:
155.第一回复结果获取子模块,用于通过nlg技术根据所述第一槽位信息组合生成第一回复结果;
156.第二回复结果获取子模块,用于通过nlg技术根据所述第二槽位信息组合生成第二回复结果。
157.b15、根据b14所述的装置,语音结果获取模块包括:
158.第一语音结果获取子模块,用于通过tts技术根据所述第一回复结果生成第一语音结果;
159.第二语音结果获取子模块,用于通过tts技术根据所述第二回复结果生成第二语音结果。
160.b16、根据b9所述的装置,语言理解模块包括:
161.语音识别子模块,用于通过语音识别技术获得所述音频信号的文本结果;
162.语言理解子模块,用于根据所述文本结果通过nlu技术进行语言理解处理,获得第一意图以及第一槽位信息组合。
163.c17、一种语音处理系统,包括:
164.语音识别模块,用于获取用户的音频信号,通过语音识别技术获得所述音频信号的文本结果;
165.自然语言理解模块,用于根据所述文本结果通过nlu技术进行语言理解处理,获得第一意图以及第一槽位信息组合;
166.对话管理模块,用于接收所述第一意图以及第一槽位信息组合,根据所述第一意图对历史数据进行查询,获得至少一个第二槽位信息组合;并且根据第一槽位信息组合以及第二槽位信息组合生成指令;
167.语言生成模块,用于根据所述指令进行回复处理,分别获得与各个槽位信息组合对应的回复结果;对应所述第一槽位信息组合获得的回复结果为第一回复结果;
168.语音合成模块,用于分别根据所述回复结果进行语音合成,获得语音合成结果,并输出根据所述第一回复结果获得的第一语音合成结果。
169.d18、一种存储介质,用于存储一种用于执行a1~a8中任意一种语音处理方法的计算机程序。
170.e19、一种计算机设备,包括存储介质、处理器以及存储在所述存储介质上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现a1~a8任一项所述的语音处理方法。