语音处理方法、装置以及系统与流程

1.本发明涉及语音处理技术领域，尤其涉及一种语音处理方法、装置以及系统。

背景技术：

2.随着人工智能的发展，市面上出现了许多能够与人类进行语音交互的及其，例如，智能音箱，智能音箱通过语音识别以及语音处理引擎实现语音交互。智能音箱较为主流的处理方式是同时选取的多个语音识别、语音处理引擎。同时使用多个语音方案提供商来进行语音识别以及语音处理。这么做的好处是可以综合各家之长，当识别结束后，则选择最优的结果。
3.然而如果云端在接收到asr(automatic speech recognition，自动语音识别技术)的识别结果后，只是简单地把结果放送到各个云端的nlp进行处理计算，一方面浪费服务器资源造成高成本，另外一方面也无法真正切实有效的去判断nlp(natural language processing，自然语言处理技术)识别结果的好坏。
4.综上所述，现有技术在实际使用上显然存在不便与缺陷，所以有必要加以改进。

技术实现要素：

5.针对上述的缺陷，本发明的目的在于提供一种语音处理方法、装置以及系统，可以减少服务器成本同时获得最优语音处理结果。
6.为了实现上述目的，本发明提供了一种语音处理方法，包括：
7.获取语音信号，将所述语音信号进行语音识别，获得所述语音信号的识别结果；
8.将所述识别结果进行分类处理，获得所述识别结果的类型；
9.根据所述类型选择一个语言理解目标服务器对所述识别结果进行自然语言理解，获得自然语言理解结果。
10.根据所述的语音处理方法，将所述识别结果进行分类处理，获得所述识别结果的类型的步骤包括：
11.将所述识别结果进行意图/领域分类处理，获得所述识别结果的意图/领域类型。
12.根据所述的语音处理方法，根据所述类型选择一个语言理解目标服务器对所述识别结果进行自然语言理解的步骤包括：
13.选取擅长所述意图/领域类型的一个语言理解服务器为所述语言理解目标服务器，对所述识别结果进行自然语言理解。
14.根据所述的语音处理方法，选取擅长所述意图/领域类型的一个语言理解服务器为所述语言理解目标服务器，对所述识别结果进行自然语言理解的步骤包括：
15.获取多个语言理解服务器的过往标注信息，通过所述过往标注信息判断擅长所述意图/领域类型的一个语言理解目标服务器；
16.选取所述语言理解目标服务器对所述识别结果进行自然语言理解。
17.根据所述的语音处理方法，根据所述类型选择一个语言理解目标服务器对所述识
别结果进行自然语言理解，获得自然语言理解结果的步骤之后还包括：
18.根据所述自然语言理解结果合成对所述语音信号进行语音回复的语音回复结果。
19.根据所述的语音处理方法，根据所述自然语言理解结果合成对所述语音信号进行回复的语音回复结果的步骤包括：
20.根据所述自然语言理解结果获取对所述语音信号进行回复的回复结果；
21.选择擅长对所述回复结果进行语音合成的语音合成目标服务器，所述语音合成目标服务器合成所述语音回复结果。
22.为了实现上述目的，本发明还提供了一种语音处理装置，包括：
23.语音识别模块，用于获取语音信号，将所述语音信号进行语音识别，获得所述语音信号的识别结果；
24.分类模块，用于将所述识别结果进行分类处理，获得所述识别结果的类型；
25.自然语言理解结果获取模块，用于根据所述类型选择一个语言理解目标服务器对所述识别结果进行自然语言理解，获得自然语言理解结果。
26.为了实现上述目的，本发明还提供了一种语音处理系统，包括中央处理模块、语音信号获取模块、类型获取模块；
27.所述中央处理模块获取语音信号获取模块的识别结果，并将所述识别结果发送至所述类型获取模块；
28.所述类型获取模块用于将所述识别结果进行分类处理，获得所述识别结果的类型；
29.所述中央处理模块所述识别结果的类型选择一个语言理解目标服务器对所述识别结果进行自然语言理解，获得自然语言理解结果。
30.为了实现上述目的，本发明还提供了一种存储介质，用于存储一种用于执行上述任意一种语音处理方法的计算机程序。
31.为了实现上述目的，本发明还提供了一种计算机设备，包括存储介质、处理器以及存储在所述存储介质上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述的语音处理方法。
32.本发明通过获取语音信号，将所述语音信号进行语音识别，获得所述语音信号的识别结果；将所述识别结果进行分类处理，获得所述识别结果的类型；根据所述类型选择一个语言理解目标服务器对所述识别结果进行自然语言理解，获得自然语言理解结果。通过在分配语言理解目标服务器进行自然语言理解之前，先将所述识别结果进行分类处理，获得所述识别结果的类型，然后根据所述类型选择一个语言理解目标服务器，避免使用多个语言理解服务器来可以减少服务器成本同时获得最优语音处理结果。
附图说明
33.图1是本发明优选实施例的语音处理装置的示意图；
34.图2是本发明优选实施例的语音处理装置的示意图；
35.图3是本发明优选实施例的语音处理方法的流程图；
36.图4是本发明优选实施例的语音处理系统的示意图；
37.图5是本发明提供的计算机设备的结构示意图。
具体实施方式
38.为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。
39.需要说明的，本说明书中针对“一个实施例”、“实施例”、“示例实施例”等的引用，指的是描述的该实施例可包括特定的特征、结构或特性，但是不是每个实施例必须包含这些特定特征、结构或特性。此外，这样的表述并非指的是同一个实施例。进一步，在结合实施例描述特定的特征、结构或特性时，不管有没有明确的描述，已经表明将这样的特征、结构或特性结合到其它实施例中是在本领域技术人员的知识范围内的。
40.此外，在说明书及后续的权利要求当中使用了某些词汇来指称特定组件或部件，所属领域中具有通常知识者应可理解，制造商可以用不同的名词或术语来称呼同一个组件或部件。本说明书及后续的权利要求并不以名称的差异来作为区分组件或部件的方式，而是以组件或部件在功能上的差异来作为区分的准则。在通篇说明书及后续的权利要求书中所提及的“包括”和“包含”为一开放式的用语，故应解释成“包含但不限定于”。以外，“连接”一词在此系包含任何直接及间接的电性连接手段。间接的电性连接手段包括通过其它装置进行连接。
41.参见图1～图2，在本发明的第一实施例中提供了一种语音处理装置100，包括：
42.语音识别模块10，用于获取语音信号，将所述语音信号进行语音识别，获得所述语音信号的识别结果；
43.分类模块20，用于将所述识别结果进行分类处理，获得所述识别结果的类型；
44.自然语言理解结果获取模块30，用于根据所述类型选择一个语言理解目标服务器对所述识别结果进行自然语言理解，获得自然语言理解结果。
45.在该实施例中，为了减少服务器成本，通过在进行自然语言处理之前，将所述识别结果进行分类处理，从而根据所述识别结果的类型可以选择出一个合适的语言理解目标服务器来进行自然语言处理，减少服务器的使用数量。具体的是，语音识别模块10首先获取语音信号，例如，用户与人工智能终端进行语音交互，所述人工智能终端接收用户发出的语音并转换成语音信号。语音识别模块10将所述语音信号进行语音识别，可以通过asr技术(语音识别技术)实现，从而获取所述语音信号的识别结果，所述识别结果包括所述语音信号匹配的文字信息。将所述识别结果进行分类处理，从而可以对应所述识别结果的类型选择合适的语言理解目标服务器进行自然语言理解处理。由此，本实施例不需要选择多个云服务器来进行自然语言理解后再选取最优结果，而是基于识别结果的类型来判断出能够获取最优自然语言理解结果的一个语言理解目标服务器，将所述识别结果发送至所述语言理解目标服务器进行自然语言理解处理即可获得所述最优自然语言理解结果，减少服务器成本。
46.在本发明的第二实施例中，所述分类模块20包括：
47.意图/领域分类子模块21，用于将所述识别结果进行意图/领域分类处理，获得所述识别结果的意图/领域类型。
48.在本发明的第三实施例中，所述自然语言理解结果获取模块30包括：
49.语言理解服务器选取子模块31，用于选取擅长所述意图/领域类型的一个语言理解服务器为所述语言理解目标服务器，对所述识别结果进行自然语言理解。
50.具体的是，所述语言理解服务器选取子模块31包括：
51.过往标注信息获取单元311，用于获取多个语言理解服务器的过往标注信息，通过所述过往标注信息判断擅长所述意图/领域类型的一个语言理解目标服务器；
52.语言理解服务器选取单元312，用于选取所述语言理解目标服务器对所述识别结果进行自然语言理解。
53.在本发明的第四实施例中，还包括：
54.语音回复结果合成模块40，用于根据所述自然语言理解结果合成对所述语音信号进行语音回复的语音回复结果。
55.具体的是，所述语音回复结果合成模块40包括：
56.回复结果获取子模块41，用于根据所述自然语言理解结果获取对所述语音信号进行回复的回复结果；
57.语音合成服务器选取子模块42，用于选择擅长对所述回复结果进行语音合成的语音合成目标服务器，所述语音合成目标服务器合成所述语音回复结果。
58.在该实施例中，中央处理器不仅能够对领域/意图进行实现的分配至擅长不同领域的服务器，同样可以把属性抽取这块包括后面的技能分发，包括后面nlg语言生成也纳入其中
59.在本发明的第五实施例中，还包括：
60.界面展现模块50，用于对所述识别结果的意图/领域类型进行界面展现。
61.具体的是，所述界面展现模块50包括：
62.界面展现目标服务器获取子模块51，用于将所述意图/领域类型与一个界面展现目标服务器进行匹配；
63.界面展现子模块52，用于通过界面展现目标服务器对所述识别结果的意图/领域类型进行界面展现。
64.图3是本发明实施例的语音处理方法的流程图，所述方法可以通过上述任一项所述的装置100实现，所述语音处理方法包括：
65.步骤s301，获取语音信号，将所述语音信号进行语音识别，获得所述语音信号的识别结果；通过语音识别模块10实现；
66.步骤s302，将所述识别结果进行分类处理，获得所述识别结果的类型；通过分类模块20实现；
67.步骤s303，根据所述类型选择一个语言理解目标服务器对所述识别结果进行自然语言理解，获得自然语言理解结果；通过自然语言理解结果获取模块30实现。
68.在该实施例中，所述方法可以通过上述任一项所述的装置100实现，具体实施过程参见上述描述，在此不再赘述。
69.在本发明的一个实施例中，步骤s302包括：
70.将所述识别结果进行意图/领域分类处理，获得所述识别结果的意图/领域类型；通过意图/领域分类子模块21实现。
71.在本发明的一个实施例中，步骤s303包括：
72.选取擅长所述意图/领域类型的一个语言理解服务器为所述语言理解目标服务器，对所述识别结果进行自然语言理解；通过语言理解服务器选取子模块31实现。
73.在本发明的一个实施例中，选取擅长所述意图/领域类型的一个语言理解服务器为所述语言理解目标服务器，对所述识别结果进行自然语言理解的步骤包括：
74.获取多个语言理解服务器的过往标注信息，通过所述过往标注信息判断擅长所述意图/领域类型的一个语言理解目标服务器；通过过往标注信息获取单元311实现；
75.选取所述语言理解目标服务器对所述识别结果进行自然语言理解；通过语言理解服务器选取单元312实现。
76.在本发明的一个实施例中，步骤s303之后还包括：
77.根据所述自然语言理解结果合成对所述语音信号进行语音回复的语音回复结果；通过语音回复结果合成模块40实现。
78.在本发明的一个实施例中，根据所述自然语言理解结果合成对所述语音信号进行回复的语音回复结果的步骤包括：
79.根据所述自然语言理解结果获取对所述语音信号进行回复的回复结果；通过回复结果获取子模块41实现；
80.选择擅长对所述回复结果进行语音合成的语音合成目标服务器，所述语音合成目标服务器合成所述语音回复结果；通过语音合成服务器选取子模块42实现。
81.在本发明的一个实施例中，步骤s302之后还包括：
82.对所述识别结果的意图/领域类型进行界面展现；通过界面展现模块50实现。
83.在本发明的一个实施例中，对所述识别结果的意图/领域类型进行界面展现的步骤包括：
84.将所述意图/领域类型与一个界面展现目标服务器进行匹配；通过界面展现目标服务器获取子模块51实现；
85.通过界面展现目标服务器对所述识别结果的意图/领域类型进行界面展现；通过界面展现子模块52实现。
86.图4是语音处理系统500的结构示意图，语音处理系统500包括中央处理模块510、语音信号获取模块520、类型获取模块530；
87.所述中央处理模块510获取语音信号获取模块520的识别结果，并将所述识别结果发送至所述类型获取模块530；
88.所述类型获取模块530用于将所述识别结果进行分类处理，获得所述识别结果的类型；
89.所述中央处理模块510所述识别结果的类型选择一个语言理解目标服务器对所述识别结果进行自然语言理解，获得自然语言理解结果。
90.在该实施例中，不同的语言理解服务器的优势是不同，通过中央处理模块510作为一个语音的初步处理中心，根据自身的对于nlp的处理能力介入到nlp整个语言理解过程的不同阶段先对语音信号获取模块520传输的所述识别结果进行分类处理，优选的是进行nlu(naturallanguage understanding)在领域/意图分类的处理；当在nlu输出在领域/意图分类的处理结果(即所述识别结果的类型)后，则根据所述处理结果对比过往标注为对该领域/意图分类较为擅长的云服务器(即语言理解目标服务器)。如当识别到所述识别结果的文本结果属于天气领域，则将所述识别结果优先分配给擅长天气技能的云服务器。或者所述中央处理模块510优先将所述识别结果分配给较为优秀，更能准确理解复杂语言或者技
能的nlp云服务器处理。中央处理模块510根据自身的对于nlp的处理能力介入到nlp整个语言理解过程的不同阶段，在获得的识别结果的类型的基础上找到对应的云服务器进行后续的处理，由此，能够优先通过自身的语音厂商处理数据，掌握最关键的数据，当自身的语音厂商不能处理所述数据时，分配至其它语音厂商处理，能够广纳众语音厂商之长，减少服务器的成本，能够根据不同的语言理解结果将其进行更优的分配。
91.本发明还提供一种存储介质，用于存储一种用于执行上述任意一种任务调度方法的计算机程序。例如计算机程序指令，当其被计算机执行时，通过该计算机的操作，可以调用或提供根据本技术的方法和/或技术方案。而调用本技术的方法的程序指令，可能被存储在固定的或可移动的存储介质中，和/或通过广播或其他信号承载媒体中的数据流而被传输和/或被存储在根据程序指令运行的计算机设备的存储介质中。在此，根据本技术的一个实施例中，包括一个如图5所示的计算机设备400，所述计算机设备400优选包括用于存储计算机程序的存储介质200和用于执行计算机程序的处理器300，其中，当该计算机程序被该处理器300执行时，触发该计算机设备400执行基于前述多个实施例中的方法和/或技术方案。
92.需要注意的是，本技术可在软件和/或软件与硬件的组合体中被实施，例如，可采用专用集成电路(asic)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中，本技术的软件程序可以通过处理器执行以实现上文步骤或功能。同样地，本技术的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中，例如，ram存储器，磁或光驱动器或软磁盘及类似设备。另外，本技术的一些步骤或功能可采用硬件来实现，例如，作为与处理器配合从而执行各个步骤或功能的电路。
93.根据本发明的方法可以作为计算机实现方法在计算机上实现、或者在专用硬件中实现、或以两者的组合的方式实现。用于根据本发明的方法的可执行代码或其部分可以存储在计算机程序产品上。计算机程序产品的示例包括存储器设备、光学存储设备、集成电路、服务器、在线软件等。优选地，计算机程序产品包括存储在计算机可读介质上以便当所述程序产品在计算机上执行时执行根据本发明的方法的非临时程序代码部件。
94.在优选实施例中，计算机程序包括适合于当计算机程序在计算机上运行时执行根据本发明的方法的所有步骤的计算机程序代码部件。优选地，在计算机可读介质上体现计算机程序。
95.综上所述，本发明通过获取语音信号，将所述语音信号进行语音识别，获得所述语音信号的识别结果；将所述识别结果进行分类处理，获得所述识别结果的类型；根据所述类型选择一个语言理解目标服务器对所述识别结果进行自然语言理解，获得自然语言理解结果。通过在分配语言理解目标服务器进行自然语言理解之前，先将所述识别结果进行分类处理，获得所述识别结果的类型，然后根据所述类型选择一个语言理解目标服务器，避免使用多个语言理解服务器来可以减少服务器成本同时获得最优语音处理结果。
96.当然，本发明还可有其它多种实施例，在不背离本发明精神及其实质的情况下，熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。
97.本发明还公开了：a1、一种语音处理方法，包括：
98.获取语音信号，将所述语音信号进行语音识别，获得所述语音信号的识别结果；
99.将所述识别结果进行分类处理，获得所述识别结果的类型；
100.根据所述类型选择一个语言理解目标服务器对所述识别结果进行自然语言理解，获得自然语言理解结果。
101.a2、根据a1所述的语音处理方法，将所述识别结果进行分类处理，获得所述识别结果的类型的步骤包括：
102.将所述识别结果进行意图/领域分类处理，获得所述识别结果的意图/领域类型。
103.a3、根据a2所述的语音处理方法，根据所述类型选择一个语言理解目标服务器对所述识别结果进行自然语言理解的步骤包括：
104.选取擅长所述意图/领域类型的一个语言理解服务器为所述语言理解目标服务器，对所述识别结果进行自然语言理解。
105.a4、根据a3所述的语音处理方法，选取擅长所述意图/领域类型的一个语言理解服务器为所述语言理解目标服务器，对所述识别结果进行自然语言理解的步骤包括：
106.获取多个语言理解服务器的过往标注信息，通过所述过往标注信息判断擅长所述意图/领域类型的一个语言理解目标服务器；
107.选取所述语言理解目标服务器对所述识别结果进行自然语言理解。
108.a5、根据a1所述的语音处理方法，根据所述类型选择一个语言理解目标服务器对所述识别结果进行自然语言理解，获得自然语言理解结果的步骤之后还包括：
109.根据所述自然语言理解结果合成对所述语音信号进行语音回复的语音回复结果。
110.a6、根据a5所述的语音处理方法，根据所述自然语言理解结果合成对所述语音信号进行回复的语音回复结果的步骤包括：
111.根据所述自然语言理解结果获取对所述语音信号进行回复的回复结果；
112.选择擅长对所述回复结果进行语音合成的语音合成目标服务器，所述语音合成目标服务器合成所述语音回复结果。
113.a7、根据a2所述的语音处理方法，将所述识别结果进行意图/领域分类处理，获得所述识别结果的意图/领域类型的步骤之后还包括：
114.对所述识别结果的意图/领域类型进行界面展现。
115.a8、根据a7所述的语音处理方法，对所述识别结果的意图/领域类型进行界面展现的步骤包括：
116.将所述意图/领域类型与一个界面展现目标服务器进行匹配；
117.通过界面展现目标服务器对所述识别结果的意图/领域类型进行界面展现。
118.b9、一种语音处理装置，包括：
119.语音识别模块，用于获取语音信号，将所述语音信号进行语音识别，获得所述语音信号的识别结果；
120.分类模块，用于将所述识别结果进行分类处理，获得所述识别结果的类型；
121.自然语言理解结果获取模块，用于根据所述类型选择一个语言理解目标服务器对所述识别结果进行自然语言理解，获得自然语言理解结果。
122.b10、根据b9所述的语音处理装置，所述分类模块包括：
123.意图/领域分类子模块，用于将所述识别结果进行意图/领域分类处理，获得所述识别结果的意图/领域类型。
124.b11、根据b10所述的语音处理装置，所述自然语言理解结果获取模块包括：
125.语言理解服务器选取子模块，用于选取擅长所述意图/领域类型的一个语言理解服务器为所述语言理解目标服务器，对所述识别结果进行自然语言理解。
126.b12、根据b11所述的语音处理装置，所述语言理解服务器选取子模块包括：
127.过往标注信息获取单元，用于获取多个语言理解服务器的过往标注信息，通过所述过往标注信息判断擅长所述意图/领域类型的一个语言理解目标服务器；
128.语言理解服务器选取单元，用于选取所述语言理解目标服务器对所述识别结果进行自然语言理解。
129.b13、根据b9所述的语音处理装置，还包括：
130.语音回复结果合成模块，用于根据所述自然语言理解结果合成对所述语音信号进行语音回复的语音回复结果。
131.b14、根据b13所述的语音处理装置，所述语音回复结果合成模块包括：
132.回复结果获取子模块，用于根据所述自然语言理解结果获取对所述语音信号进行回复的回复结果；
133.语音合成服务器选取子模块，用于选择擅长对所述回复结果进行语音合成的语音合成目标服务器，所述语音合成目标服务器合成所述语音回复结果。
134.b15、根据b10所述的语音处理装置，还包括：
135.界面展现模块，用于对所述识别结果的意图/领域类型进行界面展现。
136.b16、根据b15所述的语音处理装置，所述界面展现模块包括：
137.界面展现目标服务器获取子模块，用于将所述意图/领域类型与一个界面展现目标服务器进行匹配；
138.界面展现子模块，用于通过界面展现目标服务器对所述识别结果的意图/领域类型进行界面展现。
139.c17、一种语音处理系统，包括中央处理模块、语音信号获取模块、类型获取模块；
140.所述中央处理模块获取语音信号获取模块的识别结果，并将所述识别结果发送至所述类型获取模块；
141.所述类型获取模块用于将所述识别结果进行分类处理，获得所述识别结果的类型；
142.所述中央处理模块所述识别结果的类型选择一个语言理解目标服务器对所述识别结果进行自然语言理解，获得自然语言理解结果。
143.d18、一种存储介质，用于存储一种用于执行a1～a8中任意一种语音处理方法的计算机程序。
144.e19、一种计算机设备，包括存储介质、处理器以及存储在所述存储介质上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现a1～a8任一项所述的语音处理方法。