首页 > 乐器声学 专利正文
语音解析方法和装置、计算机可读介质与流程

时间:2022-02-03 阅读: 作者:专利查询

语音解析方法和装置、计算机可读介质与流程
语音解析方法和装置、计算机可读介质
1.本公开专利申请是分案申请。原案的申请号是:201910372957.1,申请日是:2019年5月6日,发明名称是:语音解析方法和装置、计算机可读介质。
技术领域
2.本公开实施例涉及计算机技术领域,特别涉及语音解析方法和装置、计算机可读介质。


背景技术:

3.随着互联网和物联网技术的发展,语音解析的相关技术被广泛的应用于各个行业。如,人机交互,车机交互等。
4.在现有技术中,主要通过在智能设备上设置解析引擎,通过解析引擎对语音指令进行解析,并基于解析结果对语音指令进行响应。
5.具体地,解析引擎的数量为多个,当用户发出语音指令时,每个解析引擎均对该语音指令进行解析,并每个解析引擎均得到召回结果时,从多个召回结果中选取一个召回结果对语音指令进行响应。


技术实现要素:

6.本公开实施例提供语音解析方法和装置、计算机可读介质。
7.第一方面,本公开实施例提供了一种语音解析方法,应用于包括多个解析引擎和至少一个二分类器的装置,每个二分类器与一个解析引擎对应,所述方法包括:
8.所述二分类器接收并解析语音指令,得到第一信息,所述第一信息包括所述语音指令的类别和召回置信度;
9.所述解析引擎接收并解析所述语音指令,得到第二信息,所述第二信息包括所述语音指令的召回结果;
10.处理器确定当前获取到的所述第一信息对应的二分类器;
11.所述处理器根据当前获取到的所述第一信息,从已获取的至少一个所述第二信息所对应的解析引擎中,选取出与确定出的二分类器对应的解析引擎;
12.所述处理器根据选取出的解析引擎所对应的第二信息对语音指令进行响应。
13.在一些实施例中,建立二分类器的步骤包括:
14.所述处理器获取每个所述解析引擎的运行次数;
15.所述处理器针对运行次数大于预设第一阈值的解析引擎,建立二分类器。
16.在一些实施例中,所述处理器根据当前获取到的所述第一信息,从已获取的至少一个所述第二信息所对应的解析引擎中,选取出与确定出的二分类器对应的解析引擎,包括:
17.所述处理器获取当前获取到的所述第一信息中的召回置信度;
18.所述处理器响应于所述召回置信度大于预设第二阈值,从已获取的至少一个所述
第二信息所对应的解析引擎中,选取出与确定出的二分类器对应的解析引擎。
19.在一些实施例中,在所述处理器获取当前获取到的所述第一信息中的召回置信度之后,所述处理器响应于所述召回置信度小于或等于所述第二阈值,执行以下步骤:
20.获取下一个所述第一信息,以下一个所述第一信息作为当前获取到的所述第一信息;并且,返回执行获取当前获取到的所述第一信息中的召回置信度的步骤。
21.在一些实施例中,在所述处理器根据选取出的解析引擎所对应的第二信息对语音指令进行响应之后,还包括:
22.中断当前正在解析的解析引擎和二分类器。
23.第二方面,本公开实施例提供了一种语音解析装置,包括多个解析引擎和至少一个二分类器的装置,每个二分类器与一个解析引擎对应,其中,
24.所述二分类器用于,接收并解析语音指令,得到第一信息,所述第一信息包括所述语音指令的类别和召回置信度;
25.所述解析引擎用于,接收并解析所述语音指令,得到第二信息,所述第二信息包括所述语音指令的召回结果;
26.处理器,包括:确定模块,用于确定当前获取到的所述第一信息对应的二分类器,并根据当前获取到的所述第一信息,从已获取的至少一个所述第二信息所对应的解析引擎中,选取出与确定出的二分类器对应的解析引擎;响应模块,用于根据选取出的解析引擎所对应的第二信息对语音指令进行响应。
27.在一些实施例中,所述处理器包括:
28.获取模块,用于获取每个所述解析引擎的运行次数;
29.建立模块,用于针对运行次数大于预设第一阈值的解析引擎,建立二分类器。
30.在一些实施例中,所述处理器还包括:
31.获取模块,用于获取所述第一信息中的召回置信度;
32.所述确定模块用于响应于所述召回置信度大于预设第二阈值,从已获取的至少一个所述第二信息所对应的解析引擎中,选取出与确定出的二分类器对应的解析引擎。
33.在一些实施例中,所述获取模块还用于响应于所述召回置信度小于或等于所述第二阈值,获取下一个所述第一信息,以下一个所述第一信息作为当前获取到的所述第一信息;并且返回执行获取当前获取到的所述第一信息中的召回置信度的步骤。
34.在一些实施例中,所述处理器还包括:
35.中断模块,用于中断当前正在解析的解析引擎和二分类器。
36.第三方面,本公开实施例提供了一种计算机可读介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现如上任一实施例所述的方法。
37.本公开实施例提供的一种语音解析方法,该方法应用于包括多个解析引擎和至少一个二分类器的装置,每个二分类器与一个解析引擎对应,该方法包括:二分类器接收并解析语音指令,得到第一信息,解析引擎接收并解析语音指令,得到第二信息,处理器确定当前获取到的第一信息对应的二分类器,并根据当前获取到的第一信息,从已获取的至少一个第二信息所对应的解析引擎中,选取出与确定出的二分类器对应的解析引擎,并根据选取出的解析引擎所对应的第二信息对语音指令进行响应。通过本公开实施例提供的方案,一方面,由于引入了二分类器,因此基于第一信息和第二信息对语音指令进行响应,避免了
现有技术中只是基于第二信息(即解析引擎反馈的信息)进行判断时,造成的可能存在误差的技术弊端,进而可确保响应的准确性和有效性;另一方面,由于当接收到第一信息时,就优先判断是否进行响应,而无需等待所有的二分类器分别反馈的第一信息,因此还可实现响应的高效性。
附图说明
38.附图用来提供对本公开实施例的进一步理解,并且构成说明书的一部分,与本公开的实施例一起用于解释本公开,并不构成对本公开的限制。通过参考附图对详细示例实施例进行描述,以上和其他特征和优点对本领域技术人员将变得更加显而易见,在附图中:
39.图1为本公开实施例的语音解析方法的示意图;
40.图2为本公开实施例的建立二分类器的方法的示意图;
41.图3为本公开实施例的处理器根据至少一个第一信息和至少一个第二信息对语音指令进行响应的方法的示意图;
42.图4为本公开另一实施例的处理器根据至少一个第一信息和至少一个第二信息对语音指令进行响应的方法的示意图;
43.图5为本公开另一实施例的处理器根据至少一个第一信息和至少一个第二信息对语音指令进行响应的方法的示意图。
44.图6为本公开另一实施例的语音解析方法的示意图;
45.图7为本公开实施例的语音解析装置的示意图;
46.图8为本公开实施例的处理器的示意图;
47.图9为本公开另一实施例的处理器的示意图;
48.图10为本公开另一实施例的处理器的示意图;
49.附图标记:
50.100、解析引擎,200、二分类器,300、处理器,1、获取模块,2、建立模块,3、选取模块,4、确定模块,5、响应模块,6、中断模块。
具体实施方式
51.为使本领域的技术人员更好地理解本发明的技术方案,下面结合附图对本发明提供的语音解析方法和装置、计算机可读介质进行详细描述。
52.在下文中将参考附图更充分地描述示例实施例,但是所述示例实施例可以以不同形式来体现且不应当被解释为限于本文阐述的实施例。反之,提供这些实施例的目的在于使本公开透彻和完整,并将使本领域技术人员充分理解本公开的范围。
53.如本文所使用的,术语“和/或”包括一个或多个相关列举条目的任何和所有组合。
54.本文所使用的术语仅用于描述特定实施例,且不意欲限制本公开。如本文所使用的,单数形式“一个”和“该”也意欲包括复数形式,除非上下文另外清楚指出。还将理解的是,当本说明书中使用术语“包括”和/或“由
……
制成”时,指定存在所述特征、整体、步骤、操作、元件和/或组件,但不排除存在或添加一个或多个其他特征、整体、步骤、操作、元件、组件和/或其群组。
55.本文所述实施例可借助本公开的理想示意图而参考平面图和/或截面图进行描
述。因此,可根据制造技术和/或容限来修改示例图示。因此,实施例不限于附图中所示的实施例,而是包括基于制造工艺而形成的配置的修改。因此,附图中例示的区具有示意性属性,并且图中所示区的形状例示了元件的区的具体形状,但并不旨在是限制性的。
56.除非另外限定,否则本文所用的所有术语(包括技术和科学术语)的含义与本领域普通技术人员通常理解的含义相同。还将理解,诸如那些在常用字典中限定的那些术语应当被解释为具有与其在相关技术以及本公开的背景下的含义一致的含义,且将不解释为具有理想化或过度形式上的含义,除非本文明确如此限定。
57.根据本公开实施例的一个方面,本公开实施例提供了一种语音解析方法,该方法应用于包括多个解析引擎和至少一个二分类器的装置。在该装置中,至少一个解析引擎对应一个二分类器,且每个二分类器与一个解析引擎对应。
58.请参阅图1,图1为本公开实施例的语音解析方法的示意图。
59.如图1所示,该方法包括:
60.s1:二分类器接收并解析语音指令,得到第一信息。
61.其中,二分类器对接收到的语音指令进行解析的过程,实质为二分类器对语音指令进行识别,确定该语音指令的类别的过程,语音指令的类别包括:导航、音乐、天气、股票、百科等。
62.如,导航类别的二分类器对某语音指令进行识别,可确定该语音指令是否为导航类别的语音指令。二分类器对语音指令进行识别的具体流程可参见现有技术,此处不再赘述。
63.s2:解析引擎接收并解析语音指令,得到第二信息。
64.其中,解析引擎用于对语音指令进行解析,得到语音指令对应的意图,进而基于意图从数据库中确定语音指令的召回结果(即第二信息)。
65.需要说明的是,s1和s2之间并无顺序限制。
66.s3:处理器根据至少一个第一信息和至少一个第二信息对语音指令进行响应。
67.在现有技术中,由多个解析引擎对语音指令进行解析,得到多个第二信息,从多个第二信息中选取一个第二信息对语音指令进行响应。
68.而在本公开实施例中,通过由二分类器和解析引擎分别进行解析,并根据二者分别反馈的信息(即第一信息和第二信息)对语音指令进行响应。
69.也就是说,相对于现有技术,本公开实施例提供了一种语音解析方法。且本公开实施例的语音解析方法,采用了将第一信息和第二信息相结合的方式对语音指令进行响应的方法,相较于现有技术,可确保响应的准确性和有效性。
70.结合图2可知,在一些实施例中,在s1之前,还包括建立二分类器的步骤,具体包括:
71.s01:处理器获取每个解析引擎的运行次数。
72.具体地,处理器可基于每个解析引擎的历史运行信息确定每个解析引擎的运行次数。
73.即,处理器从每个解析引擎的历史运行信息中获取每个解析引擎的运行次数。
74.s02:处理器针对运行次数大于预设第一阈值的解析引擎,建立二分类器。
75.其中,第一阈值的大小可基于应用场景和用户需求等进行设置。
76.在该步骤中,若某个解析引擎的运行次数大于第一阈值,则建立该解析引擎对应的二分类器。
77.示例性地,共有三个解析引擎,且分别为导航解析引擎,音乐解析引擎和百科解析引擎。其中,导航解析引擎和音乐解析引擎的运行次数均大于第一阈值,则建立导航解析引擎对应的二分类器,且建立音乐解析引擎对应的二分类器。
78.也就是说,建立用户使用次数较多的解析引擎对应的二分类器,可以实现节约成本,且确保响应的准确性的技术效果。其中,具体建立二分类器的方法可参见现有技术,此处不再赘述。
79.结合图3可知,在一些实施例中,如果第一信息和第二信息均为多个,且第一信息包括召回置信度,则s3包括:
80.s3-1:处理器根据每个二分类器对应的召回置信度,选取最大召回置信度对应的二分类器。
81.s3-2:处理器确定选取出的二分类器对应的解析引擎。
82.s3-3:处理器根据确定出的解析引擎对应的第二信息对语音指令进行响应。
83.示例性地,第一信息的数量为四个,一个第一信息对应一个二分类器。第二信息的数量为十个,一个第二信息对应一个解析引擎。处理器获取四个第一信息分别对应的召回置信度(即四个召回置信度),从四个召回置信度中确定最大召回置信度,并选取该最大召回置信度对应的二分类器。
84.由于每个二分类器仅与一个解析引擎对应,所以,可从十个解析引擎起中确定与最大召回置信度的二分类器对应的解析引擎,并根据该解析引擎对应的第二信息进行响应。由于选取的为最大召回度对应的解析引擎反馈的第二信息对语音指令进行响应,所以,可确保响应的准确性。
85.结合图4可知,在一些实施例中,如果第一信息包括召回置信度,则s3包括:
86.s3-11:若处理器已获取至少一个第二信息,当处理器获取到第一信息时,则处理器确定第一信息对应的二分类器,并获取第一信息中的召回置信度。
87.如:处理器已经获取到五个第二信息,当处理器获取到第一信息(即获取到第一个第一信息)时,则处理器确定该第一信息对应的二分类器,并对该第一信息中的召回置信度进行获取。
88.s3-12:响应于召回置信度大于预设第二阈值,处理器从至少一个第二信息中选取与确定出的二分类器对应的解析引擎。
89.其中,第二阈值可基于应用场景及用户需求进行设置。
90.在该步骤中,如果召回置信度大于第二阈值,则选取出与上个步骤中已经确定出的二分类器对应的解析引擎。
91.s3-13:处理器根据选取出的解析引擎对应的第二信息对语音指令进行响应。
92.在本公开实施例中,一方面,可实现响应的准确性(参见上述实施例中的分析);另一方面,由于当接收到第一信息时,就优先判断是否进行响应,而无需等待所有的二分类器分别反馈的第一信息,因此还可实现响应的高效性。
93.在一些实施例中,如果第一信息中的召回置信度小于或等于第二阈值,则返回至获取下一个第一信息,并获取该第一信息中的召回置信度的步骤。
94.结合图5可知,在一些实施例中,如果二分类器为多个,且第一信息包括召回置信度,则s3包括:
95.s3-21:若处理器已获取至少一个第一信息,当处理器获取到第二信息时,则处理器确定第二信息对应的解析引擎。
96.如:处理器已经获取到五个第一信息,当处理器获取到第二信息(即获取到第一个第二信息)时,则处理器确定该第二信息对应的解析引擎。
97.s3-22:响应于至少一个第一信息对应的二分类器,与确定出的解析引擎对应,处理器获取与确定出的解析引擎对应的二分类器的第一信息中的召回置信度。
98.在该步骤中,由于一个第一信息对应一个二分类器,则五个第一信息对应五个二分类器。如果五个二分类器中有一个与解析引擎对应,则获取该二分类器(即与解析引擎对应的二分类器)对应的第一信息,并获取该第一信息中的召回置信度。
99.s3-23:响应于召回置信度大于预设第二阈值,处理器根据确定出的解析引擎对应的第二信息对语音指令进行响应。
100.也就是说,如果二分类器对应的第一信息中的召回置信度大于第二阈值,且该二分类器与解析引擎(第一个第一信息对应的解析引擎)对应,则根据该解析引擎对应的第一信息进行响应。
101.同理,在本公开实施例中,一方面,可实现响应的准确性(参见上述实施例中的分析);另一方面,由于当接收到第二信息时,就优先判断是否进行响应,而无需等待所有的解析引擎分别反馈的第二信息,因此还可实现响应的高效性。
102.在一些实施例中,如果第一信息中的召回置信度小于或等于第二阈值,则返回至获取下一个第二信息,并确定第二信息对应的解析引擎的步骤。
103.结合图6可知,在一些实施例中,在s3之后,该方法还包括:
104.s4:中断当前正在解析的解析引擎和二分类器。
105.示例性地,在现有技术中,装置包括多个解析引擎,如包括导航解析引擎,音乐解析引擎和百科解析引擎,当用户发出“播放周杰伦的东风破”的语音指令时,由上述三个解析引擎分别对语音指令进行解析,并分别在预设数据库中进行搜索,直至三个解析引擎均反馈召回结果(即第二信息),由处理器从中选取一个第二信息进行响应。
106.而在本技术中,如果针对导航解析引擎和音乐解析引擎分别建立了导航二分类器和音乐二分类器,则当音乐解析引擎反馈了第二信息,音乐二分类器反馈了第一信息,且第一信息中的召回置信度大于第二阈值时,则根据第二信息对语音指令进行响应,并中断当前正在解析的导航解析引擎、导航二分类器和百科解析引擎。进而实现节约成本,节约能耗的技术效果。且,由于本公开实施例无需等待所有解析引擎均反馈结果,进而可以实现节约时间的技术效果。
107.根据本公开实施例的另一个方面,本公开实施例提供了一种计算机可读介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现如上任一实施例所述的方法。
108.根据本公开实施例的一个方面,本公开实施例提供了一种语音解析装置。
109.请参阅图7,图7为本公开实施例的语音解析装置的示意图。
110.如图7所述,该装置包括多个解析引擎100和至少一个二分类器200(图7中仅示范性的画出一个二分类器)的装置,至少一个解析引擎100对应一个二分类器200,且每个二分
类器200与一个解析引擎100对应,其中,
111.二分类器200用于,接收并解析语音指令,得到第一信息;
112.解析引擎100用于,接收并解析语音指令,得到第二信息;
113.处理器300,用于根据至少一个第一信息和至少一个第二信息对语音指令进行响应。
114.请参阅图8,图8为本公开实施例的处理器300的示意图。
115.如图8所述,在一些实施例中,该处理器300包括:
116.获取模块1,用于获取每个解析引擎的运行次数;
117.建立模块2,用于针对运行次数大于预设第一阈值的解析引擎100,建立二分类器200。
118.结合图9可知,在一些实施例中,如果第一信息和第二信息均为多个,且第一信息包括召回置信度,则处理器300还包括:
119.选取模块3,用于根据每个二分类器200对应的召回置信度,选取最大召回置信度对应的二分类器200;
120.确定模块4,用于确定选取出的二分类器200对应的解析引擎100;
121.响应模块5,用于根据确定出的解析引擎100对应的第二信息对语音指令进行响应。
122.结合图9可知,在一些实施例中,如果第一信息包括召回置信度,则处理器300还包括:
123.若处理器300已获取至少一个所述第二信息,当处理器300获取到第一信息时,则确定模块4用于,确定第一信息对应的二分类器200,并由获取模块1获取第一信息中的召回置信度;
124.确定模块4还用于,响应于召回置信度大于预设第二阈值,从至少一个第二信息中选取与确定出的二分类器200对应的解析引擎100;
125.响应模块5,用于根据选取出的解析引擎100对应的第二信息对语音指令进行响应。
126.结合图9可知,在一些实施例中,如果二分类器200为多个,且第一信息包括召回置信度,则处理器300包括:
127.若处理器300已获取至少一个第一信息,当处理器300获取到第二信息时,则确定模块4用于,确定第二信息对应的解析引擎100;
128.获取模块1,用于响应于至少一个第一信息对应的二分类器200,与确定出的解析引擎100对应,获取与确定出的解析引擎100对应的二分类器200的第一信息中的召回置信度;
129.响应模块5,用于响应于召回置信度大于预设第二阈值,根据确定出的解析引擎100对应的第二信息对所述语音指令进行响应。
130.结合图10可知,在一些实施例中,该处理器300还包括:
131.中断模块6,用于中断当前正在解析的解析引擎100和二分类器200。
132.本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,
在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于ram、rom、eeprom、闪存或其他存储器技术、cd-rom、数字多功能盘(dvd)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
133.本文已经公开了示例实施例,并且虽然采用了具体术语,但它们仅用于并仅应当被解释为一般说明性含义,并且不用于限制的目的。在一些实例中,对本领域技术人员显而易见的是,除非另外明确指出,否则可单独使用与特定实施例相结合描述的特征、特性和/或元素,或可与其他实施例相结合描述的特征、特性和/或元件组合使用。因此,本领域技术人员将理解,在不脱离由所附的权利要求阐明的本公开的范围的情况下,可进行各种形式和细节上的改变。