首页 > 乐器声学 专利正文
语音交互模型的训练方法、语音交互方法及装置与流程

时间:2022-02-24 阅读: 作者:专利查询

语音交互模型的训练方法、语音交互方法及装置与流程

1.本公开涉及人工智能技术中的语音技术和深度学习技术,可以应用于人机交互等语音识别的场景,尤其涉及一种语音交互模型的训练方法、语音交互方法及装置。


背景技术:

2.语音交互被广泛的应用于各种场景,如智能音箱、智能电视等智能家居场景,以及车载系统、商场中的数字机器人等语音交互场景等,对交互语音进行澄清是完成语音交互的重要因素。
3.在现有技术中,为了完成可靠的语音交互,交互设备(如智能音箱等)接收到交互语音时,会判断是否需要对交互语音进行澄清,且通常采用的方法为:对交互语音进行语义解析,得到解析结果,若解析结果表征交互语音的语义逻辑完整,则确定无需澄清,反之,若解析结果表征交互语音的语义逻辑不完整,则确定需要澄清。
4.然而,由于不同的交互语音具有个性化,因此,采用上述方法,存在泛化能力偏低,缺乏普遍适用性的技术问题。


技术实现要素:

5.本公开提供了一种用于语音交互的泛化能力的语音交互模型的训练方法、语音交互方法及装置。
6.根据本公开的第一方面,提供了一种语音交互模型的训练方法,包括:
7.获取训练语音文本,并对所述训练语音文本进行解析处理,得到所述训练语音文本的训练句式信息;
8.对所述训练语音文本进行特征提取,得到第一语音特征,对所述训练句式信息进行特征提取,得到第二语音特征;
9.根据所述第一语音特征和所述第二语音特征,训练得到语音交互模型,其中,所述语音交互模型用于确定是否需要对语音交互场景中的交互语音进行澄清,以完成语音交互。
10.根据本公开的第二方面,提供了一种语音交互方法,包括:
11.获取用户发起的交互语音;
12.将所述交互语音输入至预先训练的语音交互模型,得到澄清预测结果,其中,所述语音交互模型是基于第一方面所述的方法获得的,所述澄清预测结果用于表征是否需要对所述交互语音进行澄清;
13.根据所述澄清预测结果生成并输出反馈所述交互语音的反馈语音。
14.根据本公开的第三方面,提供了一种语音交互模型的构建方法,包括:
15.建立用于输入训练语音文本的第一输入层、以及用于输入所述训练语音文本的训练句式信息的第二输入层,并建立与所述第一输入层对应的第一特征提取层、与所述第二输入层对应的第二特征提取层;
16.建立全连接层和输出层;其中,所述第一特征提取层和所述第二特征提取层,分别与所述全连接层连接,所述全连接层还与所述输出层连接;
17.根据所述第一输入层、所述第二输入层、所述第一特征提取层、所述第二特征提取层、所述全连接层和所述输出层,建立用于执行如第一方面所述方法的语音交互模型、或者,用于执行如第二方面所述方法的语音交互模型。
18.根据本公开的第四方面,提供了一种语音交互模型的训练装置,包括:
19.第一获取单元,用于获取训练语音文本;
20.解析单元,用于对所述训练语音文本进行解析处理,得到所述训练语音文本的训练句式信息;
21.第一提取单元,用于对所述训练语音文本进行特征提取,得到第一语音特征;
22.第二提取单元,用于对所述训练句式信息进行特征提取,得到第二语音特征;
23.训练单元,用于根据所述第一语音特征和所述第二语音特征,训练得到语音交互模型,其中,所述语音交互模型用于确定是否需要对语音交互场景中的交互语音进行澄清,以完成语音交互。
24.根据本公开的第五方面,提供了一种语音交互装置,包括:
25.第二获取单元,用于获取用户发起的交互语音;
26.输入单元,用于将所述交互语音输入至预先训练的语音交互模型,得到澄清预测结果,其中,所述语音交互模型是基于第四方面所述的装置获得的,所述澄清预测结果用于表征是否需要对所述交互语音进行澄清;
27.生成单元,用于根据所述澄清预测结果生成反馈所述交互语音的反馈语音;
28.输出单元,用于输出所述反馈语音。
29.根据本公开的第六方面,提供了一种语音交互模型的构建装置,包括:
30.第一建立单元,用于建立用于输入训练语音文本的第一输入层、以及用于输入所述训练语音文本的训练句式信息的第二输入层;
31.第二建立单元,用于建立与所述第一输入层对应的第一特征提取层、与所述第二输入层对应的第二特征提取层;
32.第三建立单元,用于建立全连接层和输出层;其中,所述第一特征提取层和所述第二特征提取层,分别与所述全连接层连接,所述全连接层还与所述输出层连接;
33.第四建立单元,用于根据所述第一输入层、所述第二输入层、所述第一特征提取层、所述第二特征提取层、所述全连接层和所述输出层,建立用于执行如第四方面所述的装置;或者,用于执行如第五方面所述的装置。
34.根据本公开的第七方面,提供了一种电子设备,包括:
35.至少一个处理器;以及
36.与所述至少一个处理器通信连接的存储器;其中,
37.所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行第一方面所述的方法;或者,以使所述至少一个处理器能够执行第二方面所述的方法;或者,以使所述至少一个处理器能够执行第三方面所述的方法。
38.根据本公开的第八方面,提供了一种存储有计算机指令的非瞬时计算机可读存储
介质,其中,所述计算机指令用于使所述计算机执行第一方面所述的方法;或者,所述计算机指令用于使所述计算机执行第二方面所述的方法;或者,所述计算机指令用于使所述计算机执行第三方面所述的方法。
39.根据本公开的第九方面,提供了一种计算机程序产品,所述计算机程序产品包括:计算机程序,所述计算机程序存储在可读存储介质中,电子设备的至少一个处理器可以从所述可读存储介质读取所述计算机程序,所述至少一个处理器执行所述计算机程序使得电子设备执行第一方面所述的方法;或者,所述至少一个处理器执行所述计算机程序使得电子设备执行第二方面所述的方法;或者,所述至少一个处理器执行所述计算机程序使得电子设备执行第三方面所述的方法。
40.根据本公开的第十方面,提供了一种语音交互设备,包括:
41.语音采集设备,用于采集用户发起的交互语音;
42.如第五方面所述的装置。
43.应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
44.附图用于更好地理解本方案,不构成对本公开的限定。其中:
45.图1是可以实现本公开实施例的语音交互方法的场景图;
46.图2是根据本公开第一实施例的示意图;
47.图3是根据本公开第二实施例的示意图;
48.图4是根据本公开第三实施例的示意图;
49.图5是根据本公开第四实施例的示意图;
50.图6是根据本公开第五实施例的示意图;
51.图7是根据本公开第六实施例的示意图;
52.图8是根据本公开实施例的语音交互模型的示意图;
53.图9是根据本公开第七实施例的示意图;
54.图10是根据本公开第八实施例的示意图;
55.图11是根据本公开第九实施例的示意图;
56.图12是根据本公开第十实施例的示意图;
57.图13是根据本公开第十一实施例的示意图;
58.图14是根据本公开第十二实施例的示意图;
59.图15是用来实现本公开实施例的语音交互模型的训练方法、语音交互方法、语音交互模型的构建方法的电子设备的框图;
60.图16是根据本公开实施例的语音交互方法的原理示意图。
具体实施方式
61.以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同
样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
62.语音交互是指,基于语音输入的新一代交互模式,通过说话就可以得到反馈结果。
63.例如,结合图1可知,用户101可以与车辆102之间进行语音交互,且通过语音交互可以实现对车辆102的控制,如控制车辆102播放音乐,或者,请求车辆102输出导航路径等。
64.又如,用户101可以与机器人103进行语音交互,若机器人103被放置于商场时,则用户101可以基于语音交互实现查找商场的店铺位置等。
65.再如,用户101可以与智能音箱104之间进行语音交互,且通过语音交互可以实现控制智能音箱104播放音乐,或者讲述故事等。
66.应该理解的是,上述实施例只是用于示范性地说明,语音交互可能适用的应用场景,而不能理解为对语音交互的应用场景的限定。
67.为了提高语音交互的准确性和可靠性,通常需要确定是否需要对交互语音进行澄清。
68.例如,当语音交互的场景为如图1中用户与智能音箱之间的语音交互,且用户发起的交互语音为“播放xx(人名)的歌曲xx”时,智能音箱可能没有完全听清该交互语音,则需要对该交互语音进行澄清,如“主人,您想听谁的歌呢?”69.在相关技术中,通常基于对交互语音的语义解析结果,确定是否需要澄清,然而,语音交互的过程是一个多元化的过程,由于不同用户的兴趣爱好各有不同,因此,交互语音也相对具有个性人,所以,采用基于语义解析结果确定是否需要澄清,存在泛化能力偏低,缺乏普遍适用性的技术问题。
70.为了避免上述技术问题,本公开的发明人经过创造性地劳动,得到了本公开的发明构思:分别对训练语音文本和训练句式信息进行特征提取,并基于各自对应的语音特征进行训练得到语音交互模型,以由语音交互模型确定是否需要对交互语音进行澄清。
71.基于上述发明构思,本公开提供一种语音交互模型的训练方法、语音交互方法及装置,涉及人工智能技术中的语音技术和深度学习技术,可以应用于人机交互等语音识别的场景,以达到澄清的准确性和可靠性。
72.图2是根据本公开第一实施例的示意图,如图2所示,本公开实施例的语音交互模型的训练方法,包括:
73.s201:获取训练语音文本,并对训练语音文本进行解析处理,得到训练语音文本的训练句式信息。
74.示例性地,本实施例的执行主体可以语音交互模型的训练装置(下文简称为训练装置),训练装置可以为服务器(如本地服务器,或者,云端服务器),也可以为计算机,也可以为终端设备,也可以为处理器,也可以为芯片等,本实施例不做限定。
75.其中,训练语音文本的数量可以由训练装置基于需求、历史记录、以及试验等方式进行设置,本实施例不做限定。
76.例如,针对质量需求相对偏高的语音交互场景,训练语音文本的数量可以相对偏多;反之,针对质量需求相对偏低的语音交互场景,训练语音文本的数量可以相对偏少。
77.训练句式信息是指,与训练语音文本的句式结构相关的信息。
78.s202:对训练语音文本进行特征提取,得到第一语音特征,并对所述训练句式信息进行特征提取,得到第二语音特征。
79.在本实施例中,通过分别对训练语音文本和训练句式信息进行特征,以得到多个维度的语音特征(即从训练语音文本维度确定的第一语音特征、以及从训练句式信息维度确定的第二语音特征)。
80.s203:根据第一语音特征和第二语音特征,训练得到语音交互模型。
81.基于上述分析,由于第一语音特征可以从训练语音文本的维度表征语音的特征,第二语音特征可以从训练句式信息的维度表征语音的特征,因此,当基于第一语音特征和第二语音特征训练训练得到语音交互模型时,可以提高用于训练的特征的全面性和多样性,使得训练具有较高的可靠性和准确性,进而提高训练得到的语音交互模型的准确性和可靠性的技术效果。
82.其中,语音交互模型用于确定是否需要对语音交互场景中的交互语音进行澄清,以完成语音交互。
83.同理,由于语音交互模型具有较高的准确性和可靠性,因此,在语音交互场景中,当基于语音交互模型确定是否需要对交互语音进行澄清时,可以满足及时澄清和准确澄清的需求,从而提高语音交互的可靠性和有效性,进而满足用户的交互需求和交互体验。
84.基于上述分析可知,本公开实施例提供了一种语音交互模型的训练方法,包括:获取训练语音文本,并对训练语音文本进行解析处理,得到训练语音文本的训练句式信息,对训练语音文本进行特征提取,得到第一语音特征,对所述训练句式信息进行特征提取,得到第二语音特征,根据第一语音特征和第二语音特征,训练得到语音交互模型,在本实施例中,引入了:结合训练语音文本与训练句式信息各自对应的语音特征,训练得到语音交互模型的技术特征,避免了相关技术中确定是否需要对交互语音进行澄清缺乏泛化能力的弊端,提高了普遍适用性,且提高了确定是否需要澄清的准确性和可靠性的技术效果。
85.图3是根据本公开第二实施例的示意图,如图3所示,本公开实施例的语音交互模型的训练方法,包括:
86.s301:获取训练语音文本,并对训练语音文本进行解析处理,得到训练语音文本的训练句式信息。
87.示例性地,关于s301的实现原理,可以参见第一实施例,此处不再赘述。
88.s302:提取训练语音文本在内容上和语音交互场景上各自对应的属性信息。
89.在本实施例中,提取训练语音文本在两个维度的属性信息,分别为内容维度和语音交互场景维度。
90.其中,内容维度可以理解为,与训练语音文本的字、词、句、槽位、置信度(如下文中的整句语音置信度和/或槽位语音置信度)、是否需要澄清等相关的内容。
91.语音交互场景维度可以理解为,与训练语音文本的应用场景相关的内容,如训练语音文本的所属领域(如导航领域等)等。
92.s303:对训练语音文本在内容上和语音交互场景上各自对应的属性信息进行拼接处理,得到第一语音特征。
93.相应地,为了从整体上对训练语音文本的特性进行表征,采用拼接处理的方式,对基于s302得到的两个维度的属性信息进行处理,以使得第一语音特征在对训练语文本的特征进行全面性和多样性的表征的同时,提高第一语音特征的整合性和全局性。
94.例如,第一语音特征中包括:基于字向量表征的训练语音文字在“字”上的特征、基
于词向量表征的训练语音文本在“词”上的特征等,此处不再一一列举。
95.且不同的特征的维数也可以不同,如字向量的维数可以为128维,词向量的维数可以为4维等,此处不再一一列举。在一些实施例中,可以通过维数对第一语音特征中各特征进行突出表示。
96.s304:提取训练句式信息在内容上和语音交互场景上各自对应的属性信息。
97.s305:对训练句式信息在内容上和语音交互场景上各自对应的属性信息进行拼接处理,得到第二语音特征。
98.同理,关于得到第二语音特征的实现原理,可以参见得到第一语音特征的实现原理,此处不再赘述。
99.s306:对第一语音特征和第二语音特征分别进行至少一次编码处理,得到与第一语音特征对应的第一语音编码特征、与第二语音特征对应的第二语音编码特征。
100.示例性地,通过对第一语音特征进行一次或多次编码处理,得到第一语音编码特征;通过对第二语音特征进行一次或多次编码处理,得到第二语音编码特征。
101.同理,编码处理的次数可以由训练装置基于需求、历史记录、以及试验等方式进行确定,本实施例不做限定。
102.例如,可以设置多层长短期记忆网络(lstm,long short

term memory)模型,并由多层长短期记忆网络模型依次对第一语音特征进行编码处理,从而得到第一语音编码特征。
103.示例性地,第一层为双向长短期记忆网络模型,第二层为长短期记忆网络模型,双向长短期记忆网络模型对第一语音特征进行编码处理,得到第一中间编码特征,长短期记忆网络模型对第一中间编码特征进行编码处理,得到第一语音编码特征。
104.应该理解的是,确定第二语音编码特征的原理,与确定第一语音编码特征的原理相同,此处不再赘述。
105.应该理解地是,上述编码处理的网络模型只是用于示范性地说明,而不能理解为对编码处理的限定,例如,还可以采用transfromer网络模型等。
106.且在训练过程中,用于编码处理的网络模型之间可以共享参数,也可以适用各自独立的参数。
107.例如,用于生成第一语音编码特征的网络模型、与用于生成第二语音编码特征的网络模型之间可以共享参数,具体可以有训练装置基于需求、历史记录、以及试验等方式进行确定,本实施例不做限定。
108.优选地,编码处理的次数为四或五次,以在避免耗时和成本偏高的基础上,提高编码处理的有效性和可靠性。
109.值得说明地是,在本实施例中,通过分别对第一语音特征和第二语音特征进行编码,可以避免编码过程中彼此之间的干扰(如避免当编码第一语音特征时,造成的对编码第二语音特征的干扰,反之亦然),从而提高编码的可靠性和准确性的技术效果。
110.s307:根据第一语音编码特征和第二语音编码特征,训练得到语音交互模型。
111.在一些实施例中,s307可以包括如下步骤:
112.第一步骤:对第一语音编码特征和第二语音编码特征分别进行时序融合处理,得到与第一语音编码特征对应的第一语音时序特征、与第二语音编码特征对应的第二语音时
序特征。
113.示例性地,对第一语音编码特征进行时序融合处理,得到第一语音时序特征;对第二语音编码特征进行时序融合处理,得到第二语音时序特征。
114.第二步骤:根据第一语音时序特征、第二语音时序特征,训练得到语音交互模型。
115.值得说明地是,在本实施例中,通过基于分别融合处理得到的两个语音时序特征(即第一语音时序特征和第二语音时序特征),训练得到语音交互模型,充分考虑了训练语音文本和训练句式信息在时间的关联关系,以实现训练语音交互模型与真实场景贴合,提高训练的可靠性。
116.在一些实施例中,第二步骤可以包括如下子步骤:
117.第一子步骤:基于预设截取策略从第一语音时序特征中截取至少部分第一语音时序特征,并基于预设截取策略从第二语音时序特征中截取至少部分第二语音时序特征。
118.其中,预设截取策略包括:预设时间段和/或预设特征长度。
119.同理,预设时间段和/或预设特征长度,可以由训练装置基于需求、历史记录、以及试验等方式确定,本实施例不做限定。
120.一个示例中,可以基于预设时间段从第一语音时序特征中截取第一语音时序特征,作为至少部分第一语音时序特征;基于预设时间段从第二语音时序特征中截取第二语音时序特征,作为至少部分第二语音时序特征。
121.例如,从第一语音时序特征中截取最后t秒内的第一语音时序特征,作为至少部分第一语音时序特征;从第二语音时序特征中截取最后t秒内的第二语音时序特征,作为至少部分第二语音时序特征。
122.另一个示例中,可以基于预设特征长度从第一语音时序特征中截取第一语音时序特征,作为至少部分第一语音时序特征;基于预设特征长度从第二语音时序特征中截取第二语音时序特征,作为至少部分第二语音时序特征。
123.例如,从第一语音时序特征中截取最后n个字段的第一语音时序特征,作为至少部分第一语音时序特征;从第二语音时序特征中截取最后n个字段的第二语音时序特征,作为至少部分第二语音时序特征。
124.再一个示例中,可以基于预设时间段和预设特征长度从第一语音时序特征中截取第一语音时序特征,作为至少部分第一语音时序特征;基于预设时间段和预设特征长度从第二语音时序特征中截取第二语音时序特征,作为至少部分第二语音时序特征。
125.在该实施例中,可以以预设时间段和预设特征长度各自截取的语音时序特征的多少,确定最终截取的至少部分语音时序特征。
126.例如,若基于预设时间段截取的至少部分第一语音时序特征,所表征的语音特征的内容相对少于,基于预设特征长度截取的至少部分第一语音时序特征,则将预设特征长度截取的至少部分第一语音时序特征,确定为最终截取的至少部分第一语音时序特征。
127.第二子步骤:对至少部分第一语音时序特征和至少部分第二语音时序特征进行拼接处理,得到语音拼接特征,并根据语音拼接特征训练得到语音交互模型。
128.值得说明地是,在本实施例中,通过至少部分第一语音时序特征和至少部分第二语音时序特征,训练得到语音交互模型,可以减少用于训练的至少部分特征,从而实现节约训练资源和成本,提高训练效率的技术效果。
129.在一些实施例中,第二子步骤可以包括如下细化步骤:
130.第一细化步骤:对语音拼接特征进行融合处理,得到语音融合特征,并对语音融合特征进行逻辑回归处理,得到训练语音文本的澄清训练结果。
131.其中,澄清训练结果用于表征是否需要对所述训练语音文本进行澄清。
132.第二细化步骤:基于澄清训练结果和预设标准结果对预设基础网络模型的参数进行调整,得到语音交互模型。
133.其中,本实施例对基础网络模型的类型(如二分类网络模型等)以及结构(如卷积层的参数等)不做限定。
134.例如,基础网络模型中包括融合层,可以由融合层对语音拼接特征进行融合处理,以得到语音融合特征。
135.基础网络模型还可以包括逻辑回归(softmax)层,可以由逻辑回归层对语音融合特征进行逻辑回归处理,从而得到澄清训练结果。
136.示例性地,可以基于损失函数计算澄清训练结果和预设标准结果之间的损失值,并根据损失值确定用于调整基础网络模型的参数,从而得到语音交互模型。
137.值得说明地是,在本实施例中,通过先确定语音拼接特征,以对语音拼接特征依次进行融合处理和逻辑回归处理,无需分别对至少部分第一语音时序特征和至少部分第二语音时序特征进行相应处理,可以提高训练效率,节约训练成本。
138.图4是根据本公开第三实施例的示意图,如图4所示,本公开实施例的语音交互方法,包括:
139.s401:获取用户发起的交互语音。
140.示例性地,本实施例的执行主体可以为语音交互装置,语音交互装置可以为与训练装置相同的装置,也可以为不同的装置,本实施例不做限定。
141.例如,若语音交互装置为与训练装置不同的装置,则可以由训练装置执行如上任意实施例的语音交互模型的训练方法,得到语音交互模型后,将语音交互模型传输给语音交互装置,由语音交互装置对语音交互模型进行部署,并基于语音交互模型实现语音交互。
142.结合如图1所示的应用场景,语音交互装置可以为车辆(具体可以为如车辆中的车载终端等),也可以为机器人,也可以为智能音箱。
143.具体地,当本实施例的语音交互方法应用于如图1中所述的用户与车辆的语音交互场景时,车辆上可以设置有声音采集装置(如麦克风等),并通过声音采集装置获取用户发起的交互语音。
144.s402:将交互语音输入至预先训练的语音交互模型,得到澄清预测结果。
145.其中,语音交互模型是基于如上任一实施例所述的语音交互模型的训练方法获得的,澄清预测结果用于表征是否需要对交互语音进行澄清。
146.基于上述分析可知,语音交互模型的训练具有全面性和可靠性,因此,当基于语音交互模型根据交互语音输出的澄清预测结果具有较高的准确性,从而可以提高语音交互的可靠性,满足用户的语音交互的需求和体验。
147.s403:根据澄清预测结果生成并输出反馈交互语音的反馈语音。
148.其中,不同的澄清预测结果对应的反馈语音不同。例如,若澄清预测结果表征需要对交互语音进行澄清,则反馈语音更加偏向于向用户的询问;反之,若澄清预测结果表征不
需要对交互语音进行澄清,则反馈语音更加偏向于对用户的交互语音的肯定答复甚至执行。
149.示例性地,若交互语音为“播放xx(人名)的xx(歌曲名称)”时,澄清预测结果表征需要对该交互语音进行澄清(即语音交互装置没有听清该交互语音),则反馈语音可以为“主人,您想听谁的歌呢?”;若澄清预测结果表征不需要对该交互语音进行澄清(即语音交互装置听清了该交互语音),则反馈语音可以为“收到,这就为您快马加鞭地播放”。
150.图5是根据本公开第四实施例的示意图,如图5所示,本公开实施例的语音交互方法,包括:
151.s501:获取用户发起的交互语音。
152.其中,关于s501的实现原理,可以参见第四实施例,此处不再赘述。
153.s502:对交互语音进行降噪处理,得到有效语音,并对有效语音进行识别处理,得到识别结果、以及有效语音的整句语音置信度。
154.应用场景中可能包括噪音。例如,当本实施例的语音交互应用于如图1中所示的用户与车辆的语音交互场景时,用户在向车辆发起交互语音时,还可能有其他的噪音,如车辆的行驶噪音,又如车辆的其他用户的噪音,再如车辆内空调噪音等。
155.值得说明地是,通过对交互语音进行降噪处理,可以避免噪音对语音交互的影响,从而可以提高语音交互的可靠性的技术效果。
156.整句语音置信度是指,识别结果在有效语音的整体句义上的可靠程度,相对而言,整句语音置信度越大,说明识别结果的可靠性越高;反之,整句语音置信度越小,说明识别结果的可靠性越低。
157.s503:响应于整句语音置信度小于预设的置信度阈值,将交互语音输入至语音交互模型,得到澄清预测结果。
158.在本实施例中,通过先确定整句语音置信度,以便在整句语音置信度相对较小,不满足置信度需求时,基于语音交互模型确定是否需要多交互语音进行澄清,以满足对交互语音进行澄清的合理性和必要性,实现资源的合理利用的技术效果。
159.结合上述分析可知,在另一些实施例中,若整句语音置信度大于置信度阈值,则可以直接基于有效语音进行反馈相应的反馈语音和/或执行与有效语音对应的操作。
160.在一些实施例中,s503可以包括如下步骤:
161.第一步骤:对交互语音进行解析处理,得到交互语音的句式信息。
162.第二步骤:基于语音交换模型提取交互语音、以及交互语音的句式信息各自对应的语音特征,并根据各自对应的语音特征生成澄清预测结果。
163.应该理解的是,关于s503的实现原理,可以参见训练过程中的实现原理,此处不再赘述。
164.s504:计算交互语音的槽位语音置信度,并根据槽位语音置信度确定澄清类型。
165.其中,澄清类型为开放式澄清或者为确认式澄清。
166.相应地,槽位语音置信度是指,词命中槽位的准确性的程度,相对而言,槽位语音置信度越大,说明该词命中槽位的可靠性越高;反之,槽位语音置信度越小,说明该词命中槽位的可靠性越低。
167.开放式澄清是指,相对较为泛泛的澄清。确认式澄清是指,相对具有针对性的澄
清。
168.在一些实施例中,若槽位置语音信度位于预设第一置信度区间,则确定澄清类型为确认式澄清,若槽位语音置信度位于预设第二置信度区间,则确定澄清类型为开放式澄清,其中,第一置信度区间中的任意值大于第二置信度区间中的任意值。
169.例如,结合上述实施例,若交互语音为“播放xx(人名)的xx(歌曲名称)”,经s503确定出的澄清预测结果为表征需要对该交互语音进行澄清,且经s504确定出在槽位“xx(歌曲名称)”的槽位语音置信度位于第一置信度区间,则采用确认式澄清对该交互语音进行澄清,如基于“主人,您想听xx(人名)的什么歌呢”?
170.若经s504确定出在槽位“xx(歌曲名称)”的槽位语音置信度位于第二置信度区间,则采用确认式澄清对该交互语音进行澄清,如基于“主人,您想听谁的歌呢”?
171.s505:根据澄清类型生成并输出反馈语音。
172.值得说明地是,在实施例中,通过确定澄清类型,并基于澄清类型生成反馈语音,可以提高语音交互的多样性和灵活性,满足用户的交互需求和体验。
173.需要说明的是,用户可针对反馈语音进行回复,即语音交互装置可以接收用户发起的用于针对反馈语音进行回复的回复语音,语音交互装置可能需要对回复语音再次澄清,依次类推。
174.在一些实施例中,为了避免语音交互中的反复询问,可以设置最大澄清阈值,若语音交互装置的澄清次数达到最大澄清阈值,则不再澄清,以避免因无限澄清影响用户的交互体验。
175.图6是根据本公开第五实施例的示意图,如图6所示,本公开实施例的语音交互模型的构建方法,包括:
176.s601:建立用于输入训练语音文本的第一输入层、以及用于输入训练语音文本的训练句式信息的第二输入层,并建立与第一输入层对应的第一特征提取层、与第二输入层对应的第二特征提取层。
177.同理,本实施例的执行主体可以为语音交互模型的构建装置(下文简称为构建装置),构建装置、语音交互装置、以及训练装置可以为至少部分相同的装置,也可以为各不相同的装置,本实施例不做限定。
178.s602:建立全连接层和输出层。
179.其中,第一特征提取层和第二特征提取层,分别与全连接层连接,全连接层还与所述输出层连接;
180.s603:根据第一输入层、第二输入层、第一特征提取层、第二特征提取层、全连接层和输出层,建立用于执行如上任一实施例所述的语音交互模型的训练方法的语音交互模型;或者,用于执行如上任一实施例所述的语音交互方法的语音交互模型。
181.图7是根据本公开第六实施例的示意图,如图7所示,本公开实施例的语音交互模型的构建方法,包括:
182.s701:建立用于输入训练语音文本的第一输入层、以及用于输入训练语音文本的训练句式信息的第二输入层,并建立与第一输入层对应的第一特征提取层、与第二输入层对应的第二特征提取层。
183.结合图8和上述实施例,第一输入层可以用于训练语音文本,第二输入层可以用于
输入训练句式信息。
184.第一输入层与第一特征提取层连接,以将训练语音文本传输给第一特征提取层,第一特征提取层对训练语音文本进行特征提取,得到第一语音特征。
185.第二输入层与第二特征提取层连接,以将训练句式信息传输给第二特征提取层,第二特征提取层对训练语音文本进行特征提取,得到第二语音特征。
186.s702:建立全连接层、至少一层第一编码层、以及至少一层第二编码层。
187.其中,第一编码层分别与第一特征提取层、全连接层连接。第二编码层分别与第二特征提取层、全连接层连接。
188.相应地,第一特征提取层将第一语音特征传输给第一编码层,第一编码层对第一语音特征进行编码处理,得到第一语音编码特征。
189.第二特征提取层将第二语音特征传输给第二编码层,第二编码层对第二语音特征进行编码处理,得到第二语音编码特征。
190.第一编码层将第一语音编码特征传输给全连接层,第二编码层将第二语音编码特征传输给全连接层,全连接层对第一语音编码特征和第二语音编码特征进行拼接处理,得到语音拼接特征。
191.在一些实施例中,还可以建立融合层,融合层分别与第一编码层和第二编码层连接,且与全连接层连接。
192.相应地,第一编码层将第一语音编码特征传输给融合层,第二编码层将第二语音编码特征传输给融合层,融合层对第一语音编码特征和第二语音编码特征进行融合处理,得到融合特征,并将融合特征传输给全连接层,全连接层对融合特征进行全连接处理,得到语音拼接特征。
193.s703:建立输出层,输出层与全连接层连接,并根据第一输入层、第二输入层、第一特征提取层、第二特征提取层、第一编码层、第二编码层、全连接层和输出层,建立用于执行如上任一实施例所述的语音交互模型的训练方法的语音交互模型;或者,用于执行如上任一实施例所述的语音交互方法的语音交互模型。
194.在一些实施例中,如图8所示,输出层可以为逻辑回归softmax层,由逻辑回归层根据语音拼接特征输出二分类结果(可以通过0或1表示,如若输出为0,则为不需要澄清,若输出为1,则为需要澄清)。
195.相应地,在训练语音交互模型时,二分类结果可以为澄清训练结果,且,基于上述分析,可以基于澄清训练结果对语音交互模型中的上述任意层的参数进行调整,从而得到满足应用需求的语音交互模型。
196.在应用语音交互模型时,基于上述分析,二分类结果为澄清预测结果,可以基于澄清预测结果确定澄清类型,以基于澄清类型确定反馈语音,从而满足用户的语音交互需求。
197.图9是根据本公开第七实施例的示意图,如图9所示,本公开实施例的语音交互模型的训练装置900,包括:
198.第一获取单元901,用于获取训练语音文本。
199.解析单元902,用于对训练语音文本进行解析处理,得到训练语音文本的训练句式信息。
200.第一提取单元903,用于对训练语音文本进行特征提取,得到第一语音特征。
201.第二提取单元904,用于对所述训练句式信息进行特征提取,得到第二语音特征。
202.训练单元905,用于根据第一语音特征和第二语音特征,训练得到语音交互模型,其中,语音交互模型用于确定是否需要对语音交互场景中的交互语音进行澄清,以完成语音交互。
203.图10是根据本公开第八实施例的示意图,如图10所示,本公开实施例的语音交互模型的训练装置1000,包括:
204.第一获取单元1001,用于获取训练语音文本。
205.解析单元1002,用于对训练语音文本进行解析处理,得到训练语音文本的训练句式信息。
206.第一提取单元1003,用于对训练语音文本进行特征提取,得到第一语音特征。
207.结合图10可知,在一些实施例中,第一提取单元1003,包括:
208.第一提取子单元10031,用于提取训练语音文本在内容上和语音交互场景上各自对应的属性信息。
209.第一拼接子单元10032,用于对训练语音文本在内容上和语音交互场景上各自对应的属性信息进行拼接处理,得到第一语音特征。
210.第二提取单元1004,用于对所述训练句式信息进行特征提取,得到第二语音特征。
211.结合图10可知,在一些实施例中,第二提取单元1004,包括:
212.第二提取子单元10041,用于提取训练句式信息在内容上和语音交互场景上各自对应的属性信息。
213.第二拼接子单元10042,用于对训练句式信息在内容上和语音交互场景上各自对应的属性信息进行拼接处理,得到第二语音特征。
214.训练单元1005,用于根据第一语音特征和第二语音特征,训练得到语音交互模型,其中,语音交互模型用于确定是否需要对语音交互场景中的交互语音进行澄清,以完成语音交互。
215.结合图10可知,在一些实施例中,训练单元1005,包括:
216.编码子单元10051,用于对第一语音特征和第二语音特征分别进行至少一次编码处理,得到与第一语音特征对应的第一语音编码特征、与第二语音特征对应的第二语音编码特征。
217.训练子单元10052,用于根据第一语音编码特征和第二语音编码特征,训练得到语音交互模型。
218.在一些实施例中,训练子单元10052,包括:
219.融合模块,用于对第一语音编码特征和第二语音编码特征分别进行时序融合处理,得到与第一语音编码特征对应的第一语音时序特征、与第二语音编码特征对应的第二语音时序特征。
220.训练模块,用于根据第一语音时序特征、第二语音时序特征,训练得到语音交互模型。
221.在一些实施例中,训练模块,包括:
222.第一截取子模块,用于基于预设截取策略从第一语音时序特征中截取至少部分第一语音时序特征。
223.第二截取子模块,用于基于预设截取策略从第二语音时序特征中截取至少部分第二语音时序特征,其中,预设截取策略包括:预设时间段和/或预设特征长度。
224.拼接子模块,用于对至少部分第一语音时序特征和至少部分第二语音时序特征进行拼接处理,得到语音拼接特征。
225.训练子模块,用于根据语音拼接特征训练得到语音交互模型。
226.在一些实施例中,训练子模块用于,对语音拼接特征进行融合处理,得到语音融合特征,并对语音融合特征进行逻辑回归处理,得到训练语音文本的澄清训练结果,其中,澄清训练结果用于表征是否需要对训练语音文本进行澄清,并基于澄清训练结果和预设标准结果对预设基础网络模型的参数进行调整,得到语音交互模型。
227.图11是根据本公开第九实施例的示意图,如图11所示,本公开实施例的语音交互装置1100,包括:
228.第二获取单元1101,用于获取用户发起的交互语音。
229.输入单元1102,用于将交互语音输入至预先训练的语音交互模型,得到澄清预测结果,其中,语音交互模型是基于上述任一实施例中所述的语音交互模型的训练装置获得的,澄清预测结果用于表征是否需要对交互语音进行澄清。
230.生成单元1103,用于根据澄清预测结果生成反馈交互语音的反馈语音。
231.输出单元1104,用于输出反馈语音。
232.图12是根据本公开第十实施例的示意图,如图12所示,本公开实施例的语音交互装置1200,包括:
233.第二获取单元1201,用于获取用户发起的交互语音。
234.输入单元1202,用于将交互语音输入至预先训练的语音交互模型,得到澄清预测结果,其中,语音交互模型是基于上述任一实施例中所述的语音交互模型的训练装置获得的,澄清预测结果用于表征是否需要对交互语音进行澄清。
235.结合图12可知,在一些实施例中,输入单元1202,包括:
236.第一确定子单元12021,用于确定交互语音的语音置信度。
237.在一些实施例中,第一确定子单元12021,包括:
238.降噪模块,用于对交互语音进行降噪处理,得到有效语音。
239.识别模块,用于对有效语音进行识别处理,得到有效语音的整句语音置信度。
240.输入子单元12022,用于响应于语音置信度小于预设的置信度阈值,将交互语音输入至语音交互模型,得到澄清预测结果。
241.结合图12可知,在一些实施例中,输入单元1202,包括:
242.解析子单元12023,用于对交互语音进行解析处理,得到交互语音的句式信息。
243.第三提取子单元12024,用于基于语音交换模型提取交互语音、以及交互语音的句式信息各自对应的语音特征。
244.第二生成子单元12025,用于根据各自对应的语音特征生成澄清预测结果。
245.生成单元1203,用于根据澄清预测结果生成反馈交互语音的反馈语音。
246.结合图12可知,在一些实施例中,若澄清预测结果表征需要对交互语音进行澄,则生成单元1203,包括:
247.计算子单元12031,用于计算交互语音的槽位语音置信度。
248.第二确定子单元12032,用于根据槽位语音置信度确定澄清类型,其中,澄清类型为开放式澄清或者为确认式澄清。
249.第一生成子单元12033,用于根据澄清类型生成反馈语音。
250.在一些实施例中,若槽位置语音信度位于预设第一置信度区间,则确定澄清类型为确认式澄清,若槽位语音置信度位于预设第二置信度区间,则确定澄清类型为开放式澄清,其中,第一置信度区间中的任意值大于第二置信度区间中的任意值。
251.输出单元1204,用于输出反馈语音。
252.图13是根据本公开第十一实施例的示意图,如图13所示,本公开实施例的语音交互模型的构建装置1300,包括:
253.第一建立单元1301,用于建立用于输入训练语音文本的第一输入层、以及用于输入训练语音文本的训练句式信息的第二输入层。
254.第二建立单元1302,用于建立与第一输入层对应的第一特征提取层、与第二输入层对应的第二特征提取层。
255.第三建立单元1303,用于建立全连接层和输出层;其中,第一特征提取层和第二特征提取层,分别与全连接层连接,全连接层还与输出层连接。
256.第四建立单元1304,用于根据第一输入层、第二输入层、第一特征提取层、第二特征提取层、全连接层和输出层,建立用于执行如上任一实施例所述的语音交互模型的训练装置;或者,用于执行如上任一实施例所述的语音交互装置。
257.图14是根据本公开第十二实施例的示意图,如图14所示,本公开实施例的语音交互模型的构建装置1400,包括:
258.第一建立单元1401,用于建立用于输入训练语音文本的第一输入层、以及用于输入训练语音文本的训练句式信息的第二输入层。
259.第二建立单元1402,用于建立与第一输入层对应的第一特征提取层、与第二输入层对应的第二特征提取层。
260.第五建立单元1403,用于建立至少一层第一编码层,第一编码层与第一特征提取层连接。
261.第六建立单元1404,用于建立至少一层第二编码层,第二编码层与第二特征提取层连接。
262.第三建立单元1405,用于建立全连接层和输出层;其中,第一编码层和第二编码层,分别与全连接层连接,全连接层还与输出层连接。
263.第四建立单元1406,用于根据第一输入层、第二输入层、第一特征提取层、第二特征提取层、第一编码层、第二编码层、全连接层和输出层,建立用于执行如上任一实施例所述的语音交互模型的训练装置;或者,用于执行如上任一实施例所述的语音交互装置。
264.需要说明的是,本实施例中的语音交互模型并不是针对某一特定用户的语音交互模型,并不能反映出某一特定用户的个人信息。需要说明的是,本实施例中的训练语音文本来自于公开数据集。
265.本公开的技术方案中,所涉及的与用户相关的信息(如交互语音等)的获取,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
266.根据本公开的实施例,本公开还提供了一种电子设备和一种可读存储介质。
267.根据本公开的实施例,本公开还提供了一种计算机程序产品,计算机程序产品包括:计算机程序,计算机程序存储在可读存储介质中,电子设备的至少一个处理器可以从可读存储介质读取计算机程序,至少一个处理器执行计算机程序使得电子设备执行上述任一实施例提供的方案。
268.图15示出了可以用来实施本公开的实施例的示例电子设备1500的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
269.如图15所示,电子设备1500包括计算单元1501,其可以根据存储在只读存储器(rom)1502中的计算机程序或者从存储单元1508加载到随机访问存储器(ram)1503中的计算机程序,来执行各种适当的动作和处理。在ram 1503中,还可存储设备1500操作所需的各种程序和数据。计算单元1501、rom 1502以及ram 1503通过总线1504彼此相连。输入/输出(i/o)接口1505也连接至总线1504。
270.设备1500中的多个部件连接至i/o接口1505,包括:输入单元1506,例如键盘、鼠标等;输出单元1507,例如各种类型的显示器、扬声器等;存储单元1508,例如磁盘、光盘等;以及通信单元1509,例如网卡、调制解调器、无线通信收发机等。通信单元1509允许设备1500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
271.计算单元1501可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1501的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元1501执行上文所描述的各个方法和处理,例如语音交互模型的训练方法、语音交互方法、语音交互模型的构建方法。例如,在一些实施例中,语音交互模型的训练方法、语音交互方法、语音交互模型的构建方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1508。在一些实施例中,计算机程序的部分或者全部可以经由rom 1502和/或通信单元1509而被载入和/或安装到设备1500上。当计算机程序加载到ram 1503并由计算单元1501执行时,可以执行上文描述的语音交互模型的训练方法、语音交互方法、语音交互模型的构建方法的一个或多个步骤。备选地,在其他实施例中,计算单元1501可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行语音交互模型的训练方法、语音交互方法、语音交互模型的构建方法。
272.本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
273.用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
274.在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd

rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
275.为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
276.可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)和互联网。
277.计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端

服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与vps服务("virtual private server",或简称"vps")中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
278.根据本公开实施例的另一个方面,本公开实施例还提供了一种语音交互设备,包括:
279.语音采集设备,用于采集用户发起的交互语音。
280.如上任一实施例所述的语音交互装置。
281.示例性地,结合图1所示的应用场景,交互设备可以为如图1中所示的车辆(具体可以为设置于车辆的车载终端),也可以为如图1中所示的智能音箱,也可以为如图1中所示的机器人,当然,也可以为其他场景中可以用于与用户进行语音交互的设备,此处不再一一列
举。
282.当交互设备为智能音箱时,如图16所示,智能音箱1600包括:语音采集装置(具体可以为麦克风等拾音装置)1601、降噪装置1602、语音交互装置1603。
283.其中,语音交互装置1603中部署有:基于上述任一实施例所述的语音交互模型的训练方法训练得到的语音交互模型16031。
284.用户发起交互语音,且在用户发起交互语音之前,可以先基于预先设置的唤醒词对智能音箱1600的语音交互功能进行唤醒。
285.相应地,语音采集装置1601可以获取交互语音,并将交互语音传输给降噪装置1602。
286.相应地,降噪装置1602接收交互语音,并对交互语音进行降噪处理,以对交互语音中的噪音语音进行过滤,且将过滤后的交互语音传输给语音交互装置1603。
287.相应地,语音交互装置1603获取过滤后的交互语音,并基于其内部署的语音交互模型16031对滤后的交互语音进行分析,生成并输出反馈语音,以对用户发起的交互语音进行响应。
288.应该理解地是,上述实施例只是用于示范性地说明,本实施例中交互设备的组成元素,而不能理解为对交互设备的组成元素的限定。例如,在一些实施例中,交互设备中可以增加其他组成元素,如语音输出装置(具体可以为麦克风等);也可以减少部分组成元素,如降噪装置等。
289.且在上述实施例中,各组成元素可以独立的组件,也可以为一体集成的组件,如语音采集装置可以与降噪装置一体集成等。
290.应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开提供的技术方案所期望的结果,本文在此不进行限制。
291.上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。