1.本说明书实施例涉及计算机技术领域,具体地,涉及模型处理方法及装置、语音识别方法及装置、交互设备。
背景技术:2.现有的语音识别技术方案通常是基于深度学习(deep learning)的理论,采用端到端(end2end)建模的方案。基于端到端的语音识别,虽然在通用场景的识别上效果较好,但在说到人名、地名这种类似的场景时效果欠佳。
3.因此,需要一种合理、可靠的方案,可以提升在说到人名、地名这种类似的场景时的识别效果。
技术实现要素:4.本说明书实施例提供了模型处理方法及装置、语音识别方法及装置、交互设备。
5.第一方面,本说明书实施例提供了一种模型处理方法,包括:获取至少一个训练样本,所述训练样本包括,包括目标类别的词的语音信息,以及标注文本,所述标注文本用于表征所述语音信息的语义、且添加有所述目标类别对应的槽位标记,所述槽位标记添加在所述标注文本中的所述目标类别的词的原始出现位置;根据所述至少一个训练样本,对待训练的端到端模型进行训练,得到用于语音识别的、且带有槽位预测功能的目标端到端模型。
6.在一些实施例中,所述目标类别包括以下至少一种类别:人名、地名、机构名。
7.在一些实施例中,当所述目标类别包括人名时,所述标注文本中添加的人名槽位标记用于表示,其所占用的位置处应出现人名;当所述目标类别包括地名时,所述标注文本中添加的地名槽位标记用于表示,其所占用的位置处应出现地名;当所述目标类别包括机构名时,所述标注文本中添加的机构名槽位标记用于表示,其所占用的位置处应出现机构名。
8.在一些实施例中,所述待训练的端到端模型所采用的词典添加有所述目标类别对应的槽位标记。
9.在一些实施例中,所述待训练的端到端模型包括,基于自注意力机制的且采用编码器-解码器架构的自然语言处理模型。
10.在一些实施例中,标注文本为词序列形式的文本;以及所述根据所述至少一个训练样本,对待训练的端到端模型进行训练,包括:将所述至少一个训练样本分别包括的语音信息作为输入,以及将该语音信息对应的标注文本作为标签,对待训练的端到端模型进行训练。
11.在一些实施例中,标注文本为未经分词的文本;以及所述根据所述至少一个训练样本,对待训练的端到端模型进行训练,包括:对于所述至少一个训练样本中的每个训练样本,对该训练样本所包括的标注文本进行分词处理,并将经分词处理所得的词组成词序列;
将所述至少一个训练样本分别包括的语音信息作为输入,以及将该语音信息对应的词序列作为标签,对待训练的端到端模型进行训练。
12.第二方面,本说明书实施例提供了一种语音识别方法,应用于语音识别系统中的优化处理器,所述语音识别系统还包括用于语音识别的、且带有槽位预测功能的目标端到端模型,所述方法包括:获取所述目标端到端模型输出的预测结果,所述预测结果包括多条文本信息;响应于在所述多条文本信息的同一位置处读取到目标类别对应的槽位标记,从所述多条文本信息中分别提取出,与所述槽位标记位置临近且在所述槽位标记之后出现的词;根据所述槽位标记,确定提取出的词对应的第一分数;根据所确定的第一分数,从提取出的词中确定出目标词,所述目标词作用为所述槽位标记所占用的位置对应的识别结果。
13.在一些实施例中,所述目标端到端模型包括,采用第一方面中的实现方式训练所得的用于语音识别的、且带有槽位预测功能的目标端到端模型。
14.在一些实施例中,所述根据所述槽位标记,确定提取出的词对应的第一分数,包括:利用所述槽位标记对应的打分模型,确定提取出的词对应的第一分数。
15.在一些实施例中,所述打分模型包括,预先建立的用于表征所述目标类别下的词与第一分数之间的对应关系的数据映射表;以及所述利用所述槽位标记对应的打分模型,确定提取出的词对应的第一分数,包括:在所述打分模型中查找包括提取出的词的记录,并将查找到的记录中的第一分数确定为提取出的词对应的第一分数。
16.在一些实施例中,所述打分模型包括,预先训练的用于预测目标类别下的词对应的第一分数的预测模型;以及所述利用所述槽位标记对应的打分模型,确定提取出的词对应的第一分数,包括:将提取出的词输入所述打分模型,得到所述打分模型输出的第一分数。
17.在一些实施例中,所述预测结果还包括所述多条文本信息分别对应的第二分数;以及所述根据所确定的第一分数,从提取出的词中确定出目标词,包括:对于每个提取出的词,根据该词对应的第一分数和该词所在的文本信息对应的第二分数,确定该词对应的筛选用分数;根据所确定的筛选用分数,从提取出的词中确定出目标词。
18.在一些实施例中,所述打分模型对应预设的调分系数;以及所述根据该词对应的第一分数和该词所在的文本信息对应的第二分数,确定该词对应的筛选用分数,包括:确定该词对应的第一分数与所述调分系数之间的乘积;将所述乘积和该词所在的文本信息对应的第二分数的总和确定为该词对应的筛选用分数。
19.第三方面,本说明书实施例提供了一种模型处理方法,包括:获取至少一个训练样本,所述训练样本包括,包括人名的语音信息,以及标注文本,所述标注文本用于表征所述语音信息的语义、且添加有人名槽位标记,所述人名槽位标记添加在所述标注文本中的属于人名的词的原始出现位置;根据所述至少一个训练样本,对待训练的端到端模型进行训练,得到用于语音识别的、且带有人名槽位预测功能的目标端到端模型。
20.第四方面,本说明书实施例提供了一种语音识别方法,应用于语音识别系统中的优化处理器,所述语音识别系统还包括用于语音识别的、且带有人名槽位预测功能的目标端到端模型,所述方法包括:获取所述目标端到端模型输出的预测结果,所述预测结果包括多条文本信息;响应于在所述多条文本信息的同一位置处读取到人名槽位标记,从所述多条文本信息中分别提取出,与所述人名槽位标记位置临近且在所述人名槽位标记之后出现
的词;根据所述人名槽位标记,确定提取出的词对应的第一分数;根据所确定的第一分数,从提取出的词中确定出目标词,所述目标词作用为所述人名槽位标记所占用的位置对应的识别结果。
21.在一些实施例中,所述目标端到端模型包括,采用第三方面中的实现方式训练所得的用于语音识别的、且带有人名槽位预测功能的目标端到端模型。
22.在一些实施例中,所述根据所述人名槽位标记,确定提取出的词对应的第一分数,包括:利用所述人名槽位标记对应的打分模型,确定提取出的词对应的第一分数。
23.第五方面,本说明书实施例提供了一种模型处理方法,包括:获取至少一个训练样本,所述训练样本包括,包括目标类别的词的文本信息,以及槽位标记信息,所述槽位标记信息示出所述目标类别的词的出现位置和所述目标类别对应的槽位标记;根据所述至少一个训练样本,对待训练的端到端模型进行训练,得到用于槽位预测的目标端到端模型。
24.第六方面,本说明书实施例提供了一种语音识别方法,应用于语音识别系统中的优化处理器,所述语音识别系统还包括语音识别模型、以及用于槽位预测的目标端到端模型,所述方法包括:获取所述语音识别模型输出的第一预测结果,所述第一预测结果包括多条文本信息;获取所述目标端到端模型输出的第二预测结果,所述第二预测结果通过对所述第一预测结果进行槽位预测而获得;响应于所述第二预测结果示出目标类别的词的出现位置和所述目标类别对应的槽位标记,以及在所述多条文本信息中读取到位于所述出现位置的词,根据所述槽位标记,确定所读取的位于所述出现位置的词对应的第一分数;根据所确定的第一分数,从所读取的位于所述出现位置的词中确定出目标词,所述目标词作用为所述出现位置对应的识别结果。
25.在一些实施例中,所述目标端到端模型包括,采用第五方面中的实现方式训练所得的用于槽位预测的目标端到端模型。
26.在一些实施例中,所述根据所述槽位标记,确定所读取的位于所述出现位置的词对应的第一分数,包括:利用所述槽位标记对应的打分模型,确定所读取的位于所述出现位置的词对应的第一分数。
27.第七方面,本说明书实施例提供了一种模型处理装置,包括:获取单元,被配置成获取至少一个训练样本,所述训练样本包括,包括目标类别的词的语音信息,以及标注文本,所述标注文本用于表征所述语音信息的语义、且添加有所述目标类别对应的槽位标记,所述槽位标记添加在所述标注文本中的所述目标类别的词的原始出现位置;模型训练单元,被配置成根据所述至少一个训练样本,对待训练的端到端模型进行训练,得到用于语音识别的、且带有槽位预测功能的目标端到端模型。
28.第八方面,本说明书实施例提供了一种语音识别装置,应用于语音识别系统中的优化处理器,所述语音识别系统还包括用于语音识别的、且带有槽位预测功能的目标端到端模型,所述装置包括:获取单元,被配置成获取所述目标端到端模型输出的预测结果,所述预测结果包括多条文本信息;提取单元,被配置成响应于在所述多条文本信息的同一位置处读取到目标类别对应的槽位标记,从所述多条文本信息中分别提取出,与所述槽位标记位置临近且在所述槽位标记之后出现的词;分数确定单元,被配置成根据所述槽位标记,确定提取出的词对应的第一分数;识别结果确定单元,被配置成根据所确定的第一分数,从提取出的词中确定出目标词,所述目标词作用为所述槽位标记所占用的位置对应的识别结
果。
29.在一些实施例中,所述目标端到端模型包括,采用第一方面中的实现方式训练所得的用于语音识别的、且带有槽位预测功能的目标端到端模型。
30.在一些实施例中,所述分数确定单元进一步被配置成:利用所述槽位标记对应的打分模型,确定提取出的词对应的第一分数。
31.第九方面,本说明书实施例提供了一种模型处理装置,包括:获取单元,被配置成获取至少一个训练样本,所述训练样本包括,包括人名的语音信息,以及标注文本,所述标注文本用于表征所述语音信息的语义、且添加有人名槽位标记,所述人名槽位标记添加在所述标注文本中的属于人名的词的原始出现位置;模型训练单元,被配置成根据所述至少一个训练样本,对待训练的端到端模型进行训练,得到用于语音识别的、且带有人名槽位预测功能的目标端到端模型。
32.第十方面,本说明书实施例提供了一种语音识别装置,应用于语音识别系统中的优化处理器,所述语音识别系统还包括用于语音识别的、且带有人名槽位预测功能的目标端到端模型,所述装置包括:获取单元,被配置成获取所述目标端到端模型输出的预测结果,所述预测结果包括多条文本信息;提取单元,被配置成响应于在所述多条文本信息的同一位置处读取到人名槽位标记,从所述多条文本信息中分别提取出,与所述人名槽位标记位置临近且在所述人名槽位标记之后出现的词;分数确定单元,被配置成根据所述人名槽位标记,确定提取出的词对应的第一分数;识别结果确定单元,被配置成根据所确定的第一分数,从提取出的词中确定出目标词,所述目标词作用为所述人名槽位标记所占用的位置对应的识别结果。
33.在一些实施例中,所述目标端到端模型包括,采用第三方面中的实现方式训练所得的用于语音识别的、且带有人名槽位预测功能的目标端到端模型。
34.在一些实施例中,所述分数确定单元进一步被配置成:利用所述人名槽位标记对应的打分模型,确定提取出的词对应的第一分数。
35.第十一方面,本说明书实施例提供了一种模型处理装置,包括:获取单元,被配置成获取至少一个训练样本,所述训练样本包括,包括目标类别的词的文本信息,以及槽位标记信息,所述槽位标记信息示出所述目标类别的词的出现位置和所述目标类别对应的槽位标记;模型训练单元,被配置成根据所述至少一个训练样本,对待训练的端到端模型进行训练,得到用于槽位预测的目标端到端模型。
36.第十二方面,本说明书实施例提供了一种语音识别装置,应用于语音识别系统中的优化处理器,所述语音识别系统还包括语音识别模型、以及用于槽位预测的目标端到端模型,所述装置包括:第一获取单元,被配置成获取所述语音识别模型输出的第一预测结果,所述第一预测结果包括多条文本信息;第二获取单元,被配置成获取所述目标端到端模型输出的第二预测结果,所述第二预测结果通过对所述第一预测结果进行槽位预测而获得;分数确定单元,被配置成响应于所述第二预测结果示出目标类别的词的出现位置和所述目标类别对应的槽位标记,以及在所述多条文本信息中读取到位于所述出现位置的词,根据所述槽位标记,确定所读取的位于所述出现位置的词对应的第一分数;识别结果确定单元,被配置成根据所确定的第一分数,从所读取的位于所述出现位置的词中确定出目标词,所述目标词作用为所述出现位置对应的识别结果。
37.在一些实施例中,所述目标端到端模型包括,采用第五方面中的实现方式训练所得的用于槽位预测的目标端到端模型。
38.在一些实施例中,所述分数确定单元进一步被配置成:利用所述槽位标记对应的打分模型,确定所读取的位于所述出现位置的词对应的第一分数。
39.第十三方面,本说明书实施例提供了一种交互设备,包括优化处理器;所述优化处理器被配置成:获取目标端到端模型输出的预测结果,所述目标端到端模型用于语音识别且带有槽位预测功能,所述预测结果包括多条文本信息;响应于在所述多条文本信息的同一位置处读取到目标类别对应的槽位标记,从所述多条文本信息中分别提取出,与所述槽位标记位置临近且在所述槽位标记之后出现的词;根据所述槽位标记,确定提取出的词对应的第一分数;根据所确定的第一分数,从提取出的词中确定出目标词,所述目标词作用为所述槽位标记所占用的位置对应的识别结果。
40.第十四方面,本说明书实施例提供了一种交互设备,包括优化处理器;所述优化处理器被配置成:获取语音识别模型输出的第一预测结果,所述第一预测结果包括多条文本信息;获取目标端到端模型输出的第二预测结果,所述目标端到端模型用于槽位预测,所述第二预测结果通过对所述第一预测结果进行槽位预测而获得;响应于所述第二预测结果示出目标类别的词的出现位置和所述目标类别对应的槽位标记,以及在所述多条文本信息中读取到位于所述出现位置的词,根据所述槽位标记,确定所读取的位于所述出现位置的词对应的第一分数;根据所确定的第一分数,从所读取的位于所述出现位置的词中确定出目标词,所述目标词作用为所述出现位置对应的识别结果。
41.第十五方面,本说明书实施例提供了一种计算机可读存储介质,其上存储有计算机程序,其中,当该计算机程序在计算机中执行时,令该计算机执行如第一方面至第六方面中任一实现方式描述的方法。
42.第十六方面,本说明书实施例提供了一种计算设备,包括存储器和处理器,其中,该存储器中存储有可执行代码,该处理器执行该可执行代码时,实现如第一方面至第六方面中任一实现方式描述的方法。
43.本说明书的上述实施例提供的模型处理方法及装置,通过获取包括以下内容的至少一个训练样本:包括目标类别的词的语音信息、用于表征该语音信息的语义且添加有目标类别对应的槽位标记的标注文本,该槽位标记添加在该标注文本中的目标类别的词的原始出现位置,而后根据该至少一个训练样本,对待训练的端到端模型进行训练,以便训练得到用于语音识别的、且带有槽位预测功能的目标端到端模型。在语音识别场景中,当目标端到端模型输出的预测结果添加有目标类别对应的槽位标记时,优化处理器依据该槽位标记可以获知应该优化处理目标类别的词,由此优化处理器可以准确地识别出目标类别的词。因此,可以提升针对目标类别的词的识别正确率,降低虚警率,也因此,可以提升针对包括目标类别的词的语音信息的语音识别效果。
附图说明
44.为了更清楚地说明本说明书披露的多个实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书披露的多个实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据
这些附图获得其它的附图。
45.图1是本说明书的一些实施例可以应用于其中的一个示例性系统架构图;
46.图2是根据本说明书的模型处理方法的一个实施例的流程图;
47.图3a是为待标注的文本信息添加槽位标记的一个示意图;
48.图3b是为待标注的文本信息添加槽位标记的另一个示意图;
49.图4是根据本说明书的模型处理方法的又一个实施例的流程图;
50.图5是根据本说明书的语音识别方法的一个实施例的流程图;
51.图6是与目标类别对应的槽位标记所占用的位置对应的识别结果的确定方法的一个实施例的流程图;
52.图7是根据本说明书的语音识别方法的又一个实施例的流程图;
53.图8是本说明书的一些实施例可以应用于其中的又一个示例性系统架构图;
54.图9是根据本说明书的模型处理方法的再一个实施例的流程图;
55.图10是根据本说明书的语音识别方法的再一个实施例的流程图;
56.图11是根据本说明书的模型处理装置的一个结构示意图;
57.图12是根据本说明书的语音识别装置的一个结构示意图;
58.图13是根据本说明书的模型处理装置的又一个结构示意图;
59.图14是根据本说明书的语音识别装置的又一个结构示意图;
60.图15是根据本说明书的模型处理装置的再一个结构示意图;
61.图16是根据本说明书的语音识别装置的再一个结构示意图;
62.图17是根据本说明书的交互设备的一个场景示意图;
63.图18是根据本说明书的交互设备的另一个场景示意图。
具体实施方式
64.下面结合附图和实施例对本说明书作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
65.需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。在不冲突的情况下,本说明书中的实施例及实施例中的特征可以相互组合。
66.如前所述,基于端到端的语音识别,虽然在通用场景的识别上效果较好,但在说到人名、地名这种类似的场景时效果欠佳。
67.发明人经研究发现,当想要优化某类词的识别效果时,可以将对该类词的识别效果的优化融入到端到端模型的训练中,这样能够借助端到端模型的强大建模能力优化识别效果。因为模型端能够直接输出信息告诉优化处理器什么时候应该去优化该类词,能有效地提高识别效率。
68.具体地,当想要提升某类词的识别效果时,可以预先针对该类词设置对应的槽位标记。例如,当想要提升人名的识别效果时,可以预先设置人名槽位标记。当想要提升地名的识别效果时,可以预先设置地名槽位标记。这里,可以将如上所述的某类词称为目标类别。在训练数据准备阶段,可以将目标类别对应的槽位标记与作用为训练数据的文本信息
中的目标类别的词的出现位置进行关联。如此,在端到端模型的训练阶段,通过结合目标类别对应的槽位标记,可以使得训练所得的端到端模型具备槽位预测功能,即能预测目标类别的词的出现位置。后续,优化处理器可以根据该端到端模型输出的预测结果示出的该槽位标记和该槽位标记对应的位置,准确地识别出目标类别的词。
69.另外,发明人发现,通过以下两种模型处理方案,均可以训练得到具备槽位预测功能的目标端到端模型,该目标端到端模型输出的预测结果,均可以使得优化处理器准确地识别出目标类别的词。
70.模型处理方案一:将槽位标记预测融合到用于语音识别的端到端模型的训练阶段,使得训练所得的目标端到端模型,在接收到包括目标类别的词的语音信息时,输出用于表征该语音信息的语义的、且添加有目标类别对应的槽位标记的文本信息。其中,该槽位标记添加在预测出的目标类别的词的出现位置。此外,在语音识别场景中,目标端到端模型输出的预测结果作为优化处理器的输入。
71.模型处理方案二:单独训练一个专门用于进行槽位预测的端到端模型,使得训练所得的目标端到端模型接收语音识别模型输出的预测结果,并针对该预测结果进行槽位预测,以及输出相应的槽位预测结果。在语音识别场景中,语音识别模型和目标端到端模型分别输出的预测结果均作为优化处理器的输入。
72.下面,先详细介绍与模型处理方案一相关的内容。
73.本说明书的一些实施例分别披露了与模型处理方案一相关的模型处理方法、语音识别方法。具体地,图1示出了适用于这些实施例的示例性系统架构图。
74.如图1所示,系统架构包括模型训练系统和语音识别系统。模型训练系统用于根据包括目标类别的词的语音信息对应的训练样本,对待训练的端到端模型进行训练,以训练得到用于语音识别的、且带有槽位预测功能的目标端到端模型。需要指出的是,在采用包括目标类别的词的语音信息对应的训练样本的基础上,还可以采用不包括目标类别的词的语音信息对应的训练样本。
75.目标类别可以包括与名称有关的类别。进一步地,目标类别可以包括以下至少一种类别:人名、地名、机构名、动物名称、音频名称、视频名称等等。音频名称例如可以包括但不限于歌曲名称。视频名称可以包括但不限于以下至少一种视频的名称:直播视频、电视剧、电影、综艺节目等等。
76.实践中,目标端到端模型属于语音识别系统的组成部分。另外,语音识别系统还包括优化处理器。在语音识别场景中,可以将待识别的语音信息输入目标端到端模型。目标端到端模型可以对该语音信息进行语音识别,并将经语音识别所得的预测结果输出至优化处理器。优化处理器可以对该预测结果进行优化处理,并输出经优化处理后所得的语音识别结果。
77.需要说明的是,当待识别的语音信息不是包括目标类别的词的语音信息时,目标端到端模型输出的预测结果,与现有的用于语音识别的端到端模型输出的预测结果类似,优化处理器可以采用常规的处理方法,对该预测结果进行优化处理。
78.当待识别的语音信息是包括目标类别的词的语音信息时,目标端到端模型输出的预测结果不同于现有的用于语音识别的端到端模型输出的预测结果。目标端到端模型输出的预测结果中的文本信息中添加有,能帮助优化处理器准确识别目标类别的词的槽位标
记。
79.下面,结合具体的实施例,描述上述方法的具体实施步骤。
80.参看图2,其示出了模型处理方法的一个实施例的流程200。该方法的执行主体可以为图1所示的模型训练系统。该方法包括以下步骤:
81.步骤201,获取至少一个训练样本,训练样本包括,包括目标类别的词的语音信息,以及标注文本,标注文本用于表征语音信息的语义、且添加有目标类别对应的槽位标记,槽位标记添加在标注文本中的目标类别的词的原始出现位置;
82.步骤202,根据至少一个训练样本,对待训练的端到端模型进行训练,得到用于语音识别的、且带有槽位预测功能的目标端到端模型。
83.下面,对步骤201-202做详细说明。
84.在步骤201中,上述至少一个训练样本分别包括的语音信息可以是频谱信息,该频谱信息可以是采用梅尔频率倒谱系数(mel-frequency cepstral coefficients,mfcc)或线性预测倒谱系数(linear predictive cepstral coefficient,lpcc)等特征提取方法提取的。
85.上述至少一个训练样本可以是预先生成的,且上述至少一个训练样本可以存储在特定的存储位置,例如上述执行主体本地或者与上述执行主体通信连接的其他服务端上的某个位置。上述执行主体可以从该存储位置获取上述至少一个训练样本。
86.实践中,上述至少一个训练样本分别包括的标注文本中的槽位标记,可以是人工标注的,也可以是采用特定的工具(例如用于命名实体识别的工具)进行自动化标注的。例如,当想要识别某种命名实体(例如人名、地名或机构名等)时,可以在该工具中设定该种命名实体的类别和该类别对应的槽位标记。之后该工具可以依据该类别,从待标注的文本中识别出属于该类别的词,并在该词的前面添加该类别对应的槽位标记,使得该槽位标记占用该词在该文本中的原始出现位置。
87.以目标类别为人名,人名槽位标记为“class_person”为例。如图3a所示,其示出了为待标注的文本信息添加槽位标记的一个示意图。在图3a中,示出了待标注的文本信息“我的名字叫小明”。其中,“小明”属于人名。可以采用人工标注方式,或者自动化标注方式,在“小明”的前面(如左侧)添加人名槽位标记“class_person”。如图3a所示,添加人名槽位标记后的标注文本可以为“我的名字叫class_person小明”。其中,“class_person”占用了人名“小明”的原始出现位置。“class_person”可以用于表示,其所占用的位置处应出现人名。
88.再以目标类别为地名,地名槽位标记为“class_place”为例。如图3b所示,其示出了为待标注的文本信息添加槽位标记的另一个示意图。在图3b中,示出了待标注的文本信息“我住在北京”。其中,“北京”属于地名。可以采用人工标注方式,或者自动化标注方式,在“北京”的前面(如左侧)添加地名槽位标记“class_place”。如图3b所示,添加地名槽位标记后的标注文本可以为“我住在class_place北京”。其中,“class_place”占用了地名“北京”的原始出现位置。“class_place”可以用于表示,其所占用的位置处应出现地名。
89.应该理解,当目标类别包括人名时,标注文本中添加的人名槽位标记可以用于表示,其所占用的位置处应出现人名。当目标类别包括地名时,标注文本中添加的地名槽位标记可以用于表示,其所占用的位置处应出现地名。当目标类别包括机构名时,标注文本中添加的机构名槽位标记可以用于表示,其所占用的位置处应出现机构名。当目标类别包括其
他类别时,标注文本中添加的该其他类别对应的槽位标记所表示的内容,可以根据如前所述的内容类推得到,在此不再细述。
90.可选地,上述至少一个训练样本可以是预先收集的训练样本集中的一部分样本。训练样本集还可以包括,与不包括目标类别的词的语音信息对应的训练样本。该训练样本包括,不包括目标类别的词的语音信息,以及用于表征该语音信息的语义的文本信息。应该理解,训练样本集可以用于待训练的端到端模型的训练。在根据包括目标类别的词的语音信息对应的训练样本对待训练的端到端模型进行训练的基础上,还可以根据不包括目标类别的词的语音信息对应的训练样本对待训练的端到端模型进行训练。
91.在步骤202中,上述执行主体可以根据上述至少一个训练样本,对待训练的端到端模型进行训练,得到用于语音识别的、且带有槽位预测功能的目标端到端模型。
92.待训练的端到端模型可以是未经训练或未训练完成的模型。另外,待训练的端到端模型可以是,适用于语音识别的、采用端到端架构的任意类别的模型。进一步地,待训练的端到端模型可以包括但不限于基于transformer的模型等。基于transformer的模型可称为transformer模型。transformer模型是基于自注意力机制的且采用编码器(encoder)-解码器(decoder)架构的自然语言处理模型。transformer模型通常并行处理序列中的所有单词或符号,同时利用自注意力机制将上下文与较远的单词结合起来。通过并行处理所有单词,并让每个单词在多个处理步骤中注意到句子中的其他单词。另外,transformer模型的训练速度通常比较快,而且其处理效果也比较好。
93.需要说明的是,待训练的端到端模型所采用的词典添加有目标类别对应的槽位标记。如此,才能使得待训练的端到端模型学习槽位预测。
94.实践中,上述至少一个训练样本分别包括的标注文本,可以为词序列形式的文本,也可以为未经分词的文本。
95.当上述至少一个训练样本分别包括的标注文本为词序列形式的文本时,可以将上述至少一个训练样本分别包括的语音信息作为输入,以及将该语音信息对应的标注文本作为标签,以对待训练的端到端模型进行训练。
96.当上述至少一个训练样本分别包括的标注文本为未经分词的文本时,对于上述至少一个训练样本中的每个训练样本,可以对该训练样本所包括的标注文本进行分词处理,并将经分词处理所得的词组成词序列。而后,可以将上述至少一个训练样本分别包括的语音信息作为输入,以及将该语音信息对应的词序列作为标签,对待训练的端到端模型进行训练。实践中,可以采用现有的文本分词技术,对标注文本进行分词处理,在此不再细述具体的分词方法。
97.本实施例提供的模型处理方法,通过获取如前所述的至少一个训练样本,并根据该至少一个训练样本,对待训练的端到端模型进行训练,以便得到用于语音识别的、且带有槽位预测功能的目标端到端模型。如此,目标端到端模型输出的预测结果,能帮助优化处理器准确地识别出目标类别的词,提升针对目标类别的词的识别正确率,降低虚警率,也因此,可以提升针对包括目标类别的词的语音信息的语音识别效果。
98.下面,介绍图2对应的实施例提供的方案在说到人名的场景中的应用。
99.在说到人名的场景中,目标类别可称为人名。在模型训练之前,可以设置人名槽位标记。另外,可以预先收集至少一条说到人名的语音信息(例如经预处理所得的频谱信息),
并针对所收集的至少一条语音信息生成对应的文本信息。该文本信息用于表征其对应的语音信息的语义。而后,可以采用人工标注方式,或者自动化标注方式,在所生成的文本信息中的属于人名的词的前面添加人名槽位标记。应该理解,该人名槽位标记位于该词在该文本信息中的原始出现位置。这里,可以将添加人名槽位标记后的文本信息称为标注文本。
100.之后,对于所收集的至少一条语音信息中的每条语音信息,可以将该语音信息和标注文本组成训练样本。此外,还可以将所组成的训练样本存储到特定的存储位置,以用于模型训练。
101.如图4所示,其示出了模型处理方法又一个实施例的流程400。该训练方法的执行主体可以为如图1所示的模型训练系统。该训练方法包括以下步骤:
102.步骤401,获取至少一个训练样本,训练样本包括,包括人名的语音信息,以及标注文本,标注文本用于表征语音信息的语义、且添加有人名槽位标记,人名槽位标记添加在标注文本中的属于人名的词的原始出现位置;
103.步骤402,根据至少一个训练样本,对待训练的端到端模型进行训练,得到用于语音识别的、且带有人名槽位预测功能的目标端到端模型。
104.在说到人名的场景中,采用步骤401-402训练所得的目标端到端模型,可以用于语音识别且带有人名槽位预测功能。目标端到端模型输出的预测结果,可以帮助优化处理器准确地识别出人名,提升针对人名的识别正确率,降低虚警率,也因此,可以提升针对包括人名的语音信息的语音识别效果。
105.需要说明的是,本领域技术人员根据模型处理方法在说到人名的场景中的应用,可以类推得到模型处理方法在说到其他类别的词的场景中的应用方案,在此不再一一举例。
106.在采用图2对应的实施例提供的方案训练得到用于语音识别的、且带有槽位预测功能的目标端到端模型后,可以将该模型应用于语音识别系统,使得该模型输出的预测结果作为语音识别系统中的优化处理器的输入。
107.实践中,目标端到端模型输出的预测结果通常包括多条文本信息,该多条文本信息具有相同的长度。优化处理器需要按照指定的读取顺序(例如从左往右,或从右往左等),从多条文本信息中读取位于同一位置上的词,并从所读取的词中确定出作用为识别结果的词。需要说明的是,对于预测结果中的与槽位标记无关的词,可以采用常规的处理方法进行优化处理。对于与槽位标记有关的词,可以采用如图5所示的流程进行优化处理。
108.图5示出了,语音识别方法的一个实施例的流程500。该语音识别方法的执行主体可以为如图1所示的语音识别系统中的优化处理器。其中,该语音识别方法具体示出了与槽位标记有关的词的优化处理过程,该语音识别方法包括以下步骤:
109.步骤501,获取目标端到端模型输出的预测结果,预测结果包括多条文本信息;
110.步骤502,响应于在多条文本信息的同一位置处读取到目标类别对应的槽位标记,从多条文本信息中分别提取出,与槽位标记位置临近且在槽位标记之后出现的词;
111.步骤503,根据槽位标记,确定提取出的词对应的第一分数;
112.步骤504,根据所确定的第一分数,从提取出的词中确定出目标词,目标词作用为槽位标记所占用的位置对应的识别结果。
113.在本实施例中,为了便于区分词对应的分数和下文中提到的文本信息对应的分
数,在此,将词对应的分数称为第一分数,将文本信息对应的分数称为第二分数。需要说明的是,第一分数和第二分数可以均为处于[0,1]区间内的数值。
[0114]
实践中,每个目标类别可以设有对应的打分模型。目标类别对应的槽位标记可以包括,该打分模型的标识。打分模型可以用于表征其对应的目标类别下的词与第一分数之间的对应关系。具体地,打分模型可以包括预先建立的用于表征目标类别下的词与第一分数之间的对应关系的数据映射表。或者,打分模型可以包括预先训练的用于预测目标类别下的词对应的第一分数的预测模型。
[0115]
下面,对步骤501-504做详细说明。
[0116]
在步骤501中,目标端到端模型可以包括,采用图2对应的实施例描述的方法训练所得的用于语音识别的、且带有槽位预测功能的目标端到端模型。若预测结果通过对包括目标类别的词的语音信息进行语音识别而获得,则预测结果中的多条文本信息可以分别添加有目标类别对应的槽位标记,该槽位标记所占用的位置为,预测出的目标类别的词的出现位置。若预测结果通过对不包括目标类别的词的语音信息进行语音识别而获得,则预测结果中的多条文本信息未添加目标类别对应的槽位标记。
[0117]
在步骤502中,上述执行主体在对预测结果进行优化处理的过程中,可以响应于在预测结果中的多条文本信息的同一位置处读取到目标类别对应的槽位标记,从多条文本信息中分别提取出,与槽位标记位置临近且在槽位标记之后出现的词。其中,当采用从左往右的读取顺序时,在槽位标记之后出现的词,指位于槽位标记右侧的词。当采用从右往左的读取顺序时,在槽位标记之后出现的词,指位于槽位标记左侧的词。
[0118]
作为示例,假设预测结果示出以下两条文本信息:“我的名字叫class_person小明”、“我的名字叫class_person小名”,上述执行主体采用从左往右的读取顺序。在从该两条文本信息中识别出“我的名字叫”之后,便会读取人名槽位标记“class_person”。在读取到该人名槽位标记之后,便可以获知该人名槽位标记所占用的位置处应出现属于人名的词,并且可以确定与该人名槽位标记位置临近且位于该人名槽位标记右侧的词,即“小明”和“小名”,是该人名槽位标记所占用的位置对应的候选人名。因此,可以从该两条信息中分别提取出“小明”和“小名”。
[0119]
在步骤503中,可以利用槽位标记对应的打分模型,确定提取出的各个词分别对应的第一分数,以对提取出的各个词进行分数激励。如此,可以根据分数,对提取出的各个词进行优化处理。
[0120]
作为一种实现方式,当打分模型为如前所述的数据映射表时,对于每个提取出的词,可以在打分模型中查找包括该词的记录,并将查找到的记录中的第一分数确定为该词对应的第一分数。可选地,若没有查找到包括该词的记录,则可以将数字0确定为该词对应的第一分数。
[0121]
作为另一种实现方式,当打分模型为如前所述的预测模型时,可以将每个提取出的词输入打分模型,得到打分模型输出的第一分数。
[0122]
在步骤504中,上述执行主体可以根据所确定的第一分数,从提取出的各个词中确定出作用为槽位标记所占用的位置对应的识别结果的目标词。
[0123]
作为一种实现方式,可以将提取出的各个词中的对应最高第一分数的词确定为目标词。继续以上述两条文本信息为例,假设“小明”对应的第一分数为0.9,“小名”对应的第
一分数为0.2,则可以将“小明”确定为人名槽位标记“class_person”所占用的位置对应的识别结果。此时,上述两条文本信息对应的最终的语音识别结果可以包括“我的名字叫小明”。
[0124]
作为另一种实现方式,步骤501中的预测结果还包括多条文本信息分别对应的第二分数。每条文本信息对应的第二分数,可以是目标端到端模型根据该文本信息中的各个字符的概率分布计算出的。对于每个提取出的词,可以根据该词对应的第一分数和该词所在的文本信息对应的第二分数,确定该词对应的筛选用分数。例如,可以将该词对应的第一分数和该词所在的文本信息对应的第二分数的总和确定为该词对应的筛选用分数。而后,可以根据所确定的筛选用分数,从提取出的各个词中确定出目标词,例如将对应最高筛选用分数的词确定为目标词。
[0125]
可选地,打分模型可以预先设置有调分系数。该调分系数用于对提取出的词进行分数激励时,调整提取出的词对应的第一分数。该调分系数可以为处于[0,1]区间内的数值。实践中,预先收集有目标类别对应的词集合,且目标类别关联与该词集合对应的语音识别统计信息,该统计信息例如可以包括但不限于字正确率、针对目标类别的词的识别准确率等等。该调分系数可以根据该统计信息确定的。
[0126]
在打分模型预先设置有调分系数的情况下,步骤504可以通过图6所示的流程实现。其中,图6示出了与目标类别对应的槽位标记所占用的位置对应的识别结果的确定方法的一个实施例的流程。该确定方法包括以下步骤:
[0127]
步骤5041,对于每个提取出的词,确定该词对应的第一分数与槽位标记对应的打分模型的调分系数之间的乘积,并将该乘积和该词所在的文本信息对应的第二分数的总和确定为该词对应的筛选用分数;
[0128]
步骤5042,根据所确定的筛选用分数,从提取出的词中确定出目标词,目标词作用为与目标类别对应的槽位标记所占用的位置对应的识别结果。
[0129]
其中,在步骤5042中,可以将对应最高筛选用分数的词确定为目标词。
[0130]
图5对应的实施例提供的语音识别方法,通过在对预测结果进行优化处理的过程中,响应于在预测结果中的多条文本信息的同一位置处读取到目标类别对应的槽位标记,从多条文本信息中分别提取出,与槽位标记位置临近且在槽位标记之后出现的词,而后根据槽位标记(例如利用槽位标记对应的打分模型),确定提取出的词对应的第一分数,以便根据所确定的第一分数,从提取出的词中确定出作用为槽位标记所占用的位置对应的识别结果的目标词。如此,可以依据目标类别对应的槽位标记和该槽位标记对应的打分模型,准确地识别出该槽位标记所占用的位置对应的词。因此,可以提升针对目标类别的词的识别正确率,降低虚警率,也因此,可以提升针对包括目标类别的词的语音信息的语音识别效果。
[0131]
下面,介绍图5对应的实施例提供的方案在说到人名的场景中的应用。
[0132]
在说到人名的场景中,采用图4对应的实施例提供的方案训练得到用于语音识别的、且带有人名槽位预测功能的目标端到端模型后,可以将该模型应用于语音识别系统,使得该模型输出的预测结果作为语音识别系统中的优化处理器的输入。
[0133]
在语音识别场景中,在将一条包括人名的待识别语音信息输入目标端到端模型后,目标端到端模型对该语音信息进行分析处理后,可以输出相应的预测结果,该预测结果
可以包括多条用于表征该语音信息的语义的、且添加有人名槽位标记的文本信息。优化处理器在接收到该预测结果后,可以对该预测结果进行优化处理,并输出经优化处理后所得的语音识别结果。对于该预测结果中的与人名槽位标记无关的词,可以采用常规的处理方法进行优化处理。对于与人名槽位标记有关的词,可以采用如图7所示的流程进行优化处理。
[0134]
图7示出了,语音识别方法的一个实施例的流程700。该语音识别方法的执行主体可以为如图1所示的语音识别系统中的优化处理器。其中,该语音识别方法具体示出了与人名槽位标记有关的词的优化处理过程,该语音识别方法包括以下步骤:
[0135]
步骤701,获取目标端到端模型输出的预测结果,预测结果包括多条文本信息;
[0136]
步骤702,响应于在多条文本信息的同一位置处读取到人名槽位标记,从多条文本信息中分别提取出,与人名槽位标记位置临近且在人名槽位标记之后出现的词;
[0137]
步骤703,根据人名槽位标记,确定提取出的词对应的第一分数;
[0138]
步骤704,根据所确定的第一分数,从提取出的词中确定出目标词,目标词作用为人名槽位标记所占用的位置对应的识别结果。
[0139]
其中,在步骤701中,目标端到端模型可以包括,采用图4对应的实施例描述的方法训练所得的用于语音识别的、且带有人名槽位标记预测功能的目标端到端模型。
[0140]
在步骤703中,可以利用人名槽位标记对应的打分模型,确定提取出的词对应的第一分数。
[0141]
在说到人名的场景中,采用步骤701-704,优化处理器可以准确地识别出人名。因此,可以提升针对人名的识别正确率,降低虚警率,也因此,可以提升针对包括人名的语音信息的语音识别效果。
[0142]
需要说明的是,本领域技术人员根据语音识别方法在说到人名的场景中的应用,可以类推得到语音识别方法在说到其他类别的词的场景中的应用方案,在此不再一一举例。
[0143]
以上描述了与如前所述的模型处理方案一相关的内容。下面,介绍与如前所述的模型处理方案二相关的内容。需要说明的是,为了便于区分目标端到端模型和语音识别模型输出的预测结果,下文中,将语音识别模型输出的预测结果称为第一预测结果,以及将目标端到端模型输出的预测结果称为第二预测结果。
[0144]
本说明书的一些实施例分别披露了,与模型处理方案二相关的模型处理方法、语音识别方法。具体地,图8示出了适用于这些实施例的示例性系统架构图。
[0145]
如图8所示,系统架构包括模型训练系统和语音识别系统。模型训练系统用于根据包括文本信息和槽位标记信息的训练样本,对待训练的端到端模型进行训练,以训练得到用于槽位预测的目标端到端模型。其中,该文本信息包括目标类别的词。该槽位标记信息示出该词的出现位置和目标类别对应的槽位标记。这里,目标类别与前文中提及的目标类别类似,在此不再做具体解释。
[0146]
实践中,目标端到端模型属于语音识别系统的组成部分。另外,语音识别系统还包括语音识别模型和优化处理器。语音识别模型可以是采用端到端架构的模型。在语音识别场景中,对待识别的语音信息进行语音识别时,可以将该语音信息输入语音识别模型,使得语音识别模型向目标端到端模型和优化处理器分别输出,针对该语音信息的第一预测结
果。目标端到端模型可以对该第一预测结果进行槽位预测,并将经槽位预测所得的第二预测结果输出至优化处理器。优化处理器可以根据该第二预测结果,对该第一预测结果进行优化处理,并输出经优化处理后所得的语音识别结果。
[0147]
下面,结合具体的实施例,描述上述方法的具体实施步骤。
[0148]
参看图9,其示出了模型处理方法的一个实施例的流程900。该方法的执行主体可以为如图8所示的模型训练系统。该方法包括以下步骤:
[0149]
步骤901,获取至少一个训练样本,训练样本包括,包括目标类别的词的文本信息,以及槽位标记信息,槽位标记信息示出目标类别的词的出现位置和目标类别对应的槽位标记;
[0150]
步骤902,根据至少一个训练样本,对待训练的端到端模型进行训练,得到用于槽位预测的目标端到端模型。
[0151]
下面,对步骤901-902做详细说明。
[0152]
在步骤901中,上述至少一个训练样本可以是预先生成的,且上述至少一个训练样本可以存储在特定的存储位置,例如上述执行主体本地或者与上述执行主体通信连接的其他服务端上的某个位置。上述执行主体可以从该存储位置获取上述至少一个训练样本。
[0153]
实践中,上述至少一个训练样本中的槽位标记信息可以是人工标注的,也可以是自动化标注的,在此不做具体限定。
[0154]
在步骤902中,上述执行主体可以根据上述至少一个训练样本,对待训练的端到端模型进行训练,得到用于槽位预测的目标端到端模型。
[0155]
其中,待训练的端到端模型可以是未经训练或未训练完成的模型。另外,待训练的端到端模型可以是,适用于文本处理的、采用端到端架构的任意类别的模型。进一步地,待训练的端到端模型可以包括但不限于基于transformer的模型等。
[0156]
实践中,上述至少一个训练样本分别包括的文本信息,可以为词序列形式的文本,也可以为未经分词的文本。
[0157]
当上述至少一个训练样本分别包括的文本信息为词序列形式的文本时,可以将上述至少一个训练样本分别包括的文本信息作为输入,以及将该文本信息对应的槽位标记信息作为标签,对待训练的端到端模型进行训练。
[0158]
当上述至少一个训练样本分别包括的文本信息为未经分词的文本时,对于上述至少一个训练样本中的每个训练样本,可以对该训练样本所包括的文本信息进行分词处理,并将经分词处理所得的词组成词序列。而后,可以将上述至少一个训练样本分别包括的文本信息对应的词序列作为输入,以及将该文本信息对应的槽位标记信息作为标签,对待训练的端到端模型进行训练。
[0159]
本实施例提供的模型处理方法,通过获取上述至少一个训练样本,而后根据上述至少一个训练样本,对待训练的端到端模型进行训练,以便训练得到用于槽位预测的目标端到端模型。如此,目标端到端模型输出的第二预测结果,可以帮助优化处理器从语音识别模型输出的第一预测结果中准确地识别出目标类别的词,提升针对目标类别的词的识别正确率,降低虚警率,也因此,可以提升针对包括目标类别的词的语音信息的语音识别效果。
[0160]
在采用图9对应的实施例提供的方案训练得到用于槽位预测的目标端到端模型后,可以将该模型应用于语音识别系统,使得该模型输出的第二预测结果作为语音识别系
统中的优化处理器的输入。
[0161]
实践中,语音识别模型输出的第一预测结果通常包括多条文本信息,该多条文本信息具有相同的长度。优化处理器需要按照指定的读取顺序(例如从左往右,或从右往左等),从多条文本信息中读取位于同一位置上的词,并从所读取的词中确定出该位置对应的作用为识别结果的词。需要说明的是,对于第一预测结果中的与槽位标记无关的词,可以采用常规的处理方法进行优化处理。对于与槽位标记有关的词,可以采用如图10所示的流程进行优化处理。
[0162]
图10示出了,语音识别方法的一个实施例的流程1000。该语音识别方法的执行主体可以为如图8所示的语音识别系统中的优化处理器。其中,该语音识别方法示出了,在第二预测结果示出目标类别的词的出现位置和目标类别对应的槽位标记的情况下,与槽位标记有关的词的优化处理过程,该语音识别方法包括以下步骤:
[0163]
步骤1001,获取语音识别模型输出的第一预测结果,第一预测结果包括多条文本信息;
[0164]
步骤1002,获取目标端到端模型输出的第二预测结果,第二预测结果通过对第一预测结果进行槽位预测而获得;
[0165]
步骤1003,响应于第二预测结果示出目标类别的词的出现位置和目标类别对应的槽位标记,以及在多条文本信息中读取到位于该出现位置的词,根据第二预测结果示出的槽位标记,确定所读取的位于该出现位置的词对应的第一分数;
[0166]
步骤1004,根据所确定的第一分数,从所读取的位于该出现位置的词中确定出目标词,目标词作用为该出现位置对应的识别结果。
[0167]
其中,在步骤1002中,目标端到端模型可以包括,采用图9对应的实施例描述的方法训练所得的用于槽位预测的目标端到端模型。
[0168]
在步骤1003中,可以响应于第二预测结果示出目标类别的词的出现位置和目标类别对应的槽位标记,以及在多条文本信息中读取到位于该出现位置的词,利用第二预测结果示出的槽位标记对应的打分模型,确定所读取的位于该出现位置的词对应的第一分数。
[0169]
在本实施例中,利用槽位标记对应的打分模型,确定所读取的位于该出现位置的词对应的第一分数,以及根据所确定的第一分数,从所读取的位于该出现位置的词中确定出目标词的方法,可参考图5对应的实施例中的相关描述。
[0170]
本实施例提供的语音识别方法,在第二预测结果示出目标类别的词的出现位置和目标类别对应的槽位标记的情况下,通过在对第一预测结果进行优化处理的过程中,响应于在第一预测结果中的多条文本信息中读取到位于该出现位置的词,根据该槽位标记(例如利用该槽位标记对应的打分模型),确定所读取的位于该出现位置的词对应的第一分数,以便根据所确定的第一分数,从所读取的位于该出现位置的词中确定出目标词,目标词作用为该出现位置对应的识别结果。如此,可以依据第二预测结果和第二预测结果示出的槽位标记对应的打分模型,准确地识别出第二预测结果示出的出现位置对应的词。因此,可以提升针对目标类别的词的识别正确率,降低虚警率,也因此,可以提升针对包括目标类别的词的语音信息的语音识别效果。
[0171]
进一步参考图11,作为对以上一些图所示方法的实现,本说明书提供了一种模型处理装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置可以应用于
如图1所示的模型训练系统。
[0172]
如图11所示,本实施例的模型处理装置1100包括:获取单元1101和模型训练单元1102。其中,获取单元1101被配置成获取至少一个训练样本,训练样本包括,包括目标类别的词的语音信息,以及标注文本,标注文本用于表征语音信息的语义、且添加有目标类别对应的槽位标记,槽位标记添加在标注文本中的目标类别的词的原始出现位置;模型训练单元1102被配置成根据该至少一个训练样本,对待训练的端到端模型进行训练,得到用于语音识别的、且带有槽位预测功能的目标端到端模型。
[0173]
在本实施例中,获取单元1101和模型训练单元1102的具体处理及其带来的技术效果,可分别参考图2对应实施例中步骤201和步骤202的相关说明,在此不再赘述。
[0174]
可选地,目标类别可以包括以下至少一种类别:人名、地名、机构名、动物名称、音频名称、视频名称等。
[0175]
可选地,待训练的端到端模型所采用的词典添加有目标类别对应的槽位标记。待训练的端到端模型可以包括,基于自注意力机制的且采用编码器-解码器架构的自然语言处理模型。
[0176]
可选地,当目标类别包括人名时,标注文本中添加的人名槽位标记用于表示,其所占用的位置处应出现人名;当目标类别包括地名时,标注文本中添加的地名槽位标记用于表示,其所占用的位置处应出现地名;当目标类别包括机构名时,标注文本中添加的机构名槽位标记用于表示,其所占用的位置处应出现机构名。
[0177]
可选地,当标注文本为词序列形式的文本时,模型训练单元1102可以进一步被配置成:将上述至少一个训练样本分别包括的语音信息作为输入,以及将该语音信息对应的标注文本作为标签,对待训练的端到端模型进行训练。
[0178]
可选地,当标注文本为未经分词的文本时,模型训练单元1102可以进一步被配置成:对于上述至少一个训练样本中的每个训练样本,对该训练样本所包括的标注文本进行分词处理,并将经分词处理所得的词组成词序列;将上述至少一个训练样本分别包括的语音信息作为输入,以及将该语音信息对应的词序列作为标签,对待训练的端到端模型进行训练。
[0179]
本实施例提供的模型处理装置,通过获取单元获取上述至少一个训练样本,而后通过模型训练单元根据上述至少一个训练样本,对待训练的端到端模型进行训练,得到用于语音识别的、且带有槽位预测功能的目标端到端模型,可以使得目标端到端模型输出的预测结果,能帮助优化处理器准确地识别出目标类别的词,提升针对目标类别的词的识别正确率,降低虚警率,也因此,可以提升针对包括目标类别的词的语音信息的语音识别效果。
[0180]
进一步参考图12,作为对以上一些图所示方法的实现,本说明书提供了一种语音识别装置的一个实施例,该装置实施例与图5所示的方法实施例相对应,该装置应用于如图1所示的语音识别系统中的优化处理器。语音识别系统还包括用于语音识别的、且带有槽位预测功能的目标端到端模型。优化处理器用于对目标端到端模型输出的预测结果进行优化处理。
[0181]
如图12所示,本实施例的语音识别装置1200包括:获取单元1201、提取单元1202、分数确定单元1203和识别结果确定单元1204。其中,获取单元1201被配置成获取目标端到
端模型输出的预测结果,预测结果包括多条文本信息;提取单元1202被配置成响应于在该多条文本信息的同一位置处读取到目标类别对应的槽位标记,从该多条文本信息中分别提取出,与槽位标记位置临近且在槽位标记之后出现的词;分数确定单元1203被配置成根据槽位标记,确定提取出的词对应的第一分数;识别结果确定单元1204被配置成根据所确定的第一分数,从提取出的词中确定出目标词,目标词作用为槽位标记所占用的位置对应的识别结果。
[0182]
在本实施例中,获取单元1201、提取单元1202、分数确定单元1203和识别结果确定单元1204的具体处理及其带来的技术效果,可分别参考图5对应实施例中步骤501、步骤502、步骤503和步骤504的相关说明,在此不再赘述。
[0183]
可选地,目标端到端模型可以包括,采用图2对应的实施例描述的方法训练所得的用于语音识别的、且带有槽位预测功能的目标端到端模型。
[0184]
可选地,分数确定单元1203可以进一步被配置成:利用槽位标记对应的打分模型,确定提取出的词对应的第一分数。
[0185]
可选地,打分模型可以包括,预先建立的用于表征目标类别下的词与第一分数之间的对应关系的数据映射表;以及分数确定单元1203可以进一步被配置成:在打分模型中查找包括提取出的词的记录,并将查找到的记录中的第一分数确定为提取出的词对应的第一分数。
[0186]
可选地,打分模型可以包括,预先训练的用于预测目标类别下的词对应的第一分数的预测模型;以及分数确定单元1203可以进一步被配置成:将提取出的词输入打分模型,得到打分模型输出的第一分数。
[0187]
可选地,预测结果还可以包括上述多条文本信息分别对应的第二分数;以及识别结果确定单元1204可以进一步被配置成:对于每个提取出的词,根据该词对应的第一分数和该词所在的文本信息对应的第二分数,确定该词对应的筛选用分数;根据所确定的筛选用分数,从提取出的词中确定出目标词。
[0188]
可选地,打分模型可以对应预设的调分系数;以及识别结果确定单元1204可以进一步被配置成:对于每个提取出的词,确定该词对应的第一分数与调分系数之间的乘积;将该乘积和该词所在的文本信息对应的第二分数的总和确定为该词对应的筛选用分数。
[0189]
本实施例提供的语音识别装置,通过获取单元获取目标端到端模型输出的预测结果,预测结果包括多条文本信息,之后通过提取单元响应于在该多条文本信息的同一位置处读取到目标类别对应的槽位标记,从该多条文本信息中分别提取出,与槽位标记位置临近且在槽位标记之后出现的词,而后通过分数确定单元根据槽位标记(例如利用槽位标记对应的打分模型),确定提取出的词对应的第一分数,以便识别结果确定单元根据所确定的第一分数,从提取出的词中确定出目标词,目标词作用为槽位标记所占用的位置对应的识别结果。如此,可以依据槽位标记和槽位标记对应的打分模型,准确地识别出该槽位标记所占用的位置对应的词。因此,可以提升针对目标类别的词的识别正确率,降低虚警率,也因此,可以提升针对包括目标类别的词的语音信息的语音识别效果。
[0190]
进一步参考图13,作为对以上一些图所示方法的实现,本说明书提供了一种模型处理装置的又一个实施例,该装置实施例与图4所示的方法实施例相对应,该装置可以应用于如图1所示的模型训练系统。
[0191]
如图13所示,本实施例的模型处理装置1300包括:获取单元1301和模型训练单元1302。其中,获取单元1301被配置成获取至少一个训练样本,训练样本包括,包括人名的语音信息,以及标注文本,标注文本用于表征语音信息的语义、且添加有人名槽位标记,人名槽位标记添加在标注文本中的属于人名的词的原始出现位置;模型训练单元1302被配置成根据该至少一个训练样本,对待训练的端到端模型进行训练,得到用于语音识别的、且带有人名槽位预测功能的目标端到端模型。
[0192]
在本实施例中,获取单元1301和模型训练单元1302的具体处理及其带来的技术效果,可分别参考图4对应实施例中步骤401和步骤402的相关说明,在此不再赘述。
[0193]
本实施例提供的模型处理装置,通过获取单元获取上述至少一个训练样本,而后通过模型训练单元根据上述至少一个训练样本,对待训练的端到端模型进行训练,以便得到用于语音识别的、且带有人名槽位预测功能的目标端到端模型。目标端到端模型输出的预测结果,可以帮助优化处理器准确地识别出人名,提升针对人名的识别正确率,降低虚警率,也因此,可以提升针对包括人名的语音信息的语音识别效果。
[0194]
进一步参考图14,作为对以上一些图所示方法的实现,本说明书提供了一种语音识别装置的一个实施例,该装置实施例与图7所示的方法实施例相对应,该装置应用于如图1所示的语音识别系统中的优化处理器。语音识别系统还包括用于语音识别的、且带有人名槽位预测功能的目标端到端模型。优化处理器用于对目标端到端模型输出的预测结果进行优化处理。
[0195]
如图14所示,本实施例的语音识别装置1400包括:获取单元1401、提取单元1402、分数确定单元1403和识别结果确定单元1404。其中,获取单元1401被配置成获取目标端到端模型输出的预测结果,预测结果包括多条文本信息;提取单元1402被配置成响应于在该多条文本信息的同一位置处读取到人名槽位标记,从该多条文本信息中分别提取出,与人名槽位标记位置临近且在人名槽位标记之后出现的词;分数确定单元1403被配置成根据人名槽位标记,确定提取出的词对应的第一分数;识别结果确定单元1404被配置成根据所确定的第一分数,从提取出的词中确定出目标词,目标词作用为人名槽位标记所占用的位置对应的识别结果。
[0196]
在本实施例中,获取单元1401、提取单元1402、分数确定单元1403和识别结果确定单元1404的具体处理及其带来的技术效果,可分别参考图7对应实施例中步骤701、步骤702、步骤703和步骤704的相关说明,在此不再赘述。
[0197]
可选地,目标端到端模型可以包括,采用图4对应的实施例描述的方法训练所得的用于语音识别的、且带有人名槽位预测功能的目标端到端模型。
[0198]
可选地,分数确定单元1403可以进一步被配置成:利用人名槽位标记对应的打分模型,确定提取出的词对应的第一分数。
[0199]
本实施例提供的语音识别装置,通过获取单元获取目标端到端模型输出的预测结果,预测结果包括多条文本信息,之后通过提取单元响应于在该多条文本信息的同一位置处读取到人名槽位标记,从该多条文本信息中分别提取出,与人名槽位标记位置临近且在人名槽位标记之后出现的词,而后通过分数确定单元根据人名槽位标记(例如利用人名槽位标记对应的打分模型),确定提取出的词对应的第一分数,以便识别结果确定单元根据所确定的第一分数,从提取出的词中确定出目标词,目标词作用为人名槽位标记所占用的位
置对应的识别结果。如此,依据人名槽位标记和人名槽位标记对应的打分模型,可以准确地识别出人名。因此,可以提升针对人名的识别正确率,降低虚警率,也因此,可以提升针对包括人名的语音信息的语音识别效果。
[0200]
进一步参考图15,作为对以上一些图所示方法的实现,本说明书提供了一种模型处理装置的又一个实施例,该装置实施例与图9所示的方法实施例相对应,该装置可以应用于如图8所示的模型训练系统。
[0201]
如图15所示,本实施例的模型处理装置1500包括:获取单元1501和模型训练单元1502。其中,获取单元1501被配置成获取至少一个训练样本,训练样本包括,包括目标类别的词的文本信息,以及槽位标记信息,槽位标记信息示出目标类别的词的出现位置和目标类别对应的槽位标记;模型训练单元1502被配置成根据该至少一个训练样本,对待训练的端到端模型进行训练,得到用于槽位预测的目标端到端模型。
[0202]
在本实施例中,获取单元1501和模型训练单元1502的具体处理及其带来的技术效果,可分别参考图9对应实施例中步骤901和步骤902的相关说明,在此不再赘述。
[0203]
本实施例提供的模型处理装置,通过获取单元获取上述至少一个训练样本,而后通过模型训练单元根据该至少一个训练样本,对待训练的端到端模型进行训练,以便训练得到用于槽位预测的目标端到端模型。如此,目标端到端模型输出的第二预测结果,可以帮助优化处理器从语音识别模型输出的第一预测结果中准确地识别出目标类别的词,提升针对目标类别的词的识别正确率,降低虚警率,也因此,可以提升针对包括目标类别的词的语音信息的语音识别效果。
[0204]
进一步参考图16,作为对以上一些图所示方法的实现,本说明书提供了一种语音识别装置的一个实施例,该装置实施例与图10所示的方法实施例相对应,该装置应用于如图8所示的语音识别系统中的优化处理器。语音识别系统还包括语音识别模型和用于槽位预测的目标端到端模型。目标端到端模型用于对语音识别模型输出的第一预测结果进行槽位预测,并将经槽位预测所得的第二预测结果输出至优化处理器。优化处理器用于根据第二预测结果,对第一预测结果进行优化处理。
[0205]
如图16所示,本实施例的语音识别装置1600包括:第一获取单元1601、第二获取单元1602、分数确定单元1603和识别结果确定单元1604。其中,第一获取单元1601被配置成获取语音识别模型输出的第一预测结果,第一预测结果包括多条文本信息;第二获取单元1602被配置成获取目标端到端模型输出的第二预测结果,第二预测结果通过对第一预测结果进行槽位预测而获得;分数确定单元1603被配置成响应于第二预测结果示出目标类别的词的出现位置和目标类别对应的槽位标记,以及在多条文本信息中读取到位于该出现位置的词,根据槽位标记,确定所读取的位于该出现位置的词对应的第一分数;识别结果确定单元1604被配置成根据所确定的第一分数,从所读取的位于该出现位置的词中确定出目标词,目标词作用为该出现位置对应的识别结果。
[0206]
在本实施例中,第一获取单元1601、第二获取单元1602、分数确定单元1603和识别结果确定单元1604的具体处理及其带来的技术效果,可分别参考图10对应实施例中步骤1001、步骤1002、步骤1003和步骤1004的相关说明,在此不再赘述。
[0207]
可选地,目标端到端模型可以包括,采用图9对应的实施例描述的方法训练所得的用于槽位预测的目标端到端模型。
[0208]
可选地,分数确定单元1603可以进一步被配置成:响应于第二预测结果示出目标类别的词的出现位置和目标类别对应的槽位标记,以及在多条文本信息中读取到位于该出现位置的词,利用槽位标记对应的打分模型,确定所读取的位于该出现位置的词对应的第一分数。
[0209]
本实施例提供的语音识别装置,通过第一获取单元获取语音识别模型输出的第一预测结果,第一预测结果包括多条文本信息,以及通过第二获取单元获取目标端到端模型输出的第二预测结果,第二预测结果通过对第一预测结果进行槽位预测而获得,而后通过分数确定单元响应于第二预测结果示出目标类别的词的出现位置和目标类别对应的槽位标记,以及在多条文本信息中读取到位于该出现位置的词,根据槽位标记(例如利用槽位标记对应的打分模型),确定所读取的位于该出现位置的词对应的第一分数,以便识别结果确定单元根据所确定的第一分数,从所读取的位于该出现位置的词中确定出目标词,目标词作用为该出现位置对应的识别结果。如此,可以依据第二预测结果和第二预测结果示出的槽位标记对应的打分模型,准确地识别出第二预测结果示出的出现位置对应的词。因此,可以提升针对目标类别的词的识别正确率,降低虚警率,也因此,可以提升针对包括目标类别的词的语音信息的整体语音识别效果。
[0210]
进一步参考图17,其示出了根据本说明书的交互设备的一个场景示意图。
[0211]
如图17所示,交互设备可以包括优化处理器。其中,优化处理器可以连接目标端到端模型。该目标端到端模型用于语音识别且带有槽位预测功能。
[0212]
需要说明的是,目标端到端模型可以包含在交互设备中,也可以包含在其他设备中,在此不做具体限定。这里,以目标端到端模型包含在交互设备中为例进行说明。
[0213]
具体地,交互设备可以获取用户的语音信息,并将语音信息输入目标端到端模型。目标端到端模型可以对语音信息进行语音识别和槽位预测,并向优化处理器输出预测结果。其中,预测结果可以包括多条文本信息,该多条文本信息分别用于表征该语音信息的语义。应该理解,在用户的语音信息包括目标类别的词时,该多条文本信息中添加有目标类别对应的槽位标记,该槽位标记所占用的位置处应出现目标类别的词。之后,优化处理器可以响应于在该多条文本信息的同一位置处读取到目标类别对应的槽位标记,从该多条文本信息中分别提取出,与槽位标记位置临近且在槽位标记之后出现的词。接着,优化处理器从提取出的词中确定出目标词,目标词作用为槽位标记所占用的位置对应的识别结果。具体地,优化处理器可以根据槽位标记,确定提取出的词对应的第一分数。然后,优化处理器可以根据所确定的第一分数,从提取出的词中确定出目标词。
[0214]
可选地,目标端到端模型可以包括,采用图2对应的实施例描述的方法训练所得的用于语音识别的、且带有槽位预测功能的目标端到端模型。
[0215]
可选地,优化处理器可以进一步被配置成:根据槽位标记对应的打分模型,确定提取出的词对应的第一分数。
[0216]
需要说明的是,对于优化处理器所执行的操作以及带来的技术效果的详细解释,可参看图5对应的实施例中的相关说明,在此不再细述。
[0217]
本实施例提供的交互设备,其所包括的优化处理器可以使得该交互设备,针对语音信息中的目标类别的词,具有较高的识别正确率,以及针对包括目标类别的词的语音信息,具有较好的语音识别效果。
[0218]
进一步参考图18,其示出了根据本说明书的交互设备的另一个场景示意图。
[0219]
如图18所示,交互设备可以包括优化处理器。其中,优化处理器可以连接语音识别模型和目标端到端模型。该目标端到端模型用于槽位预测。
[0220]
需要说明的是,语音识别模型和/或目标端到端模型可以包含在交互设备中,也可以包含在其他设备中,在此不做具体限定。这里,以语音识别模型和目标端到端模型均包含在交互设备中为例进行说明。
[0221]
具体地,交互设备可以获取用户的语音信息,并将语音信息输入语音识别模型。语音识别模型可以对该语音信息进行语音识别,得到第一预测结果,并将第一预测结果分别输出至目标端到端模型和优化处理器。其中,第一预测结果包括多条文本信息。该多条文本信息分别用于表征该语音信息的语义。
[0222]
目标端到端模型可以对所接收的第一预测结果进行槽位预测,得到第二预测结果,并将第二预测结果输出至优化处理器。应该理解,在用户的语音信息包括目标类别的词时,第二预测结果可以示出目标类别的词的出现位置和目标类别对应的槽位标记。
[0223]
优化处理器在接收到第一预测结果和第二预测结果后,可以对第一预测结果和第二预测结果进行分析等处理。具体地,优化处理器可以响应于第二预测结果示出目标类别的词的出现位置和目标类别对应的槽位标记,以及在上述多条文本信息中读取到位于该出现位置的词,从所读取的位于该出现位置的词中确定出目标词,目标词作用为该出现位置对应的识别结果。具体地,优化处理器可以根据该槽位标记,确定所读取的位于该出现位置的词对应的第一分数,并根据所确定的第一分数,从所读取的位于该出现位置的词中确定出目标词。
[0224]
可选地,目标端到端模型可以包括,采用图9对应的实施例描述的方法训练所得的用于槽位预测的目标端到端模型。
[0225]
可选地,优化处理器可以进一步被配置成:根据槽位标记对应的打分模型,确定所读取的位于上述出现位置的词对应的第一分数。
[0226]
需要说明的是,对于优化处理器所执行的操作以及带来的技术效果的详细解释,可参看图10对应的实施例中的相关说明,在此不再细述。
[0227]
本实施例提供的交互设备,其所包括的优化处理器可以使得该交互设备,针对语音信息中的目标类别的词,具有较高的识别正确率,以及针对包括目标类别的词的语音信息,具有较好的语音识别效果。
[0228]
需要特别说明的是,图17、18分别对应的实施例中的交互设备,可以是任意类别的具有语音识别和交互功能的设备,例如可以包括但不限于智能音箱、智能机器人等。
[0229]
本说明书实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,其中,当该计算机程序在计算机中执行时,令计算机执行以上各方法实施例分别所示的方法。
[0230]
本说明书实施例还提供了一种计算设备,包括存储器和处理器,其中,该存储器中存储有可执行代码,该处理器执行该可执行代码时,实现以上各方法实施例分别所示的方法。
[0231]
本说明书实施例还提供了一种计算机程序产品,当在数据处理设备上执行时,使得数据处理设备实现以上各方法实施例分别所示的方法。
[0232]
本领域技术人员应该可以意识到,在上述一个或多个示例中,本说明书披露的多
个实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
[0233]
在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
[0234]
以上所述的具体实施方式,对本说明书披露的多个实施例的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本说明书披露的多个实施例的具体实施方式而已,并不用于限定本说明书披露的多个实施例的保护范围,凡在本说明书披露的多个实施例的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本说明书披露的多个实施例的保护范围之内。