首页 > 乐器声学 专利正文
语音识别结果的后处理模型的训练方法、处理方法及装置与流程

时间:2022-02-06 阅读: 作者:专利查询

语音识别结果的后处理模型的训练方法、处理方法及装置与流程

1.本技术涉及人工智能技术领域,尤其涉及一种语音识别结果的后处理模型的训练方法、处理方法及装置。


背景技术:

2.将一段语音输入语音识别模型能够得到该段语音的文本。语音识别模型如conformer模型、transformer模型对语音的识别精度已经能够满足很多下游应用的要求。例如,人工客服、人机闲聊、语音控制领域都能够基于语音识别模型的识别的文本完成相应的操作。
3.但语音识别模型的识别的文本总会有些许的误差。在一些领域仅仅有语音识别结果是不够的,例如在信息安全领域中,对信息的分类筛选对语音识别结果很敏感,故此,需要一种辅助信息来辅助使用语音识别结果。


技术实现要素:

4.本技术实施例提供一种语音识别结果的后处理模型的训练方法、处理方法及装置,用于解决相关技术中需要一种辅助信息来辅助使用语音识别结果的问题。
5.第一方面,本技术提供一种语音识别结果的后处理模型的训练方法,其所述方法包括:
6.将样本语音输入语音识别模型,得到语音识别结果以及所述语音识别结果的参考信息;所述参考信息包括语音识别模型的解码器输出的分类特征和/或所述语音识别模型的解码器的最后一层残差连接和归一化层的输出结果;
7.将所述参考信息输入后处理模型,得到所述后处理模型输出的所述语音识别结果的第一置信度;
8.基于所述第一置信度和所述语音识别结果的标注数据中的第二置信度确定损失值;
9.基于所述损失值调整所述后处理模型的参数。
10.可选的,所述后处理模型包括n层全连接层和设置在所述n层全连接层之后的激活层,n大于或等于1。
11.可选的,所述方法还包括:
12.获取所述语音识别结果的词嵌入向量;
13.所述将所述参考信息输入后处理模型,包括:
14.当所述参考信息包括所述解码器输出的分类特征时,则将所述参考信息以及所述词嵌入向量进行拼接后输入给所述后处理模型;
15.当所述参考信息包括所述解码器的最后一层残差连接和归一化层的输出结果时,则将所述参考信息和所述词嵌入向量进行拼接后输入给所述后处理模型;
16.当所述参考信息包括所述解码器输出的分类特征和所述解码器的最后一层残差
连接和归一化层的输出结果时,则将所述参考信息和所述词嵌入向量进行拼接后输入给所述后处理模型。
17.可选的,所述将所述参考信息以及所述词嵌入向量进行拼接后输入给所述后处理模型,包括:
18.按指定顺序将所述参考信息以及所述词嵌入向量拼接为多维矩阵,将所述多维矩阵输入给所述后处理模型。
19.可选的,若所述样本语音中包括一段语音,则所述一段语音对应一条所述样本语音的语音识别结果;
20.若所述样本语音中包括多段语音,则所述多段语音的各自的语音识别结果的集合作为所述样本语音的所述语音识别结果。
21.可选的,获取所述语音识别结果的标注数据,包括:
22.将所述语音识别结果与标准识别结果进行比对;
23.若比对一致,则将所述第二置信度标注为第一值;
24.若比对不一致,则将所述第二置信度标注为第二值。
25.可选的,所述语音识别模型还输出所述语音识别结果中包括的每个字符的后验概率中最大概率值;
26.所述第一置信度中包括每个字符的加权值,所述加权值为所述字符在所述激活层的输出值和所述字符的后验概率中的最大概率值的加权值。
27.第二方面,本技术提供一种语音识别结果的后处理方法,所述方法包括:
28.将待识别语音输入语音识别模型,获取语音识别结果以及所述语音识别结果的参考信息;所述参考信息包括语音识别模型的解码器输出的分类特征和/或所述语音识别模型的解码器的最后一层残差连接和归一化层的输出结果;
29.将所述参考信息输入第一方面提供的任一所述的后处理模型,得到所述语音识别结果的第一置信度。
30.可选的,针对一段待识别语音,所述第一置信度中包括每个字符的置信度,所述方法还包括:
31.将所述待识别语音中每个字符及的所述字符的置信度输出显示。
32.可选的,所述方法还包括:
33.确定所述待识别语音中每个字符的置信度的均值作为所述待识别语音的第三置信度。
34.第三方面、本技术提供一种语音识别结果的后处理模型的训练装置,所述装置包括:
35.参考信息获取模块,被配置为执行将样本语音输入语音识别模型,得到语音识别结果以及所述语音识别结果的参考信息;所述参考信息包括语音识别模型的解码器输出的分类特征和/或所述语音识别模型的解码器的最后一层残差连接和归一化层的输出结果;
36.第一置信度获取模块,被配置为执行将所述参考信息输入后处理模型,得到所述后处理模型输出的所述语音识别结果的第一置信度;
37.损失确定模块,被配置为基于所述第一置信度和所述语音识别结果的标注数据中的第二置信度确定损失值;
38.调整模块,被配置为执行基于所述损失值调整所述后处理模型的参数。
39.可选的,所述后处理模型包括n层全连接层和设置在所述n层全连接层之后的激活层,n大于或等于1。
40.可选的,所述装置还包括:
41.词嵌入向量获取模块,被配置为执行获取所述语音识别结果的词嵌入向量;
42.所述第一置信度获取模块,具体被配置为执行:
43.当所述参考信息包括所述解码器输出的分类特征时,则将所述参考信息以及所述词嵌入向量进行拼接后输入给所述后处理模型;
44.当所述参考信息包括所述解码器的最后一层残差连接和归一化层的输出结果时,则将所述参考信息和所述词嵌入向量进行拼接后输入给所述后处理模型;
45.当所述参考信息包括所述解码器输出的分类特征和所述解码器的最后一层残差连接和归一化层的输出结果时,则将所述参考信息和所述词嵌入向量进行拼接后输入给所述后处理模型。
46.可选的,所述第一置信度获取模块,具体被配置为执行:
47.按指定顺序将所述参考信息以及所述词嵌入向量拼接为多维矩阵,将所述多维矩阵输入给所述后处理模型。
48.可选的,若所述样本语音中包括一段语音,则所述一段语音对应一条所述样本语音的语音识别结果;
49.若所述样本语音中包括多段语音,则所述多段语音的各自的语音识别结果的集合作为所述样本语音的所述语音识别结果。
50.可选的,所述装置还包括:
51.标注数据获取模块,被配置为执行基于下方法获取所述语音识别结果的标注数据,包括:
52.将所述语音识别结果与标准识别结果进行比对;
53.若比对一致,则将所述第二置信度标注为第一值;
54.若比对不一致,则将所述第二置信度标注为第二值。
55.可选的,所述语音识别模型还输出所述语音识别结果中包括的每个字符的后验概率中最大概率值;
56.所述第一置信度中包括每个字符的加权值,所述加权值为所述字符在所述激活层的输出值和所述字符的后验概率中的最大概率值的加权值。
57.第四方面,本技术还提供一种语音识别结果的后处理装置,所述装置包括:
58.参考信息获取模块,被配置为执行将待识别语音输入语音识别模型,获取语音识别结果以及所述语音识别结果的参考信息;所述参考信息包括语音识别模型的解码器输出的分类特征和/或所述语音识别模型的解码器的最后一层残差连接和归一化层的输出结果;
59.置信度获取模块,被配置为执行将所述参考信息输入第一方面中任一所述的后处理模型,得到所述语音识别结果的第一置信度。
60.可选的,针对一段待识别语音,所述第一置信度中包括每个字符的置信度,所述装置还包括:
61.输出模块,被配置为执行将所述待识别语音中每个字符及的所述字符的置信度输出显示。
62.可选的,所述装置还包括:
63.第三置信度确定模块,被配置为执行确定所述待识别语音中每个字符的置信度的均值作为所述待识别语音的第三置信度。
64.第五方面,本技术还提供了一种电子设备,包括:
65.处理器;
66.用于存储所述处理器可执行指令的存储器;
67.其中,所述处理器被配置为执行所述指令,以实现如本技术第一方面和/或第二方面中提供的任一方法。
68.第六方面,本技术一实施例还提供了一种计算机可读存储介质,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如本技术第一方面和/或第二方面中提供的任一方法。
69.第七方面,本技术一实施例提供了一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如本技术第一方面和/或第二方面中提供的任一方法。
70.本技术的实施例提供的技术方案至少带来以下有益效果:在本技术实施例提供的方案中,提出了对语音识别结果的置信度的确定方案。能够简单准确的得到语音识别结果的置信度,由此,下游应用可以基于置信度综合的来使用语音识别结果。
71.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
72.为了更清楚地说明本技术实施例的技术方案,下面将对本技术实施例中所需要使用的附图作简单地介绍,显而易见地,下面所介绍的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
73.图1为本技术实施例提供的语音识别结果的后处理方法的应用场景示意图;
74.图2为本技术一实施例提供的语音识别结果的后处理模型的示意图之一;
75.图3为本技术一实施例提供的语音识别结果的后处理模型的示意图之二;
76.图4为本技术一实施例提供的语音识别结果的后处理模型的训练方法的流程示意图;
77.图5为本技术一实施例提供的语音识别模型的示意图;
78.图6为本技术一实施例提供的语音识别模型和后处理模型的示意图;
79.图7为本技术一实施例提供的语音识别结果的后处理方法的流程示意图;
80.图8为本技术一实施例提供的语音识别结果的后处理模型的训练装置的框图;
81.图9为本技术一实施例提供的语音识别结果的后处理装置的框图;
82.图10是根据一示例性实施例示出的电子设备的结构示意图。
具体实施方式
83.为了使本领域普通人员更好地理解本技术的技术方案,下面将结合附图,对本技术实施例中的技术方案进行清楚、完整地描述。
84.需要说明的是,本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应所述理解这样使用的数据在适当情况下可以互换,以便这里描述的本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本技术相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本技术的一些方面相一致的装置和方法的例子。
85.以下,对本技术实施例中的部分用语进行解释说明,以便于本领域技术人员理解。
86.(1)本技术实施例中术语“多个”是指两个或两个以上,其它量词与之类似。
87.(2)“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
88.(3)服务器,是为终端服务的,服务的内容诸如向终端提供资源,保存终端数据;服务器是与终端上安装的应用程序相对应的,与终端上的应用程序配合运行。
89.(4)终端设备,既可以指软件类的app(application,应用程序),也可以指客户端。它具有可视的显示界面,能与用户进行交互;是与服务器相对应,为客户提供本地服务。针对软件类的应用程序,除了一些只在本地运行的应用程序之外,一般安装在普通的客户终端上,需要与服务端互相配合运行。因特网发展以后,较常用的应用程序包括了如短视频应用、收寄电子邮件时的电子邮件客户端,以及即时通讯的客户端等。对于这一类应用程序,需要网络中有相应的服务器和服务程序来提供相应的服务,如数据库服务,配置参数服务等,这样在客户终端和服务器端,需要建立特定的通信连接,来保证应用程序的正常运行。
90.(5)语音识别结果,本技术实施例中,一段语音若包括多个字符,该段语音的语音识别结果可以是该段语音的所有字符内容构成的文本。
91.(6)置信度,本技术实施例中,置信度用于表达识别结果的准确度,本技术实施例能够基于语音识别结果给出一段语音中每个字符的置信度,基于每个字符的置信度还能够得到该段语音的文本中的整体置信度。本技术实施例中,如果计算句子的置信度,那就是把一句话的每个字符的置信度取平均,如果计算其中一个词(两个字)的置信度就把对应这两个字的置信度取平均。一个字的置信度,直接取该字的置信度的即可。
92.(7)标注数据,标注数据用于标注有语音识别结果是否为标准结果,以便于进行模型训练。
93.鉴于相关技术中虽然语音识别模型的识别精度很高,但是仍然会存在误识别的情况。例如一段噪音、一段方言很难准确的识别。那么对于语音识别结果较敏感的下游应用,例如对信息安全的审核方面,仅依赖语音识别结果是不够的。故此需要一些辅助信息来辅助使用语音识别结果。
94.有鉴于此,本技术提出了一种语音识别结果的后处理模型的训练方法、处理方法及装置。
95.在本技术实施例提供的方案中,提出了对语音识别结果的置信度的确定方案。能
够简单准确的得到语音识别结果的置信度,由此,下游应用可以基于置信度综合的来使用语音识别结果。
96.例如,在数据审核应用场景中,可以采用语音识别模型进行语音识别得到整段语音的文本,后续可以对该文本采用人工智能技术,过滤掉不需要人工审核的语音。对于需要人工审核的语音,可以将整段语音的语音识别结果展示给审核人员审核。如果识别的文本相对原始语音差别很大,那么必然导致人工审核环节的审核结果出错。故此,展示语音识别结果的同上若配合展示本技术实施例提供的置信度,能够便于审核人员了解识别的文本的准确性,便于做出合理的判断。
97.此外,实施时可以输出识别的文本中每个识别字符的置信度,这样可以了解哪些字符会是错误的,也便于下游业务开展相关应用。
98.在介绍完本技术实施例的设计思想之后,下面对本技术实施例的技术方案能够适用的应用场景做一些简单介绍,需要说明的是,以下介绍的应用场景仅用于说明本技术实施例而非限定。在具体实施时,可以根据实际需要灵活地应用本技术实施例提供的技术方案。
99.参考图1,其为本技术实施例提供的语音识别结果的后处理模型的训练方法以及处理方法的应用场景示意图。该应用场景包括多个终端设备101(包括终端设备101

1、终端设备101

2、
……
终端设备101

n)、还包括服务器102。其中,终端设备101、服务器102之间通过无线或有线网络连接,终端设备101包括但不限于桌面计算机、移动电话、移动电脑、平板电脑、媒体播放器、智能可穿戴设备、智能电视等电子设备。服务器102可以是一台服务器、若干台服务器组成的服务器集群或云计算中心。服务器102可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn、以及大数据和人工智能平台等基础云计算服务的云服务器。
100.当然,本技术实施例提供的方法并不限于图1所示的应用场景,还可以用于其它可能的应用场景,本技术实施例并不进行限制。对于图1所示的应用场景的各个设备所能实现的功能将在后续的方法实施例中一并进行描述,在此先不过多赘述。
101.用户可以基于终端设备101发出一段语音,终端设备采集语音之后可以通过语音识别模型识别该段语音的文本,并作出响应。例如用户可以说“调高音量”则终端设备基于识别的文本调高设备音量。该语音识别模型可以是轻量级的适用于终端设备101的模型,也可以是内置在服务器102中运行的模型。
102.再例如,用户可以通过终端设备101录制语音拍摄短视频,然后通过终端设备101发布到网络中和网民共享。为了网络安全,对发布的内容有要求,故此,该段语音需要满足要求才能成功发布出去。当采用方言录制时,或噪声比较大时,语音识别模型的识别精度较低。这时候需要人工审核介入。如果人工审核阶段单靠文本,可能会导致审核错误,故此,可以采用本技术实施例提供的方案为识别的文本中每个字符标记置信度,亦或者,还可以对文本标注置信度,这样审核人员在了解识别结果的置信度的基础上,便于做出正确的判断。
103.为进一步说明本技术实施例提供的技术方案,下面结合附图以及具体实施方式对此进行详细的说明。虽然本技术实施例提供了如下述实施例或附图所示的方法操作步骤,但基于常规或者无需创造性的劳动在所述方法中可以包括更多或者更少的操作步骤。在逻
辑上不存在必要因果关系的步骤中,这些步骤的执行顺序不限于本技术实施例提供的执行顺序。
104.为便于理解,本技术实施例对语音识别结果的后处理模型的训练方法以及后处理方法分别进行说明。
105.一、语音识别结果的后处理模型的训练
106.本技术实施例提供的后处理模型应用在语音识别模型上。如图2所示,语音识别模型将识别结果输入给后处理模型,以便于后处理模型能够得到语音识别结果的置信度。
107.本技术实施例中为了降低后处理模型的训练复杂度,后处理模型可以仅包括n层全连接层和激活层。全连接层和激活层来构建后处理模型使得该模型结构简单易于实施和训练。如图3所示,本技术实施例中的后处理模型可以包括1层全连接层和一层激活层。这样,训练的时候只需训练一层全连接的参数即可。由于训练参数少,模型收敛会快一些。此外,本技术实施例中,激活层可以选择任一激活函数,例如sigmoid激活函数。
108.实施时,可以采集样本语音,然后经过语音识别模型得到样本语音的语音识别结果。然后对语音识别结果的置信度进行标注得到关于语音识别结果的置信度标注数据后完成对后处理模型的训练。
109.(1)训练数据准备
110.首先训练语音识别模型,当然实施时可以采用已经训练好的语音识别模型。
111.将采集的样本语音输入语音识别模型,得到语音识别结果。然后将语音识别结果和标注结果进行比对,比对一致,则标注第一值,比对不一致则标注第二值。通过标注为第一值和第二值,能够简便的量化语音识别结果和标注结果之间的差距,二值化的标注方式有利于提高计算损失的速度,提高训练速度。
112.例如,第一值为1,第二值为0。标注文本“今天天气真好”,识别结果为“今天天气正好呀”,则得到关于置信度的标注数据为“1 1 1 1 0 1 0”。不同的识别结果得到不同的标注数据。每段语音,该段语音的语音识别结果和标注数据组成一组训练数据。
113.本技术实施例中为了提高后处理模型对负样本的识别精度,采用更多的负样本进行训练。实施时,一段语音采用多条路径n

best,选取其前多条路径的识别结果构建训练数据。
114.例如继续前面的例子,一条路径的识别结果为“今天天气正好呀”,则“今天天气正好呀”和其对应的标注数据以及该段语音构成一组训练数据。另一条路径的识别结果为“今天气正好”,则“今天气正好”和其标注数据以及该段语音构成另一组训练数据。
115.对于识别文本的错误,本技术做一些优化处理。例如识别文本中的错误包括替换错误,插入错误,删除错误。
116.替换错误是指将正确文本中一个字替换错了,如前面标注文本中“正好”替换了“真好”所以属于替换错误。
117.插入错误例如前面标标注文本中最后插入了“呀”是插入错误。
118.删除错误例如标注文本中“你好”,只识别出了“好”,缺少了“你”,就是删除错误。
119.本技术实施例能够给出文本中每个字符的置信度,故此,非常适合针对替换错误和删除错误的识别,以便于有需求的下游应用使用。
120.(1)训练后处理模型
121.得到关于置信度的标注数据之后可以训练后处理模型得到语音识别结果的置信度。如图4所示,为本技术实施例提供的语音识别结果的后处理模型的训练方法的流程示意图,包括以下步骤:
122.在步骤401中,将样本语音输入语音识别模型,得到语音识别结果以及所述语音识别结果的参考信息;所述参考信息包括语音识别模型的解码器输出的分类特征和/或所述语音识别模型的解码器的最后一层残差连接和归一化层的输出结果。
123.实施时,可以对样本语音进行声学特征提取,然后输入给语音识别模型。如果不做说明,本技术实施例中输入给用于识别模型的语音均为语音的声学特征。
124.以transformer语音识别模型为例进行说明。transformer模型包括编码器以及解码器,如图5所示,其中,编码器包括:编码数据输入单元、编码位置单元以及nx个循环编码子单元,其中,每个循环编码子单元由4部分构成,分别为多头注意力机制multi

head attention层、残差连接和归一化add&norm、前馈feed forward以及add&norm,每个循环编码子单元的结构相同,但每个循环编码子单元的内部参数是不同的,循环编码子单元的输入数据是上一个循环编码子单元的输出数据。解码器包括:解码数据输入单元、解码位置单元以及nx个循环解码子单元,其中,每个循环解码单元设置nx个循环解码子单元,每个循环解码子单元由6部分构成,分别为伪多头注意力机制masked multi

head attention层、add&norm、multi

head attention、add&norm、feed forward以及add&norm,此外,还要说明的是multi

head attention输入的数据还包括编码部分的编码数据结果,在每个循环解码单元的结构相同,但每个循环解码子单元的内部参数是不同的,循环译码子单元的输入数据是上一个循环译码子单元的输出数据。
125.解码器中最后一个循环解码单元的残差连接和归一化层add&norm得到分类特征输入给逻辑回归softmax的处理得到音频识别结果。
126.综上所述可知,语音识别模型包括编码器和解码器,编码器中包括多个循环编码子单元,每个循环编码子单元中又包括add&norm层。本技术实施例中,可以选择编码器最后一层add&norm的输出结果作为输入给后处理模型的一种信息。由此可以得到解码前的中间态特征,该特征能够描述输入信息的特征,与语音识别结果密切相关,采用add&norm的输出结果便于对语音识别结果进行特征描述。
127.再例如,如图5所示,由于语言识别模型给出语音识别结果的过程中,解码器会提取出分类特征,然后交由逻辑回归层(softmax)进行处理,得到n

best中的多个匹配结果。即基于分类特征和字库中候选字符进行匹配操作,得到语音特征和每个候选字符的匹配度,然后按照匹配度高低来得到n

best匹配结果。其中,针对每个字符选择匹配最高的候选字符构建语音识别结果。故此,实施时,可以采用该分类特征作为另一种参考信息协助识别语音识别结果的置信度。
128.此外,为了进一步提高置信度的精度,本技术实施例中还可以将1best语音识别结果的词嵌入向量(即embedding特征emb(y
t
))作为另一种参考信息输入给后处理模型。例如,一条语音“今天天气真好”的语音识别结果的词嵌入向量作为另一种参考信息输入给后处理模型。由此,基于词嵌入向量可将语音识别结果纳入模型训练,采用多维度的信息进行训练能够提高置信度的准确性。
129.在步骤402中,将所述参考信息输入后处理模型,得到所述后处理模型输出的所述
语音识别结果的第一置信度;
130.在步骤403中,基于所述第一置信度和所述语音识别结果的标注数据中的第二置信度确定损失值;
131.在步骤404中,基于所述损失值调整所述后处理模型的参数。
132.需要说明的是,每个样本语音可以包括一段语音,也可以包括多段语音。若包括一段语音则该段语音的语音识别结果作为样本语音的语音识别结果输入各后处理模型训练的语音识别结果。若包括多段语音,则多段语音的各自的语音识别结果的集合作为所述样本语音的语音识别结果用于训练后处理模型。由此对于多段语音本技术实施例能够分段处理实现对不同长度的语音的处理。且多段语音综合来判断整个语音的语音识别结果,有利于结合每段语音上下文提高后处理模型对长度较长的语音的处理能力。
133.此外,针对一个语音识别结果,后处理模型可以输出语音识别结果中文本的整体置信度,亦或者该文本中每个字符的置信度。
134.如图6所示,语音识别模型可理解为对图5语音识别模型的简化表达。a
t
表示解码器的最后一层add&norm的当前时刻的输出结果、a
t
‑1表示解码器的最后一层add&norm的上一时刻的输出结果、d
t
表示当前时刻的分类特征、emb(y
t
)表示语音识别模型当前时刻已经识别出的字符、emb(y
t
‑1)表示语音识别模型当前时刻的上一时刻已经识别出的字符,每识别到一个字符,将每个字符的参考信息输入给后处理模型,则后处理模型能够输出该字符的第一置信度,然后和该字符的第二置信度进行比较,得到针对该字符的损失值。一段语音可以由该段语音的所有字符的损失值构建该段语音的损失值来训练后处理模型。
135.如图6所示,后处理模型对分类特征、编码器最后一层解码器的最后一层add&norm的输出结果以及语音识别结果的词嵌入向量进行处理,得到语音识别结果的第一置信度。这三种信息拼接后输入给后处理模型中的全连接层进行处理,全连接层的输出结果输入给激活层得到第一置信度。拼接时,可以按指定顺序将所述参考信息以及所述词嵌入向量拼接为多维矩阵,该种拼接方式简单易于实施。例如,分类特征为m维度的特征向量、词嵌入向量为m维的特征向量,编码器最后一层多头注意力机制层的输出结果为m维的特征向量,则假如一句话有l个字,分类特征为m*l矩阵,词嵌入特征是n*l矩阵,编码器最后一层多头注意力机制层的输出结果是p*7矩阵,拼接后是(m+n+p)*l矩阵。如果x句话组成batch,最后得到x*(m+n+p)*l矩阵。对多维度的信息进行拼接后交由后处理模型处理,采用多维度的信息能够更加准确的描述语音识别结果,便于提高后处理模型输出结果的准确性。
136.继续以标注文本“今天天气真好”为例,识别结果为“今天天气正好呀”,针对这个文本,可以采用每个字符的第一置信度的均值来表征该文本的置信度。
137.在一些实施例中,为了进一步提高后处理模型给出的置信度的准确性,本技术实施例中,可以做如下优化:
138.由于语言识别模型给出语音识别结果的过程中,需要基于语音特征和字库中候选字符进行匹配操作,得到语音特征和每个候选字符的匹配度,然后按照匹配度高低来得到最终的语音识别结果,由此,n

best中相当于选择匹配度排序前n名的识别结果。本技术实施例中可以采用后处理模型的激活层的输出的第一置信度和n

best中最大匹配度进行加权求和,得到最终的第一置信度。
139.可表示为公式(1)所示:
140.p
t
=w1*sigmoid(fc(a
t
;d
t
;emb(y
t
)))+(1

w1)*max(p(y
t
)), (1)
141.在公式(1)中,p
t
表示第一置信度,a
t
表示解码器的最后一层add&norm层的输出结果、d
t
表示分类特征、emb(y
t
)表示词嵌入向量、fc表示经过全连接层的处理,sigmoid表示经过激活层的处理,max(p(y
t
)表示每个字符的后验概率中的最大概率值,注意这里包括多个字符时,每个字符的后验概率的最大值均参与计算,y
t
表示语音识别结果,w1表示权重。实施时,权重w1取值可为0.5。
142.n

best中每个字符的后验概率的最大概率值表示了该字符识别的可信度,由此通过识别结果的后延概率来调整激活层的输出结果,相对于单独使用激活层的输出结果使得第一置信度更加准确可靠。
143.需要对整个句子的置信度时,可以对该句子中每个字符的第一置信度取平均值。
144.由此,介绍完对模型的训练过程之后,下面对如何使用后处理模型得到语音识别结果的置信度进行说明。
145.二、后处理模型使用
146.如图7所示,为本技术实施例提供的一种语音识别结果的后处理方法的流程示意图,包括以下步骤:
147.在步骤701中,将待识别语音输入语音识别模型,获取语音识别结果以及所述语音识别结果的参考信息;所述参考信息包括语音识别模型的编码器输出的分类特征和/或所述语音识别模型的编码器的解码器的最后一层残差连接和归一化层的输出结果;
148.在步骤702中,将所述参考信息输入后处理模型,得到所述语音识别结果的第一置信度。
149.由此,能够通过语音识别结果的置信度来辅助使用语音识别结果。语音识别结果的置信度能够很好的衡量语音识别结果的可信度,帮助下游应用据此开展相应的业务。例如,转人工处理的时候,工作人员可以根据置信度来辅助筛选多媒体内容。
150.与前文类似,针对一段待识别语音,所述待识别语音中每个字符对应一个所述语音识别结果;由此,可以将所述待识别语音中每个字符及其对应的第一置信度输出显示。由此,便于查看语音识别结果的同时查看每个字符的置信度,帮助理解语音识别结果。
151.在一个实施例中,与前文类似,若需要确定整段待识别语音的置信度,可以确定所述待识别语音中每个字符的第一置信度的均值作为所述待识别语音的第三置信度。由此可以了解整段待识别预设的置信度情况。
152.基于相同的发明构思本技术实施例还提供一种语音识别结果的后处理模型训练装置。图8是根据一示例性实施例示出的该装置的框图,参照图8,该装置800包括:
153.参考信息获取模块801,被配置为执行将样本语音输入语音识别模型,得到语音识别结果以及所述语音识别结果的参考信息;所述参考信息包括语音识别模型的解码器输出的分类特征和/或所述语音识别模型的解码器的最后一层残差连接和归一化层的输出结果;
154.第一置信度获取模块802,被配置为执行将所述参考信息输入后处理模型,得到所述后处理模型输出的所述语音识别结果的第一置信度;
155.损失确定模块803,被配置为基于所述第一置信度和所述语音识别结果的标注数据中的第二置信度确定损失值;
156.调整模块804,被配置为执行基于所述损失值调整所述后处理模型的参数。
157.可选的,所述后处理模型包括n层全连接层和设置在所述n层全连接层之后的激活层,n大于或等于1。
158.可选的,所述装置还包括:
159.词嵌入向量获取模块,被配置为执行获取所述语音识别结果的词嵌入向量;
160.所述第一置信度获取模块,具体被配置为执行:
161.当所述参考信息包括所述解码器输出的分类特征时,则将所述参考信息以及所述词嵌入向量进行拼接后输入给所述后处理模型;
162.当所述参考信息包括所述解码器的最后一层残差连接和归一化层的输出结果时,则将所述参考信息和所述词嵌入向量进行拼接后输入给所述后处理模型;
163.当所述参考信息包括所述解码器输出的分类特征和所述解码器的最后一层残差连接和归一化层的输出结果时,则将所述参考信息和所述词嵌入向量进行拼接后输入给所述后处理模型。
164.可选的,所述第一置信度获取模块,具体被配置为执行:
165.按指定顺序将所述参考信息以及所述词嵌入向量拼接为多维矩阵,将所述多维矩阵输入给所述后处理模型。
166.可选的,若所述样本语音中包括一段语音,则所述一段语音对应一条所述样本语音的语音识别结果;
167.若所述样本语音中包括多段语音,则所述多段语音的各自的语音识别结果的集合作为所述样本语音的所述语音识别结果。
168.可选的,所述装置还包括:
169.标注数据获取模块,被配置为执行基于下方法获取所述语音识别结果的标注数据,包括:
170.将所述语音识别结果与标准识别结果进行比对;
171.若比对一致,则将所述第二置信度标注为第一值;
172.若比对不一致,则将所述第二置信度标注为第二值。
173.可选的,所述语音识别模型还输出所述语音识别结果中包括的每个字符的后验概率中最大概率值;
174.所述第一置信度中包括每个字符的加权值,所述加权值为所述字符在所述激活层的输出值和所述字符的后验概率中的最大概率值的加权值。
175.基于相同的发明构思本技术实施例还提供一种语音识别结果的后处理装置。图9是根据一示例性实施例示出的该装置的框图,参照图9,该装置900包括:
176.参考信息获取模块901,被配置为执行将待识别语音输入语音识别模型,获取语音识别结果以及所述语音识别结果的参考信息;所述参考信息包括语音识别模型的解码器输出的分类特征和/或所述语音识别模型的解码器的最后一层残差连接和归一化层的输出结果;
177.置信度获取模块902,被配置为执行将所述参考信息输入第一方面中任一所述的后处理模型,得到所述语音识别结果的第一置信度。
178.可选的,针对一段待识别语音,所述第一置信度中包括每个字符的置信度,所述装
置还包括:
179.输出模块,被配置为执行将所述待识别语音中每个字符及的所述字符的置信度输出显示。
180.可选的,所述装置还包括:
181.第三置信度确定模块,被配置为执行确定所述待识别语音中每个字符的第一置信度的均值作为所述待识别语音的第三置信度。
182.在介绍了本技术示例性实施方式的语音识别结果的后处理模型的训练方法和后处理方法和装置之后,接下来,介绍根据本技术的另一示例性实施方式的电子设备。
183.所属技术领域的技术人员能够理解,本技术的各个方面可以实现为系统、方法或程序产品。因此,本技术的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
184.在一些可能的实施方式中,根据本技术的电子设备可以至少包括至少一个处理器、以及至少一个存储器。其中,存储器存储有程序代码,当程序代码被处理器执行时,使得处理器执行本说明书上述描述的根据本技术各种示例性实施方式的多媒体信息编辑方法。例如,处理器可以执行如语音识别结果的后处理模型的训练方法和后处理方法中的步骤。
185.下面参照图10来描述根据本技术的这种实施方式的电子设备130。图10显示的电子设备130仅仅是一个示例,不应对本技术实施例的功能和使用范围带来任何限制。
186.如图10所示,电子设备130以通用电子设备的形式表现。电子设备130的组件可以包括但不限于:上述至少一个处理器131、上述至少一个存储器132、连接不同系统组件(包括存储器132和处理器131)的总线133。
187.总线133表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。
188.存储器132可以包括易失性存储器形式的可读介质,例如随机存取存储器(ram)1321和/或高速缓存存储器1322,还可以进一步包括只读存储器(rom)1323。
189.存储器132还可以包括具有一组(至少一个)程序模块1324的程序/实用工具1325,这样的程序模块1324包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
190.电子设备130也可以与一个或多个外部设备134(例如键盘、指向设备等)通信,还可与一个或者多个使得用户能与电子设备130交互的设备通信,和/或与使得该电子设备130能与一个或多个其它电子设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口135进行。并且,电子设备130还可以通过网络适配器136与一个或者多个网络(例如局域网(lan),广域网(wan)和/或公共网络,例如因特网)通信。如图所示,网络适配器136通过总线133与用于电子设备130的其它模块通信。应当理解,尽管图中未示出,可以结合电子设备130使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。
191.在示例性实施例中,还提供了一种包括指令的计算机可读存储介质,例如包括指令的存储器132,上述指令可由装置700的处理器131或者装置800的处理器131执行以完成
上述语音识别结果的后处理模型的训练方法和后处理方法。可选地,存储介质可以是非临时性计算机可读存储介质,例如,所述非临时性计算机可读存储介质可以是rom、随机存取存储器(ram)、cd

rom、磁带、软盘和光数据存储设备等。
192.在示例性实施例中,还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器131执行时实现如本技术提供的语音识别结果的后处理模型的训练方法和后处理方法中的任一方法。
193.在示例性实施例中,本技术提供的一种语音识别结果的后处理模型的训练方法和后处理方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在计算机设备上运行时,程序代码用于使计算机设备执行本说明书上述描述的根据本技术各种示例性实施方式的多媒体信息编辑方法中的步骤。
194.程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd

rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。
195.本技术的实施方式的用于多媒体信息编辑方法的程序产品可以采用便携式紧凑盘只读存储器(cd

rom)并包括程序代码,并可以在电子设备上运行。然而,本技术的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
196.可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
197.可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、有线、光缆、rf等等,或者上述的任意合适的组合。
198.可以以一种或多种程序设计语言的任意组合来编写用于执行本技术操作的程序代码,程序设计语言包括面向对象的程序设计语言—诸如java、c++等,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户电子设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户电子设备上部分在远程电子设备上执行、或者完全在远程电子设备或服务端上执行。在涉及远程电子设备的情形中,远程电子设备可以通过任意种类的网络——包括局域网(lan)或广域网(wan)—连接到用户电子设备,或者,可以连接到外部电子设备(例如利用因特网服务提供商来通过因特网连接)。
199.应当注意,尽管在上文详细描述中提及了装置的若干单元或子单元,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本技术的实施方式,上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之,上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。
200.此外,尽管在附图中以特定顺序描述了本技术方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
201.本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd

rom、光学存储器等)上实施的计算机程序产品的形式。
202.本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程图像缩放设备的处理器以产生一个机器,使得通过计算机或其他可编程图像缩放设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
203.这些计算机程序指令也可存储在能引导计算机或其他可编程图像缩放设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
204.这些计算机程序指令也可装载到计算机或其他可编程图像缩放设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
205.尽管已描述了本技术的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本技术范围的所有变更和修改。
206.显然,本领域的技术人员可以对本技术进行各种改动和变型而不脱离本技术的精神和范围。这样,倘若本技术的这些修改和变型属于本技术权利要求及其等同技术的范围之内,则本技术也意图包含这些改动和变型在内。