1.本公开的实施方式涉及人工智能技术领域,更具体地,本公开的实施方式涉及一种语音识别方法、介质、装置和计算设备。
背景技术:2.本部分旨在为权利要求书中陈述的本公开的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
3.语音识别是对语音信号解码,将语音信号转换为对应的文本的过程。随着人工智能技术的发展,语音识别被广泛应用于会议、采访、演讲等场景中。
4.在语音识别的过程中,为了提高语音识别的准确率,通常会采用特征词激励机制辅助语音识别。具体的,根据语音信号相关的场景,确定相关的特征词并为各个特征词配置一定的权重。在进行语音识别的过程中,根据语音信号的解码路径中是否包括特征词来对解码路径进行相应的权重激励,从而提高特征词所在的路径的累计概率,进而提高语音识别的准确率。
5.目前在为语音信号配置特征词的权重时,通常是人工进行配置的,人工配置的特征词的权重往往基于主观认知,导致基于特征词权重激励辅助语音识别的效果不佳。
技术实现要素:6.本公开的实施例提供一种语音识别方法、介质、装置和计算设备,以解决由于人工配置特征词的权重基于主观认知,导致语音识别的效果不佳的问题。
7.在本公开实施方式的第一方面中,提供了一种语音识别方法,包括:
8.获取待识别语音的各特征词的语言模型概率,所述语言模型概率用于指示对应的特征词出现的概率;
9.根据各所述特征词的语言模型概率,获取各所述特征词的权重激励值,所述权重激励值用于提高对应的特征词的召回率;
10.根据各所述特征词的权重激励值对所述待识别语音解码,得到所述待识别语音对应的文本。
11.在本公开的一个实施例中,所述根据各所述特征词的语言模型概率,获取各所述特征词的权重激励值,包括:
12.根据各所述特征词的语言模型概率,获取各所述特征词的初始化权重值;
13.对所述初始化权重值进行更新处理,得到各所述特征词的权重激励值,所述更新处理包括阈值筛选处理和/或步长调整处理。
14.在本公开的一个实施例中,所述根据各所述特征词的语言模型概率,获取各所述特征词的初始化权重值,包括:
15.根据预设函数对各所述特征词的语言模型概率处理,得到各所述特征词的函数值;
16.对各所述特征词的函数值进行范围映射处理,得到各所述特征词的初始化权重值,其中,各所述特征词的初始化权重值位于第一预设范围内。
17.在本公开的一个实施例中,所述更新处理包括所述阈值筛选处理,所述对所述初始化权重值进行更新处理,得到各所述特征词的权重激励值,包括:
18.在各所述特征词中,确定所述初始化权重值处于第二预设范围内的第一特征词,以及所述初始化权重值处于所述第二预设范围外的第二特征词;
19.确定所述第一特征词的权重激励值为所述第一特征词的初始化权重值;
20.确定所述第二特征词的权重激励值为第一预设值。
21.在本公开的一个实施例中,所述更新处理包括所述步长调整处理,所述对所述初始化权重值进行更新处理,得到各所述特征词的权重激励值,包括:
22.获取各所述特征词的等级;
23.根据预设步长和各所述特征词的等级,获取各所述特征词的更新数值;
24.根据各所述特征词的更新数值和所述初始化权重值,获取各所述特征词的权重激励值。
25.在本公开的一个实施例中,所述根据各所述特征词的权重激励值对所述待识别语音解码,得到所述待识别语音对应的文本,包括:
26.对所述待识别语音进行识别处理,得到所述待识别语音的各个时间单位对应的至少一个候选字,以及各候选字的声学模型得分;
27.根据各所述特征词的权重激励值、所述各个时间单位对应的至少一个候选字以及各所述候选字的声学模型得分,得到所述文本。
28.在本公开的一个实施例中,所述根据各所述特征词的权重激励值、所述各个时间单位对应的至少一个候选字以及各所述候选字的声学模型得分,得到所述文本,包括:
29.获取时间单位i对应的各候选字的语言模型得分;
30.根据各所述特征词的权重激励值获取所述时间单位i对应的各候选字的特征词激励值;
31.根据所述时间单位i对应的各候选字的声学模型得分、语言模型得分和特征词激励值,在所述时间单位i对应的各候选字中确定所述文本的第i个字,i依次为1,2,3,...,n,所述n为所述文本的字数。
32.在本公开的一个实施例中,所述获取时间单位i对应的各候选字的语言模型得分,包括:
33.针对任意候选字,根据多个语言模型对所述候选字进行处理,得到所述候选字在各所述语言模型对应的语言模型得分;
34.根据各所述语言模型的权重,以及所述候选字在各所述语言模型对应的语言模型得分,得到所述候选字的语言模型得分。
35.在本公开的一个实施例中,所述根据各所述特征词的权重激励值获取所述时间单位i对应的各候选字的特征词激励值,包括:
36.针对任意候选字,若所述文本中的前i
‑
1个字不包括第三特征词,且所述文本中的前i
‑
1个字与所述候选字连接后包括所述第三特征词,则将所述第三特征词的权重激励值确定为所述候选字的特征词激励值;其中,所述第三特征词为各所述特征词中的任意一个;
37.否则,确定所述候选字的特征词激励值为第二预设值。
38.在本公开的一个实施例中,所述文本的第i个字如下:
39.w
i
=argmax(f(w)),
40.其中,f(w)=log(p(w|x))+α1(log(p
lm1
(w)))+α2(log(p
lm2
(w)))+...+s
v
;
41.w
i
为所述第i个字,w为所述时间单位i对应的候选字,x为所述待识别语音,p(w|x)为所述候选字w的声学模型得分,p
lm
(w)为所述w在语言模型下的语言模型得分,α1和α2为对应的语言模型的权重,s
v
为所述w的特征词激励值,argmax为最大自变量点集函数,argmax(f(w))表示的是使得f(w)取得最大值所对应的w。
42.在本公开实施方式的第二方面中,提供了一种语音识别装置,包括:
43.获取模块,用于获取待识别语音的各特征词的语言模型概率,所述语言模型概率用于指示对应的特征词出现的概率;
44.处理模块,用于根据各所述特征词的语言模型概率,获取各所述特征词的权重激励值,所述权重激励值用于提高对应的特征词的召回率;
45.识别模块,用于根据各所述特征词的权重激励值对所述待识别语音解码,得到所述待识别语音对应的文本。
46.在本公开的一个实施例中,所述处理模块具体用于:
47.根据各所述特征词的语言模型概率,获取各所述特征词的初始化权重值;
48.对所述初始化权重值进行更新处理,得到各所述特征词的权重激励值,所述更新处理包括阈值筛选处理和/或步长调整处理。
49.在本公开的一个实施例中,所述处理模块具体用于:
50.根据预设函数对各所述特征词的语言模型概率处理,得到各所述特征词的函数值;
51.对各所述特征词的函数值进行范围映射处理,得到各所述特征词的初始化权重值,其中,各所述特征词的初始化权重值位于第一预设范围内。
52.在本公开的一个实施例中,所述更新处理包括所述阈值筛选处理,所述处理模块具体用于:
53.在各所述特征词中,确定初始化权重值处于第二预设范围内的第一特征词,以及初始化权重值处于所述第二预设范围外的第二特征词;
54.确定所述第一特征词的权重激励值为所述第一特征词的初始化权重值;
55.确定所述第二特征词的权重激励值为第一预设值。
56.在本公开的一个实施例中,所述更新处理包括所述步长调整处理,所述处理模块具体用于:
57.获取各所述特征词的等级;
58.根据预设步长和各所述特征词的等级,获取各所述特征词的更新数值;
59.根据各所述特征词的更新数值和所述初始化权重值,获取各所述特征词的权重激励值。
60.在本公开的一个实施例中,所述识别模块具体用于:
61.对所述待识别语音进行识别处理,得到所述待识别语音的各个时间单位对应的至少一个候选字,以及各候选字的声学模型得分;
62.根据各所述特征词的权重激励值、所述各个时间单位对应的至少一个候选字以及各所述候选字的声学模型得分,得到所述文本。
63.在本公开的一个实施例中,所述识别模块具体用于:
64.获取时间单位i对应的各候选字的语言模型得分;
65.根据各所述特征词的权重激励值获取所述时间单位i对应的各候选字的特征词激励值;
66.根据所述时间单位i对应的各候选字的声学模型得分、语言模型得分和特征词激励值,在所述时间单位i对应的各候选字中确定所述文本的第i个字,i依次为1,2,3,...,n,所述n为所述文本的字数。
67.在本公开的一个实施例中,所述识别模块具体用于:
68.针对任意候选字,根据多个语言模型对所述候选字进行处理,得到所述候选字在各所述语言模型对应的语言模型得分;
69.根据各所述语言模型的权重,以及所述候选字在各所述语言模型对应的语言模型得分,得到所述候选字的语言模型得分。
70.在本公开的一个实施例中,所述识别模块具体用于:
71.针对任意候选字,若所述文本中的前i
‑
1个字不包括第三特征词,且所述文本中的前i
‑
1个字与所述候选字连接后包括所述第三特征词,则将所述第三特征词的权重激励值确定为所述候选字的特征词激励值;其中,所述第三特征词为各所述特征词中的任意一个;
72.否则,确定所述候选字的特征词激励值为第二预设值。
73.在本公开的一个实施例中,所述文本的第i个字如下:
74.w
i
=argmax(f(w)),
75.其中,f(w)=log(p(w|x))+α1(log(p
lm1
(w)))+α2(log(p
lm2
(w)))+...+s
v
;
76.w
i
为所述第i个字,w为所述时间单位i对应的候选字,x为所述待识别语音,p(w|x)为所述候选字w的声学模型得分,p
lm
(w)为所述w在语言模型下的语言模型得分,α1和α2为对应的语言模型的权重,s
v
为所述w的特征词激励值,argmax为最大自变量点集函数,argmax(f(w))表示的是使得f(w)取得最大值所对应的w。
77.在本公开实施方式的第三方面中,提供了一种计算设备,包括:至少一个处理器和存储器;
78.所述存储器存储计算机执行指令;
79.所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如第一方面任一项所述的语音识别方法。
80.在本公开实施方式的第四方面中,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如第一方面任一项所述的语音识别方法。
81.本公开实施例提供的语音识别方法、介质、装置和计算设备,首先获取待识别语音的各特征词的语言模型概率,然后根据特征词的语言模型概率获取各特征词的权重激励值,并根据特征词的权重激励值对待识别语音解码,得到待识别语音对应的文本。本公开实施例的方案,无需人工进行特征词的权重激励值的配置,而是基于特征词的语言模型概率来获取特征词的权重激励值,配置过程相较于人工配置更加简便,同时由于语言模型概率
指示了对应的特征词出现的概率,基于语言模型概率获取的权重激励值更加符合客观情况。在得到权重激励值后,由于权重激励值能够提高特征词的召回率,而特征词又是待识别语音中出现概率较高的词汇,因此能够提高语音识别的准确性。
附图说明
82.通过参考附图阅读下文的详细描述,本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本公开的若干实施方式,其中:
83.图1为本公开实施例提供的应用场景示意图;
84.图2为本公开实施例提供的语音识别方法的流程示意图;
85.图3为本公开实施例提供的获取特征词的权重激励值的流程示意图;
86.图4为本公开实施例提供的待识别语音解码的流程示意图;
87.图5为本公开实施例提供的解码示意图;
88.图6为本公开实施例提供的程序产品示意图;
89.图7为本公开实施例提供的语音识别装置的结构示意图;
90.图8为本公开实施例提供的计算设备的结构示意图。
91.在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
92.下面将参考若干示例性实施方式来描述本公开的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本公开,而并非以任何方式限制本公开的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
93.本领域技术人员知道,本公开的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
94.根据本公开的实施方式,提出了一种语音识别方法、介质、装置和计算设备。
95.在本文中,需要理解的是,附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
96.下面参考本公开的若干代表性实施方式,详细阐释本公开的原理和精神。
97.发明概述
98.自动语音识别(automatic speech recognition,asr)是一种将语音信号转换成文本的算法技术。在语音识别的过程中,需要用神经网络对声学单元进行建模,将声学信号抽象为声学特征向量,并送至解码网络中,利用语言模型在线矫正解码过程,确定最优解码路径,从而得到待识别语音的文本。
99.为了提高语音识别的准确性,通常会采用特征词激励的机制辅助解码。特征词是词汇的一种,特征词也可以称为热词。一个待识别语音可能会被配置一组特征词,这些特征词可以是某个领域的专有名词,也可以是姓名、产品名等等。
100.在进行语音识别之前,可以获取待识别语音的特征词以及各特征词相应的权重。
在对待识别语音进行解码的过程中,判断解码路径中是否包含完整的特征词。在解码路径中包含完整特征词时,根据特征词的权重对相应的解码路径进行权重激励,提高特征词识别的准确率,进而提高语音识别的准确性。
101.本发明人发现,目前的特征词的权重是人工配置的。人工配置的特征词的权重往往基于主观认知,和客观情况有一定的偏差,从而导致语音识别的效果不佳。另一方面,由于各个特征词不同,若人工为各个特征词配置权重,在特征词数量较多时配置过程较为繁琐。
102.在介绍了本公开的基本原理之后,下面具体介绍本公开的各种非限制性实施方式。
103.应用场景总览
104.首先参考图1来描述本公开实施例的一种适用的应用场景。
105.图1为本公开实施例提供的应用场景示意图,如图1所示,用户11发出的语音为待识别语音。发出待识别语音的用户可以是一个,也可以是多个,即多个用户发出的语音共同构成待识别语音。在图1的示例中,以一个用户11为例进行介绍。
106.待识别语音可以是演讲、报告、对话等各种可能的形式,待识别语音还可以有相应的领域。以待识别语音为报告为例,待识别语音的领域例如可以包括医学领域、互联网领域、航天领域等各种专业领域,也可以是生活领域。
107.待识别语音需要经过服务器12进行语音识别处理,得到待识别语音对应的文本。服务器12为执行语音识别方法的执行主体,可选的,执行语音识别方法的执行主体除了可以为服务器以外,还可以为集成了服务器的功能的设备,例如客户端、终端设备等等。在下述实施例中,均以执行主体为服务器为例进行介绍。
108.在服务器12对待识别语音进行处理时,可以依据待识别语音的领域,为待识别语音配置一定数量的特征词,以辅助服务器12对待识别语音进行语音识别,以提高语音识别的准确率。特征词可以在前端进行输入,例如在图1中,用户可以在客户端13上输入待识别语音的特征词,服务器12在获取到特征词后,结合特征词对待识别语音进行语音识别。在服务器12对待识别语音进行语音识别,得到对应的文本后,可以将该文本进行保存,也可以将该文本在显示器上进行显示。
109.需要说明的是,图1仅仅为对本公开实施例的一种适用的应用场景的一种举例,并不构成对应用场景的限定。
110.示例性方法
111.下面结合图1的应用场景,参考图2来描述根据本公开示例性实施方式的语音识别方法。需要注意的是,上述应用场景仅是为了便于理解本公开的精神和原理而示出,本公开的实施方式在此方面不受任何限制。相反,本公开的实施方式可以应用于适用的任何场景。
112.图2为本公开实施例提供的语音识别方法的流程示意图,如图2所示,该方法可以包括:
113.s21,获取待识别语音的各特征词的语言模型概率,语言模型概率用于指示对应的特征词出现的概率。
114.待识别语音为需要进行语音识别的语音,在对待识别语音进行语音识别之前,服务器可以接收该待识别语音的各特征词。其中,特征词可以是根据待识别语音相应的领域
确定的,为待识别语音中出现概率较高的词汇。例如,当待识别语音为一个医学报告时,待识别语音的特征词可能包括医学领域的多个专业术语,当待识别语音为一个日常对话时,待识别语音的特征词可能包括常见的生活用语,等等。
115.在获取待识别语音的各特征词后,可以获取各个特征词的语言模型概率,该语言模型概率用于指示对应的特征词出现的概率。可选的,语言模型概率可以基于统计学的方法来获取。以特征词包括abc三个字为例,可以基于统计学方法获取字a后面为字b的概率,并获取字ab后面为字c的概率,从而得到特征词abc出现的概率。
116.s22,根据各特征词的语言模型概率,获取各特征词的权重激励值,权重激励值用于提高对应的特征词的召回率。
117.在得到各特征词的语言模型概率后,根据各特征词的语言模型概率,获取各特征词的权重激励值,该权重激励值可以用于后续进行语音识别时对解码路径进行激励。
118.各特征词的权重激励值可以与语言模型概率呈正相关,表示各特征词出现的概率越大,权重激励值越大。权重激励值可以提高对应的特征词的召回率。
119.s23,根据各特征词的权重激励值对待识别语音解码,得到待识别语音对应的文本。
120.在获取各特征词的权重激励值后,可以根据各特征词的权重激励值对待识别语音解码。在待识别语音的每个解码的时间单位上,根据各个解码路径上是否包括特征词,进行不同的权重激励,得到待识别语音对应的文本。
121.本公开实施例提供的语音识别方法,首先获取待识别语音的各特征词的语言模型概率,然后根据特征词的语言模型概率获取各特征词的权重激励值,并根据特征词的权重激励值对待识别语音解码,得到待识别语音对应的文本。本公开实施例的方案,无需人工进行特征词的权重激励值的配置,而是基于特征词的语言模型概率来获取特征词的权重激励值,配置过程相较于人工配置更加简便,同时由于语言模型概率指示了对应的特征词出现的概率,基于语言模型概率获取的权重激励值更加符合客观情况。在得到权重激励值后,由于权重激励值能够提高特征词的召回率,而特征词又是待识别语音中出现概率较高的词汇,因此能够提高语音识别的准确性。
122.下面对本公开实施例的方案进行详细介绍。
123.在获取待识别语音的各特征词后,可以基于统计学的方法获取各特征词的语言模型概率。一种可能的实现方式是,根据n
‑
gram语言模型对特征词进行处理,获取各特征词的语言模型概率。
124.n
‑
gram语言模型是一种用于描述词、语句的概率分布的统计语言模型,能够衡量某句话或者某个词序列是否符合所处语境下的行文方式。n
‑
gram语言模型的处理方式是将文本里的内容按照字节进行大小为n的滑动窗口操作,形成长度为n的字节片段序列。每个字节片段序列称为gram,然后对所有gram的出现频度进行统计。
125.n
‑
gram语言模型假设当前第n个词的概率只和前n
‑
1个词相关,整句出现的概率就是各个词出现的概率的乘积,而各个词出现的概率可以直接从语料中统计n个词同时出现的次数得到。
126.以n
‑
gram语言模型a对特征词的处理为例,设某特征词中包括m个字,这m个字分别为w1、w2、...、w
m
,n=4,则通过该n
‑
gram语言模型a对该特征词进行处理,得到该特征词的语
言模型概率为:
[0127][0128]
其中,p
v
为该特征词的语言模型概率,p(w
i
|w
i
‑3w
i
‑2w
i
‑1)为w
i
‑3w
i
‑2w
i
‑1后面为字w
i
的概率。
[0129]
在获取各特征词的语言模型概率后,需要根据各特征词的语言模型概率获取特征词的权重激励值,下面将结合图3对该过程进行介绍。
[0130]
图3为本公开实施例提供的获取特征词的权重激励值的流程示意图,如图3所示,包括:
[0131]
s31,根据各特征词的语言模型概率,获取各特征词的初始化权重值。
[0132]
本公开实施例中,在获取各特征词的语言模型概率后,首先根据语言模型概率获取各特征词的初始化权重值,然后根据初始化权重值获取对应的权重激励值。
[0133]
具体的,可以根据预设函数对各特征词的语言模型概率处理,得到各特征词的函数值。预设函数例如可以为对数函数、指数函数、线性函数等等。当预设函数为对数函数时,根据预设函数对各特征词的语言模型概率处理可以为对语言模型概率取对数;当预设函数为指数函数时,根据预设函数对各特征词的语言模型概率处理可以为获取语言模型概率的指数,等等。
[0134]
本公开实施例中,以预设函数为y=
‑
logx为例进行介绍。则预设函数对语言模型概率的处理,首先将语言模型概率映射到log域,然后将映射到log域的值取反,得到对应的函数值。即,预设函数的处理为如下式(2)示例:
[0135]
y(p
v
)=
‑
logp
v
,
ꢀꢀꢀꢀꢀꢀꢀ
(2)
[0136]
其中,p
v
为特征词的语言模型概率,y(p
v
)为特征词的函数值。
[0137]
由于特征词的语言模型概率差别可能较大,因此特征词的函数值差别也可能较大,因此,在得到特征词的函数值后,对特征词的函数值进行范围映射处理,得到各特征词的初始化权重值。
[0138]
范围映射处理的目的是使得处理后的各特征词的函数值位于某一范围内,但是范围映射处理并不影响各特征词的函数值的大小关系。即,若有两个特征词的函数值a和b,a大于b,在进行范围映射处理后的a仍然大于范围映射处理后的b。范围映射处理仅仅是将各特征词的函数值处理后得到的初始化权重值更加集中在一个范围内。
[0139]
范围映射处理可以包括一种或多种运算处理,例如可以包括相加、相减、相乘、相除等等,也可以包括函数处理,例如可以包括取指数等等。范围映射处理后得到的各特征词的初始化权重值位于第一预设范围内。
[0140]
例如各特征词的函数值为2、3、4、5、6、8、9、10,第一预设范围为[0,3],则范围映射处理可以是使函数值除以4,范围映射处理后得到的初始化权重值为0.5、0.75、1、1.25、1.5、2、2.25、2.5。
[0141]
s32,对初始化权重值进行更新处理,得到各特征词的权重激励值,更新处理包括阈值筛选处理和/或步长调整处理。
[0142]
在得到各特征词的初始化权重值后,对初始化权重值进行更新处理得到各特征词的权重激励值。本公开实施例中,更新处理包括阈值筛选处理和步长调整处理中的至少一
memory,lstm)模型和注意力(attention)模型等等。
[0156]
声学模型可以对待识别语音进行识别处理,得到待识别语音的各个时间单位对应的至少一个候选字,以及各候选字的声学模型得分。其中,每个时间单位对应文本的一个字,每个时间单位可能包括一个或多个候选字,每个候选字对应一个解码路径。每个时间单位对应的一个或多个候选字,可能为读音相同或相近的字。例如,某个时间单位对应的候选字包括“琳”、“邻”、“林”,这三个候选字对应三个不同的解码路径。
[0157]
s42,根据各特征词的权重激励值、各个时间单位对应的至少一个候选字以及各候选字的声学模型得分,得到文本。
[0158]
具体的,首先获取时间单位i对应的各候选字的语言模型得分,其中,i依次为1,2,3,...,n,n为文本的字数,每个时间单位对应文本的一个字。
[0159]
其中,获取时间单位i对应的各候选字的语言模型得分,可以是通过一个语言模型获取各候选字的语言模型得分,也可以是通过多个语言模型获取各候选字的语言模型得分。可选的,语言模型为n
‑
gram语言模型。可选的,对各候选字进行处理得到语言模型得分的n
‑
gram语言模型,可以与获取特征词的语言模型概率采用的n
‑
gram语言模型相同,也可以与获取特征词的语言模型概率采用的n
‑
gram语言模型不同。
[0160]
可选的,针对任意候选字,服务器通过多个语言模型获取候选字的语言模型得分。其中,各语言模型是通过不同领域的文本语料训练而成。以n
‑
gram语言模型为例,可以基于医学领域、生活领域、航天领域、互联网领域等各个不同领域的文本语料训练得到多个不同的n
‑
gram语言模型,然后根据这多个不同的n
‑
gram语言模型对候选字进行处理,得到候选字在各语言模型对应的语言模型得分。然后,根据各语言模型的权重,以及候选字在各语言模型对应的语言模型得分,得到该候选字的语言模型得分。
[0161]
相比于通过单个语言模型来获取候选字的语言模型得分,由于单个语言模型通常是使用海量的通用领域训练语料训练而成的,通用领域训练语料可能和待识别语音的场景不适配,而通过多个语言模型来获取候选字的语言模型得分,由于多个语言模型是通过不同领域的训练语料训练而成的,使得语音识别系统能够吸收不同领域的知识,与待识别语音的场景更加适配,从而使得进行特征词激励后得到的文本更加通顺。
[0162]
在得到各候选字的语言模型得分后,根据各特征词的权重激励值获取时间单位i对应的各候选字的特征词激励值。
[0163]
具体的,针对任意候选字,若文本中的前i
‑
1个字不包括第三特征词,且文本中的前i
‑
1个字与该候选字连接后包括该第三特征词,则将第三特征词的权重激励值确定为该候选字的特征词激励值。其中,第三特征词为各特征词中的任意一个。否则,确定该候选字的特征词激励值为第二预设值。第二预设值的取值例如可以为0,或者其他可能的数值。
[0164]
图5为本公开实施例提供的解码示意图,如图5所示,在时间单位i上共包括3个候选字,分别是“静”、“径”和“净”,这三个候选字对应三个不同的解码路径,分别是解码路径1、解码路径2和解码路径3。待识别语音的特征词包括“幽静”和“幽径”,其中,“幽静”的权重激励值为1.8,“幽径”的权重激励值为1.2。待识别语音对应的文本的前i
‑
1个字为“这条小路很幽”。
[0165]
针对候选字“静”,该文本的前i
‑
1个字中不包括特征词“幽静”,且该文本的前i
‑
1个字与候选字“静”连接后包括特征词“幽静”,则此时将特征词“幽静”的权重激励值1.8作
为候选字“静”的特征词激励值。
[0166]
针对候选字“径”,该文本的前i
‑
1个字中不包括特征词“幽径”,且该文本的前i
‑
1个字与候选字“径”连接后包括特征词“幽径”,则此时将特征词“幽径”的权重激励值1.2作为候选字“径”的特征词激励值。
[0167]
针对候选字“净”,该文本的前i
‑
1个字中不包括特征词“幽静”和“幽径”,且该文本的前i
‑
1个字与候选字“净”连接后也不包括特征词“幽静”和“幽径”,则此时将候选字“净”的特征词激励值确定为第二预设值。其中,第二预设值例如可以设置为0,可以设置为负数,也可以设置为正数,例如0.1,0.2,等等。
[0168]
在确定了各候选字的特征词激励值后,可以根据时间单位i对应的各候选字的声学模型得分、语言模型得分和特征词激励值,在时间单位i对应的各候选字中确定文本的第i个字。
[0169]
文本的第i个字如下:
[0170]
w
i
=argmax(f(w)),
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)
[0171]
其中,f(w)=log(p(w|x))+α1(log(p
lm1
(w)))+α2(log(p
lm2
(w)))+...+s
v
;
[0172]
w
i
为第i个字,w为时间单位i对应的候选字,x为待识别语音,p(w|x)为候选字w的声学模型得分,p
lm
(w)为w在语言模型下的语言模型得分,α1和α2为对应的语言模型的权重,s
v
为w的特征词激励值,argmax为最大自变量点集函数,argmax(f(w))表示的是使得f(w)取得最大值所对应的w。
[0173]
以时间单位i包括3个对应的候选字w1、w2和w3为例,则可以根据上式分别计算f(w1)、f(w2)和f(w3)。然后,根据f(w1)、f(w2)和f(w3)确定第i个字w
i
。其中,w
i
=argmax(f(w))。即在f(w1)、f(w2)和f(w3)确定最大值,最大值对应的w即为w
i
。例如,若f(w1)>f(w2)>f(w3),则w
i
为w1。对于文本的每个字都可以根据上述方案来确定,从而得到待识别语音对应的文本。
[0174]
本公开实施例提供的语音识别方法,首先获取待识别语音的各特征词的语言模型概率,然后根据特征词的语言模型概率获取各特征词的权重激励值,并根据特征词的权重激励值对待识别语音解码,得到待识别语音对应的文本。本公开实施例的方案,无需人工进行特征词的权重激励值的配置,而是基于特征词的语言模型概率来获取特征词的权重激励值,配置过程相较于人工配置更加简便,同时由于语言模型概率指示了对应的特征词出现的概率,基于语言模型概率获取的权重激励值更加符合客观情况。在得到权重激励值后,由于权重激励值能够提高特征词的召回率,而特征词又是待识别语音中出现概率较高的词汇,因此能够提高语音识别的准确性。
[0175]
示例性介质
[0176]
在介绍了本公开示例性实施方式的方法之后,接下来,参考图6对本公开示例性实施方式的存储介质进行说明。
[0177]
图6为本公开实施例提供的程序产品示意图,参考图6所示,描述了根据本公开的实施方式的用于实现上述方法的程序产品60,其可以采用便携式紧凑盘只读存储器(cd
‑
rom)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本公开的程序产品不限于此。
[0178]
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信
号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd
‑
rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。
[0179]
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质。
[0180]
可以以一种或多种程序设计语言的任意组合来编写用于执行本公开公开操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如java、c++等,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(lan)或广域网(wan),连接到用户计算设备。
[0181]
示例性装置
[0182]
在介绍了本公开示例性实施方式的介质之后,接下来,参考图7对本公开示例性实施方式的语音识别装置进行说明,用于实现上述任一方法实施例中的方法,其实现原理和技术效果类似,在此不再赘述。
[0183]
图7为本公开实施例提供的语音识别装置的结构示意图,如图7所示,包括:
[0184]
获取模块71,用于获取待识别语音的各特征词的语言模型概率,所述语言模型概率用于指示对应的特征词出现的概率;
[0185]
处理模块72,用于根据各所述特征词的语言模型概率,获取各所述特征词的权重激励值,所述权重激励值用于提高对应的特征词的召回率;
[0186]
识别模块73,用于根据各所述特征词的权重激励值对所述待识别语音解码,得到所述待识别语音对应的文本。
[0187]
在一种可能的实施方式中,所述处理模块72具体用于:
[0188]
根据各所述特征词的语言模型概率,获取各所述特征词的初始化权重值;
[0189]
对所述初始化权重值进行更新处理,得到各所述特征词的权重激励值,所述更新处理包括阈值筛选处理和/或步长调整处理。
[0190]
在一种可能的实施方式中,所述处理模块72具体用于:
[0191]
根据预设函数对各所述特征词的语言模型概率处理,得到各所述特征词的函数值;
[0192]
对各所述特征词的函数值进行范围映射处理,得到各所述特征词的初始化权重值,其中,各所述特征词的初始化权重值位于第一预设范围内。
[0193]
在一种可能的实施方式中,所述更新处理包括所述阈值筛选处理,所述处理模块72具体用于:
[0194]
在各所述特征词中,确定初始化权重值处于第二预设范围内的第一特征词,以及初始化权重值处于所述第二预设范围外的第二特征词;
[0195]
确定所述第一特征词的权重激励值为所述第一特征词的初始化权重值;
[0196]
确定所述第二特征词的权重激励值为第一预设值。
[0197]
在一种可能的实施方式中,所述更新处理包括所述步长调整处理,所述处理模块72具体用于:
[0198]
获取各所述特征词的等级;
[0199]
根据预设步长和各所述特征词的等级,获取各所述特征词的更新数值;
[0200]
根据各所述特征词的更新数值和所述初始化权重值,获取各所述特征词的权重激励值。
[0201]
在一种可能的实施方式中,所述识别模块73具体用于:
[0202]
对所述待识别语音进行识别处理,得到所述待识别语音的各个时间单位对应的至少一个候选字,以及各候选字的声学模型得分;
[0203]
根据各所述特征词的权重激励值、所述各个时间单位对应的至少一个候选字以及各所述候选字的声学模型得分,得到所述文本。
[0204]
在一种可能的实施方式中,所述识别模块73具体用于:
[0205]
获取时间单位i对应的各候选字的语言模型得分;
[0206]
根据各所述特征词的权重激励值获取所述时间单位i对应的各候选字的特征词激励值;
[0207]
根据所述时间单位i对应的各候选字的声学模型得分、语言模型得分和特征词激励值,在所述时间单位i对应的各候选字中确定所述文本的第i个字,i依次为1,2,3,...,n,所述n为所述文本的字数。
[0208]
在一种可能的实施方式中,所述识别模块73具体用于:
[0209]
针对任意候选字,根据多个语言模型对所述候选字进行处理,得到所述候选字在各所述语言模型对应的语言模型得分;
[0210]
根据各所述语言模型的权重,以及所述候选字在各所述语言模型对应的语言模型得分,得到所述候选字的语言模型得分。
[0211]
在一种可能的实施方式中,所述识别模块73具体用于:
[0212]
针对任意候选字,若所述文本中的前i
‑
1个字不包括第三特征词,且所述文本中的前i
‑
1个字与所述候选字连接后包括所述第三特征词,则将所述第三特征词的权重激励值确定为所述候选字的特征词激励值;其中,所述第三特征词为各所述特征词中的任意一个;
[0213]
否则,确定所述候选字的特征词激励值为第二预设值。
[0214]
在一种可能的实施方式中,所述文本的第i个字如下:
[0215]
w
i
=argmax(f(w)),
[0216]
其中,f(w)=log(p(w|x))+α1(log(p
lm1
(w)))+α2(log(p
lm2
(w)))+...+s
v
;
[0217]
w
i
为所述第i个字,w为所述时间单位i对应的候选字,x为所述待识别语音,p(w|x)为所述候选字w的声学模型得分,p
lm
(w)为所述w在语言模型下的语言模型得分,α1和α2为对应的语言模型的权重,s
v
为所述w的特征词激励值,argmax为最大自变量点集函数,argmax(f(w))表示的是使得f(w)取得最大值所对应的w。
[0218]
本公开实施例提供的语音识别装置,可用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
[0219]
示例性计算设备
[0220]
在介绍了本公开示例性实施方式的方法、介质和装置之后,接下来,参考图8对本公开示例性实施方式的计算设备进行说明。
[0221]
图8显示的计算设备80仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
[0222]
图8为本公开实施例提供的计算设备的结构示意图,如图8所示,计算设备80以通用计算设备的形式表现。计算设备80的组件可以包括但不限于:上述至少一个处理单元81、上述至少一个存储单元82,连接不同系统组件(包括处理单元81和存储单元82)的总线83。
[0223]
总线83包括数据总线、控制总线和地址总线。
[0224]
存储单元82可以包括易失性存储器形式的可读介质,例如随机存取存储器(ram)821和/或高速缓存存储器822,可以进一步包括非易失性存储器形式的可读介质,例如只读存储器(rom)823。
[0225]
存储单元82还可以包括具有一组(至少一个)程序模块824的程序/实用工具825,这样的程序模块824包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
[0226]
计算设备80也可以与一个或多个外部设备84(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(i/o)接口85进行。并且,计算设备80还可以通过网络适配器86与一个或者多个网络(例如局域网(lan),广域网(wan)和/或公共网络,例如因特网)通信。如图8所示,网络适配器86通过总线83与计算设备80的其它模块通信。应当理解,尽管图中未示出,可以结合计算设备80使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。
[0227]
应当注意,尽管在上文详细描述中提及了语音识别装置的若干单元/模块或子单元/模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
[0228]
此外,尽管在附图中以特定顺序描述了本公开方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
[0229]
虽然已经参考若干具体实施方式描述了本公开的精神和原理,但是应该理解,本公开并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本公开旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。