一种语音识别方法、装置、语音识别设备及存储介质与流程

1.本发明实施例涉及语音处理技术领域，尤其涉及一种语音识别方法、装置、语音识别设备及存储介质。

背景技术：

2.语音识别，是将一段语音信号转化为相应的文本。随着直播、音频资讯等新的内容传播方式的兴起，为了使得人机交互更加高效，提升用户体验，对语音识别的要求越来越高，从而需要一个识别速度快、准确率高的语音识别模型。
3.目前语音识别模型的提升方向，基本是增加模型参数量，或者是喂入模型更多更优质的数据。
4.然而，增加模型参数量和喂入模型更多更优质的数据本质都是增加数据规模。其中，增加模型参数量的方法，会使得在后期语音识别模型上线时，需要更多的计算资源，而且在同等计算资源下，相较于其他模型，本模型的识别速度会降低。喂入模型更多更优质的数据的方法，需要投入大量的标注成本。故，如何在降低语音识别模型对数据规模依赖的情况下提高模型的速度和准确率，是当前丞待解决的技术问题。

技术实现要素：

5.本发明实施例提供了一种语音识别方法、装置、语音识别设备及存储介质，以提供丰富的待识别语音的特征，进而提高语音识别的准确性。
6.第一方面，本发明实施例提供了一种语音识别方法，包括：
7.获取待识别语音的第一编码特征；
8.通过预先训练的排列语言模型生成所述待识别语音的深度双向音嵌入向量；
9.对所述第一编码特征与所述深度双向音嵌入向量的融合特征进行解码，得到语音识别结果。
10.第二方面，本发明实施例还提供了一种语音识别装置，包括：
11.特征提取模块，用于提取待识别语音的第一编码特征；
12.向量生成模块，用于通过预先训练的排列语言模型生成所述待识别语音的深度双向音嵌入向量；
13.解码模块，用于对所述第一编码特征与所述深度双向音嵌入向量的融合特征进行解码，得到语音识别结果。
14.第三方面，本发明实施例还提供了一种语音识别设备，包括：
15.一个或多个处理器；
16.存储装置，用于存储一个或多个程序；
17.所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明实施例提供的语音识别方法。
18.第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机
程序，该程序被处理器执行时实现本发明实施例提供的语音识别方法。
19.本发明实施例提供了一种语音识别方法、装置、语音识别设备及存储介质，首先获取待识别语音的第一编码特征，然后通过预先训练的排列语言模型生成待识别语音的深度双向音嵌入向量，最后对第一编码特征与深度双向音嵌入向量的融合特征进行解码，得到语音识别结果。本实施例通过排列语言模型将待识别语音生成深度双向音嵌入向量，并将该音嵌入向量也作为语音识别模型的输入，能够为语音识别模型的输入侧提供丰富的待识别语音的特征，避免了现有语音识别模型中增加计算资源和标注成本的缺陷；进一步，将上述音嵌入向量与语音识别模型中的第一编码特征融合作为输入，并对融合特征进行解码得到语音识别结果，能够提高语音识别的速度和准确性。
附图说明
20.图1为本发明实施例一提供的一种语音识别方法的流程示意图；
21.图2为本发明实施例二提供的一种语音识别方法的流程示意图；
22.图3为本发明实施例二提供的一种训练排列语言模型的实现示意图；
23.图4为本发明实施例二提供的一种语音识别方法的实现示意图；
24.图5为本发明实施例三提供的一种语音识别装置的结构示意图；
25.图6为本发明实施例四提供的一种语音识别设备的结构示意图。
具体实施方式
26.下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。
27.在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理，但是其中的许多操作可以被并行地、并发地或者同时实施。此外，各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。此外，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。
28.本发明使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”。
29.需要注意，本发明中提及的“第一”、“第二”等概念仅用于对相应内容进行区分，并非用于限定顺序或者相互依存关系。
30.需要注意，本发明中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。
31.实施例一
32.图1为本发明实施例一提供的一种语音识别方法的流程示意图，该方法可适用于对语音信号进行识别，并转换为文本的情况，该方法可以由语音识别装置来执行，其中该装置可由软件和/或硬件实现，并一般集成在语音识别设备上，在本实施例中语音识别设备包括但不限于：台式计算机、笔记本电脑和服务器等设备。
33.如图1所示，本发明实施例一提供的一种语音识别方法，该方法包括如下步骤：
34.s110、获取待识别语音的第一编码特征。
35.其中，待识别语音可以认为是在语音识别过程中等待被识别成文本的未知语音信号。
36.第一编码特征可以认为是语音识别任务中待识别语音所对应的编码特征，是通过将待识别的语音信号(待识别的语音信号为模拟信号)转换为数字信号进行编码所生成的特征；例如可以采用常用的线性预测编码(linear predictive coding，lpc)或脉冲编码调制(pulse code modulation，pcm)等编码方法来生成待识别语音所对应的第一编码特征，本步骤对此不作限定。示例性的，语音识别任务可以为语音识别模型或声纹识别模型等。在本实施例中，以语音识别模型为例，第一编码特征可以认为是语音识别模型中待识别语音所对应的编码特征。
37.s120、通过预先训练的排列语言模型生成所述待识别语音的深度双向音嵌入向量。
38.其中，排列语言模型可以指所创建的用于将待识别语音转换成对应的深度双向音嵌入向量的模型。深度双向音嵌入向量可以指通过预先训练好的排列语言模型，对待识别语音进行双向编码所生成的编码特征；双向编码可以认为是将待识别语音同时进行正向编码(如对语音信号从左到右进行编码)和反向编码(如对语音信号从右到左进行编码)。预先训练的排列语言模型，可以认为是将所创建的初始排列语言模型通过大量训练样本(即大量训练用的语音样本)，采用掩码等方法进行相关参数的训练优化所得到的模型。
39.训练用的语音样本可以认为是语音信号以及对应的文本内容所构成的样本对，训练用的语音样本可以通过网络上的开源数据，如各种公开的语音数据库来获取，也可以通过相关技术人员自制的语音数据集来获取，本步骤对语音样本的获取方式不作限定。
40.s130、对所述第一编码特征与所述深度双向音嵌入向量的融合特征进行解码，得到语音识别结果。
41.其中，融合特征可以认为是将待识别语音在语音识别模型中所对应的第一编码特征和经过预先训练的排列语言模型所生成的深度双向音嵌入向量在高维矩阵空间叠加融合所形成的编码特征，并将融合特征作为语音识别模型的输入侧数据。本步骤所获取的第一编码特征和深度双向音嵌入向量都可以认为是一个向量矩阵，这两个向量矩阵叠加融合可能会产生更高维度的一个向量矩阵(即融合特征)，此时高维矩阵空间可以认为是用于第一编码特征和深度双向音嵌入向量这两个向量矩阵叠加形成融合特征以及存放该融合特征的矩阵空间。
42.解码可以指采用特定的方法将语音识别模型输入侧的融合特征还原为融合特征所代表的内容(即待识别语音所对应的文本内容)的过程。语音识别结果可以认为是通过解码所得到的待识别语音所对应的文本内容。
43.在一个实施例中，语音识别模型可以认为是常用的基于高斯混合模型(gaussian mixture model，gmm)和隐马尔可夫模型(hidden markov model，hmm)的声学模型(即基于gmm
‑
hmm的声学模型)，此处对此不作限定。首先获取待识别语音在语音识别模型中所对应的第一编码特征；然后在高维矩阵空间中，将经过预先训练的排列语言模型所生成的深度双向音嵌入向量叠加到第一编码特征中形成融合特征，并将该融合特征作为语音识别模型
的输入侧数据；最后通过语音识别模型，对该融合特征进行解码得到待识别语音所对应的文本内容。
44.本发明实施例一提供了一种语音识别方法，首先获取待识别语音的第一编码特征，然后通过预先训练的排列语言模型生成待识别语音的深度双向音嵌入向量，最后对第一编码特征与深度双向音嵌入向量的融合特征进行解码，得到语音识别结果。该方法通过排列语言模型将待识别语音生成深度双向音嵌入向量，并将该音嵌入向量也作为语音识别模型的输入，能够为语音识别模型的输入侧提供丰富的待识别语音的特征，避免了现有语音识别模型中增加计算资源和标注成本的缺陷；进一步，将上述音嵌入向量与语音识别模型中的第一编码特征融合作为输入，并对融合特征进行解码得到语音识别结果，能够提高语音识别的速度和准确性。
45.实施例二
46.图2为本发明实施例二提供的一种语音识别方法的流程示意图，本实施例二在上述各实施例的基础上进行细化。在本实施例中，对通过预先训练的排列语言模型生成所述待识别语音的深度双向音嵌入向量的过程进行了具体描述。需要说明的是，未在本实施例中详尽描述的技术细节可参见上述任意实施例。
47.如图2所示，本发明实施例二提供的一种语音识别方法，该方法包括如下步骤：
48.s210、获取待识别语音的第一编码特征。
49.s220、基于注意力机制的掩码矩阵创建所述排列语言模型。
50.其中，基于注意力机制的掩码矩阵的原理可以认为是随机掩码语音样本中的部分字对应的特征帧序列，该部分字作为目标掩码字，然后随机挑选与该部分字相关的上下文所对应的特征帧序列填充至该部分字的上文位置(其中，语音样本中的所有字所对应的帧序列位置编码是保持不变的)，除了被掩码的部分字以及被选中的上下文外，其他没有被选中的字也被掩码掉以避免影响目标掩码字的预测。掩码可以指通过一串二进制代码对目标字段进行位与运算，以屏蔽当前输入位中的目标字段，如该目标字段可以为语音样本中随机掩码的部分字所对应的特征帧序列。
51.基于注意力机制的掩码矩阵创建所述排列语言模型可以认为是一种将语音样本中的特征帧序列随机拆解，产生与被掩码的字的上下文相关的双向编码特征表示的模型；具体的，该排列语言模型可以根据被掩码的字对应的特征帧序列的位置信息(即帧序列位置编码)以及被掩码的字上文位置中的上下文所对应的特征帧序列来预测被掩码的字。
52.特征帧序列可以指将语音样本中的字对应的信号帧序列进行特征提取后所形成的序列。信号帧序列可以指每个语音样本中的语音信号分帧后的一个个信号帧所组合形成的序列；每个语音样本中的字占用相应部分的信号帧序列，如一个语音样本所对应的文本内容为五个字，该语音样本中的语音信号可以分帧为100个信号帧，且五个字均分所有信号帧，则每个字按时序顺序分别对应20个信号帧，每20个信号帧所构成的序列即为每个字所对应的信号帧序列；通过对每个字所对应的信号帧序列进行特征提取可以得到语音样本中每个字所对应的特征帧序列。分帧可以认为是将每个语音信号截取成一个个小段时间的信号，每一个小段时间的信号为一帧，每一帧信号又可表示为一个信号帧。
53.在本步骤中，语音样本中的语音信号以及其所对应的文本内容可以认为是时序性数据，语音信号中的每一帧信号之间的顺序关系影响着该语音信号所要表达的文本内容，
因此可以提取语音样本中每个字所对应的含有时序信息的特征帧序列。
54.本实施例不限定如何获取语音样本的特征帧序列，示例性的，获取特征帧序列的方法包括但不限于：梅尔频率倒谱系数(mel
‑
frequency cepstral coefficients，mfcc)算法、频域特征(filter bank，fbank)算法和对数变换频域特征(即logfbank)算法等。
55.帧序列位置编码可以认为是对所获取语音样本的特征帧序列的位置进行编码，每一个位置编码都对应一个特征帧序列的位置信息。根据帧序列位置编码，可以构建特征帧序列中的每一个信号帧序列之间的顺序关系，从而获得语音样本中每个字所对应的特征帧序列的位置信息。在本实施例中，可以通过学习位置嵌入(learned positional embedding)方法来生成语音样本中的帧序列位置编码，此处不对生成帧序列位置编码的方法进行限定。
56.s230、根据语音样本训练所述排列语言模型。
57.其中，上述s220所创建的排列语言模型是一个初始模型，在本步骤中将大量的语音样本作为排列语言模型的输入来训练该模型，可以实现该模型的相关参数的优化。
58.可选的，所述根据语音样本训练所述排列语言模型，包括：提取所述语音样本的特征帧序列，并随机对所述语音样本中的部分字对应的特征帧序列进行掩码；通过所述排列语言模型，根据所述语音样本的特征帧序列和对应的帧序列位置编码，生成所述语音样本的第二编码特征，并根据所述第二编码特征预测被掩码的字；若不满足训练停止条件，则根据预测结果更新所述排列语言模型，并返回执行上述的特征帧序列提取操作，直至满足训练停止条件。
59.其中，可以通过mfcc算法等方法提取语音样本的特征帧序列，并且对于每一个语音样本，均随机对语音样本中的部分字对应的特征帧序列进行掩码；如在本步骤中可以随机掩码15％的字所对应的特征帧序列，此处对此不作限定，可根据实际需求选择掩码的字。
60.第二编码特征可以认为是根据所提取的特征帧序列(该特征帧序列包括掩码的特征帧序列和未掩码的特征帧序列)和对应的帧序列位置编码，通过未训练完成的排列语言模型所生成的语音样本对应的编码特征。示例性的，可以将语音样本的特征帧序列和对应的帧序列位置编码输入至未训练完成的排列语言模型中，然后通过前向传播算法得到第二编码特征，此处不对获得第二编码特征的算法方式进行限定。
61.可选的，在提取所述语音样本的特征帧序列之后，还包括：基于正余弦函数生成所述特征帧序列对应的帧序列位置编码。
62.其中，语音样本中每个字对应的特征帧序列的位置可以认为是没有相对关系的，因此在对特征帧序列进行帧序列位置编码时，需要对所生成的帧序列位置编码赋予一个相对的位置关系，在本步骤中可以采用正余弦函数的方法。示例性的，由于正弦函数基于原点对称，余弦函数基于y轴对称，因此处在奇数位置的特征帧序列可以采用正弦函数生成对应的帧序列位置编码，处在偶数位置的特征帧序列可以采用余弦函数生成对应的帧序列位置编码，从而利用上述正余弦函数的方法可以交替生成具有周期性位置关系的帧序列位置编码。
63.预测结果可以认为是预测得到的被掩码的字与真实被掩码的字之间的对比结果。例如可以根据第二编码特征来预测被掩码的字，然后将该预测得到的被掩码的字与语音样本中真实被掩码的字进行对比，如若一致则表明预测结果正确。
64.可选的，根据所述第二编码特征预测被掩码的字，包括：根据所述第二编码特征在预设字库中选取正样本和负样本，并根据所述正样本和所述负样本预测被掩码的字。
65.其中，预设字库可以认为是根据现有中文汉字的总数量所构建的词汇表，也可以认为是根据常用中文汉字数量所构建的词汇表，此处对此不作限定。在本步骤中，采用负采样方法，即在预设字库中选取与被掩码的字相关的上下文对应的汉字作为正样本，再随机选取一部分被掩码的字以及与被掩码的字相关的上下文无关的汉字作为负样本，然后根据正样本和负样本预测被掩码的字。本步骤不对负样本的选取汉字量进行限定。本实施例采用负采样方法，通过随机选取预设字库中的部分汉字作为负样本，无需将全部汉字作为样本量，就能够实现预测被掩码的字，有效减小了排列语言模型过程中的计算量，提高排列语言模型训练的效率。
66.训练停止条件可以认为是使得排列语言模型参数完成收敛的条件，收敛可以认为是通过排列语言模型所得到的预测结果达到了一定的阈值，模型参数优化完毕。示例性的，若不满足训练停止条件，则根据预测结果，可以采用反向传播算法更新排列语言模型中的网络参数，并返回语音样本的特征帧序列提取操作继续进行模型的训练，不断迭代更新排列语言模型，直至满足训练停止条件。本实施例不对如何更新排列语言模型的算法方式进行限定。
67.可选的，所述训练停止条件包括：所述预测结果与所述语音样本中被掩码的字之间的交叉熵损失小于或等于设定阈值。
68.其中，交叉熵损失可以认为是排列语言模型的预测结果(即预测得到的被掩码的字)与真实值(即语音样本中真实被掩码的字)之间的误差；如交叉熵损失越大可以表明预测结果与真实值之间的误差越大，交叉熵损失越小可以表明预测结果与真实值之间的误差越小，预测结果越接近真实值。设定阈值可以认为是所设定的使得排列语言模型收敛的阈值，交叉熵损失小于或等于该阈值可以表明预测结果与语音样本中真实被掩码的字相同，此处不对阈值的设定进行限定。
69.图3为本发明实施例二提供的一种训练排列语言模型的实现示意图。如图3所示，在一个实施例中，根据语音样本训练排列语言模型的具体步骤如下：首先提取语音样本的特征帧序列，并随机对语音样本中的部分字对应的特征帧序列进行掩码；然后通过排列语言模型，根据语音样本的特征帧序列和对应的帧序列位置编码，生成语音样本的第二编码特征，并根据第二编码特征，采用负采样方法来预测被掩码的字；最后根据预测结果与语音样本中被掩码的字之间的交叉熵损失来判断排列语言模型是否满足训练停止条件，例如若交叉熵损失小于或等于设定阈值，则表明排列语言模型满足训练停止条件，模型训练完毕；若交叉熵损失大于设定阈值，则表明排列语言模型不满足训练停止条件，此时根据预测结果更新排列语言模型，并返回执行语音样本的特征帧序列提取操作，继续进行模型训练，直至满足训练停止条件为止。
70.s240、获取所述待识别语音的特征帧序列和帧序列位置编码。
71.其中，特征帧序列可以指将待识别语音中的字对应的信号帧序列进行特征提取后所形成的序列。在本步骤中，待识别语音可以认为是时序性数据，可以提取待识别语音中每个字所对应的含有时序信息的特征帧序列。帧序列位置编码可以认为是对所获取待识别语音的特征帧序列的位置进行编码。
72.需要说明的是，本步骤中待识别语音的特征帧序列以及对应的帧序列位置编码，可以采用上述s220中的特征帧序列提取算法和学习位置嵌入方法来实现。
73.s250、将所述待识别语音的特征帧序列和所述帧序列位置编码输入至所述排列语言模型，所述排列语言模型的输出为所述深度双向音嵌入向量。
74.其中，排列语言模型为训练完毕的模型，通过将待识别语音的特征帧序列和帧序列位置编码输入至训练完毕的排列语言模型中，所生成的第二编码特征为待识别语音对应的深度双向音嵌入向量。
75.在本实施例中，未训练完成的排列语言模型的输出可以认为是第二编码特征，训练排列语言模型的过程是为了优化该模型的相关参数。训练完毕的排列语言模型可以用于未知语音的识别(即待识别语音)，其输出为该语音所对应的深度双向音嵌入向量。
76.s260、对所述第一编码特征与所述深度双向音嵌入向量的融合特征进行解码，得到语音识别结果。
77.图4为本发明实施例二提供的一种语音识别方法的实现示意图。如图4所示，在一个实施例中，实现语音识别的方法的具体步骤如下：首先获取语音样本，提取语音样本对应的含时序信息的特征帧序列，随机掩码15％的字所对应的特征帧序列，并利用正余弦函数生成特征帧序列对应的帧序列位置编码；其次基于注意力机制的掩码矩阵创建排列语言模型，根据所获取的特征帧序列和对应的帧序列位置编码，通过前向传播算法生成语音样本的第二编码特征；然后采用负采样方法，根据第二编码特征预测被掩码的字，并根据预测结果计算交叉熵损失；之后，根据交叉熵损失，通过反向传播算法更新排列语言模型的网络参数，直至交叉熵损失小于或等于设定阈值，停止排列语言模型训练；最后提取待识别语音的第一编码特征，同时将待识别语音所对应的特征帧序列和帧序列位置编码输入至训练完成的排列语言模型中，通过前向传播算法生成待识别语音对应的深度双向音嵌入向量，将第一编码特征与深度双向音嵌入向量在高维矩阵空间中叠加生成融合特征，该融合特征作为语音识别模型的输入，而后解码生成待识别语音对应的文本内容。
78.本发明实施例二提供的一种语音识别方法，具体化了对通过预先训练的排列语言模型生成所述待识别语音的深度双向音嵌入向量的过程。该方法根据该排列语言模型能够生成与被掩码的字的上下文相关联的双向编码特征；还根据该编码特征预测被掩码的字，来训练排列语言模型，以实现该模型的优化和提高该模型描述上下文关联的能力；进一步通过将上述深度双向音嵌入向量与语音识别模型中的第一编码特征的融合特征作为输入，能够提高语音识别的速度和准确性。
79.实施例三
80.图5为本发明实施例三提供的一种语音识别装置的结构示意图，该装置可由软件和/或硬件实现。如图5所示，该装置包括：特征提取模块310、向量生成模块320以及解码模块330。
81.其中，特征提取模块310，用于提取待识别语音的第一编码特征；
82.向量生成模块320，用于通过预先训练的排列语言模型生成所述待识别语音的深度双向音嵌入向量；
83.解码模块330，用于对所述第一编码特征与所述深度双向音嵌入向量的融合特征进行解码，得到语音识别结果。
84.在本实施例中，该装置首先通过特征提取模块310，提取待识别语音的第一编码特征；然后通过向量生成模块320，通过预先训练的排列语言模型生成待识别语音的深度双向音嵌入向量；最后通过解码模块330，对第一编码特征与深度双向音嵌入向量的融合特征进行解码，得到语音识别结果。该装置通过排列语言模型将待识别语音生成深度双向音嵌入向量，并将该音嵌入向量也作为语音识别模型的输入，能够为语音识别模型的输入侧提供丰富的待识别语音的特征，避免了现有语音识别模型中增加计算资源和标注成本的缺陷；进一步，将上述音嵌入向量与语音识别模型中的第一编码特征融合作为输入，并对融合特征进行解码得到语音识别结果，能够提高语音识别的速度和准确性。
85.可选的，向量生成模块320包括：
86.获取单元，用于获取所述待识别语音的特征帧序列和帧序列位置编码；
87.向量输出单元，用于将所述特征帧序列和所述帧序列位置编码输入至所述排列语言模型，所述排列语言模型的输出为所述深度双向音嵌入向量。
88.可选的，所述装置还包括：模型创建模块和模型训练模块；
89.其中，模型创建模块，用于基于注意力机制的掩码矩阵创建所述排列语言模型；
90.模型训练模块，用于根据语音样本训练所述排列语言模型。
91.可选的，模型训练模块包括：
92.掩码单元，用于提取所述语音样本的特征帧序列，并随机对所述语音样本中的部分字对应的特征帧序列进行掩码；
93.预测单元，用于通过所述排列语言模型，根据所述语音样本的特征帧序列和对应的帧序列位置编码，生成所述语音样本的第二编码特征，并根据所述第二编码特征预测被掩码的字；
94.停止条件判断单元，用于若不满足训练停止条件，则根据预测结果更新所述排列语言模型，并返回执行上述的特征帧序列提取操作，直至满足训练停止条件。
95.可选的，所述训练停止条件包括：
96.所述预测结果与所述语音样本中被掩码的字之间的交叉熵损失小于或等于设定阈值。
97.可选的，所述模型训练模块还包括：
98.位置编码生成单元，用于在提取所述语音样本的特征帧序列之后，基于正余弦函数生成所述特征帧序列对应的帧序列位置编码。
99.可选的，所述预测单元具体用于：
100.根据所述第二编码特征在预设字库中选取正样本和负样本，并根据所述正样本和所述负样本预测被掩码的字
101.上述语音识别装置可执行本发明任意实施例所提供的语音识别方法，具备执行方法相应的功能模块和有益效果。
102.实施例四
103.图6为本发明实施例四提供的一种语音识别设备的结构示意图。如图6所示，本发明实施例四提供的语音识别设备包括：一个或多个处理器41和存储装置42；该语音识别设备中的处理器41可以是一个或多个，图6中以一个处理器41为例；存储装置42用于存储一个或多个程序；所述一个或多个程序被所述一个或多个处理器41执行，使得所述一个或多个
处理器41实现如本发明实施例中任一项所述的语音识别方法。
104.所述语音识别设备还可以包括：输入装置43和输出装置44。
105.语音识别设备中的处理器41、存储装置42、输入装置43和输出装置44可以通过总线或其他方式连接，图6中以通过总线连接为例。
106.该语音识别设备中的存储装置42作为一种计算机可读存储介质，可用于存储一个或多个程序，所述程序可以是软件程序、计算机可执行程序以及模块，如本发明实施例一或二所提供语音识别方法对应的程序指令/模块(例如，附图5所示的语音识别装置中的模块，包括：特征提取模块310、向量生成模块320以及解码模块330)。处理器41通过运行存储在存储装置42中的软件程序、指令以及模块，从而执行语音识别设备的各种功能应用以及数据处理，即实现上述方法实施例中语音识别方法。
107.存储装置42可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据语音识别设备的使用所创建的数据等。此外，存储装置42可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储装置42可进一步包括相对于处理器41远程设置的存储器，这些远程存储器可以通过网络连接至语音识别设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
108.输入装置43可用于接收输入的数字或字符信息，以及产生与语音识别设备的用户设置以及功能控制有关的键信号输入。输出装置44可包括显示屏等显示设备。
109.并且，当上述语音识别设备所包括一个或者多个程序被所述一个或者多个处理器41执行时，程序进行如下操作：获取待识别语音的第一编码特征；通过预先训练的排列语言模型生成所述待识别语音的深度双向音嵌入向量；对所述第一编码特征与所述深度双向音嵌入向量的融合特征进行解码，得到语音识别结果。
110.实施例五
111.本发明实施例五提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时用于执行语音识别方法，该方法包括：获取待识别语音的第一编码特征；通过预先训练的排列语言模型生成所述待识别语音的深度双向音嵌入向量；对所述第一编码特征与所述深度双向音嵌入向量的融合特征进行解码，得到语音识别结果。
112.可选的，该程序被处理器执行时还可以用于执行本发明任意实施例所提供的语音识别方法。
113.本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(random access memory，ram)、只读存储器(read only memory，rom)、可擦式可编程只读存储器(erasable programmable read only memory，eprom)、闪存、光纤、便携式cd
‑
rom、光存储器件、磁存储器件、或者上述的任意合适的组合。计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
114.计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于：电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
115.计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆或无线电频率(radiofrequency，rf)等等，或者上述的任意合适的组合。
116.可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如java、smalltalk、c++，还包括常规的过程式程序设计语言，诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络，包括局域网(lan)或广域网(wan)，连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
117.注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。