语音识别方法、装置、计算机可读存储介质及计算机设备与流程

1.本发明涉及语音识别技术领域，具体涉及一种语音识别方法、装置、计算机可读存储介质及计算机设备。

背景技术：

2.语音识别(automatic speech recognition，asr)技术是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术。语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。
3.近年来，自动语音识别技术发展迅速，其应用也深入人们生活中的各个领域。其中，端到端(end
‑
to
‑
end，e2e)自动语音识别技术以其简化的体系结构和优异的性能广受青睐。转移机和基于注意力的编解码器是两个流行的e2e框架，他们可以直接将输入的音频流特征转化为文本结果，相比传统语音识别模型在资源消耗和准确率上都有一定的优势。
4.然而，在自注意力机制下，随着输入序列长度的增加，计算复杂度将大大增加，导致语音识别效率较低。

技术实现要素：

5.本技术实施例提供一种语音识别方法、装置、计算机可读存储介质及计算机设备，该方法可以提高语音识别的效率。
6.本技术第一方面提供一种语音识别方法，包括：
7.对待识别的语音信息进行特征提取，得到多个特征向量；
8.计算每个特征向量的稀疏度值，所述稀疏度值为每个特征向量的自注意力得分序列的分布与自注意力得分序列的均匀分布之间的相对熵；
9.确定稀疏度值大于预设阈值的第一特征向量以及稀疏度值不大于预设阈值的第二特征向量；
10.根据所述第一特征向量的自注意力计算结果与所述第二特征向量确定目标矩阵；
11.将所述目标矩阵与标签序列对应的特征矩阵输入至分类网络进行分类处理，得到对所述待识别的语音信息对应的识别结果。
12.相应的，本技术第二方面提供一种语音识别装置，装置包括：
13.提取单元，用于对待识别的语音信息进行特征提取，得到多个特征向量；
14.计算单元，用于计算每个特征向量的稀疏度值，所述稀疏度值为每个特征向量的自注意力得分序列的分布与自注意力得分序列的均匀分布之间的相对熵；
15.第一确定单元，用于确定稀疏度值大于预设阈值的第一特征向量以及稀疏度值不大于预设阈值的第二特征向量；
16.第二确定单元，用于根据所述第一特征向量的自注意力计算结果与所述第二特征向量确定目标矩阵；
17.识别单元，用于将所述目标矩阵与标签序列对应的特征矩阵输入至分类网络进行
分类处理，得到对所述待识别的语音信息对应的识别结果。
18.在一些实施例中，所述计算单元，包括：
19.第一计算子单元，用于计算每个特征向量的自注意力得分序列；
20.第二计算子单元，用于计算每个得分序列的分布与均匀分布之间的相对熵，得到每个得分序列对应的特征向量的稀疏度值。
21.在一些实施例中，所述计算单元，包括：
22.选取子单元，用于从所述多个特征向量中随机选取目标数量个特征向量生成键矩阵；
23.第三计算子单元，用于根据所述目标数量、所述多个特征向量以及所述键矩阵计算得到每个特征向量的稀疏度值。
24.在一些实施例中，所述提取单元，包括：
25.划分子单元，用于将待识别语音信息划分为多帧语音信号；
26.变换子单元，用于对每帧语音信号进行离散傅里叶变换，得到每帧语音信号对应的频谱信息；
27.第一处理子单元，用于对每帧语音信号对应的频谱信息进行梅尔倒谱处理，得到待识别语音信息的多个特征向量。
28.在一些实施例中，所述装置还包括：
29.降噪单元，用于对所述待识别语音信息进行降噪处理；
30.预加重单元，用于将降噪处理后的语音信息进行预加重处理。
31.在一些实施例中，所述第二确定单元，包括：
32.第一获取子单元，用于获取每个第一特征向量对应的目标自注意力得分序列；
33.第四计算子单元，用于根据所述目标自注意力得分序列以及每个第一特征向量对应的值向量进行加权计算，得到每个第一特征向量对应的第三特征向量；
34.确定子单元，用于根据所述第三特征向量与所述第二特征向量确定目标矩阵。
35.在一些实施例中，所述第一获取子单元，包括：
36.计算模块，用于计算所述第一特征向量中每一目标特征向量与每一特征向量的点乘结果；
37.处理模块，用于将所述点乘结果进行归一化处理，得到每个第一特征向量对应的目标自注意力得分序列。
38.在一些实施例中，所述识别单元，包括：
39.第二获取子单元，用于获取语音识别结果文本对应的标签序列；
40.提取子单元，用于对所述标签序列进行特征提取，得到所述标签序列对应的标签特征向量；
41.第二处理子单元，用于采用人工神经网络对所述标签特征向量进行处理，得到标签序列对应的特征矩阵；
42.识别子单元，用于采用多层全连接层将所述目标矩阵与所述特征矩阵进行结合，并将结合结果输入至分类网络进行解码，得到待识别语音信息对应的识别结果。
43.本技术第三方面还提供一种计算机可读存储介质，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行本技术第一方面所提供的语音识别方
法的步骤。
44.本技术第四方面提供一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可以在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本技术第一方面所提供的语音识别方法的步骤。
45.本技术第五方面提供一种计算机程序产品或计算机程序，所述计算机程序产品或计算机程序包括计算机指令，所述计算机指令存储在存储介质中。计算机设备的处理器从存储介质读取所述计算机指令，处理器执行所述计算机指令，使得所述计算机设备执行第一方面所提供的语音识别方法的步骤。
46.本技术实施例提供的语音识别方法，通过对待识别的语音信息进行特征提取，得到多个特征向量；计算每个特征向量的稀疏度值，稀疏度值为每个特征向量的自注意力得分序列的分布与自注意力得分序列的均匀分布之间的相对熵；确定稀疏度值大于预设阈值的第一特征向量以及稀疏度值不大于预设阈值的第二特征向量；根据第一特征向量的自注意力计算结果与第二特征向量确定目标矩阵；将目标矩阵与标签序列对应的特征矩阵输入至分类网络进行分类处理，得到对待识别的语音信息对应的识别结果。以此，通过对特征向量的稀疏度值进行计算，然后确定稀疏度值小于预设阈值的特征向量无需进行自注意力计算，如此可以减少计算量，从而提升了语音识别的效率。
附图说明
47.为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
48.图1为本技术提供的语音识别方法的场景示意图；
49.图2为本技术提供的语音识别方法的流程示意图；
50.图3为transducer模型的自动语音识别框架示意图；
51.图4为本技术提供的语音识别方法的另一流程示意图；
52.图5为本技术的语音识别方法对与基线模型性能对比图。
53.图6为本技术提供的语音识别装置的结构示意图；
54.图7为本技术提供的计算机设备的结构示意图。
具体实施方式
55.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
56.本发明实施例提供一种语音识别方法、装置、计算机可读存储介质及计算机设备。其中，该语音识别方法可以使用于语音识别装置中。该语音识别装置可以集成在计算机设备中，该计算机设备可以为终端也可以为服务器。其中，终端包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端等。。服务器可以是独立的物理服务器，也可以是多个物
理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、网络加速服务(content delivery network，cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。
57.如图1所示，为本技术提供的语音识别方法的场景示意图。如图所示，计算机设备在接收到待识别语音信息后，对待识别语音信息进行特征提取，得到待识别语音信息对应的多个特征向量；然后，计算机设备对每个特征向量进行稀疏度计算，得到每个特征向量的稀疏度值。进一步地，根据每个特征向量的稀疏度值对特征向量进行区分，将稀疏度值大于预设阈值的特征向量确定为第一特征向量，将稀疏度值不大于预设阈值的特征向量确定为第二特征向量。对于稀疏度值大于预设阈值的第一特征向量，对其进行自注意力计算；对于稀疏度值不大于预设阈值的第二特征向量，则不对其进行自注意力计算。然后根据第一特征向量的自注意力计算结果和第二特征向量确定目标矩阵。最后将目标矩阵与标签序列对应的特征矩阵输入至分类网络进行分类处理，确定输出标签，并进一步根据输出标签确定待识别的语音信息对应的识别结果。
58.需要说明的是，图1所示的语音识别的场景示意图仅仅是一个示例，本技术实施例描述的语音识别场景是为了更加清楚地说明本技术的技术方案，并不构成对于本技术提供的技术方案的限定。本领域普通技术人员可知，随着语音识别的演变和新业务场景的出现，本技术提供的技术方案对于类似的技术问题，同样适用。
59.基于上述实施场景以下分别进行详细说明。
60.本技术实施例将从语音识别装置的角度进行描述，该语音识别装置可以集成在计算机设备中。其中，计算机设备可以为终端或服务器，终端包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端等。如图2所示，为本技术提供的语音识别方法的流程示意图，该方法包括：
61.步骤101，对待识别语音信息进行特征提取，得到多个特征向量。
62.其中，随着语音识别技术的不断发展，采用深度学习技术进行语音识别大大提升了语音识别的准确性。深度学习(deep learning，dl)是机器学习(machine learning，ml)领域中的一个新的研究方向，深度学习是学习样本数据的内在规律和表示层次，这些学习过程中获得的信息对诸如文字，图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。深度学习是一个复杂的机器学习算法，在语音和图像识别方面取得的效果，远远超过先前相关技术。
63.在采用深度学习技术进行语音识别的众多方案中，e2e自动语音识别技术以其简化的体系结构和优异的性能广受青睐，而转移机(transducer)和基于注意力的编解码器是比较常用的两个e2e自动语音识别框架，transducer可以直接将输入的音频流特征转化为文本结果，其相对于传统语音识别模型在资源消耗和准确率上均有较大的优势。
64.为更清晰地介绍本技术的技术方案，下面对transducer模型的框架进行简单介绍。
65.如图3所示，为transducer模型的自动语音识别框架示意图，该框架包括编码器10(encoder)、预测网络20(prediction network)以及全连接层31(joint network)和分类层32(softmax layer)。在编码器10中，首先通过下采样和位置嵌入层12，将语音特征41映射到向量空间，得到待识别语音信息对应的特征向量。然后对得到的特征向量经过m层卷积加
持的变换(convolution
‑
augmented transformer，conformer)层11，输出编码器的输出矩阵。其中，变换块(transformer block)模型相对于具有长短期记忆单元(long short
‑
term memory，lstm)的循环神经网络而言，具有更高的精度和高效的计算能力，因为transformer具有对较长的全局上下文进行建模的能力。然而，transformer捕获局部信息的能力较差，而这一能力是语音识别所必需的能力。为了兼顾局部信息的捕获能力和全局信息的获取能力，conformer模型被提出。conformer模型将卷积和自注意力机制进行结合，利用卷积来捕获局部信息，并且利用自注意力机制进行全局信息的处理。conformer模型相对于transformer block模型可以获得更好的语音识别精度和识别效率。因而，可以在transducer模型的编码器中采用m层conformer模型来提高语音识别的能力。
66.在预测网络20中，先通过嵌入层21将标签序列映射到向量空间中，得到标签序列对应的特征向量，再通过n层循环神经网络层22进行处理，输出预测网络的输出结果。
67.然后，可以将编码器10的输出矩阵和预测网络20的输出结果输入至全连接层31中进行结合，最后将结合的结果通过分类层32进行解码，得到预测标签43。预测得到预测标签后，将预测标签添加至标签序列42中，然后进行进一步的语音识别，直到识别出所有的标签，得到语音识别结果。
68.在上述语音识别框架中，由于conformer模型是将卷积和自注意力机制进行结合的方案。然而在自注意力机制下，每个输出都是整个特征向量序列的加权组合，如此当待识别的语音信息较长，导致输入的特征向量较多时，自注意力机制的计算量便会以平方倍数增长，导致占用大量计算资源且使得语音识别效率降低。为解决上述conformer模型中自注意力机制导致长语音识别效率低的问题，本技术提出一种语音识别方法，下面对该方法进行详细描述。
69.在本技术实施例中，所提出的语音识别方法仍基于上述基于transducer这一语音识别框架。因此，在接收到待识别的语音信息后，仍需先对语音信息进行特征提取，并将提取到的特征映射到向量空间，得到多个特征向量。
70.在一些实施例中，对待识别的语音信息进行特征提取，得到多个特征向量，包括：
71.1、将待识别语音信息划分为多帧语音信号；
72.2、对每帧语音信号进行离散傅里叶变换，得到每帧语音信号对应的频谱信息；
73.3、对每帧语音信号对应的频谱信息进行梅尔倒谱处理，得到待识别语音信息的多个特征向量。
74.其中，由于接收到的语音信息是一个非稳态的、时变的信号，然而在短时间范围内，可以认为该信号是稳态的、时不变的，这个短时间一般为10～30ms。因此，在进行语音识别时，为减少语音信号整体的非稳态、时变的影响，需要对语音信号进行分段处理。其中每一段称为一帧，帧长可以取25ms。进一步地，为了使帧与帧之间平滑过渡，保持其连续性，可以采用交叠分段方法，保证相邻两帧相互重叠一部分。相邻两帧的起始位置的时间差称为帧移，可以取帧移为10ms。
75.将待识别语音信息划分为多帧语音信号后，对划分得到的每帧语音信号进行离散傅里叶变换(discrete fourier transform，dft)，将划分后得到的语音信号从时域信号转为频域信号。在一些实施例中，可以采用快速傅里叶变换(fast fourier transform，fft)以降低计算的时间复杂度，从而进一步提升语音识别效率。
76.在一些实施例中，在对划分得到的多帧语音信号进行快速傅里叶变换之前，还可以对划分得到的多帧语音信号进行加窗处理。其中，加窗也就是采用窗函数，或者称为加权函数对划分得到的多帧语音信号进行处理。由于快速傅里叶变化的要求是信号为周期信号。而划分后得到的语音信号是非周期的，采用非周期语音信号进行快速傅里叶变换会导致频率泄露问题的发生，因此为了将这个泄露误差减少到最小程度，就需要使用加权函数，或窗函数对划分得到的语音信号进行处理。其中，频率泄露就是分析结果中出现了本来没有的频率分量。例如，50hz(赫兹)的纯正弦波，本来只有一种频率分量，但分析结果中却包含了与50hz频率相近的其他频率分量。
77.在对划分得到的语音信号进行离散傅里叶变换，得到每帧语音信号对应的频谱信息后，可以进一步对每帧语音信号对应的频谱信息进行梅尔倒谱处理。其中梅尔倒谱处理包括将频谱信息进行从频率刻度到梅尔刻度的转换以及倒谱处理。由于离散傅里叶变换或快速傅里叶变换得到的结果是每个频带上面的幅值，而人类对不同频率语音有不同的感知能力。具体地，对1khz(千赫兹)以下，感知能力与频率成线性关系；对1khz以上，感知能力与频率成对数关系。而且频率越高，感知能力越差。梅尔刻度(mel scale)是一种非线性刻度单位，表示人耳对音高变化的感官，其基于频率进行定义。在梅尔频域内，人的感知能力与频率为线性关系，如果两段语音的梅尔频率相差两倍，那么人在感知上也相差两倍。在将每帧语音信号的频谱信息转换为梅尔刻度的频谱信息之后，再对梅尔刻度上的频谱信息进行倒谱处理，得到每帧语音信号对应的梅尔倒谱系数，得到待识别语音信息的语音特征参数。进一步地，将得到的特征参数映射到向量空间中，得到待识别语音信息对应的多个特征向量。
78.在一些实施例中，将待识别语音信息划分为多帧语音信号之前，还包括：
79.a、对待识别语音信息进行降噪处理；
80.b、将降噪处理后的语音信息进行预加重处理。
81.其中，在对待识别的语音信息进行特征提取之前，可以先对待识别的语音信息进行降噪处理。具体地，可以对较为恶劣环境下采集到的语音信息进行语音识别时，可以先进行降噪处理。而对于弱噪音和纯净语音的环境下采集到的语音信息进行语音识别时，可以无需进行降噪处理，因为基于深度学习的语音识别技术本身就有较强的抗噪性。
82.进一步地，对待识别的语音信息进行降噪处理后，可以进一步对待识别的语音信息进行预加重处理。由于在音频录制过程中，高频信号更容易衰减，而像元音等一些因素的发音包含了较多的高频信号的成分。高频信号的丢失会导致因素的共振峰不明显，进而导致声学模型对这些因素的建模能力不强。预加重是个一阶高通滤波器，可以提高信号高频部分的能量，从而降低了高频信号的衰减，进而提高了语音识别的准确性。
83.步骤102，计算每个特征向量的稀疏度值。
84.其中，在从待识别语音信息中提取出多个特征向量之后，计算每个特征向量的稀疏度值。其中，每个特征向量对应的稀疏度值为每个特征向量的自注意力得分序列的实际分布与自注意力得分序列的均匀分布之间的相对熵。其中，相对熵(relative entropy，re)，又被称为kl散度(kullback
‑
leibler divergence)或信息散度(information divergence)，是指两个概率分布间差异的非对称性度量。在本技术实施例中，每个特征向量的稀疏度值便为每个特征向量的自注意力得分序列的实际分布与均匀分布这两个概率
分布之间差异的非对称性度量。具体地，例如从待识别语音信息中提取出四个特征向量，其中某一特征向量的自注意力得分的实际分布为0.4、0.3、0.2和0.1，那么该特征向量的稀疏度值便为序列{0.4，0.3，0.2，0.1}与均匀分布序列{0.25，0.25，0.25，0.25}之间的相对熵。求解两个序列之间的相对熵，可以采用相对熵计算公式进行具体计算，具体在本技术的下文中作详细介绍。
85.在一些实施例中，计算每个特征向量的稀疏度值，包括：
86.1、计算每个特征向量的自注意力得分序列；
87.2、计算每个得分序列的分布与均匀分布之间的相对熵，得到每个得分序列对应的特征向量的稀疏度值。
88.其中，从待识别语音信息中提取出的多个特征向量可以组成输入矩阵。然后对该输入矩阵进行线性变换投影，分别得到输入矩阵对应的查询矩阵、键矩阵以及值矩阵。可以理解的是，查询矩阵包含了多个查询向量、键矩阵包含了多个键向量、值矩阵也包含了多个值向量。计算每个特征向量对应的自注意力得分序列，可以是计算每个查询向量对应的自注意力得分序列。而计算每个查询向量对应的自注意力得分序列，可以将该查询向量与每个键向量进行点乘，得到多个点乘结果。然后，将得到的多个点乘结果进行归一化处理，得到每个点乘结果对应的自注意力得分。这些自注意力得分便构成了该查询向量的自注意力得分序列。然后，遍历每个查询向量，得到每个查询向量对应的自注意力得分序列，亦即得到了每个特征向量对应的自注意力得分序列。
89.在计算得到每个特征向量对应的自注意力得分序列后，再计算每个特征向量对应的自注意力得分序列的分布与均匀分布之间的相对熵，从而得到每个特征向量对应的稀疏度值。
90.步骤103，确定稀疏度值大于预设阈值的第一特征向量以及稀疏度值不大于预设阈值的第二特征向量。
91.其中，由于特征矩阵具有一定的稀疏性，也就意味着没有必要对所有特征向量进行自注意力计算。一般情况下，如果特征向量的自注意力得分的分布服从均匀分布，则自注意力机制的输出便退化为所有特征向量的平均值，也就失去了注意能力。因此只有自注意力得分序列的分布远离均匀分布的特征向量才需进行自注意力计算。
92.如此，便可以设置一个稀疏度阈值，当特征向量对应的稀疏度值大于该稀疏度阈值时，则确定该特征向量为需要进行自注意力计算的第一特征向量；当特征向量对应的稀疏度值不大于该稀疏度阈值时，则确定该特征向量为无需进行自注意力计算的第二特征向量。
93.步骤104，根据第一特征向量的自注意力计算结果与第二特征向量确定目标矩阵。
94.其中，在确定了需要进行自注意力计算的第一特征向量以及无需进行自注意力计算的第二特征向量后，对第一特征向量进行自注意力计算，得到每个第一特征向量对应的自注意力计算结果，其中每个第一特征向量对应的自注意力计算结果也是一个向量。然后再根据每个第一特征向量自注意力计算得到的向量与第二特征向量组合生成目标矩阵，该目标矩阵便为transducer模型中编码器中conformer的输出。然后可以对该输出继续输入下一conformer层进行处理，直到经过多层conformer层处理后得到最终编码器输出目标矩阵。
95.在一些实施例中，根据第一特征向量的自注意力计算结果与第二特征向量确定目标矩阵，包括：
96.1、获取每个第一特征向量对应的目标自注意力得分序列；
97.2、根据目标自注意力得分序列以及每个第一特征向量对应的值向量进行加权计算，得到每个第一特征向量对应的第三特征向量；
98.3、根据第三特征向量与第二特征向量确定目标矩阵。
99.其中，对需要进行自注意力计算的第一特征向量进行自注意力计算，可以先获取每个第一特征向量对应的目标自注意力得分序列。具体地，可以如前述步骤102所述，将从待识别语音信息中提取出的多个特征向量组成的特征矩阵进行线性映射得到查询矩阵、键矩阵以及值矩阵，然后根据第一特征向量从查询矩阵中确定与第一特征向量对应的目标查询向量。然后，逐一计算每个目标查询向量与键矩阵中每个键向量的点乘结果，并根据该点乘结果确定每个目标查询向量的自注意力得分序列，亦即得到了每个第一特征向量对应的目标自注意力得分序列。然后，再根据每个第一特征向量对应的目标自注意力得分序列对值矩阵中的值向量进行加权处理，得到每个第一特征向量对应的第三特征向量。最后，根据第三特征向量与第二特征向量确定目标矩阵，其中目标矩阵即为将输入矩阵中的第一特征向量更换为每一第一特征向量对应的第三特征向量得到的矩阵。
100.在一些实施例中，获取每个第一特征向量对应的目标自注意力得分序列，包括：
101.a、计算第一特征向量中每一目标特征向量与每一特征向量的点乘结果；
102.b、将点乘结果进行归一化处理，得到每个第一特征向量对应的目标自注意力得分序列。
103.其中，在本技术实施例中，获取每个第一特征向量对应的目标自注意力得分序列，可以是计算第一特征向量中一个目标特征向量与从待识别语音信息中提取出的每一特征向量进行点乘的结果，得到点乘结果序列。然后再将计算得到的点乘结果序列进行归一化处理，得到该目标特征向量对应的自注意力得分序列。然后，采用相同方法对第一特征向量中的每一特征向量逐一计算得到其对应的自注意力得分序列，得到每个第一特征向量对应的目标自注意力得分序列。
104.步骤105，将目标矩阵与标签序列对应的特征矩阵输入至分类网络进行分类处理，得到对待识别的语音信息对应的识别结果。
105.其中，在得到编码器输出的目标矩阵后，将编码器输出的目标矩阵和预测网络中根据标签序列处理得到的标签序列对应的特征矩阵输入至分类网络中进行分类处理。其中，分类网络包括全连接层和分类层，在全连接层中先将目标矩阵和标签序列对应的特征矩阵进行结合，然后将结合后的结果输入至分类层中进行分类，得到预测标签。然后，将预测标签添加至标签序列中进行进一步的识别，如此循环直至识别得到所有标签文本，从而完成对待识别语音的识别过程，得到待识别语音信息对应的识别结果。
106.在一些实施例中，将所述目标矩阵与标签序列对应的特征矩阵输入至分类网络进行分类处理，得到对所述待识别的语音信息对应的识别结果，包括：
107.1、获取语音识别结果文本对应的标签序列；
108.2、对标签序列进行特征提取，得到标签序列对应的标签特征向量；
109.3、采用人工神经网络对标签特征向量进行处理，得到标签序列对应的特征矩阵；
110.4、采用多层全连接层将目标矩阵与特征矩阵进行结合，并将结合结果输入至分类网络进行解码，得到待识别语音信息对应的识别结果。
111.其中，在得到编码器对待识别语音信息进行编码得到的目标矩阵后，对已经识别出的标签序列进行获取。其中，标签序列的初始值可以设置为0，然后在每次分类层输出预测标签后，将输出的预测标签更新到标签序列中形成新的标签序列，再根据新的标签序列进一步生成后续的预测标签。获取到当前已经识别出的标签序列后，对标签序列进行特征提取并将提取出的特征映射到向量空间中，得到标签序列对应的特征向量。然后，再采用多个包含长短期记忆单元的循环神经网络对标签序列对应的特征向量进行处理，得到标签序列对应的特征矩阵。
112.然后，将目标矩阵和标签序列对应的特征矩阵输入至全连接层中进行结合，并进一步将结合得到的结果输入至分类网络中进行解码，从而得到预测标签。如此循环直到得到所有预测标签，进而完成对待识别语音信息的识别。
113.根据上述描述可知，本技术实施例提供的语音识别方法，通过对待识别的语音信息进行特征提取，得到多个特征向量；计算每个特征向量的稀疏度值，稀疏度值为每个特征向量的自注意力得分序列的分布与自注意力得分序列的均匀分布之间的相对熵；确定稀疏度值大于预设阈值的第一特征向量以及稀疏度值不大于预设阈值的第二特征向量；根据第一特征向量的自注意力计算结果与第二特征向量确定目标矩阵；将目标矩阵与标签序列对应的特征矩阵输入至分类网络进行分类处理，得到对待识别的语音信息对应的识别结果。以此，通过对特征向量的稀疏度值进行计算，然后确定稀疏度值小于预设阈值的特征向量无需进行自注意力计算，如此可以减少计算量，从而提升了语音识别的效率。
114.相应地，本技术实施例将从计算机设备的角度进一步对本技术提供的语音识别方法进行详细的描述，其中计算机设备可以为终端也可以为服务器。其中，终端包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端等。如图4所示，为本技术提供的语音识别方法的另一流程示意图，该方法包括：
115.步骤201，计算机设备对待识别语音信息进行特征提取，并将提取到的特征信息映射到向量空间，得到待识别语音信息对应的特征矩阵。
116.其中，为更清晰地阐述本技术的技术方案，可以先进一步对transducer模型进行详细说明。transducer模型可以在给定输入语音特征x的情况下，直接建模输入语音特征x和文本序列y之间的关系。请继续参阅图3，在transducer这一自动语音识别框架中，将语音特征x作为编码器的输入。其中，此处语音特征可以为从待识别的语音信息中提取出的特征。从待识别语音信息中提取语音特征，可以采用提取待识别语音信息的梅尔倒谱系数的方法来进行特征提取。在提取出待识别语音信息中的语音特征x之后，将提取出的语音特征输入编码器中进行下采样和嵌入处理，从而将语音特征映射到向量空间中，得到特征向量。然后将得到的特征向量经过多层conformer进行处理，得到输入语音特征x的高维表示：
117.h
enc
＝encoder(x)
118.其中，h
enc
表示编码器的输出，encoder(x)表示对输入语音特征x进行编码操作。其中，编码操作包括上述嵌入操作和多层conformer操作。
119.transducer模型中的预测网络的作用是获得历史解码结果的一个高维表示，其中，历史解码结果为分类层前一次输出的预测标签。预测网络通常由一个嵌入层和多个包
含长短期记忆单元的循环神经网络层组成。历史解码结果的高维表示为：
[0120][0121]
其中，为预测网络第u次的输出，prediction(y
u
‑1)为对第u
‑
1次预测得到的预测标签y
u
‑1进行预测操作。其中预测操作包括上述嵌入操作以及经过多层循环神经网络层处理。
[0122]
连接网络中包含多个全连接层，全连接层的作用是将编码器和预测网络的输出进行结合，具体可以表示如下：
[0123][0124]
其中，h
t，u
为将编码器和预测网络输出进行结合的结果，w
joint
为结合权重系数，u和v为将编码器和预测网络输出进行集合的映射矩阵，b为偏置系数。
[0125]
最后，通过一个分类层将连接网络输出的结果进行分类，然后解码得到最终的分类结果。表示如下：
[0126]
p(k|t，u)＝(h
t，u
)
[0127]
其中，p(k|t，u)表示分类层的分类结果，(h
t，u
)表示对连接网络的输出做softmax处理。其中，在整个transducer模型中可以使用前向后向算法来优化后验概率分布。
[0128]
在本技术提供的transducer模型框架中，编码器中采用了conformer结构对特征向量进行处理，而conformer模块又包含了四个部分：马卡龙式的前馈全连接模块(feed
‑
forward network，ffn)，多头自注意力模块(multi
‑
head self attention，mhsa)、卷积模块(convolution，conv)以及第二个马卡龙式的前馈全连接模块。
[0129]
其中，conformer模块中的mhsa对输入矩阵x进行自注意力计算时，先将输入矩阵x经线性变换投影得到查询矩阵q、键矩阵k以及值矩阵v。其中，q＝xw
q
，k＝xw
k
，v＝xw
v
。w
q
、w
k
以及w
v
均为投影矩阵。然后，按比例表示的点积形式注意力机制可以表示为：
[0130][0131]
其中，kt表示键矩阵k的转置矩阵，d为输入矩阵x的维度。
[0132]
为更好地描述相关技术的技术问题以及本技术的效果，将上述公式标识为其向量形式：
[0133][0134]
其中，p(k
j
|q
i
)为第i个查询向量对第j个键向量的注意力得分，l为输入矩阵x的序列长度。那么，进一步地，查询向量q
i
关于键矩阵k的自注意力输出可以表示为：
[0135][0136]
对于上述公式，可以详细解释为，对于每一个查询向量q，均需计算该向量与每一键向量的点积，然后将该向量与每一键向量的点积进行归一化处理，得到每一查询向量的自注意力得分序列。然后，采用该自注意力得分序列对值向量进行加权求和，得到使用值向量对该查询向量的表示。然后，遍历查询矩阵中每一查询向量，分别得到采用值向量对每一查询向量的表示，进而得到对输入矩阵x的自注意力输出。由上可知，整个自注意力计算过
程的时间复杂度为o(l2),其中l为输入矩阵x的序列长度。如此，当输入矩阵的序列长度加长时，自注意力计算过程的时间复杂度便会以平方倍数增长，导致对计算资源的大量占用且降低了语音识别的效率。为解决上述问题，本技术提供一种语音处理方法，针对conformer模块中的自注意力模块计算进行优化，以提升计算速度，降低计算资源消耗。下面对本技术提供的语音识别方法进行详细描述。
[0137]
在本技术实施例中，在接收到待识别的语音信息后，仍需对待识别的语音信息进行特征提取，然后将提取到的语音特征进行输入至下采样及嵌入层，得到待识别语音信息对应的特征矩阵x，该特征矩阵x也是conformer模块的输入矩阵。
[0138]
步骤202，计算机设备对特征矩阵进行线性投影变换，得到特征矩阵对应的查询矩阵、键矩阵以及值矩阵。
[0139]
其中，在本技术实施例提供的语音识别方法中，仍需要对输入矩阵x进行线性投影变换，得到输入矩阵x对应的查询矩阵q、键矩阵k以及值矩阵v。然后，将查询矩阵q、键矩阵k以及值矩阵v分别表示成向量形式，得到查询矩阵q对应的多个查询向量q、键矩阵k对应的多个键向量k以及值矩阵对应的多个值向量v。
[0140]
步骤203，计算机设备计算每个查询向量的自注意力得分序列。
[0141]
其中，由于查询矩阵存在一定的稀疏性，这意味着没有必要对所有的查询向量进行自注意力计算，去求得所有查询向量的自注意力输出。一般而言，如果查询向量的自注意力得分的分布服从均匀分布，则自注意力机制的输出便退化为所有值向量的平均值，如此便失去了注意能力。因此，只有查询向量相对于键矩阵k的自注意力得分的分布远离均匀分布时，这个查询向量才是有效的，才需要进行自注意力计算。由此，在得到输入矩阵对应的查询矩阵q对应的多个查询向量q、键矩阵k对应的多个键向量k以及值矩阵对应的多个值向量v之后，可以先对每个查询向量q的自注意力得分序列进行计算，再根据每个查询向量的自注意力得分序列进行判断该查询向量是否需要进行自注意力计算。
[0142]
具体地，计算每个查询向量q的自注意力得分序列，可以计算查询向量q与每一键向量的点积，得到点积序列。然后对得到的点积序列进行归一化处理，得到查询向量相对于每个键向量的自注意力得分，即得到该查询向量对应键矩阵k的自注意力得分序列。然后，按此方法逐一对每个查询向量进行自注意力得分序列的计算，得到每个查询向量对于键矩阵k的自注意力得分序列。
[0143]
步骤204，计算机设备计算每个查询向量的稀疏度值。
[0144]
其中，在计算得到每个查询向量的自注意力得分序列之后，可以进一步根据每个查询向量的自注意力得分序列计算每个查询向量的稀疏度值。其中，每个查询向量的稀疏度值为该查询向量的自注意力得分序列的分布与均匀分布之间的kl散度，或者称为该查询向量的自注意力得分序列的分布与均匀分布之间的相对熵。其中，查询向量q
i
的自注意力得分序列的实际分布p与均匀分布u之间的kl散度的计算公式如下：
[0145][0146]
其中，kl(p||u)为查询向量q
i
的自注意力得分序列的实际分布p与均匀分布u之间的kl散度。同样地，其中，l为输入矩阵x的序列长度，d为输入矩阵x的维度。k
j
为键矩阵k中
第j个键向量。
[0147]
于是，进一步地，便可以得到第i个查询向量q
i
相对于键矩阵k的自注意力得分序列的实际分布与均匀分布之间的kl散度的表达式为：
[0148][0149]
其中，m
sparse
(q
i
，k)为第i个查询向量q
i
的稀疏度值，l
k
为键向量k的序列长度。
[0150]
在一些实施例中，计算每个特征向量的稀疏度值，包括：
[0151]
1、从多个特征向量中随机选取目标数量个特征向量生成键矩阵；
[0152]
2、根据目标数量、多个特征向量以及键矩阵计算得到每个特征向量的稀疏度值。
[0153]
其中，上述计算每个查询向量的稀疏度值时，仍需先计算查询向量与每个键向量的点积，然后对点积结果进行归一化处理得到每个查询向量的自注意力得分序列。这个过程仍然会消耗大量计算量，为进一步减少此部分的计算量，本技术提出采用抽样方法将查询向量的稀疏度值计算公式近似表达为如下：
[0154][0155]
其中，为查询向量q
i
的近似稀疏度值，为从键矩阵k中随机采样一定数量的键向量组成的新的键矩阵。为采样数量，具体地，r
sample
为采样度，采用度为一个常量，其用于控制采样的样本数。k
j
为采样得到的新的键矩阵中第j个键向量。
[0156]
根据上述公式可知，在本技术实施例中，仅需根据从待识别语音信息中提取的多个特征向量中采样一定数量的特征向量组成特征矩阵，再将该特征矩阵线性变换得到键矩阵，便可以根据该键矩阵、采样数量以及从待识别语音信息中提取的多个特征向量对应的查询向量便可以直接计算得到每个查询向量的稀疏度值。如此只需计算查询向量和采样键向量的点积，无需计算查询向量与每个键向量的点积，进一步减少了计算量，提高了计算效率以及语音识别效率。
[0157]
步骤205，计算机设备根据每个查询向量的稀疏度值确定需要进行自注意力计算的目标查询向量。
[0158]
其中，在计算得到每个查询向量的稀疏度值之后，可以根据预先设置的稀疏度阈值，确定稀疏度值大于稀疏度阈值的查询向量为需要进行自注意力计算目标查询向量，而稀疏度值不大于稀疏度阈值的查询向量则无需进行自注意力计算。
[0159]
在一些实施例中，也可以设置一个预设数量，然后确定稀疏度值较高的预设数量个查询向量为需要进行自注意力计算的目标查询向量。具体地，可以设置稀疏率r
sparse
，其中r
sparse
＜1，然以后根据输入矩阵的序列长度l和稀疏率r
sparse
计算得到目标查询向量的数量l
sparse
＝r
sparse
l。然后，确定稀疏度值较高的l
sparse
个查询向量为需要进行自注意力计算的目标查询向量。
[0160]
步骤206，计算机设备根据目标查询向量的自注意力计算结果和值向量确定conformer模块的输出矩阵。
[0161]
其中，在根据每个查询向量的稀疏度值确定了需要进行自注意力计算的目标查询向量之后，可以进一步对目标查询向量进行自注意力计算，而对于目标查询向量之外的其
他查询向量，则无需进行自注意力计算。具体地，可以根据如下公式计算得到conformer模型的输出：
[0162][0163]
其中，i
sparse
为需要进行自注意力计算的目标查询向量的序列号集合。
[0164]
根据上述公式可知，对于需要进行自注意力计算的目标查询向量，分别计算该目标查询向量和每个键向量的点积，再对这些点积结果进行归一化，得到目标查询向量与每个键向量的自注意力得分，得到自注意力得分序列，最终根据自注意力得分序列对值向量进行加权，得到每个目标查询向量对应的输出向量。对于无需进行自注意力计算的查询向量，则直接确定其对应的值向量为输出向量。其中，conformer模型的输出矩阵便为上述输出向量确定的矩阵。
[0165]
步骤207，计算机设备将输出矩阵重复经多个conformer模块处理，输出目标矩阵。
[0166]
其中，输入矩阵x经第一个conformer模块处理后得到输出矩阵，然后可以将第一个conformer模块的输出矩阵作为下一个conformer模块的输入矩阵进行进一步的处理。
[0167]
在本技术实施例中，为了避免在每一个conformer层都要计算输入矩阵的查询向量的稀疏度值，可以采用层间稀疏度共享的方法。例如若编码器中的conformer层总计m层，那么可以设置每隔n层计算一次查询向量的稀疏度值，在计算后的n
‑
1层中，可以采用该层中查询向量的稀疏度值。例如在第一个conformer层中计算得到每隔查询向量的稀疏度值之后，后面第2至第n层conformer层中每个查询向量的稀疏度值可以直接采用第一层conformer层中的查询向量的稀疏度值。如此可以进一步减少计算量，从而可以提升语音识别的效率。输入矩阵x在经过编码器中多层conformer模型处理后，输出目标矩阵。
[0168]
步骤208，计算机设备将目标矩阵与预测网络的输出矩阵输入至连接网络，并将连接网络的输出经分类层处理得到预测标签。
[0169]
其中，在得到编码器输出的目标矩阵后，将编码器输出的目标矩阵和预测网络输出的特征矩阵输入至连接网络进行结合，再将结合得到的特征矩阵输入softmax分类层进行分类预测，得到预测标签。
[0170]
步骤209，计算机设备根据预测标签确定待识别语音信息的识别结果。
[0171]
其中，分类层输出预测标签后，可以对该预测标签进行解码得到识别结果。得到识别结果后，可以根据该识别结果更新标签序列，并将更新后的标签序列重新输入至预测网络中进行处理，以进一步对待识别的语音信息进行语音识别，如此循环直至待识别的语音信息全部识别完成，得到待识别的语音信息对应的语音识别结果。
[0172]
如图5所示，为采用本技术提供的语音识别方法对与现有语音识别方法性能对比图。如图所示，实验数据采用相同的测试数据集合，采用本技术提供的语音识别方法在对相同测试数据集合进行语音识别所需消耗的时间和所占用的内存相对于现有的语音识别方法均要减少40％以上。
[0173]
根据上述描述可知，本技术实施例提供的语音识别方法，通过对待识别的语音信息进行特征提取，得到多个特征向量；计算每个特征向量的稀疏度值，稀疏度值为每个特征向量的自注意力得分序列的分布与自注意力得分序列的均匀分布之间的相对熵；确定稀疏度值大于预设阈值的第一特征向量以及稀疏度值不大于预设阈值的第二特征向量；根据第
一特征向量的自注意力计算结果与第二特征向量确定目标矩阵；将目标矩阵与标签序列对应的特征矩阵输入至分类网络进行分类处理，得到对待识别的语音信息对应的识别结果。以此，通过对特征向量的稀疏度值进行计算，然后确定稀疏度值小于预设阈值的特征向量无需进行自注意力计算，如此可以减少计算量，从而提升了语音识别的效率。
[0174]
为了更好地实施以上方法，本发明实施例还提供一种语音识别装置，该语音识别装置可以集成在终端或服务器中。
[0175]
例如，如图6所示，为本技术实施例提供的语音识别装置的结构示意图，该语音识别装置可以包括提取单元301、计算单元302、第一确定单元303、第二确定单元304以及识别单元305，如下：
[0176]
提取单元301，用于对待识别的语音信息进行特征提取，得到多个特征向量；
[0177]
计算单元302，用于计算每个特征向量的稀疏度值，稀疏度值为每个特征向量的自注意力得分序列的分布与自注意力得分序列的均匀分布之间的相对熵；
[0178]
第一确定单元303，用于确定稀疏度值大于预设阈值的第一特征向量以及稀疏度值不大于预设阈值的第二特征向量；
[0179]
第二确定单元304，用于根据第一特征向量的自注意力计算结果与第二特征向量确定目标矩阵；
[0180]
识别单元305，用于将目标矩阵与标签序列对应的特征矩阵输入至分类网络进行分类处理，得到对待识别的语音信息对应的识别结果。
[0181]
在一些实施例中，计算单元，包括：
[0182]
第一计算子单元，用于计算每个特征向量的自注意力得分序列；
[0183]
第二计算子单元，用于计算每个得分序列的分布与均匀分布之间的相对熵，得到每个得分序列对应的特征向量的稀疏度值。
[0184]
在一些实施例中，计算单元，包括：
[0185]
选取子单元，用于从多个特征向量中随机选取目标数量个特征向量生成键矩阵；
[0186]
第三计算子单元，用于根据目标数量、多个特征向量以及键矩阵计算得到每个特征向量的稀疏度值。
[0187]
在一些实施例中，提取单元，包括：
[0188]
划分子单元，用于将待识别语音信息划分为多帧语音信号；
[0189]
变换子单元，用于对每帧语音信号进行离散傅里叶变换，得到每帧语音信号对应的频谱信息；
[0190]
第一处理子单元，用于对每帧语音信号对应的频谱信息进行梅尔倒谱处理，得到待识别语音信息的多个特征向量。
[0191]
在一些实施例中，装置还包括：
[0192]
降噪单元，用于对待识别语音信息进行降噪处理；
[0193]
预加重单元，用于将降噪处理后的语音信息进行预加重处理。
[0194]
在一些实施例中，第二确定单元，包括：
[0195]
第一获取子单元，用于获取每个第一特征向量对应的目标自注意力得分序列；
[0196]
第四计算子单元，用于根据目标自注意力得分序列以及每个第一特征向量对应的值向量进行加权计算，得到每个第一特征向量对应的第三特征向量；
[0197]
确定子单元，用于根据第三特征向量与第二特征向量确定目标矩阵。
[0198]
在一些实施例中，第一获取子单元，包括：
[0199]
计算模块，用于计算第一特征向量中每一目标特征向量与每一特征向量的点乘结果；
[0200]
处理模块，用于将点乘结果进行归一化处理，得到每个第一特征向量对应的目标自注意力得分序列。
[0201]
在一些实施例中，识别单元，包括：
[0202]
第二获取子单元，用于获取语音识别结果文本对应的标签序列；
[0203]
提取子单元，用于对标签序列进行特征提取，得到标签序列对应的标签特征向量；
[0204]
第二处理子单元，用于采用人工神经网络对标签特征向量进行处理，得到标签序列对应的特征矩阵；
[0205]
识别子单元，用于采用多层全连接层将目标矩阵与特征矩阵进行结合，并将结合结果输入至分类网络进行解码，得到待识别语音信息对应的识别结果。
[0206]
具体实施时，以上各个单元可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个单元的具体实施可参见前面的方法实施例，在此不再赘述。
[0207]
根据上述描述可知，本技术实施例提供的语音识别方法，通过提取单元301对待识别的语音信息进行特征提取，得到多个特征向量；计算单元302计算每个特征向量的稀疏度值，稀疏度值为每个特征向量的自注意力得分序列的分布与自注意力得分序列的均匀分布之间的相对熵；第一确定单元303确定稀疏度值大于预设阈值的第一特征向量以及稀疏度值不大于预设阈值的第二特征向量；第二确定单元304根据第一特征向量的自注意力计算结果与第二特征向量确定目标矩阵；识别单元305将目标矩阵与标签序列对应的特征矩阵输入至分类网络进行分类处理，得到对待识别的语音信息对应的识别结果。以此，通过对特征向量的稀疏度值进行计算，然后确定稀疏度值小于预设阈值的特征向量无需进行自注意力计算，如此可以减少计算量，从而提升了语音识别的效率。
[0208]
本技术实施例还提供一种计算机设备，该计算机设备可以包含智能终端具有的功能，如图7所示，为本技术提供的计算机设备的结构示意图。具体来讲：
[0209]
该计算机设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解，图7中示出的计算机设备结构并不构成对计算机设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：
[0210]
处理器401是该计算机设备的控制中心，利用各种接口和线路连接整个计算机设备的各个部分，通过运行或执行存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行计算机设备的各种功能和处理数据，从而对计算机设备进行整体监控。可选的，处理器401可包括一个或多个处理核心；优选的，处理器401可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器401中。
[0211]
存储器402可用于存储软件程序以及模块，处理器401通过运行存储在存储器402
的软件程序以及模块，从而执行各种功能应用以及音频处理。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能以及网页访问等)等；存储数据区可存储根据计算机设备的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器402还可以包括存储器控制器，以提供处理器401对存储器402的访问。
[0212]
计算机设备还包括给各个部件供电的电源403，优选的，电源403可以通过电源管理系统与处理器401逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
[0213]
该计算机设备还可包括输入单元404，该输入单元404可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
[0214]
尽管未示出，计算机设备还可以包括显示单元以及照明单元等，显示单元用于将处理器401的处理结果进行显示，显示单元还可以接收用户的触控操作，生成触控指令传输至处理器进行相应处理。照明单元可以根据处理器的处理指令控制其照明亮度的变化等。
[0215]
具体在本实施例中，计算机设备中的处理器401会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中，并由处理器401来运行存储在存储器402中的应用程序，从而实现各种功能，如下：
[0216]
对待识别的语音信息进行特征提取，得到多个特征向量；计算每个特征向量的稀疏度值，稀疏度值为每个特征向量的自注意力得分序列的分布与自注意力得分序列的均匀分布之间的相对熵；确定稀疏度值大于预设阈值的第一特征向量以及稀疏度值不大于预设阈值的第二特征向量；根据第一特征向量的自注意力计算结果与第二特征向量确定目标矩阵；将目标矩阵与标签序列对应的特征矩阵输入至分类网络进行分类处理，得到对待识别的语音信息对应的识别结果。
[0217]
应当说明的是，本技术实施例提供的计算机设备与上文实施例中的音频处理方法属于同一构思，以上各个操作的具体实施可参见前面的实施例，在此不作赘述。
[0218]
本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。
[0219]
为此，本发明实施例提供一种计算机可读存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本发明实施例所提供的任一种方法中的步骤。例如，该指令可以执行如下步骤：
[0220]
对待识别的语音信息进行特征提取，得到多个特征向量；计算每个特征向量的稀疏度值，稀疏度值为每个特征向量的自注意力得分序列的分布与自注意力得分序列的均匀分布之间的相对熵；确定稀疏度值大于预设阈值的第一特征向量以及稀疏度值不大于预设阈值的第二特征向量；根据第一特征向量的自注意力计算结果与第二特征向量确定目标矩阵；将目标矩阵与标签序列对应的特征矩阵输入至分类网络进行分类处理，得到对待识别的语音信息对应的识别结果。
[0221]
以上各个操作的具体实施可参见前面的实施例，在此不再赘述。
[0222]
其中，该计算机可读存储介质可以包括：只读存储器(rom，read only memory)、随机存取记忆体(ram，random access memory)、磁盘或光盘等。
[0223]
由于该计算机可读存储介质中所存储的指令，可以执行本发明实施例所提供的任一种方法中的步骤，因此，可以实现本发明实施例所提供的任一种方法所能实现的有益效果，详见前面的实施例，在此不再赘述。
[0224]
其中，根据本技术的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在存储介质中。计算机设备的处理器从存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述图2或图4的各种可选实现方式中提供的方法。
[0225]
以上对本发明实施例所提供的一种语音识别方法、装置、计算机可读存储介质及计算机设备进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上，本说明书内容不应理解为对本发明的限制。