语音识别方法、装置、电子设备以及存储介质与流程

1.本发明涉及信息技术领域，尤其涉及一种语音识别方法、装置、电子设备以及存储介质。

背景技术：

2.随着深度学习的不断发展，语音识别从早期的隐马尔可夫-高斯混合统计模型(hidden narkov model-mixture of gaussia，hmm-gmm))发展到最新的端到端神经网络识别模型，语音识别的准确率取得了很大的进步。
3.目前常见的端到端神经网络识别模型的结构基于联结主义时间分类(connectionist temporal classification，ctc)的方式，包含有频谱计算层、特征提取(encoder)层、全连接(fully connected，fc)层和归一化指数(softmax)层。其中，输出的ctc概率通过encoder层得到对应的识别文本。目前常见的encoder为单向长期短记忆模型(unidirectional long short-term memory，ulstm)和双向长期短记忆模型(bidirectional long short-term memory，blstm)。其中，ulstm在时序建模过程中只使用正向的循环计算；blstm在时序建模过程中不仅使用正向的循环计算，同时也使用反向的循环计算。blstm在计算过程中充分考虑了上下文的信息，因此识别准确率比ulstm高。
4.然而，在流式语音识别中，语音识别设备不断接收语音片段，并实时的对接收到的语音片段进行识别。由于blstm的输入需要整段完整的语音，所以并不适用于流式识别的场景。流式识别的encoder通常使用ulstm，但是，ulstm的语音识别准确率较低，无法满足对识别精度要求较高的场景。

技术实现要素：

5.本技术实施例提供一种语音识别方法、装置、电子设备以及存储介质，以解决现有技术中流式语音识别时识别精度较低的技术问题。
6.第一方面，本技术实施例提供一种语音识别方法，包括：
7.获取第一语音片段的频谱信息，所述第一语音片段包含有目标语音块和辅助语音块，所述辅助语音块为所述目标语音块相邻的语音块；
8.根据所述第一语音片段的频谱信息，以及所述辅助语音块的有效区间和权重，对所述目标语音块进行识别。
9.在一种可能的设计中，所述根据所述第一语音片段的频谱信息，以及所述辅助语音块的有效区间和权重，对所述目标语音块进行识别，包括：
10.将所述第一语音片段的频谱信息输入神经网络模型，并获取所述神经网络模型输出的所述目标语音块的识别结果，所述神经网络模型设置有所述辅助语音块的有效区间和权重。
11.在一种可能的设计中，在所述将所述第一语音片段的频谱信息输入神经网络模型，并获取所述神经网络模型输出的所述目标语音块的识别结果之前，所述方法还包括：
12.通过样本集对所述神经网络模型进行训练。
13.在一种可能的设计中，所述通过所述样本集对所述神经网络模型进行训练，包括：
14.根据所述样本集中的样本长度对所述样本集进行排序；
15.根据排序后的样本集的顺序，通过所述样本集对所述神经网络模型进行训练。
16.在一种可能的设计中，所述通过所述样本集对所述神经网络模型进行训练，包括：
17.使用联结主义时间分类ctc函数作为损失函数，通过所述样本集对所述神经网络模型进行训练。
18.在一种可能的设计中，所述神经网络模型为自注意力机制神经网络模型。
19.在一种可能的设计中，所述样本集包括多种长度的语音片段和所述多种长度的语音片段对应的标注文本。
20.第二方面，本技术实施例提供一种语音识别装置，包括：
21.获取模块，用于获取第一语音片段的频谱信息，所述第一语音片段包含有目标语音块和辅助语音块，所述辅助语音块为所述目标语音块相邻的语音块；
22.识别模块，用于根据所述第一语音片段的频谱信息，以及所述辅助语音块的有效区间和权重，对所述目标语音块进行识别。
23.在一种可能的设计中，所述识别模块具体用于将所述第一语音片段的频谱信息输入神经网络模型，并获取所述神经网络模型输出的所述目标语音块的识别结果，所述神经网络模型设置有所述辅助语音块的有效区间和权重。
24.在一种可能的设计中，所述装置还包括：
25.训练模块，用于通过样本集对所述神经网络模型进行训练。
26.在一种可能的设计中，所述训练模块，具体用于根据所述样本集中的样本长度对所述样本集进行排序；根据排序后的样本集的顺序，通过所述样本集对所述神经网络模型进行训练。
27.在一种可能的设计中，所述训练模块，具体用于使用联结主义时间分类ctc函数作为损失函数，通过所述样本集对所述神经网络模型进行训练。
28.在一种可能的设计中，所述神经网络模型为自注意力机制神经网络模型。
29.在一种可能的设计中，所述样本集包括多种长度的语音片段和所述多种长度的语音片段对应的标注文本。
30.第三方面，本技术还提供一种电子设备，包括：
31.处理器；以及
32.存储器，用于存储所述处理器的计算机程序；
33.其中，所述处理器被配置为通过执行所述计算机程序来实现第一方面中任意一种可能的方法。
34.第四方面，本发明还提供一种存储有计算机指令的非瞬时计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现第一方面中任意一种可能的方法。
35.本技术实施例提供一种语音识别方法、装置、电子设备及存储介质，通过先获取第一语音片段的频谱信息，第一语音片段包含有目标语音块和辅助语音块，辅助语音块为目标语音块相邻的语音块。随后，根据第一语音片段的频谱信息，以及辅助语音块的有效区间
和权重，对目标语音块进行识别。由于在进行流式语音识别时考虑到目标语音块有效区间的辅助语音块，进而可以提高流式语音识别的时识别精度。
附图说明
36.为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
37.图1为本技术提供的现有的ctc语音识别架构的示意图；
38.图2为本技术提供的现有的ulstm神经网络的示意图；
39.图3为本技术提供的现有的blstm神经网络的示意图；
40.图4为本技术实施例提供的一种语音识别方法的应用场景示意图；
41.图5为本技术实施例提供的一种语音识别方法的流程示意图；
42.图6为本技术实施例提供的一种语音片段的划分方式示意图；
43.图7为本技术实施例提供的一种自注意力机制神经网络模型的时序建模示意图；
44.图8是本技术实施例提供的另一种语音识别方法的流程示意图；
45.图9为本技术提供的现有技术中value的权重值示意图；
46.图10为本技术实施例提供的一种value的权重值示意图；
47.图11是本技术实施例提供的再一种语音识别方法的流程示意图；
48.图12为本技术实施例提供的一种语音识别装置的结构示意图；
49.图13为本技术实施例提供的一种电子设备的结构示意图。
具体实施方式
50.为使本技术实施例的目的、技术方案和优点更加清楚，下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
51.本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
52.目前常见的端到端神经网络识别模型的结构基于联结主义时间分类(connectionist temporal classification，ctc)的方式。图1为本技术提供的现有的ctc语音识别架构的示意图，如图1所示，ctc语音识别架构包含有频谱计算层、特征提取(encoder)层、全连接(fully connected，fc)层和归一化指数(softmax)层。
53.其中，输出的ctc概率通过encoder层得到对应的识别文本。目前常见的encoder为
单向长期短记忆模型(unidirectional long short-term memory，ulstm)和双向长期短记忆模型(bidirectional long short-term memory，blstm)。图2为本技术提供的现有的ulstm神经网络的示意图，图3为本技术提供的现有的blstm神经网络的示意图。如图2和图3所示，ulstm在时序建模过程中神经元(cell)只使用正向的循环计算，blstm在时序建模过程中cell不仅使用正向的循环计算，同时也使用反向的循环计算。由于blstm在计算过程中充分考虑了上下文的信息，因此识别准确率比ulstm高。
54.然而，在流式语音识别中，语音识别设备不断接收语音片段，并实时的对接收到的语音片段进行识别。由于blstm的输入需要整段完整的语音，所以并不适用于流式识别的场景。流式识别的encoder通常使用ulstm，但是，ulstm的语音识别准确率较低，无法满足对识别精度要求较高的场景。
55.针对上述问题，本技术提供一种语音识别方法、装置、电子设备以及存储介质，以提高流式语音识别时识别精度较低的技术问题。本技术的发明构思是：在对目标语音块进行识别时，可以通过目标语音块有效区间的辅助语音块对目标语音块进行辅助识别，进而可以提高流式语音识别的时识别精度。
56.下面对本技术实施例提供的语音识别方法的应用场景进行说明。图4为本技术实施例提供的一种语音识别方法的应用场景示意图。如图4所示，终端设备101接收用户的流式语音输入，随后，终端设备101可以将流式语音输入中的语音片段发送给服务器102。服务器102对语音片段中的目标语音块进行识别后，将目标语音块的识别结果发送给终端设备101。
57.其中，终端设备101设置有音频采集组件。
58.终端设备101可以是手机(mobile phone)、平板电脑(pad)、带无线收发功能的电脑、虚拟现实(virtual reality，vr)终端设备、增强现实(augmented reality，ar)终端设备、工业控制(industrial control)中的无线终端、无人驾驶(self driving)中的无线终端、远程手术(remote medical surgery)中的无线终端、智能电网(smart grid)中的无线终端、智慧家庭(smart home)中的无线终端等。本技术实施例中，用于实现终端的功能的装置可以是终端，也可以是能够支持终端实现该功能的装置，例如芯片系统，该装置可以被安装在终端中。本技术实施例中，芯片系统可以由芯片构成，也可以包括芯片和其他分立器件。
59.服务器102可以是一台服务器，或者是云服务平台中的服务器，本技术实施例对于服务器的类型不做限制，可以根据实际情况具体设置。
60.需要说明的是，本技术技术方案的应用场景可以是图1中的应用场景，但并不限于此，还可以应用于其他需要进行语音识别的场景。
61.可以理解，上述语音识别方法可以通过本技术实施例提供的语音识别装置实现，语音识别装置可以是某个设备的部分或全部，例如可以是服务器或者服务器内的处理器。
62.下面以集成或安装有相关执行代码的服务器为例，以具体地实施例对本技术实施例的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。
63.图5为本技术实施例提供的一种语音识别方法的流程示意图，本实施例的执行主体是服务器，本实施例涉及的是如何对目标语音块进行识别的具体过程。如图5所示，该方
attention具有更好的时序建模能力，从而有效的提升了识别的准确率。并且，masked self-attention模型的计算并行性好，因此模型训练和推理速度更快。
75.此外，本技术在神经网络模型中设置有辅助语音块的有效区间和权重，从而在神经网络模块识别流式语音输入的某一个语音片段中的目标语音块时，保留该目标语音块时刻左右一定范围内的辅助语音块并赋予不同的权重，可以满足流式语音输入的“边说边识别”的要求。此外，相比于ulstm仅考虑目标语音块之前的识别内容，本技术通过两侧的辅助语音块还能提高目标语音块的识别精度。
76.本技术实施例提供一种语音识别方法，通过先获取第一语音片段的频谱信息，第一语音片段包含有目标语音块和辅助语音块，辅助语音块为目标语音块相邻的语音块。随后，根据第一语音片段的频谱信息，以及辅助语音块的有效区间和权重，对目标语音块进行识别。由于在进行流式语音识别时考虑到目标语音块有效区间的辅助语音块，进而可以提高流式语音识别的时识别精度。
77.在上述实施例的基础上，下面对于如何对目标语音块进行识别进行具体说明。图8是本技术实施例提供的另一种语音识别方法的流程示意图，如图8所示，该语音识别方法包括：
78.s301、获取第一语音片段的频谱信息，第一语音片段包含有目标语音块和辅助语音块，辅助语音块为目标语音块相邻的语音块；
79.步骤s301的技术名词、技术效果、技术特征，以及可选实施方式，可参照图5所示的步骤s201理解，对于重复的内容，在此不再累述。
80.s302、将第一语音片段的频谱信息输入神经网络模型，并获取神经网络模型输出的目标语音块的识别结果，神经网络模型设置有辅助语音块的有效区间和权重。
81.其中，神经网络模型为masked self-attention神经网络模型。
82.在步骤中，服务器在获取第一语音片段的频谱信息之后，可以将第一语音片段的频谱信息输入神经网络模型，并获取神经网络模型输出的目标语音块的识别结果。
83.示例性的，若第一语音片段的频谱信息为x＝(x1，x2，...，x
t
，...，xn)，服务器可以将x＝(x1，x2，...，x
t
，...，xn)输入masked self-attention神经网络模型中。masked self-attention神经网络模型中首先会通过三个不同的线性变换将x变换为query(q)、key(k)和以及value(v)三个矩阵，随后，masked self-attention神经网络模型会通过图6所示的时序建模对三个特征进行计算，并获取masked self-attention神经网络模型的输出。masked self-attention神经网络模型的输出如公式(1)所示：
[0084][0085]
其中，dk为q，k矩阵的列数，即为每个时刻的q和k的向量维度。softmax为归一化指数函数。
[0086]
图9为本技术提供的现有技术中value的权重值示意图，如图9所示，在识别某一时刻的第一语音片段中的目标语音块输出时，self-attention需要计算该时刻的query和所有时刻的key的相似度，作为value的权重值，这不利于流式语音识别。
[0087]
相比于现有技术，本技术实施例提供的神经网络模型设置有辅助语音块的有效区间和权重。图10为本技术实施例提供的一种value的权重值示意图。如图10所示，本技术在
标准self-attention的基础上增加了矩阵mask，该mask包括有辅助语音块的有效区间和权重。因此在计算某一时刻的输出时，可以仅保留该时刻对应的辅助语音块的有效区间内的权重。
[0088]
示例性的，mask为n x n的矩阵，构建方式为对角线周围一定范围内(有效区间为[left,right])的值为0，范围外的值为-∞。则mask可以如公式(2)所示：
[0089][0090]
其中，left和right为可调优的参数。
[0091]
在上述mask优化的基础上，masked self-attention神经网络模型的输出可以优化为如公式(3)所示：
[0092][0093]
在上述实施例的基础上，下面对于上述神经网络的训练过程进行说明进行具体说明。图11是本技术实施例提供的再一种语音识别方法的流程示意图，如图11所示，该语音识别方法包括：
[0094]
s401、通过样本集对神经网络模型进行训练。
[0095]
其中，样本集包括多种长度的语音片段和多种长度的语音片段对应的标注文本。
[0096]
在一些实施例中，服务器可以先根据样本集中的样本长度对样本集进行排序，再根据排序后的样本集的顺序，通过样本集对神经网络模型进行训练。
[0097]
本技术实施例对于训练使用的损失函数不做限制，在一些实施例中，可以使用联结主义时间分类(connectionist temporal classification，ctc)函数作为损失函数，通过样本集对神经网络模型进行训练。
[0098]
示例性的，本技术实施例中神经网络的训练数据可以为客服场景中5000小时的音频文件以及对应的标注文本。样本集可以为从训练数据中随机抽取的500万条1s到10秒之间长度不等的标注语音句段。
[0099]
在训练过程中，可以使用ctc函数作为损失函数。为了保证神经网络模型模型的快速收敛，可以根据样本集中的样本长度对样本集进行排序，再根据排序后的样本集的顺序，通过样本集对神经网络模型进行训练。即首轮训练按照样本长度从小到大的顺序进行训练。经过20轮训练后，选取在验证集上表现最好的模型作为最终的神经网络模型。
[0100]
s402、获取第一语音片段的频谱信息，第一语音片段包含有目标语音块和辅助语音块，辅助语音块为目标语音块相邻的语音块。
[0101]
s403、将第一语音片段的频谱信息输入神经网络模型，并获取神经网络模型输出的目标语音块的识别结果，神经网络模型设置有辅助语音块的有效区间和权重。
[0102]
步骤s402-s403的技术名词、技术效果、技术特征，以及可选实施方式，可参照图8所示的步骤s301-s302理解，对于重复的内容，在此不再累述。
[0103]
本技术实施例提供一种语音识别方法，通过先获取第一语音片段的频谱信息，第一语音片段包含有目标语音块和辅助语音块，辅助语音块为目标语音块相邻的语音块。随后，根据第一语音片段的频谱信息，以及辅助语音块的有效区间和权重，对目标语音块进行识别。由于在进行流式语音识别时考虑到目标语音块有效区间的辅助语音块，进而可以提
高流式语音识别的时识别精度。
[0104]
本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。
[0105]
图12为本技术实施例提供的一种语音识别装置的结构示意图。该语音识别装置可以通过软件、硬件或者两者的结合实现，可例如上述实施例中的服务器，以执行上述实施例中的语音识别方法。如图12所示，该语音识别装置包括：
[0106]
获取模块501，用于获取第一语音片段的频谱信息，第一语音片段包含有目标语音块和辅助语音块，辅助语音块为目标语音块相邻的语音块；
[0107]
识别模块502，用于根据第一语音片段的频谱信息，以及辅助语音块的有效区间和权重，对目标语音块进行识别。
[0108]
在一种可能的设计中，识别模块502具体用于将第一语音片段的频谱信息输入神经网络模型，并获取神经网络模型输出的目标语音块的识别结果，神经网络模型设置有辅助语音块的有效区间和权重。
[0109]
在一种可能的设计中，装置还包括：
[0110]
训练模块503，用于通过样本集对神经网络模型进行训练。
[0111]
在一种可能的设计中，训练模块503，具体用于根据样本集中的样本长度对样本集进行排序；根据排序后的样本集的顺序，通过样本集对神经网络模型进行训练。
[0112]
在一种可能的设计中，训练模块503，具体用于使用联结主义时间分类ctc函数作为损失函数，通过样本集对神经网络模型进行训练。
[0113]
在一种可能的设计中，神经网络模型为自注意力机制神经网络模型。
[0114]
在一种可能的设计中，样本集包括多种长度的语音片段和多种长度的语音片段对应的标注文本。
[0115]
需要说明的，图12所示实施例提供的语音识别装置，可用于执行上述任意实施例所提供的方法，具体实现方式和技术效果类似，这里不再进行赘述。
[0116]
图13为本技术实施例提供的一种电子设备的结构示意图。如图13所示，电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本技术的实现。
[0117]
如图13所示，该电子设备包括：一个或多个处理器601、存储器602，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示gui的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系
统)。图13中以一个处理器601为例。
[0118]
存储器602即为本技术所提供的非瞬时计算机可读存储介质。其中，存储器存储有可由至少一个处理器执行的指令，以使至少一个处理器执行本技术所提供的语音识别方法。本技术的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本技术所提供的语音识别方法。
[0119]
存储器602作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本技术实施例中的语音识别方法对应的程序指令/模块(例如，图11所示的获取模块501、识别模块502以及训练模块503)。处理器601通过运行存储在存储器602中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的语音识别方法。
[0120]
存储器602可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据本技术实施例提供的电子设备的使用所创建的数据等。此外，存储器602可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器602可选包括相对于处理器601远程设置的存储器，这些远程存储器可以通过网络连接至本技术实施例提供电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0121]
本技术实施例提供电子设备还可以包括：输入装置603和输出装置606。处理器601、存储器602、输入装置603和输出装置606可以通过总线或者其他方式连接，图13中以通过总线连接为例。
[0122]
输入装置603可接收输入的数字或字符信息，以及产生与本技术实施例提供电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置606可以包括显示设备、辅助照明装置(例如，led)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(lcd)、发光二极管(led)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。
[0123]
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用asic(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
[0124]
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(pld))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何
信号。
[0125]
为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，crt(阴极射线管)或者lcd(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
[0126]
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(lan)、广域网(wan)和互联网。
[0127]
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
[0128]
本技术实施例还提供了一种芯片，包括处理器和接口。其中接口用于输入输出处理器所处理的数据或指令。处理器用于执行以上方法实施例中提供的方法。该芯片可以应用于语音识别装置中。
[0129]
本技术还提供了一种计算机可读存储介质，该计算机可读存储介质可以包括：u盘、移动硬盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、磁盘或者光盘等各种可以存储程序代码的介质，具体的，该计算机可读存储介质中存储有程序信息，程序信息用于上述语音识别方法。
[0130]
本技术实施例还提供一种程序，该程序在被处理器执行时用于执行以上方法实施例提供的语音识别方法。
[0131]
本技术实施例还提供一种程序产品，例如计算机可读存储介质，该程序产品中存储有指令，当其在计算机上运行时，使得计算机执行上述方法实施例提供的语音识别方法。
[0132]
在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本发明实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，dvd)、或者半导体介质(例如固态硬盘solid state disk(ssd))等。
[0133]
应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本技术中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本技术公开的技术方案所期望的结果，本文在此不进行限制。
[0134]
最后应说明的是：以上各实施例仅用以说明本技术的技术方案，而非对其限制；尽管参照前述各实施例对本技术进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或对其中部分或全部技术特征进行等同替换；而这些修改或替换，并不使相应技术方案的本质脱离本技术各实施例技术方案的范围。