语音识别的方法、装置、计算机设备及可读存储介质与流程

1.本技术涉及人工智能技术领域，特别涉及一种语音识别的方法、装置、计算机设备及可读存储介质。

背景技术：

2.随着人工智能技术的发展，asr(automatic speech recognition，自动语音识别)被广泛应用于人们的生活中。在asr过程中，首先对语音信号进行特征提取得到特征向量，再基于特征向量确定音素，之后基于音素确定文字。
3.相关技术中，首先对语音信号进行处理得到频谱图，再基于频谱图进行特征提取得到用于确定音素的特征向量。其中，处理语音信号得到频谱图的过程会导致语音信号中的部分信息丢失，从而导致语音识别过程的准确率较低。

技术实现要素：

4.本技术实施例提供了一种语音识别的方法、装置、计算机设备及可读存储介质，以改善相关技术进行语音识别的准确率较低的问题。所述技术方案如下：
5.一方面，提供了一种语音识别的方法，所述方法包括：
6.获取语音信号，将所述语音信号输入波形编码器；
7.通过所述波形编码器获得所述语音信号对应的第一特征矩阵，将所述第一特征矩阵划分为至少两个第一特征段，对所述至少两个第一特征段进行局部特征提取，得到用于指示局部特征的至少两个第二特征段，对所述至少两个第二特征段进行全局特征提取，得到用于指示局部特征和全局特征的至少两个第三特征段，将所述至少两个第三特征段合并为所述波形编码器对应的第二特征矩阵；
8.基于所述波形编码器对应的第二特征矩阵进行语音识别。
9.一方面，提供了一种语音识别的装置，所述装置包括：
10.获取模块，用于获取语音信号；
11.输入模块，用于将所述语音信号输入波形编码器；
12.获得模块，用于通过所述波形编码器获得所述语音信号对应的第一特征矩阵，将所述第一特征矩阵划分为至少两个第一特征段，对所述至少两个第一特征段进行局部特征提取，得到用于指示局部特征的至少两个第二特征段，对所述至少两个第二特征段进行全局特征提取，得到用于指示局部特征和全局特征的至少两个第三特征段，将所述至少两个第三特征段合并为所述波形编码器对应的第二特征矩阵；
13.语音识别模块，用于基于所述波形编码器对应的第二特征矩阵进行语音识别。
14.在示例性实施例中，所述波形编码器的数量为至少两个，至少两个波形编码器对应至少两个第二特征矩阵，所述至少两个第二特征矩阵的列数不同，所述语音识别模块，用于通过所述至少两个波形编码器获得所述至少两个第二特征矩阵对应的至少两个第三特征矩阵，所述至少两个第三特征矩阵的列数相同，所述至少两个第三特征矩阵与所述至少
两个波形编码器一一对应；从行方向级联所述至少两个第三特征矩阵，得到级联后的特征矩阵；基于所述级联后的特征矩阵进行语音识别。
15.在示例性实施例中，所述语音识别模块，还用于在所述至少两个第二特征矩阵的列数中确定最小列数，所述最小列数对应第一数值；确定任一波形编码器对应的第二特征矩阵的列数对应的第二数值，基于所述第一数值与所述第二数值的比值确定所述任一波形编码器对应的卷积核信息；
16.所述语音识别模块，用于基于所述任一波形编码器对应的卷积核信息，对所述任一波形编码器对应的第二特征矩阵进行卷积处理，得到所述任一波形编码器对应的第三特征矩阵。
17.在示例性实施例中，所述获得模块，用于响应于任一波形编码器为所述至少两个波形编码器中的首个波形编码器，执行所述将所述第一特征矩阵划分为至少两个第一特征段。
18.在示例性实施例中，所述获得模块，用于响应于任一波形编码器为所述至少两个波形编码器中的非首个波形编码器，获取所述任一波形编码器的前一个波形编码器对应的第二特征矩阵；对所述前一个波形编码器对应的第二特征矩阵进行池化，得到池化后的特征矩阵，所述池化后的特征矩阵的列数与所述任一波形编码器对应的第一特征矩阵的列数相同；对所述任一波形编码器对应的第一特征矩阵与所述池化后的特征矩阵进行求和，得到求和后的特征矩阵；将所述求和后的特征矩阵划分为所述至少两个第一特征段。
19.在示例性实施例中，所述获得模块，用于对所述至少两个第二特征段进行下采样，得到至少两个下采样结果；通过自关注网络对所述至少两个第二特征段进行全局特征提取，得到至少两个全局特征提取结果；对所述至少两个全局特征提取结果进行上采样，得到至少两个上采样结果，将所述至少两个上采样结果作为所述用于指示局部特征和全局特征的至少两个第三特征段。
20.在示例性实施例中，所述获得模块，用于对所述至少两个第三特征段进行非线性映射，得到至少两个非线性映射结果；将所述至少两个非线性映射结果合并为所述波形编码器对应的第二特征矩阵。
21.一方面，提供了一种计算机设备，所述计算机设备包括存储器及处理器；所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行，以使计算机设备实现本技术的任一种示例性实施例所提供的语音识别的方法。
22.一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令，所述指令由处理器加载并执行，以使计算机实现本技术的任一种示例性实施例所提供的语音识别的方法。
23.另一方面，提供了一种计算机程序或计算机程序产品，所述计算机程序或计算机程序产品包括：计算机指令，所述计算机指令被计算机执行时，使得所述计算机实现本技术的任一种示例性实施例所提供的语音识别的方法。
24.本技术实施例所提供的技术方案带来的有益效果至少包括：
25.通过局部特征提取过程保留了语音信号中的局部细节，通过全局特征提取过程保留了语音信号的全局关系，从而使得基于语音信号的特征提取成为可能。基于语音信号的特征提取能够得到特征矩阵，将此种特征矩阵应用于语音识别过程，能够提高语音识别的
准确率。
附图说明
26.为了更清楚地说明本技术实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
27.图1是本技术实施例提供的实施环境的示意图；
28.图2是本技术实施例提供的波形编码器的结构示意图；
29.图3是本技术实施例提供的波形编码器的结构示意图；
30.图4是本技术实施例提供的语音识别的方法的流程图；
31.图5是本技术实施例提供的语音识别的装置的结构示意图；
32.图6是本技术实施例提供的电子设备的结构示意图；
33.图7是本技术实施例提供的服务器的结构示意图。
具体实施方式
34.为使本技术的目的、技术方案和优点更加清楚，下面将结合附图对本技术实施方式作进一步地详细描述。
35.ai(artificial intelligence，人工智能)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。
36.人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
37.语音技术(speech technology)的关键技术有asr、语音合成技术tts(text to speech，文本到语音)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。
38.ml(machine learning，机器学习)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。在一些实施方式中，asr的实现过程涉及ml技术的应用。例如，涉及ml技术中的人工神经网络的应用。
39.随着人工智能技术研究和进步，asr逐渐被应用于多种项目和产品中，例如音视频会议系统、智能语音交互、智能语音助手、在线语音识别系统、车载语音交互系统等等。相信
随着技术的发展，asr将在更多的项目和产品中得到应用，并发挥越来越重要的价值。
40.在asr过程中，首先基于语音信号进行特征提取得到特征向量，再基于特征向量确定音素，之后基于音素确定文字，从而实现语音识别。在端到端(end to end)的asr场景下，将编码器与rnn
‑
t(recurrent neural network
‑
transducer，递归神经网络换能器)串联，rnn
‑
t包括编码部分和解码部分。其中，编码器用于基于语音信号进行特征提取得到特征向量，rnn
‑
t的编码部分用于基于特征向量确定音素，rnn
‑
t的解码部分用于基于音素确定文字。应当理解的是，上述rnn
‑
t仅为举例，端到端的asr场景中也可以采用其他组件来实现基于特征向量确定音素的过程，以及基于音素确定文字的过程。
41.相关技术中，编码器包括mfcc(mel
‑
frequency cepstral coefficients，梅尔频率倒谱系数)、fbank(mel
‑
filter bank values，梅尔滤波器组)等编码器，这些编码器的输入为频谱图。因此，需要对原始的语音信号进行短时傅里叶变换(short
‑
time fourier transform，stft)或者mdct(modified discrete cosine transform，修正离散余弦变换)等处理得到频谱图，从而使得相关技术中的编码器基于频谱图进行特征提取得到特征向量。由于对语音信号进行处理得到频谱图的过程会造成信息的丢失，因而按照相关技术提供的方法获得的特征向量不够准确，从而使得基于该特征向量进行的语音识别过程的识别准确率较低。
42.相比于对语音信号进行处理而导致信息丢失的方式，直接基于原始语音信号进行特征提取能够得到较为准确的特征向量，从而有利于提高语音识别过程的识别准确率。其中，基于原始语音信号进行特征提取的过程中，需要对原始语音信号进行密集采样，从而得到较多数量的信号段。基于较多数量的信号进行特征提取的难点在于：既需要保证各个信号段的局部细节能够被保留，又需要保证不同信号段之间的全局关系能够被保留。针对这一难点，本技术实施例提供一种语音识别方法，参见如下说明。
43.参见图1，本技术实施例提供的一种语音识别的方法可应用于如图1所示的实施环境中。图1中包括计算机设备，该计算机设备中包括用于针对语音信号进行特征提取的波形编码器。其中，计算机设备包括电子设备或者服务器。
44.示例性地，电子设备可以是任何一种可与用户通过键盘、触摸板、触摸屏、遥控器、语音交互或手写设备等一种或多种方式进行人机交互的电子产品，例如pc(personal computer，个人计算机)、手机、智能手机、pda(personal digital assistant，个人数字助手)、可穿戴设备、掌上电脑ppc(pocket pc)、平板电脑、智能车机、智能电视、智能音箱等。服务器可以是一台服务器，也可以是由多台服务器组成的服务器集群，或者是一个云计算服务中心。
45.本领域技术人员应能理解上述电子设备和服务器仅为举例，其他现有的或今后可能出现的电子设备和服务器如可适用于本技术，也应包含在本技术保护范围以内，并在此以引用方式包含于此。
46.参见图2，图2示出了一种示例性的波形编码器(waveform encoder)。该波形编码器的输入为原始语音信号，原始语音信号为时域波形，也称为波形输入(waveform input)。该波形编码器的输出为特征矩阵，特征矩阵包括特征向量，特征矩阵也称为编码特征(encoded features)。该波形编码器包括串联的第一卷积模块、划分模块(split chunks)、galr(globally attentive locally recurrent network，全局注意局部递归)模块和合并
模块(merge chunks)。示例性地，galr模块的数量为至少一个，图2中的b用于指示galr模块的总数量，不同的galr模块可以通过b(b＝1，
…
，b)进行区分。一个galr模块中包括串联的rnn(recurrent neural network，循环神经网络)、san(self
‑
attention network，自关注网络)。其中，波形编码器包括的各个模块的功能如下：
47.第一卷积模块：用于针对语音信号进行特征提取，得到特征矩阵。
48.划分模块：用于将第一卷积模块输出的特征矩阵划分为至少两个特征段。
49.galr模块：在galr模块的数量为一个的情况下，该galr模块的输入为划分模块输出的至少两个特征段，该galr模块的输出用于作为合并模块的输入。在galr模块的数量为至少两个的情况下，首个galr模块的输入为划分模块输出的至少两个特征段，首个galr模块的输出用于作为第二个galr模块的输入，以此类推，最后一个galr模块的输出用于作为合并模块的输入。
50.在一个galr模块中，rnn用于学习至少两个特征段中各个特征段的局部细节，rnn输出的至少两个特征段用于作为san的输入。san用于学习至少两个特征段中不同特征段之间的全局关系，san输出的至少两个特征段用于作为galr模块的输出。
51.合并模块：用于合并galr模块输出的至少两个特征段得到特征矩阵，该特征矩阵用于语音识别。
52.示例性地，在galr模块中还包括位于rnn和san之间的层归一化(layer normalization，ln)，该ln用于避免rnn的输出与输入之间差异过大。示例性地，在galr模块中还包括位于san之后的ln，该ln用于避免san的输出与输入之间的差异过大。
53.示例性地，在波形编码器中还包括位于第一卷积模块和划分模块之间的relu(rectified linear unit，线性整流单元)和ln。其中，relu用于保持第一卷积模块的输出为非负输出，ln则用于避免第一卷积模块的输出与输入之间差异过大。
54.示例性地，波形编码器中还包括位于合并模块之后的第二卷积模块，该第二卷积模块用于调整合并模块输出的特征矩阵的尺寸，从而避免后续的语音识别过程占用过多的处理资源。示例性地，第二卷积模块之后包括relu和ln，relu用于保持第二卷积模块的输出为非负输出，ln用于避免第二卷积模块的输出与输入之间差异过大。
55.需要说明的是，对于一段语音信号而言，在将该语音信号输入第一卷积模块之前，需要将该语音信号划分为一定长度的信号段。信号段的长度越小，则时间分辨率越小、频率分辨率越大。
56.为实现时间分辨率与频率分辨率的平衡，参见图3，本实施例提供至少两个波形编码器，至少两个波形编码器之间并联。将波形编码器的总数量记为n，不同的波形编码器可以通过n(n＝1，
…
，n)进行区分。其中，不同的波形编码器将一段语音信号划分为不同长度的信号段后输入第一卷积模块，则不同的波形编码器通过合并模块获得不同的特征矩阵。由于不同波形编码器划分得到的信号段的长度不同，因而信号段的总数量也不同，从而使得不同波形编码器中通过合并模块得到的特征矩阵的尺寸也不同。对此，通过波形编码器中第二卷积模块的处理，能够使得不同尺寸的特征矩阵转换为相同尺寸的特征矩阵，从而能够对相同尺寸的特征矩阵进行级联。之后，基于级联后的特征矩阵进行后续的语音识别，相当于组合了多种不同的信号段的长度，从而实现时间分辨率与频率分辨率的平衡，进而进一步的提高了语音识别的准确率。
57.在本实施例中，将至少两个并联的波形编码器作为多尺度(scale)波形编码器。波形编码器划分得到的信号段的长度越小、信号段总数量越多，则说明波形编码器采用的尺度越为精细(fine)。波形编码器划分得到的信号段的长度越大、信号段总数量越少，则说明波形编码器采用的尺度越为粗糙(coarse)。示例性地，在多尺度波形编码器中，不同的波形编码器采用的尺度由精细逐渐变粗糙(fine to coarse)。
58.基于上述图1所示的实施环境，参见图4，本技术实施例提供了一种语音识别的方法，该方法应用于图1所示的计算机设备中。如图4所示，该方法包括如下的步骤。
59.401，获取语音信号，将语音信号输入波形编码器。
60.其中，本技术实施例不对获取语音信号的方式进行限定。示例性地，本实施例按照一定的采样频率对用户发出的语音进行采样，能够得到需要识别的语音信号。或者，本实施例从网络中获取语音信号。或者，本实施例从本地获取语音信号。由于该语音信号随时间的变化而变化，因而该语音信号为时域波形，可以表示为如下的公式(1)：
[0061][0062]
在公式(1)中，x即为语音信号，t用于指示语音信号的长度，t为采样频率与语音时长的乘积。以采样频率为16khz(也即是每秒采样16,000次)、语音时长为4秒为例，则t为64,000。
[0063]
示例性地，在一个波形编码器中，语音信号被划分为参考时长的至少两个信号段，至少两个信号段组成信号段序列，且相邻的信号段具有一定的重叠率。在本实施例中，将波形编码器的总数量记为n，n为不小于1的整数。通过下标n(n＝1，
…
，n)进行波形编码器的区分，则在第n个波形编码器中划分得到的信号段序列表示为如下的公式(2)：
[0064][0065]
其中，x
n
为第n个波形编码器中的信号段序列，m
n
为第n个波形编码器中的信号段的长度，m
n
等于采样频率与参考时长的乘积。例如，采样频率为16khz、参考时长为0.025s，则m
n
为400。m
n
为根据实际需要确定的超参数，本实施例不对m
n
加以限定。l
n
为第n个波形编码器中的信号段的总数量，l
n
按照如下的公式(3)进行计算：
[0066][0067]
其中，μ1为相邻信号段之间的重叠率，本实施例不对相邻信号段之间的重叠率加以限定，相邻信号段之间的重叠率例如为50％。示例性地，响应于t能够被m
n
整除，则该t是指语音信号的真实长度。响应于语音信号不能被m
n
整除，则该t是指对语音信号进行零填充之后的长度，零填充的作用在于：使得零填充后的语音信号能够被m
n
整除。示例性地，本实施例在语音信号之前和之后均进行零填充。相比于仅在语音信号之后进行零填充的方式，在语音信号之前和之后均进行零填充的方式能够避免最后一个信号段过空，从而保证了后续语音识别过程的准确性。
[0068]
需要说明的是，在波形编码器的数量为至少两个的情况下，也就是n≥2的情况下，不同波形编码器对语音信号进行划分得到的信号段的长度m
n
和总数量l
n
均不同。示例性地，信号段的长度m
n
与n的大小正相关，信号段的总数量l
n
与n的大小负相关。也就是说，n越大则信号段的长度m
n
越大，信号段的总数量l
n
越小。
[0069]
402，通过波形编码器获得语音信号对应的第一特征矩阵，将第一特征矩阵划分为至少两个第一特征段，对至少两个第一特征段进行局部特征提取，得到用于指示局部特征的至少两个第二特征段，对至少两个第二特征段进行全局特征提取，得到用于指示局部特征和全局特征的至少两个第三特征段，将至少两个第三特征段合并为波形编码器对应的第二特征矩阵。
[0070]
根据上文说明可知，波形编码器中包括串联的第一卷积模块、划分模块、至少一个galr模块和合并模块。因此，对语音信号的处理由波形编码器中的第一卷积模块、划分模块、至少一个galr模块和合并模块依次完成。接下来，按照处理顺序对各个模块中的处理过程进行说明。
[0071]
4021，通过第一卷积模块获得语音信号对应的第一特征矩阵。
[0072]
在401中，语音信号被划分为信号段序列，信号段序列中包括至少两个信号段，因而将至少两个信号段均输入第一卷积模块，该第一卷积模块用于针对各个信号段分别输出一个特征向量，从而获得至少两个信号段对应的至少两个特征向量。
[0073]
其中，第一卷积模块包括conv1d(convolutional 1
‑
dimension，一维卷积层)，该一维卷积层的卷积核表示为如下的公式(4)：
[0074][0075]
其中，1为卷积核u
n
的窗宽，d为卷积核u
n
的行数，m
n
为卷积核u
n
的列数，d根据实际需求确定即可，本实施例不对d的取值加以限定。另外，卷积核u
n
的窗移为1。
[0076]
示例性地，本实施例将第一卷积模块输出的至少两个特征向量作为第一特征矩阵。在此种情况下，第一特征矩阵表示为如下的公式(5)：
[0077][0078]
或者，在第一卷积模块之后串联有relu和ln的情况下，本实施例还依次通过relu和ln对第一卷积模块输出的至少两个特征向量进行处理，从而将处理结果作为第一特征矩阵，此种情况下第一特征矩阵表示为如下的公式(6)：
[0079][0080]
4022，通过划分模块将第一特征矩阵划分为至少两个第一特征段。
[0081]
在得到第一特征矩阵之后，将第一特征矩阵输入划分模块，从而由划分模块将该第一特征矩阵f
n
划分为至少两个第一特征段，相邻的第一特征段之间具有一定的重叠率。示例性地，将第一特征段的长度记为k
n
，将相邻的第一特征段之间的重叠率记为μ2，则第一特征段的总数量表示为如下的公式(7)：
[0082][0083]
其中，s
n
即为第一特征段的总数量。第一特征段的长度k
n
为根据实际需要确定的超参数，本实施例不对k
n
加以限定。另外，本实施例也不对相邻第一特征段之间的重叠率μ2加以限定，例如μ2为50％。示例性地，在l
n
能够被k
n
整除的情况下，l
n
为第一特征矩阵的真实长度。在l
n
不能被k
n
整除的情况下，l
n
为对第一特征矩阵进行零填充之后的长度。进行零填充的方式参见上文401中的说明，此处不再加以赘述。
[0084]
基于上述划分过程，能够将(d
×
l
n
)的第一特征矩阵f
n
划分为s
n
个(d k
n
)的第一特
征段。将得到的第一特征段表示为三维张量，该三维张量按照如下的公式(8)表示：
[0085][0086]
在波形编码器的数量为至少两个的情况下，示例性地，将第一特征矩阵划分为至少两个第一特征段，包括如下的两种情况。
[0087]
情况一：响应于一个波形编码器为至少两个波形编码器中的非首个波形编码器，则获取该波形编码器的前一个波形编码器对应的第二特征矩阵，对前一个波形编码器对应的第二特征矩阵(获得第二特征矩阵的过程参见后文4025的说明)进行池化，得到池化后的特征矩阵，池化后的特征矩阵与该波形编码器对应的第一特征矩阵的列数相同。对该波形编码器对应的第一特征矩阵与池化后的特征矩阵进行求和，得到求和后的特征矩阵。通过划分模块将求和后的特征矩阵划分为至少两个第一特征段。
[0088]
根据401中的说明可知，在波形编码器的数量为至少两个的情况下，波形编码器的序号n越大，则波形编码器划分得到的信号段的总数量l
n
越小。根据公式(5)和(6)可知，通过波形编码器中第一卷积模块得到的第一特征矩阵过波形编码器中第一卷积模块得到的第一特征矩阵也就是说第一特征矩阵的列数即为l
n
。因此，波形编码器的序号n越大，则第一特征矩阵的列数l
n
越小。另外，一个波形编码器对应的第二特征矩阵的列数与该波形编码器对应的第一特征矩阵的列数相同，因而波形编码器的序号n越大，该波形编码器对应的第二特征矩阵的列数l
n
也越小。由此可知，在一个波形编码器并非首个波形编码器的情况下，该波形编码器的前一个波形编码器对应的第二特征矩阵的列数大于该波形编码器对应的第一特征矩阵的列数。
[0089]
因此，本实施例对前一个波形编码器对应的第二特征矩阵进行池化处理，以减小前一个波形编码器对应的第二特征矩阵的列数，从而得到池化后的特征矩阵，该池化后的特征矩阵的列数与当前波形编码器的第一特征矩阵的列数相同。示例性地，上述池化处理包括但不限于平均池化。
[0090]
正是由于该池化后的特征矩阵的列数与波形编码器对应的第一特征矩阵的列数相同，因而本实施例可以对池化后的特征矩阵和波形编码器对应的第一特征矩阵进行求和，从而得到求和后的特征矩阵，该求和后的特征矩阵表示为如下的公式(9)：
[0091][0092]
在公式(9)中，e
n
‑1为前一个波形编码器对应的第二特征矩阵，通过对e
n
‑1进行avgpool1d(average pool 1
‑
dimension，一维平均池化)处理，得到池化后的特征矩阵avgpool1d(e
n
‑1)，对池化后的特征矩阵avgpool1d(e
n
‑1)与波形编码器对应的第一特征矩阵f
n
进行求和，得到求和后的特征矩阵
[0093]
在得到求和后的第一特征矩阵之后，便能够通过划分模块将求和后的特征矩阵划分为至少两个第一特征段。对求和后的特征矩阵进行划分的过程与上文对第一特征矩阵f
n
进行划分的过程相同，此处不再进行赘述。
[0094]
情况二：响应于一个波形编码器为至少两个波形编码器中的首个波形编码器，则直接通过划分模块将第一特征矩阵划分为至少两个第一特征段。对于首个波形编码器而言，n＝1，则在公式(9)中e
n
‑1＝e0。本实施例中定义e0＝0，则根据公式(9)有因而
首个波形编码器可直接对第一特征矩阵进行划分，无需结合其他波形编码器的第二特征矩阵进行计算后再进行划分。
[0095]
能够理解的是，无论是按照情况一还是情况二进行划分，均能够得到公式(8)示出的三维张量。
[0096]
在得到三维张量之后，将三维张量输入波形编码器中的galr模块。将galr模块的总数量记为b，b为不小于1的整数，通过下标b(b＝1,
…
,b)进行galr模块的区分。在本实施例中，将第n个波形编码器中的第b个galr模块的输入表示为输出表示为对于第n个波形编码器中的首个galr模块(b＝1)而言，对于第n个波形编码器中的其他galr模块(b≠1)而言，也就是第b个galr模块的输入等于第(b
‑
1)个galr模块的输出。
[0097]
一个galr模块中包括串联的rnn和san。为便于区分，将rnn的输入和输出分别记为和将san的输入和输出分别记为和接下来，对galr模块中的rnn和san分别进行说明。
[0098]
4023，通过galr模块中的rnn对至少两个第一特征段进行局部特征提取，得到用于指示局部特征的至少两个第二特征段。
[0099]
其中，局部特征包括但不限于时间连续性、频谱连续性、频谱结构、音色等等。不同的第一特征段可能具有不同的局部特征，因而本实施例需要进行局部特征的提取，从而避免局部特征的丢失，进而保证语音识别过程的准确性。
[0100]
rnn的输入即为rnn所在的galr模块的输入rnn的输入即为至少两个第一特征段。因而将输入rnn之后，rnn按照如下的公式(10)输出rnn输出的即为用于指示局部特征的至少两个第二特征段。
[0101][0102]
其中，为三维张量，该三维张量也可以理解为s
n
个(d
×
k
n
)的二维张量，即为第s个(d
×
k
n
)的二维张量。m
n,b
和c
n,b
为线性变换的参数，m
n,b
和c
n,b
用于保证
[0103]
示例性地，本实施例中rnn包括lstm(long short
‑
term memory，长短期记忆网络)，lstm中具有h个隐藏节点。则络)，lstm中具有h个隐藏节点。则相应地，从而能够使得或者，rnn包括bi
‑
lstm(bidirectional
‑
lstm，双向lstm)，则相应地，相应地，从而能够使得
[0104]
4024，通过galr模块中的san对至少两个第二特征段进行全局特征提取，得到用于指示局部特征和全局特征的至少两个第三特征段。
[0105]
其中，全局特征是指不同的第二特征段之间的上下文关系，或者说不同的第二特征段之间的依存关系。通过进行全局特征的提取能够避免全局特征的丢失，进而保证语音识别过程的准确性。由于至少两个第二特征段用于指示局部特征，因而在至少两个第二特征段的基础上进行全局特征的提取，所得到的至少两个第三特征段既能用于指示局部特征，又能用于指示全局特征。
[0106]
示例性地，san的输入或者，在rnn与san之间包括ln的情况下，san的输入按照如下的公式(11)确定：
[0107][0108]
之后，在将输入san之后，san的输出表示为如下的公式(12)：
[0109][0110]
在示例性实施例中，对至少两个第二特征段进行全局特征提取，得到用于指示局部特征和全局特征的至少两个第三特征段，包括：对至少两个第二特征段进行下采样，得到至少两个下采样结果。通过san对至少两个第二特征段进行全局特征提取，得到至少两个全局特征提取结果。对至少两个全局特征提取结果进行上采样，得到至少两个上采样结果，将至少两个上采样结果作为用于指示局部特征和全局特征的至少两个第三特征段。在此种情况下，san的输出表示为如下的公式(13)：
[0111][0112]
其中，downsmpl()为下采样过程，用于调整进行全局特征提取的颗粒度。例如，在颗粒度较细的情况下，相当于从音素层面进行全局特征提取，提取到的全局特征代表不同音素之间的上下文关系。或者，在颗粒度较粗的情况下，相当于从字符层面进行全局特征提取，提取到的全局特征代表不同字符之间的上下文关系。另外，upsmpl()为与下采样过程相对应的上采样过程，用于保证
[0113]
示例性地，本实施例将san的输出作为galr模块的输出或者，在san之后还包括ln的情况下，galr模块的输出按照如下的公式(14)进行表示：
[0114][0115]
当b＜b时，galr模块的输出也作为下一个galr模块的输入，即因此，上述至少两个第三特征段是指：至少一个波形编码器中最后一个波形编码器的输出
[0116]
4025，通过合并模块将至少两个第三特征段合并为波形编码器对应的第二特征矩阵。
[0117]
示例性地，在合并模块中通过重叠相加(overlap
‑
add)算法合并至少两个第三特
征段，参见如下的公式(15)：
[0118][0119]
其中，overlapadd()为重叠相加算法，e
n
即为合并得到的第二特征矩阵。
[0120]
示例性地，将至少两个第三特征段合并为波形编码器对应的第二特征矩阵，包括：对至少两个第三特征段进行非线性映射，得到至少两个非线性映射结果。将至少两个非线性映射结果合并为波形编码器对应的第二特征矩阵。
[0121]
在一些实施例中，通过swish函数和二维卷积层(conv2d)对至少两个第三特征段进行非线性映射，参见如下的公式(16)：
[0122][0123]
在公式(16)中swish()为swish函数，即为非线性映射结果。在公式(16)的基础上，通过合并模块合并非线性映射结果，得到第二特征矩阵e
n
的过程参见如下的公式(17)：
[0124][0125]
403，基于波形编码器对应的第二特征矩阵进行语音识别。
[0126]
其中，响应于波形编码器的数量为一个，则直接基于该波形编码器对应的一个第二特征矩阵进行语音识别即可。基于第二特征矩阵进行语音识别的过程包括：基于该第二特征矩阵确定音素，基于音素确定文字，从而实现语音识别过程。
[0127]
或者，响应于波形编码器的数量为至少两个，则第二特征矩阵的数量也为至少两个，至少两个第二特征矩阵的列数不同，本实施例需要基于至少两个第二特征矩阵进行语音识别。
[0128]
示例性地，基于波形编码器对应的第二特征矩阵进行语音识别，包括：通过至少两个波形编码器获得至少两个第二特征矩阵对应的至少两个第三特征矩阵，至少两个第三特征矩阵的列数相同，至少两个第三特征矩阵与至少两个波形编码器一一对应。从行方向级联至少两个第三特征矩阵，得到级联后的特征矩阵，基于级联后的特征矩阵进行语音识别。其中，基于级联后的特征矩阵进行语音识别的方式与上文基于第二特征矩阵进行语音识别的方式相同，此处不再进行赘述。
[0129]
由于不同波形编码器中的第二特征矩阵的列数不同，因而本实施例需要基于至少两个第二特征矩阵获得列数相同的至少两个第三特征矩阵，才能够从行方向对至少两个第三特征矩阵进行级联，从而基于级联后的特征矩阵进行语音识别。在本实施例中，在不同波形编码器包括的第二卷积模块中采用不同的卷积核，通过不同的卷积核分别对各个波形编码器对应的第二特征矩阵进行卷积处理，从而能够得到列数相同的第三特征矩阵。因此，在示例性实施例中，通过至少两个波形编码器获得至少两个第二特征矩阵对应的至少两个第三特征矩阵之前，方法还包括：在至少两个第二特征矩阵的列数中确定最小列数，最小列数对应第一数值；确定任一波形编码器对应的第二特征矩阵的列数对应的第二数值，基于第一数值与第二数值的比值确定任一波形编码器对应的卷积核信息。
[0130]
其中，最小列数对应的第一数值是指：用于得到该最小列数的信号段的长度。根据公式(3)可知，信号段的长度m
n
最大时能够得到最小列数，因而用于得到最小列数的信号段的长度即为最大的m
n
。因此，将该第一数值记为m
max
，表示为如下的公式(18)：
[0131][0132]
对于任一波形编码器而言，该波形编码器对应的第二特征矩阵的列数对应的第二数值是指：用于得到该第二特征矩阵的列数的信号段的长度，第二数值即为该波形编码器对应的m
n
。
[0133]
在任一波形编码器中，基于第一数值m
max
和第二数值m
n
，按照如下的公式(19)确定卷积核信息：
[0134][0135]
公式(19)中c为常数。基于公式(19)示出的卷积核信息，任一波形编码器对应的卷积核表示为如下的公式(20)：
[0136][0137]
其中，(c
n
/μ3)为卷积核v
n
的窗宽，卷积核v
n
的行数和列数均为d。μ3为按照该窗宽进行滑窗时的重叠率，本实施例不对进行滑窗时的重叠率加以限定。例如，进行滑窗时的重叠率μ3为50％，则卷积核v
n
的窗宽为2c
n
。另外，该卷积核的窗移为c
n
。
[0138]
相应地，通过至少两个波形编码器获得至少两个第二特征矩阵对应的至少两个第三特征矩阵，包括：通过任一波形编码器对应的卷积核信息，对任一波形编码器对应的第二特征矩阵进行卷积处理，得到第三特征矩阵。
[0139]
基于公式(20)示出的卷积核对第二特征矩阵进行卷积处理，得到的第三特征矩阵按照如下的公式(21)表示：
[0140][0141]
其中，y
n
为第三特征矩阵，为使用上述卷积核v
n
的一维卷积层。在一些实施方式中，波形编码器中位于合并模块之后的第二卷积模块包括该则可以通过波形编码器中的第二卷积模块对合并模块输出的第二特征矩阵进行卷积处理，得到第三特征矩阵。
[0142]
另外，第三特征矩阵y
n
的列数l
min
按照如下的公式(22)计算：
[0143][0144]
示例性地，在第二卷积模块之后还串联有relu和ln的情况下，第三特征矩阵还可以表示为如下的公式(23)：
[0145][0146]
基于公式(21)或者(23)，能够得到各个波形编码器对应的第三特征矩阵，由于波形编码器的数量为n个，因而共计得到n个(d
×
l
min
)的第三特征矩阵。之后，便可以从行方向对至少两个第三特征矩阵进行级联，从而得到级联后的特征矩阵表示为如下的公式(24)：
[0147][0148]
需要说明的是，根据公式(22)能够看出，通过调整常数c和进行滑窗时的重叠率
μ3，能够控制第三特征矩阵y
n
的列数l
min
发生改变，也就是使得级联后的特征矩阵y的列数l
min
发生改变。示例性地，本实施例可以根据实际需要调整常数c和进行滑窗时的重叠率μ3，从而控制第三特征矩阵y
n
和级联后的特征矩阵y的列数l
min
，从而避免由于l
min
过大而导致后续的语音识别过程占用过多的处理资源。另外，在波形编码器的数量为一的情况下，无需进行级联，但此种情况下波形编码器中仍然可以包括第二卷积模块。通过该第二卷积模块可以对合并模块输出的第二特征矩阵的列数进行调整，从而避免第二特征矩阵的列数过大而导致后续基于第二特征矩阵的语音识别过程占用过多的处理资源。
[0149]
接下来，对本技术实施例提供的波形编码器与相关技术中提供的编码器进行对比说明，以体现本技术实施例提供的波形编码器对语音识别的识别准确率的正面影响。
[0150]
对比说明一：根据上文说明可知，在端到端的asr场景中，通过串联的编码器和rnn
‑
t来实现语音识别。参见表1，表1中的第一列示出了四种不同的rnn
‑
t：conf
‑
s、conf
‑
m、conf
‑
l和tdnn(time delay neural network，时延神经网络)
‑
conf。将相关技术中的编码器mfcc和本技术实施例提供的波形编码器(表1中表示为galr)分别串联于上述四种不同的rnn
‑
t之前，形成八种不同的端到端asr系统。之后，在基准数据集aishell
‑
2上对八种端到端asr系统进行训练，训练好的八种端到端asr系统的参数数量和进行语音识别的cer(character error rate，字符错误率)参见如下的表1。
[0151]
表1
[0152][0153][0154]
由表1可知，相比于包括有mfcc的四种端到端asr系统，包括galr的四种端到端asr系统进行语音识别的cer较低，cer的降低幅度在7.9％－28.1％之间，从而说明本技术实施例提供的galr能够提高语音识别的准确率。并且，包括galr的四种端到端asr系统所需的参数数量也较低，有利于缩小系统体量、加快训练速度。由表1还能够得知，相比于conf
‑
s、conf
‑
m和conf
‑
l，在端到端asr系统中使用tdnn
‑
conf能够使得cer较低、参数数量较低，因而在后续表2和表3示出的对比过程中，均在端到端asr系统中使用tdnn
‑
conf。
[0155]
需要说明的是，在上述不同端到端asr系统中，仅包括rnn
‑
t和编码器。示例性地，本实施例还可以在端到端asr系统中添加nnlm(neural network language model，神经网络语言模型)、mbr(minimum bayes risk，最小贝叶斯风险)8、las(listen attend and spell，听
‑
注意
‑
拼写)rescoring(记录)，以进一步验证本技术实施例提供的galr对语音识别准确率的正面影响，本技术实施例对此不加以赘述。
[0156]
对比说明二：在tdnn
‑
conf之前分别串联mfcc、conv1d和本实施例提供的galr，得到三种不同的端到端asr系统。其中，mfcc是基于对原始语音信号进行处理得到的频谱图进
行特征提取的编码器，而conv1d(相当于本技术实施例中波形编码器包括的第一卷积模块)和galr均为基于原始语音信号直接进行特征提取的编码器。在5,000小时(5khrs)的普通话数据集上对三种端到端asr系统进行训练，训练好的三种端到端asr系统在不同尺度下进行语音识别的cer参见如下的表2。
[0157]
表2
[0158][0159][0160]
其中，通过对比mfcc和galr对应的cer可知，采用galr进行特征提取能够使得cer的降低幅度在16.0％
‑
21.3％之间。在尺度为25的情况下，通过对比mfcc对应的cer(9.4％)和conv1d对应的cer(9.2％)可知，相比于基于频谱图进行特征提取的方式，基于原始语音进行特征提取的方式有利于提高语音识别的准确率。在尺度为12.5的情况下，通过对比conv1d对应的cer(9.1％)和galr对应的cer(9.0％)可知，相比于通过conv1d对原始语音信号进行特征提取的方式，通过本技术实施例提供的galr对原始语音信号进行特征提取有利于提高语音识别的准确率。
[0161]
另外，在多尺度{6.25，12.5，25}的情况下，通过对比conv1d对应的cer(8.9％)和galr对应的cer(7.6％)可知，在对原始语音信号进行特征提取的过程中，即使conv1d和galr采用相同的多尺度，galr仍能够提供比conv1d更高的语音识别准确率。并且，在galr中，采用两个不同尺度{6.25，12.5}的cer为7.9％，采用三个不同尺度{6.25，12.5，25}的cer为7.6％，采用四个不同尺度{6.25，12.5，25，50}的cer为7.4％，由此可见尺度的增加能够进一步提高语音识别的准确率。在实际应用中，波形编码器的尺度可以根据实际需要进行选择。
[0162]
对比说明三：在tdnn
‑
conf之前分别串联mfcc和本实施例提供的galr，得到两种不同的端到端asr系统。在21,000小时(21khrs)的普通话数据集上对两种端到端asr系统进行训练，训练好的两种端到端asr系统在不同语音识别场景下进行语音识别的cer和识别速度(speed)如下的表3。
[0163]
表3
[0164][0165]
在表3中，读(read)是指1.5小时的阅读语音信号，自发(spontaneous，spon)是指2小时的自发语音信号，而音乐(music)是指2.2小时具有背景音乐干扰的语音信号。读、自发和音乐属于三种不同的语音识别场景。能够看出，在各个语音识别场景下，基于本实施例提供的galr进行语音识别的准确率均高于基于mfcc进行语音识别的准确率。在音乐这一带有干扰的复杂场景中，cer的降幅较大，达到了15.2％。由此可见，本实施例提供的galr在带有干扰的复杂场景中具有较强的鲁棒性，也就是说本实施例提供的galr在带有干扰的复杂场景中仍能够保持较高的准确率。另外，根据mfcc和本实施例的galr的语音识别速度对比可知，相比于相关技术中的mfcc，本实施例提供的galr还能够提高语音识别速度。
[0166]
综上所述，本实施例通过局部特征提取过程保留了语音信号中的局部细节，通过全局特征提取过程保留了语音信号的全局关系，从而使得基于语音信号的特征提取成为可能。基于语音信号的特征提取能够得到特征矩阵，将此种特征矩阵应用于语音识别过程，能够提高语音识别的准确率。另外，本实施例还能够提高语音识别的鲁棒性以及识别速度。
[0167]
本技术实施例提供了一种语音识别的装置，参见图5，该装置包括：
[0168]
获取模块501，用于获取语音信号；
[0169]
输入模块502，用于将语音信号输入波形编码器；
[0170]
获得模块503，用于通过波形编码器获得语音信号对应的第一特征矩阵，将第一特征矩阵划分为至少两个第一特征段，对至少两个第一特征段进行局部特征提取，得到用于指示局部特征的至少两个第二特征段，对至少两个第二特征段进行全局特征提取，得到用于指示局部特征和全局特征的至少两个第三特征段，将至少两个第三特征段合并为波形编码器对应的第二特征矩阵；
[0171]
语音识别模块504，用于基于波形编码器对应的第二特征矩阵进行语音识别。
[0172]
在示例性实施例中，波形编码器的数量为至少两个，至少两个波形编码器对应至少两个第二特征矩阵，至少两个第二特征矩阵的列数不同，语音识别模块504，用于通过至少两个波形编码器获得至少两个第二特征矩阵对应的至少两个第三特征矩阵，至少两个第三特征矩阵的列数相同，至少两个第三特征矩阵与至少两个波形编码器一一对应；从行方向级联至少两个第三特征矩阵，得到级联后的特征矩阵；基于级联后的特征矩阵进行语音识别。
[0173]
在示例性实施例中，语音识别模块504，还用于在至少两个第二特征矩阵的列数中确定最小列数，最小列数对应第一数值；确定任一波形编码器对应的第二特征矩阵的列数对应的第二数值，基于第一数值与第二数值的比值确定任一波形编码器对应的卷积核信息；
[0174]
语音识别模块504，用于基于任一波形编码器对应的卷积核信息，对任一波形编码器对应的第二特征矩阵进行卷积处理，得到任一波形编码器对应的第三特征矩阵。
[0175]
在示例性实施例中，获得模块503，用于响应于任一波形编码器为至少两个波形编码器中的首个波形编码器，执行将第一特征矩阵划分为至少两个第一特征段。
[0176]
在示例性实施例中，获得模块503，用于响应于任一波形编码器为至少两个波形编码器中的非首个波形编码器，获取任一波形编码器的前一个波形编码器对应的第二特征矩阵；对前一个波形编码器对应的第二特征矩阵进行池化，得到池化后的特征矩阵，池化后的特征矩阵的列数与任一波形编码器对应的第一特征矩阵的列数相同；对任一波形编码器对应的第一特征矩阵与池化后的特征矩阵进行求和，得到求和后的特征矩阵；将求和后的特征矩阵划分为至少两个第一特征段。
[0177]
在示例性实施例中，获得模块503，用于对至少两个第二特征段进行下采样，得到至少两个下采样结果；通过自关注网络对至少两个第二特征段进行全局特征提取，得到至少两个全局特征提取结果；对至少两个全局特征提取结果进行上采样，得到至少两个上采样结果，将至少两个上采样结果作为用于指示局部特征和全局特征的至少两个第三特征段。
[0178]
在示例性实施例中，获得模块503，用于对至少两个第三特征段进行非线性映射，得到至少两个非线性映射结果；将至少两个非线性映射结果合并为波形编码器对应的第二特征矩阵。
[0179]
综上所述，本实施例通过局部特征提取过程保留了语音信号中的局部细节，通过全局特征提取过程保留了语音信号的全局关系，从而使得基于语音信号的特征提取成为可能。基于语音信号的特征提取能够得到特征矩阵，将此种特征矩阵应用于语音识别过程，能够提高语音识别的准确率。另外，本实施例还能够提高语音识别的鲁棒性以及识别速度。
[0180]
需要说明的是，上述实施例提供的装置在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。
[0181]
参见图6，其示出了本技术实施例提供的一种电子设备600的结构示意图。该电子设备600可以是便携式移动电子设备，比如：智能手机、平板电脑、mp3播放器(moving picture experts group audio layer iii，动态影像专家压缩标准音频层面3)、mp4(moving picture experts group audio layer iv，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。电子设备600还可能被称为用户设备、便携式电子设备、膝上型电子设备、台式电子设备等其他名称。
[0182]
通常，电子设备600包括有：处理器601和存储器602。
[0183]
处理器601可以包括一个或至少两个处理核心，比如4核心处理器、8核心处理器等。处理器601可以采用dsp(digital signal processing，数字信号处理)、fpga(field－programmable gate array，现场可编程门阵列)、pla(programmable logic array，可编程逻辑阵列)所组成的群组中的至少一种硬件形式来实现。处理器601也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称cpu(central processing unit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器601可以集成有gpu(graphics processing unit，图像
处理器)，gpu用于负责显示屏605所需要显示的内容的渲染和绘制。一些实施例中，处理器601还可以包括ai(artificial intelligence，人工智能)处理器，该ai处理器用于处理有关机器学习的计算操作。
[0184]
存储器602可以包括一个或至少两个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器602还可包括高速随机存取存储器，以及非易失性存储器，比如一个或至少两个磁盘存储设备、闪存存储设备。在一些实施例中，存储器602中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器601所执行以实现本技术中方法实施例提供的语音识别的方法。
[0185]
在一些实施例中，电子设备600还可选包括有：外围设备接口603和至少一个外围设备。处理器601、存储器602和外围设备接口603之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口603相连。具体地，外围设备包括：射频电路604、显示屏605、摄像头组件606、音频电路607、定位组件608和电源609所组成的群组中的至少一种。
[0186]
外围设备接口603可被用于将i/o(input/output，输入/输出)相关的至少一个外围设备连接到处理器601和存储器602。在一些实施例中，处理器601、存储器602和外围设备接口603被集成在同一芯片或电路板上；在一些其他实施例中，处理器601、存储器602和外围设备接口603中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。
[0187]
射频电路604用于接收和发射rf(radio frequency，射频)信号，也称电磁信号。射频电路604通过电磁信号与通信网络以及其他通信设备进行通信。射频电路604将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路604包括：天线系统、rf收发器、一个或至少两个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路604可以通过至少一种无线通信协议来与其它电子设备进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2g、3g、4g及5g)、无线局域网和/或wi
‑
fi(wireless fidelity，无线保真)网络。在一些实施例中，射频电路604还可以包括nfc(near field communication，近距离无线通信)有关的电路，本技术对此不加以限定。
[0188]
显示屏605用于显示ui(user interface，用户界面)。该ui可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏605是触摸显示屏时，显示屏605还具有采集在显示屏605的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器601进行处理。此时，显示屏605还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏605可以为一个，设置在电子设备600的前面板；在另一些实施例中，显示屏605可以为至少两个，分别设置在电子设备600的不同表面或呈折叠设计；在另一些实施例中，显示屏605可以是柔性显示屏，设置在电子设备600的弯曲表面上或折叠面上。甚至，显示屏605还可以设置成非矩形的不规则图形，也即异形屏。显示屏605可以采用lcd(liquid crystal display，液晶显示屏)、oled(organic light
‑
emitting diode,有机发光二极管)等材质制备。
[0189]
摄像头组件606用于采集图像或视频。可选地，摄像头组件606包括前置摄像头和后置摄像头。通常，前置摄像头设置在电子设备的前面板，后置摄像头设置在电子设备的背
面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及vr(virtual reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件606还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。
[0190]
音频电路607可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器601进行处理，或者输入至射频电路604以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为至少两个，分别设置在电子设备600的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器601或射频电路604的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路607还可以包括耳机插孔。
[0191]
定位组件608用于定位电子设备600的当前地理位置，以实现导航或lbs(location based service，基于位置的服务)。定位组件608可以是基于美国的gps(global positioning system，全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。
[0192]
电源609用于为电子设备600中的各个组件进行供电。电源609可以是交流电、直流电、一次性电池或可充电电池。当电源609包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。
[0193]
在一些实施例中，电子设备600还包括有一个或至少两个传感器610。该一个或至少两个传感器610包括但不限于：加速度传感器611、陀螺仪传感器612、压力传感器613、指纹传感器614、光学传感器615以及接近传感器616。
[0194]
加速度传感器611可以检测以电子设备600建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器611可以用于检测重力加速度在三个坐标轴上的分量。处理器601可以根据加速度传感器611采集的重力加速度信号，控制显示屏605以横向视图或纵向视图进行用户界面的显示。加速度传感器611还可以用于游戏或者用户的运动数据的采集。
[0195]
陀螺仪传感器612可以检测电子设备600的机体方向及转动角度，陀螺仪传感器612可以与加速度传感器611协同采集用户对电子设备600的3d动作。处理器601根据陀螺仪传感器612采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变ui)、拍摄时的图像稳定、游戏控制以及惯性导航。
[0196]
压力传感器613可以设置在电子设备600的侧边框和/或显示屏605的下层。当压力传感器613设置在电子设备600的侧边框时，可以检测用户对电子设备600的握持信号，由处理器601根据压力传感器613采集的握持信号进行左右手识别或快捷操作。当压力传感器613设置在显示屏605的下层时，由处理器601根据用户对显示屏605的压力操作，实现对ui界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件所组成的群组中的至少一种。
[0197]
指纹传感器614用于采集用户的指纹，由处理器601根据指纹传感器614采集到的
指纹识别用户的身份，或者，由指纹传感器614根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器601授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器614可以被设置在电子设备600的正面、背面或侧面。当电子设备600上设置有物理按键或厂商logo时，指纹传感器614可以与物理按键或厂商logo集成在一起。
[0198]
光学传感器615用于采集环境光强度。在一个实施例中，处理器601可以根据光学传感器615采集的环境光强度，控制显示屏605的显示亮度。具体地，当环境光强度较高时，调高显示屏605的显示亮度；当环境光强度较低时，调低显示屏606的显示亮度。在另一个实施例中，处理器601还可以根据光学传感器615采集的环境光强度，动态调整摄像头组件606的拍摄参数。
[0199]
接近传感器616，也称距离传感器，通常设置在电子设备600的前面板。接近传感器616用于采集用户与电子设备600的正面之间的距离。在一个实施例中，当接近传感器616检测到用户与电子设备600的正面之间的距离逐渐变小时，由处理器601控制显示屏605从亮屏状态切换为息屏状态；当接近传感器616检测到用户与电子设备600的正面之间的距离逐渐变大时，由处理器601控制显示屏605从息屏状态切换为亮屏状态。
[0200]
本领域技术人员可以理解，图6中示出的结构并不构成对电子设备600的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。
[0201]
图7为本技术实施例提供的服务器的结构示意图，该服务器700可因配置或性能不同而产生比较大的差异，可以包括一个或多个处理器701和一个或多个的存储器702，其中，该一个或多个存储器702中存储有至少一条程序代码，该至少一条程序代码由该一个或多个处理器701加载并执行，以使服务器实现上述各个方法实施例提供的语音识别的方法。当然，该服务器700还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器700还可以包括其他用于实现设备功能的部件，在此不做赘述。
[0202]
本技术实施例提供了一种计算机设备，计算机设备包括存储器及处理器；存储器中存储有至少一条指令，至少一条指令由处理器加载并执行，以使计算机设备实现本技术的任一种示例性实施例所提供的语音识别的方法。
[0203]
本技术实施例提供了一种计算机可读存储介质，计算机可读存储介质中存储有至少一条指令，指令由处理器加载并执行，以使计算机实现本技术的任一种示例性实施例所提供的语音识别的方法。
[0204]
本技术实施例提供了一种计算机程序或计算机程序产品，计算机程序或计算机程序产品包括：计算机指令，计算机指令被计算机执行时，使得计算机实现本技术的任一种示例性实施例所提供的语音识别的方法。
[0205]
上述所有可选技术方案，可以采用任意结合形成本技术的可选实施例，在此不再一一赘述。本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。以上所述仅为本技术的实施例，并不用以限制本技术，凡在本技术的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本技术的保护范围之内。