一种语音识别方法、装置和计算机设备与流程

1.本技术涉及计算机技术领域，具体涉及一种语音识别方法、装置和计算机设备。

背景技术：

2.近些年来，随着信息科学技术的迅猛发展，语音识别技术也得到了快速的发展，并渐渐地改变我们的生活和工作方式。例如，声控语音拨号系统、声控智能玩具和智能家电等产品等等可以使得人机交流变得简便易行。
3.但是，目前存在着各种各样且千差万别的语言，例如，汉语、英语、俄语和阿拉伯语等等都属于不同的语言，且每种语言都具有自身的特征。譬如，有的语言存在语音弱化的现象。而在现有的语音识别系统中，一般是利用多发音词典对此类现象进行建模，但在建模的过程中无法将语音弱化的现象穷举完。若利用现有的语音识别系统对存在语音弱化现象的语音进行识别，将降低语音识别的准确性。

技术实现要素：

4.本技术实施例提出了一种语音识别方法、装置和计算机设备，可以提高语音识别的准确性。
5.本技术实施例提供了一种语音识别方法，包括：
6.获取目标语言下语音数据的至少一个语音特征帧；
7.对所述至少一个语音特征帧进行音素对齐，得到所述语音数据在所述目标语言中的目标音素集合；
8.对所述至少一个语音特征帧进行词单元对齐，得到所述语音数据在所述目标语言中的目标词集合，其中，所述目标词集合包括每个语音特征帧对应的词单元；
9.对所述至少一个语音特征帧进行文本映射，得到所述语音数据在目标语言中的初始语音识别文本；
10.根据所述目标音素集合和所述目标词集合，对所述初始语音识别文本进行调整，得到并输出所述语音数据的语音识别文本。
11.相应的，本技术实施例还提供了一种语音识别装置，包括：
12.获取单元，用于获取目标语言下语音数据的至少一个语音特征帧；
13.音素对齐单元，用于对所述至少一个语音特征帧进行音素对齐，得到所述语音数据在所述目标语言中的目标音素集合；
14.词单元对齐单元，用对所述至少一个语音特征帧进行词单元对齐，得到所述语音数据在所述目标语言中的目标词集合，其中，所述目标词集合包括每个语音特征帧对应的词单元；
15.文本映射单元，用于对所述至少一个语音特征帧进行文本映射，得到所述语音数据在目标语言中的初始语音识别文本；
16.调整单元，用于根据所述目标音素集合和所述目标词集合，对所述初始语音识别
文本进行调整，得到并输出所述语音数据的语音识别文本。
17.在一实施例中，所述音素对齐单元，包括：
18.路径搜索子单元，用于在预设音素搜索空间中将每个语音特征帧进行路径搜索，得到至少一个音素搜索路径；
19.计算子单元，用于计算所述语音特征帧在每个音素搜索路径上的累积概率；
20.确定子单元，用于根据所述累积概率确定所述语音数据的目标音素集合。
21.在一实施例中，所述路径搜索子单元，包括：
22.特征增强模块，用于将所述语音特征帧在音素粒度下进行特征增强，得到所述语音特征帧的音素特征；
23.筛选模块，用于根据所述音素特征，在所述多个音素集合中筛选出目标音素集合；
24.音素搜索模块，用于根据所述音素特征，在所述目标音素集合中进行音素搜索，并根据搜索结果生成至少一个音素搜索路径。
25.在一实施例中，所述音素搜索模块，包括：
26.计算子模块，用于分别计算所述音素特征和所述多个音素节点之间的匹配概率；
27.确定子模块，用于根据所述匹配概率，在所述多个音素节点中确定至少一个目标音素节点；
28.关联子模块，用于将每个音素特征的目标音素节点进行关联，得到至少一个目标搜索路径。
29.在一实施例中，所述词单元对齐单元，包括：
30.路径搜索子单元，用于在预设词典搜索空间中将每个语音特征帧进行路径搜索，得到至少一个词单元搜索路径；
31.计算子单元，用于计算所述语音特征帧在每个词单元搜索路径上的累积概率；
32.确定子单元，用于根据所述累积概率确定所述语音特征帧的目标词集合。
33.在一实施例中，所述文本映射单元，包括：
34.注意力特征提取子单元，用于对所述语音特征帧在多个注意力维度上进行注意力特征提取，得到所述语音特征帧在各个注意力维度上的注意力特征；
35.解码子单元，用于对所述各个注意力维度上的注意力特征进行解码，得到所述语音数据在目标语言中的初始语音识别文本。
36.在一实施例中，所述调整单元，包括：
37.识别子单元，用于识别所述初始语音识别文本的音素信息；
38.第一调整子单元，用于利用所述目标音素集合对所述音素信息进行调整，得到音素调整后语音识别文本；
39.第二调整子单元，用于利用所述目标词集合对所述音素调整后语音识别文本进行调整，得到并输出所述语音数据的语音识别文本。
40.本技术实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述一方面的各种可选方式中提供的方法。
41.相应的，本技术实施例还提供一种存储介质，所述存储介质存储有指令，所述指令
被处理器执行时实现本技术实施例任一提供的语音识别方法。
42.本技术实施例可以获取目标语言下语音数据的至少一个语音特征帧；分别对至少一个语音特征帧进行音素对齐，得到语音数据在目标语言中的目标音素集合；分别对至少一个语音特征帧进行词单元对齐，得到语音数据在目标语言中的目标词集合，其中，目标词集合包括每个语音特征帧对应的词单元；分别对至少一个语音特征帧进行文本映射，得到语音数据在目标语言中的初始语音识别文本；根据目标音素集合和目标词集合，对初始语音识别文本进行调整，得到并输出语音数据的语音识别文本，从而提高语音识别的准确率。
附图说明
43.为了更清楚地说明本技术实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
44.图1是本技术实施例提供的语音识别方法的场景示意图；
45.图2是本技术实施例提供的语音识别方法的流程示意图；
46.图3是本技术实施例提供的对语音数据进行加窗滑动的场景示意图；
47.图4是本技术实施例提供的预设语音识别模型的结构示意图；
48.图5是本技术实施例提供的生成音素标识帧的流程示意图；
49.图6是本技术实施例提供的对音素标注帧进行音素掩蔽的场景示意图；
50.图7是本技术实施例提供的对待训练预设语音识别模型进行训练的场景示意图；
51.图8是本技术实施例提供的预设音素搜索空间的场景示意图；
52.图9是本技术实施例提供的路径搜索的场景示意图；
53.图10是本技术实施例提供的语音识别方法的又一流程示意图；
54.图11是本技术实施例提供的基于语音识别装置的结构示意图；
55.图12是本技术实施例提供的终端的结构示意图。
具体实施方式
56.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，然而，所描述的实施例仅仅是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
57.本技术实施例提出了一种语音识别方法，该语音识别方法可以由基于语音识别装置执行，该基于语音识别装置可以集成在计算机设备中。其中，该计算机设备可以包括终端以及服务器，等等。
58.其中，终端可以为笔记本电脑、个人电脑(personal computer，pc)、车载计算机等等。
59.其中，服务器可以为多个异构系统之间的互通服务器或者后台服务器，还可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服
务、安全服务、以及大数据和人工智能平台等基础云计算服务的云服务器等等。
60.在一实施例中，如图1所述，语音识别装置可以集成在终端或服务器等计算机设备上，以实施本技术实施例提出的语音识别方法。具体的，计算机设备可以获取目标语言下语音数据的至少一个语音特征帧；对至少一个语音特征帧进行音素对齐，得到语音数据在目标语言中的目标音素集合；对至少一个语音特征帧进行词单元对齐，得到语音数据在目标语言中的目标词集合，其中，目标词集合包括每个语音特征帧对应的词单元；对至少一个语音特征帧进行文本映射，得到语音数据在目标语言中的初始语音识别文本；根据目标音素集合和目标词集合，对初始语音识别文本进行调整，得到并输出语音数据的语音识别文本。
61.以下分别进行详细说明，需要说明的是，以下实施例的描述顺序不作为对实施例优选顺序的限定。
62.本技术实施例将从基于语音识别装置的角度进行描述，该基于语音识别装置可以集成在计算机设备中，该计算机设备可以是服务器，也可以是终端等设备。
63.如图2所述，提供了一种语音识别方法，具体流程包括：
64.101、获取目标语言下语音数据的至少一个语音特征帧。
65.其中，目标语言可以包括各种在日常使用中存在特殊现象的语言。例如，目标语言可以包括在日常使用中存在语音弱化现象的语言。又例如，目标语言可以包括在日常使用中存在颤音现象的语言。又例如，目标语言可以包括在日常使用中存在吞音现象的语言，等等。
66.其中，存在语音弱化现象的语言可以包括元音和辅音存在弱化现象的语言。
67.在一实施例中，当目标语言包括在日常使用中存在语音弱化现象的语言时，目标语言可以是德语、法语、俄语、意大利语或阿尔泰语系。
68.其中，阿尔泰语系，又称为阿勒泰语系，是语言学家按照系属分类方法划分的一组语群，包括60多种语言。阿尔泰语系包括蒙古语族、突厥语族、通古斯语族3个语族。主要分布在中亚、西亚、东亚、西伯利亚以及欧洲东部的一些国家。主要包括语言：蒙古语、布里亚特语、卡尔梅克语、达斡尔语、满语、锡伯语、赫哲语、鄂温克语、鄂伦春语、东乡语、裕固语、土族语、土克曼语、阿塞拜疆语、乌兹别克语、哈萨克语、吉尔吉斯语、塔塔尔语、莫戈勒语。
69.在一实施例中，语音特征帧包括可以标识语音数据特征的帧。
70.例如，声音实际上是一种波，语音识别任务所面对的，就是经过若干信号处理之后的样点序列，也成为波形。其中，该波形可以是语音数据。而语音特征帧便是在对语音数据进行特征提取后，所得到的数据帧。
71.在一实施例中，根据特征提取的方式不同，该语音特征帧也具有不同的表达形式。
72.例如，当利用梅尔倒谱系数(mel
‑
scale frequency cepstral coefficients， mfcc)对语音数据进行特征提取时，语音特征帧可以是mfcc。又例如，当利用滤波器带法(filterbank，fbank)对语音数据进行特征提取时，语音特征帧可以是fbank。又例如，当利用线性预测系数(linear predictioncoefficient，lpc)对语音数据帧进行特征提取时，语音特征帧可以是lpc。
73.在一实施例中，当利用mfcc对语音数据进行特征提取时，可以首先对语音数据进行滑动加窗，从而将语音数据划分成一帧帧。例如，如图3所示，图3中的001可以是语音数据，通过滑动加窗法便可以将语音数据划分成一帧帧。其中，在对语音数据进行滑动加窗
时，通常令帧长25ms，帧移 10ms，这样可以保证帧内信号的平稳性，并使帧之间有交叠，提高了帧的可靠性。
74.接下来，可以对每一帧做快速傅里叶变换(fast fourier transform， fft)，并计算功率谱。然后，对功率谱应用梅尔滤波器组，获取每个滤波器内的对数能量作为系数。最后，可以对得到的梅尔滤波器对数能量向量做离散余弦变换(discrete cosine transform，dct)，从而得到语音数据帧。
75.在一实施例中，本技术实施例提出的语音识别装置可以集成于各种计算机设备中。例如，可以将本技术实施例提出的语音识别装置集成于手机中，以使得当人们通过声音控制手机时，手机可以通过语音识别装置识别出声音中对应的文本信息。又例如，可以将本技术实施例提出的语音识别装置集成于各种智能家居中，以使得当人们通过声音控制智能家居时，智能家居可以通过语音识别装置识别出声音中对应的文本信息。
76.在一实施例中，为了更方便地实施本技术实施例提出的语音识别方法，本技术实施例提出的一个预设语音识别模型。其中，该预设语音识别模型可以是一个端到端语音识别模型，通过该预设语音识别模型便可以将语音数据直接转换成语音识别文本，从而提高语音识别的准确率和效率。
77.在一实施例中，该预设语音识别模型的模型架构可以包括编码层、音素对齐层、词单元对齐层、解码层和注意力层，例如，如图4所示。
78.其中，编码层可以获取语音数据，并对语音数据进行特征提取。
79.其中，音素对齐层可以用于对至少一个语音特征帧进行音素对齐，得到语音数据在目标语言中的目标音素集合。
80.其中，词单元对齐层可以用于对至少一个语音特征帧进行词单元对齐，得到所述语音数据在所述目标语言中的目标词集合。
81.其中，注意力层和解码层可以对至少一个语音特征帧进行文本映射，得到所述语音数据在目标语言中的初始语音识别文本。
82.此外，预设语音识别模型还可与根据目标音素集合和目标词集合，对初始语音识别文本进行调整，得到并输出所述语音数据的语音识别文本。
83.其中，编码层可以是机器学习网络或者深度学习网络。例如，该编码层可以是卷积神经网络(convolutional neural networks，cnn)、循环神经网络 (recurrent neural network，rnn)、反卷积神经网络(de
‑
convolutionalnetworks，dn)、深度神经网络(deep neural networks，dnn)、深度卷积逆向图网络(deep convolutional inverse graphics networks，dcign)、基于区域的卷积网络(region
‑
based convolutional networks，rcnn)、基于区域的快速卷积网络(faster region
‑
based convolutional networks，faster rcnn)和双向编解码(bidirectional encoder representations from transformers， bert)模型等等中的任意一种。
84.其中，解码层也可以是机器学习网络或者深度学习网络。例如，该解码层可以是cnn、rnn、dn、dnn等网络中的其中一种。
85.其中，注意力层可以包括具有注意力机制的机器学习网络或者深度学习网络。其中，注意力机制源于对人类视觉的研究。在认知科学中，由于信息处理的瓶颈，人类会选择性地关注所有信息的一部分，同时忽略其他可见的信息。上述机制通常被称为注意力机制。
人类视网膜不同的部位具有不同程度的信息处理能力，即敏锐度，只有视网膜中央凹部位具有最强的敏锐度。为了合理利用有限的视觉信息处理资源，人类需要选择视觉区域中的特定部分，然后集中关注它。例如，人们在阅读时，通常只有少量要被读取的词会被关注和处理。综上，注意力机制主要有两个方面：决定需要关注输入的哪部分；分配有限的信息处理资源给重要的部分。
86.其中，音素对齐层可以具有时序分类算法(connectionist temporalclassification，ctc)的机器学习网络或深度学习网络。例如，音素对齐层可以是一个基于ctc进行改进的rnn。
87.其中，词单元对齐层也可以是具有ctc的机器学习网络或深度学习网络。例如，词单元对齐层可以是一个基于ctc进行改进的rnn。
88.其中，音素对齐层是在音素粒度下对语音特征帧进行音素对齐，而词单元对齐层是在词粒度下对语音特征帧进行词单元对齐，两者的侧重点不相同。
89.在一实施例中，本技术实施例提出的预设语言识别模型通过将ctc和注意力层结合形成端到端语音识别混合模型，可以预设语音识别模型可以学习到更多粒度的对齐信息，从而使得模型能够更好地找到语音特征到多种建模单元序列(在本技术实施例中的建模单元未音素单元和词单元)的对齐，最终提高语音识别模型的性能。
90.在一实施例中，在利用预设语音识别模型进行语音识别之前，可以对待训练语音识别模型进行训练，从而得到预设语音识别模型。具体的，对待训练语音识别模型进行训练的步骤可以包括：
91.获取多个音素标识帧和待训练语音识别模型；
92.对多个音素标识帧进行音素掩蔽处理，得到掩蔽后音素标识帧；
93.利用掩蔽后音素标识帧对待训练语音识别模型进行训练，得到预设语音识别模型。
94.其中，待训练语音识别模型包括还需要训练的，语音识别性能较差的模型。
95.其中，音素标识帧具有音素标识信息的音频帧，而通过音素标识帧中的音素标识信息，可以知道该音素帧对应的音素是什么。
96.而通过利用音素标识帧对待训练语音识别模型进行训练，使得训练过程属于监督学习，从而使得开发人员可以对模型的训练过程进行控制，提高了训练过程的可靠性和鲁棒性。
97.在一实施例中，由于音素标识帧具有音素标识信息，因此在获取音素标识帧之前，需要获取训练数据，并根据训练数据生成音素标识帧。其中，在根据训练数据生成音素标识帧的流程可以如图5所示。具体的，训练数据首先通过隐马尔可夫模型
‑
高斯混合模型进行处理，得到第一处理数据。然后，第一处理数据再经过隐马尔可夫模型
‑
深度神经网络进行处理，得到第二处理数据。接下来，第二处理数据经过对齐处理，得到第一对齐数据。此外，训练数据还直接经过对齐处理，从而得到第二对齐数据。最后，将第一对齐数据和第二对齐数据进行结合，从而得到音素标识帧。
98.其中，训练数据可以包括目标语言中的各种语音数据。
99.其中，隐马尔可夫模型(hiddenmarkov model，hmm)是统计模型，它用来描述一个含有隐含未知参数的马尔可夫过程，并从可观察的参数中确定该过程的隐含参数，然后利
用这些参数来作进一步的分析。其中，在语音识别领域中，hmm使用两个随机过程，即状态转移过程和观察量采样过程，将从声音特征到发音单元的转换过程建模成一个概率问题，通过已经有的语音数据训练隐马尔可夫模型的参数。在解码时，利用相应的参数，估计从输入声学特征转换成特定发音单元序列的概率，进而得到输出特定文字的概率，从而选取最有可能代表某一段声音的文字。
100.其中，高斯混合模型(gaussian mixture model，gmm)是用高斯概率密度函数(正态分布曲线)精确地量化事物，它是一个将事物分解为若干的基于高斯概率密度函数(正态分布曲线)形成的模型。在语音识别领域中，在标准的隐马尔可夫模型中，从隐含发音状态输出可观察量的时候，需要对输出的概率分布进行建模。在经典的基于隐马尔可夫模型的语音识别系统中，这个过程一般是用高斯混合模型(gaussian mixturemodel)来建模的。
101.其中，hmm
‑
gmm模型是一个经典的语音识别系统，该模型利用概率论和统计学的知识，可以将输入的语音数据转换成文本信息。
102.其中，深度神经网络(deep neural networks,dnn)其实也是概率模型中的一种。
103.近些年来，随着人工智能技术的发展，便有研究人员开始尝试将机器学习或者深度学习和hmm
‑
gmm模型进行结合，从而提高语音识别的性能，而hmm
‑
dnn便是其中一种hmm
‑
gmm模型的变种。
104.hmm
‑
dnn模型也可以将输入的语音数据转换成文本信息。但是，和 hmm
‑
gmm不同的是，在hmm
‑
dnn在对语音数据进行处理时需要一个帧级别的对齐信息最为依据，而hmm
‑
gmm在对语音数据进行处理时，则不需要一个帧级别的对齐信息，且hmm
‑
gmm还可以生成帧级别的对齐信息。
105.因此，在生成音素标识帧时，可以首先利用hmm
‑
gmm生成训练数据的音素标识信息，然后hmm
‑
dnn可以以音素标识信息作为依据，生成训练数据的第一音素标识帧。
106.在一实例中，为了提高音素标识帧的可靠性，还可以利用具有ctc的模型对训练数据进行音素对齐，得到语音数据的第二音素标识帧。然后，将第一音素标识帧和第二音素标识帧进行结合，从而得到具有音素标识帧。
107.在一实施例中，为了提高预设语音识别进行语音识别的准确性，可以对多个音素标识帧进行音素掩蔽处理，从而得到掩蔽后音素标识帧。然后，利用掩蔽后音素标识帧对待训练语音识别模型进行训练。而通过利用掩蔽后音素标识帧对待训练语音识别模型进行训练，可以使得在训练的过程中，待训练语音识别模型可以自主地学习到更加多的语音的上下文知识，从而提高预设语音识别模型的识别性能。
108.在一实施例中，在对音素标识帧进行音素掩蔽处理时，可以对音素标识帧中的部分音素信息进行转换处理，从而使得音素标识帧的部分信息被掩蔽。具体的，步骤“分别对多个音素标识帧进行音素掩蔽处理，得到掩蔽后音素标识帧”，可以包括：
109.在音素标识帧的音素信息中筛选出目标音素信息；
110.对目标音素信息进行信息转换处理，得到转换后音素信息；
111.将转换后音素信息添加至音素标识帧中，得到掩蔽后音素标识信息。
112.其中，音素信息包括构成音素标注帧的信息。例如，如图3所示，图3 中的n帧和n+1帧是音素标识帧，其中，音素标识帧中的波形可以是音素信息。
113.在一实施例中，可以从音素信息中筛选出若干个音素信息作为目标音素信息。例
如，如图6所示，音素标注帧中的音素信息包括“n”、“a”、“d”、“i”、“va”、“s”、“i”、“y”、“a”、“w”、“a”和“h”。然后，可以从这些音素信息中筛选出“i”和“a”作为目标音素信息。
114.在一实施例中，在筛选出目标音素信息之后，可以对目标音素信息进行信息转换处理，从而得到转换后音素信息。例如，可以将音素“i”和“a”的信息设为0。譬如，可以将音素“i”和“a”对应的波形归0。又例如，还可与将音素“i”和“a”的信息进行相加，从而得到转换后音素信息。譬如，可以将音素“i”和“a”的波形进行叠加，将叠加后得到的波形作为转换后音素信息。又例如，还可与将音素“i”和“a”的信息进行相加后平均，从而得到转换后音素信息，等等。
115.在一实施例中，在得到转换后音素信息之后，便可以将转换后音素信息添加至音素标识帧中，从而得到掩蔽后音素标识信息。
116.例如，可以将转换后音素信息替换目标音素信息，从而得到掩蔽后音素标识信息。
117.例如，当将音素“i”和“a”的信息设为0，可以将音素标识帧中音素“i”和“a”对应的波形替换为无波形，从而得到掩蔽后音素标识信息。
118.在一实施例中，在得到掩蔽后音素标识帧后，便可以利用掩蔽后音素标识帧对待训练语音识别模型进行训练，从而得到预设语音识别模型。具体的，步骤“利用掩蔽后音素标识帧对待训练语音识别模型进行训练，得到预设语音识别模型”，可以包括：
119.利用待训练语音识别模型对掩蔽后音素标识帧进行特征提取，得到掩蔽后音素标识帧的特征信息；
120.利用待训练语音识别模型对特征信息分别进行音素对齐和词单元对齐，得到掩蔽后音素标识帧的目标音素和目标词单元；
121.利用待训练语音识别模型对特征信息进行文本映射，得到掩蔽后音素标识帧的语音识别文本；
122.对目标音素、目标词单元和语音识别文本进行联合运算，得到联合损失信息；
123.根据联合损失信息对待训练语音识别模型进行模型参数调整，得到预设语音识别模型。
124.其中，对模型进行训练可以包括使得模型可以从海量的数据中进行学习，从而使得模型可以从海量的数据中总结出规律，并可以依据该规律对任意输入模型中的数据进行处理的过程。
125.其中，对待训练语音识别模型进行训练可以是令待训练语音模型不断地掩蔽后音素标识帧进行语音识别，从而使得待训练语音识别模型通过掩蔽后音素标识帧学会如何将语音数据转换为文本信息。
126.在一实施例中，对待训练语音识别模型的流程图可以如图7所示。其中，可以利用待训练语音识别模型中的编码层对掩蔽后音素标识帧进行特征提取，得到掩蔽后音素标识帧的特征信息。
127.在一实施例中，在对编码层的训练过程便是让编码层学习声学方面的知识，即学习当前掩蔽后音素标识帧更像哪个建模单元，并用向量标识。和常规训练方法不同的是，在本技术实施例中，通过利用掩蔽后音素标识帧对编码层进行训练，可以鼓励编码层学会充分周围的语音帧预测当前掩蔽后音素标识帧的标识。
128.在一实施例中，在端到端语音识别混合模型中，ctc的作用一般是为了使得模型训
练收敛得更快，另外是为了辅助编码层，从而提高模型识别的性能。而在本技术实施例中提出的预设语音识别模型中，ctc还可以知道编码层从掩蔽后音素标识帧中学到更多的知识。因此，可以利用待训练语音识别模型中的音素对齐层对特征信息进行音素对齐，以及利用词单元对齐层对特征信息进行词单元对齐，从而得到掩蔽后音素标识帧的目标音素和目标词单元。此外，还可以利用待训练语音识别模型中的注意力层以及解码层对特征信息进行文本信息从而得到掩蔽后音素标识帧的语音识别文本。
129.其中，步骤“利用待训练语音识别模型对特征信息分别进行音素对齐和词单元对齐，得到掩蔽后音素标识帧的目标音素和目标词单元”和步骤“利用待训练语音识别模型对特征信息进行文本映射，得到掩蔽后音素标识帧的语音识别文本”并无执行顺序上的限制。既可以先执行步骤“利用待训练语音识别模型对特征信息分别进行音素对齐和词单元对齐，得到掩蔽后音素标识帧的目标音素和目标词单元”，也可以先执行步骤“利用待训练语音识别模型对特征信息进行文本映射，得到掩蔽后音素标识帧的语音识别文本”，还可以并行地执行两个步骤。
130.接下来可以对目标音素、目标词单元和语音识别文本进行联合运算，从而得到联合损失信息，并根据联合损失信息对待训练语音识别模型进行模型参数调整，得到预设语音识别模型。
131.在一实施例中，在对目标音素、目标词单元和语音识别文本进行联合运算，得到联合损失信息时，可以计算目标音素和目标词单元的对齐损失信息，以及计算语音识别文本和预设标识文本直接的文本损失信息。然后，将对齐损失信息和文本损失信息进行融合，从而得到联合损失信息。具体的，步骤“对目标音素、目标词单元和语音识别文本进行联合运算，得到联合损失信息”，可以包括：
132.计算目标音素和所述目标词单元的对齐损失信息；
133.计算语音识别文本和预设标识文本之间的文本损失信息；
134.将对齐损失信息和文本损失信息进行融合，得到联合损失信息。
135.其中，对齐损失信息包括目标音素和预设音素之间的音素损失信息和目标词单元和预设词单元之间的词单元损失信息。
136.在一实施例中，由于音素标识帧具有音素标识信息，因此待训练语音识别模型中可以具有音素标识帧的预设音素和预设词单元。即，通过音素标识信息，待训练语音识别模型已经知道音素标识帧对应的音素是哪些，对应的词单元是哪些。因此，在计算对齐损失信息时，可以分别计算目标音素和预设音素之间的音素损失信息，以及目标词单元和预设词单元之间的词单元损失信息。
137.其中，可以利用ctc函数计算目标音素和预设音素之间的音素损失信息。同理，也可以利用ctc函数计算目标词单元和预设词单元之间的词单元损失信息。
138.在一实施例中，在得到音素损失信息和词单元损失信息之后，可以将音素损失信息和词单元损失信息进行融合，从而得到对齐损失信息。
139.例如，可以将对齐损失信息表示为loss_ctc，将音素损失信息表示为 loss_grapheme_ctc，将词单元损失信息表示为loss_word
‑
piece_ctc，则可以根据下列公式将音素损失信息和词单元损失信息进行融合，从而得到对齐损失信息：
140.loss_ctc＝loss_word
‑
piece_ctc+theta
×
loss_grapheme_ctc
141.在一实施例中，在计算语音识别文本和预设标识文本之间的文本损失信息时，可以利用交叉熵函数(cross
‑
entropyloss，ce loss)计算语音识别文本和预设标识文本之间的文本损失信息。然后，可以将对齐损失信息和文本损失信息进行融合，从而得到联合损失信息。
142.例如，文本损失信息可以表示为loss_ce，联合损失信息可以表示为 loss_joint。然后，可以根据下列公式将文本损失信息和联合损失信息进行融合，从而得到联合损失信息：
143.loss_joint＝loss_ce+alpha
×
loss_ctc
144.在一实施例中，在得到联合损失信息之后，便可以根据联合损失信息对待训练语音识别模型进行模型参数调整，从而得到预设语音识别模型
145.102、对至少一个语音特征帧进行音素对齐，得到语音数据在目标语言中的目标音素集合。
146.在一实施例中，在获取到语音数据的至少一个语音特征帧之后，可以对语音特征帧进行音素对齐，从而得到语音数据在目标语言中的目标音素集合。
147.其中，音素包括语音中的最小单元，是从音色的角度划分出来的最小的语音单位。
148.例如，在英语中便有48个音素，其中，元音音素20个，辅音音素28 个。又例如，汉语中有32个音素，其中，元音音素有10个，辅音音素有22 个，等等。
149.例如，以汉语为例，汉语音节啊(
ā
)只有一个音素，爱(
à
i)有两个音素，代(d
à
i)有三个音素等。
150.其中，音素对齐指确定每个语音特征帧中对应的音素的什么。
151.其中，目标音素集合包括了每个语音特征帧对应的音素的集合。而通过目标音素集合，计算机设备便可以获取到语音数据的发音是什么。
152.在一实施例中，在对语音特征帧进行音素对齐时，可以在预设音素搜索空间中将每个语音特征帧进行路径搜索，得到至少一个音素搜索路径，并在音素搜索路劲中生成目标音素集合。具体的，步骤“分别对至少一个语音特征帧进行音素对齐，得到语音数据在目标语言中的目标音素集合”，可以包括：
153.在预设音素搜索空间中将每个语音特征帧进行路径搜索，得到至少一个音素搜索路径；
154.计算语音特征帧在每个音素搜索路径上的累积概率；
155.根据累积概率确定语音数据的目标音素集合。
156.其中，预设音素搜索空间中可以包括由目标语言中的声学知识构成的空间。在预设音素搜索空间中定义了目标语言下每个音素具有什么特征，以及各个音素之间的关系，等等。
157.例如，预设音素搜索空间中可以包括目标语言下的每个音素对应的 mfcc。又例如，有一些音素总是放在一起使用，则这些音素在预设音素搜索空间之间的距离便会比较近。相反，若有一些音素是不会放在一起使用的，则这些音素在预设音素搜索空间之间的距离便会比较远。
158.在一实施例中，预设音素搜索空间可以有多种表现形式。例如，该预设音素搜索空间可以是矩阵。又例如，该预设音素搜索空间可以是图结构。又例如，预设音素搜索空间可
以是树形结构，等等。
159.在一实施例中，可以在预设音素搜索空间中将每个音素特征帧进行路径搜索，得到至少一个音素搜索路径。其中，音素搜索空间中包括多个音素集合，因此在预设音素搜索空间中将每个音素特征帧进行路径搜索时，可以根据音素集合对音素特征进行路径搜索。具体的，步骤“在预设音素搜索空间中将每个语音特征帧进行路径搜索，得到至少一个音素搜索路径”，可以包括：
160.将语音特征帧在音素粒度下进行特征增强，得到语音特征帧的音素特征；
161.根据音素特征，在多个音素集合中筛选出目标音素集合；
162.根据音素特征，在目标音素集合中进行音素搜索，并根据搜索结果生成至少一个音素搜索路径。
163.在一实施例中，为了提高效率，可以将音素特征相似的音素集中在一起，形成音素特征集。而多个音素特征集集中在一起，便构成了预设音素搜索空间。
164.在一实施例中，为了更精确地得到音素搜索路径，可以将语音特征帧在音素粒度下进行特征增强，得到语音特征帧的音素特征。例如，可以对语音特征帧进行频谱增强，从而得到语音特征帧的音素特征。
165.接下来，便可以根据音素特征，在多个音素集合中筛选出目标音素结合。在一实施例中，每个音素集合中可以包括至少一个预设音素，因此可以将每个预设音素的音素特征进行归一化，作为音素集合的标识音素特征。然后，可以将音素特征和每个音素集合上的标识音素特征进行匹配，根据匹配结果从中筛选出目标音素集合。
166.其中，当音素特征和多个音素集合上的预设音素特征的匹配度相同时，可以将该多个音素集合都最为目标音素集合。
167.在一实施例中，筛选出目标音素集合后，便可以根据音素特征，在目标音素集合中进行音素搜索，并根据搜索结果生成至少一个音素搜索路径。具体的，步骤“根据音素特征，在目标音素集合中进行音素搜索，并根据搜索结果生成至少一个音素搜索路径”，可以包括：
168.分别计算音素特征和至少一个预设音素之间的匹配概率；
169.根据匹配概率，在至少一个预设音素中确定目标音素；
170.将每个音素特征的目标音素进行关联，得到音素搜索路径。
171.其中，计算音素特征和每个预设音素之间的匹配概率时，可以利用各种概率算法进行计算。例如，可以利用最大似然估计(maximum likelihoodestimation,mle)算法计算音素特征和至少一个预设音素之间的匹配概率。然后，便可以根据匹配概率，在至少一个预设音素中确定目标音素，并将每个语音数据中每个音素特征的目标音素进行关联，从而得到目标搜索路径。
172.例如，如图8所示，图8中的002可以是预设音素搜索空间。然后，语音音素搜索空间中的每一列都可以是音素集合，例如，图8中的003可以是音素集合。然后，音素集合中包括至少一个预设音素。例如，图8中的004 可以是预设音素。
173.在一实施例中，如图9所示，通过将语音数据中的每个语音特征帧进行路劲搜索，从而得到至少一个音素搜索路径。其中，在得到至少一个音素搜索路径之后，可以计算每个语音特征帧在每个音素搜索路径上的累积概率，并根据累积概率确定语音数据的目标音素
集合。
174.例如，如图9所示，当计算语音特征帧在音素搜索路径005上的累积概率时，可以将音素搜索路径005上每个目标音素和音素特征之间的匹配概率进行累积运算，从而得到累积概率。
175.具体的，步骤“计算语音特征帧在每个音素搜索路径上的累积概率”，可以包括：
176.获取音素搜索路径上每个目标音素的匹配概率
177.将每个目标音素的匹配概率进行累积运算，得到累积概率。
178.其中，可以有多种方式将每个目标音素的匹配概率进行累积运算，得到累积概率。例如，可以将每个目标音素的匹配概率进行相加，从而得到累积概率。又例如，可以将每个目标音素的匹配概率进行加权求和，从而得到累积概率。
179.在一实施例中，在得到每个音素搜索路径上的累积概率之后，便可以根据累积概率确定语音数据的目标音素集合。具体的，步骤“根据累积概率确定语音数据的目标音素集合”，可以包括：
180.将每个音素搜索路径上的累积概率进行对比，得到对比结果；
181.根据对比结果在至少一个音素搜索路径中确定目标音素搜索路径；
182.将目标音素搜索路径上的目标音素进行拼接，得到目标音素集合。
183.例如，如图所示，通过将累积概率进行的对比，得到音素搜索路径005 的累积概率最大，所以可以将音素搜索路径005确定为目标音素搜索路径。然后，可以将目标音素搜索路径上的目标音素进行拼接，从而得到目标音素集合。例如，如图所示，目标音素集合上的目标音素分别是“a:”、
“‑”
、“t”、
“‑”
、“i”、
“‑”
、
“‑”
、“k”、
“‑”
、
“‑”
、“l”，其中，
“‑”
可以指空白音素。因此，在将目标音素进行拼接时，可以将空白音素删除，从而得到目标音素集合。例如，在将图中的目标音素进行拼接后，可以得到目标音素集合为“a:tikl”。
184.通过在预设音素搜索空间中将每个语音特征帧进行路径搜索，从而使得得到的目标音素集合可以充分地表示语音数据中可能包括的音素，提高了对语音特征帧进行音素对齐的准确度。
185.103、对至少一个语音特征帧进行词单元对齐，得到语音数据在目标语言中的目标词集合，其中，目标词集合包括每个语音特征帧对应的词单元。
186.在一实施例中，本技术实施例还可以对至少一个语音特征帧进行词单元对齐，从而得到语音数据在目标语言中的目标词集合。
187.其中，词单元可以是构成目标语言中的词语的最小单元。例如，以英语为例，单词“hello”的词单元可以包括“he”和“llo”。又例如，单词“loving”的词单元可以包括“lov”和“ing”。
188.在一实施例中，可以通过子词(subword)算法得到目标语言的词单元。其中，子词算法可以包括可以将词转换成词单元的算法。例如，子词算法可以包括字节对编码(byte pair encoding，bpe)算法、切字(word
‑ꢀ
piece)算法，等等。
189.例如，本技术实施例提出的预设语音识别模型中的词单元对齐层中便可以具有word
‑
piece算法，从而使得此单元对齐层可以通过word
‑
piece算法对语音标识帧进行词单元对齐，从而提高词单元对齐的准确率。
190.在一实施例中，在对至少一个语音特征帧进行词单元对齐时，可以采用对语音特
征帧进行音素对齐时相似的方法。区别点在于，词单元对齐是在词粒度下对语音特征帧进行对齐，而音素对齐是在音素粒度下对语音特征帧进行对齐。具体的，步骤“分别对所述至少一个语音特征帧进行词单元对齐，得到语音数据在目标语言中的目标词集合，”，可以包括：
191.在预设词典搜索空间中将每个语音特征帧进行路径搜索，得到至少一个词单元搜索路径；
192.计算语音特征帧在每个词单元搜索路径上的累积概率；
193.根据累积概率确定语音特征帧的目标词集合。
194.其中，预设词典搜索空间可以包括由目标语言中的词语知识构成的空间。在预设词典搜索空间中定义了目标语言下每种词单元对应的音素，每种词单元对应的音素有什么特征以及各个词单元之间的关系，等等。
195.在一实施例中，预设词典搜索空间也可以包括多个词单元集合，且在预设词典搜索空间中将每个语音特征帧进行路径搜索的步骤可以参考对语音特征帧进行音素对齐的步骤。因此，步骤“在预设词典搜索空间中将每个语音特征帧进行路径搜索，得到至少一个词单元搜索路径”，可以包括：
196.将语音特征帧在词单元粒度下进行特征增强，得到语音特征帧的词单元特征；
197.根据词单元特征，在多个词单元集合中筛选出目标词单元集合；
198.根据词单元特征，在目标词单元集合中进行词搜索，并根据搜索结果生成至少一个词单元搜索路径。
199.在一实施例中，为了提高效率，可以将词单元特征相似的词单元集中在一起，形成词单元集合。而多个词单元集合集中在一起，便构成了预设词典搜索空间。
200.在一实施例中，为了更精确地得到词单元搜索路径，可以将语音特征帧在词单元粒度下进行特征增强，从而得到语音特征帧的词单元特征。例如，可以将语音特征帧进行再次特征提取，从而得到词单元特征。
201.接下来，便可以根据词单元特征，在多个词单元集合中筛选出目标词单元集合。其中，从多个词单元集合中筛选出目标词单元可以参考步骤“在多个音素集合中筛选出目标音素集合”，此处不再重复阐述。
202.在一实施例中，在筛选出目标词单元之后，可以根据词单元特征，在目标词单元集合中进行词搜索，并根据搜索结果生成至少一个词单元搜索路径。具体的，步骤“根据词单元特征，在目标词单元集合中进行词搜索，并根据搜索结果生成至少一个词单元搜索路径”，可以包括：
203.分别计算词单元特征和至少一个预设词单元之间的匹配概率；
204.根据匹配概率，在至少一个预设词单元中确定目标词单元；
205.将每个词单元特征的目标词单元进行关联，得到词单元搜索路径。
206.通过对语音特征帧进行音素对齐和词单元对齐，可以得到语音数据的目标音素集合和目标词集合。然后可以利用目标词集合和目标音素集合对初始语音识别文本进行调整，从而可以提高语音识别文本的准确率。
207.104、对至少一个语音特征帧进行文本映射，得到语音数据在目标语言中的初始语音识别文本。
208.在一实施例中，本技术实施例还可以对至少一个语音特征帧进行文本映射，从而得到语音数据在目标语音中的初始语音识别文本。具体的，步骤“分别对至少一个语音特征帧进行文本映射，得到语音数据在目标语言中的初始语音识别文本”，可以包括：
209.对语音特征帧在多个注意力维度上进行注意力特征提取，得到语音特征帧在各个注意力维度上的注意力特征；
210.对各个注意力维度上的注意力特征进行解码，得到语音数据在目标语言中的初始语音识别文本。
211.在一实施例中，为了提高对语音识别的准确率，可以对语音特征帧在多个注意力维度上进行注意力特征提取，从而得到语音特帧在各个注意力维度上的注意力特征。
212.其中，可以利用多头注意力机制在语音特征帧进行注意力特征提取，每头注意力机制都可以对应一个注意力维度。
213.在一实施例中，在得到注意力特征之后，便可以对各个注意力维度上的注意力特征进行解码，从而得到语音数据在目标语言中的初始语音识别文本。
214.例如，可以计算注意力特征在预设文本映射空间中的特征分布，然后根据特征分布确定注意力特征对应的文本信息。
215.在一实施例中，需要说明的是，步骤“分别对至少一个语音特征帧进行音素对齐，得到语音数据在目标语言中的目标音素集合”、步骤“分别对至少一个语音特征帧进行词单元对齐，得到语音数据在目标语言中的目标词集合”和步骤“分别对至少一个语音特征帧进行文本映射，得到语音数据在目标语言中的初始语音识别文本”之间并没有执行顺序上的限制。例如，可以按照先后顺序分别执行上述步骤，也可以并行地执行上述步骤。
216.105、根据目标音素集合和目标词集合，对初始语音识别文本进行调整，得到并输出语音数据的语音识别文本。
217.在一实施例中，在得到目标音素集合、目标词集合和初始语音识别文本之后，便可以根据目标音素集合和所述目标词集合，对初始语音识别文本进行调整，得到并输出语音数据的语音识别文本。具体的，步骤“根据目标音素集合和所述目标词集合，对初始语音识别文本进行调整，得到并输出语音数据的语音识别文本”，可以包括：
218.识别初始语音识别文本的音素信息；
219.利用目标音素集合对音素信息进行调整，得到音素调整后语音识别文本；
220.利用目标词集合对音素调整后语音识别文本进行调整，得到并输出语音数据的语音识别文本。
221.例如，可以计算目标音素集合和初始语音识别文本的音素信息之间的匹配度，当两者的匹配度达到预设阈值时，便将初始语音识别文本作为音素调整后语音识别文本。而当两者的匹配度未达到预设阈值时，便可以将初始语音识别文本中不匹配的音素替换成目标音素集合中的音素，从而得到音素调整后语音识别文本。
222.在得到音素调整后语音识别文本之后，可以利用目标词集合对音素调整后语音识别文本进行调整，从而得到并输出语音数据的语音识别文本。例如，可以利用余弦距离、编辑距离、孪生网络和词向量算法等计算目标词集合和音素调整后语音识别文本之间的文本相似度。当两者的文本相似度达到预设阈值时，可以将音素调整后语音识别文件输出。
223.本技术实施例提出了一种语音识别方法，该方法包括获取目标语言下语音数据的
至少一个语音特征帧；分别对至少一个语音特征帧进行音素对齐，得到语音数据在目标语言中的目标音素集合；分别对至少一个语音特征帧进行词单元对齐，得到语音数据在目标语言中的目标词集合，其中，目标词集合包括每个语音特征帧对应的词单元；分别对至少一个语音特征帧进行文本映射，得到语音数据在目标语言中的初始语音识别文本；根据目标音素集合和目标词集合，对初始语音识别文本进行调整，得到并输出语音数据的语音识别文本。在本技术实施例中，可以对语音特征帧在音素和词单元两个维度上进行对齐，并且利用目标音素集合和目标词集合，对初始语音识别文本进行调整，从而可以提高语音识别文本和语音数据之间的匹配度，从而提高语音识别的准确率。
224.此外，本技术实施例还相应地提出的一个预设语音识别模型，且该预设语音识别模型是利用掩蔽后音素特征训练得到。通过掩蔽后音素特征，使得预设语音识别模型可以利用更多周围的信息去预测被掩蔽的部分，从而提高了预设语音识别模型的鲁棒性。此外，预设语音识别模型中包括音素对齐层和词单元对齐层，这可以使得预设语音识别模型可以学到更多粒度的对齐消息，从而提高语音识别模型的性能。
225.根据上面实施例所描述的方法，以下将举例作进一步详细说明。
226.本技术实施例将以语音识别方法集成在服务器上为例来介绍本技术实施例方法。
227.在一实施例中，如图9所示，一种语音识别方法，具体流程如下：
228.201、计算机设备获取目标语言下语音数据的至少一个语音特征帧。
229.202、计算机设备分别对至少一个语音特征帧进行音素对齐，得到语音数据在目标语言中的目标音素集合。
230.203、计算机设备分别对至少一个语音特征帧进行词单元对齐，得到语音数据在目标语言中的目标词集合，其中，目标词集合包括每个语音特征帧对应的词单元。
231.204、计算机设备分别对至少一个语音特征帧进行文本映射，得到语音数据在目标语言中的初始语音识别文本。
232.205、计算机设备根据目标音素集合和目标词集合，对初始语音识别文本进行调整，得到并输出语音数据的语音识别文本。
233.在本技术实施例中，计算机设备可以获取目标语言下语音数据的至少一个语音特征帧；计算机设备可以分别对至少一个语音特征帧进行音素对齐，得到语音数据在目标语言中的目标音素集合；计算机设备可以分别对至少一个语音特征帧进行词单元对齐，得到语音数据在目标语言中的目标词集合，其中，目标词集合包括每个语音特征帧对应的词单元；计算机设备可以分别对至少一个语音特征帧进行文本映射，得到语音数据在目标语言中的初始语音识别文本；计算机设备可以根据目标音素集合和目标词集合，对初始语音识别文本进行调整，得到并输出语音数据的语音识别文本。在本技术实施例中，计算机设备可以可以对语音特征帧在音素和词单元两个维度上进行对齐，并且利用目标音素集合和目标词集合，对初始语音识别文本进行调整，从而可以提高语音识别文本和语音数据之间的匹配度，从而提高语音识别的准确率。
234.为了更好地实施本技术实施例提供的语音识别方法，在一实施例中还提供了一种基于语音识别装置，该基于语音识别装置可以集成于计算机设备中。其中名词的含义与上述语音识别方法中相同，具体实现细节可以参考方法实施例中的说明。
235.在一实施例中，提供了一种基于语音识别装置，该基于语音识别装置具体可以集
成在计算机设备中，如图11所示，该基于语音识别装置包括：获取单元301、音素对齐单元302、词单元对齐单元303、文本映射单元304和调整单元305，具体如下：
236.获取单元301，用于获取目标语言下语音数据的至少一个语音特征帧；
237.音素对齐单元302，用于分别对所述至少一个语音特征帧进行音素对齐，得到所述语音数据在所述目标语言中的目标音素集合；
238.词单元对齐单元303，用于分别对所述至少一个语音特征帧进行词单元对齐，得到所述语音数据在所述目标语言中的目标词集合，其中，所述目标词集合包括每个语音特征帧对应的词单元；
239.文本映射单元304，用于分别对所述至少一个语音特征帧进行文本映射，得到所述语音数据在目标语言中的初始语音识别文本；
240.调整单元305，用于根据所述目标音素集合和所述目标词集合，对所述初始语音识别文本进行调整，得到并输出所述语音数据的语音识别文本。
241.在一实施例中，所述音素对齐单元，包括：
242.路径搜索子单元，用于在预设音素搜索空间中将每个语音特征帧进行路径搜索，得到至少一个音素搜索路径；
243.计算子单元，用于计算所述语音特征帧在每个音素搜索路径上的累积概率；
244.确定子单元，用于根据所述累积概率确定所述语音数据的目标音素集合。
245.在一实施例中，所述路径搜索子单元，包括：
246.特征增强模块，用于将所述语音特征帧在音素粒度下进行特征增强，得到所述语音特征帧的音素特征；
247.筛选模块，用于根据所述音素特征，在所述多个音素集合中筛选出目标音素集合；
248.音素搜索模块，用于根据所述音素特征，在所述目标音素集合中进行音素搜索，并根据搜索结果生成至少一个音素搜索路径。
249.在一实施例中，所述音素搜索模块，包括：
250.计算子模块，用于分别计算所述音素特征和所述多个音素节点之间的匹配概率；
251.确定子模块，用于根据所述匹配概率，在所述多个音素节点中确定至少一个目标音素节点；
252.关联子模块，用于将每个音素特征的目标音素节点进行关联，得到至少一个目标搜索路径。
253.在一实施例中，所述词单元对齐单元，包括：
254.路径搜索子单元，用于在预设词典搜索空间中将每个语音特征帧进行路径搜索，得到至少一个词单元搜索路径；
255.计算子单元，用于计算所述语音特征帧在每个词单元搜索路径上的累积概率；
256.确定子单元，用于根据所述累积概率确定所述语音特征帧的目标词集合。
257.在一实施例中，所述文本映射单元，包括：
258.注意力特征提取子单元，用于对所述语音特征帧在多个注意力维度上进行注意力特征提取，得到所述语音特征帧在各个注意力维度上的注意力特征；
259.解码子单元，用于对所述各个注意力维度上的注意力特征进行解码，得到所述语音数据在目标语言中的初始语音识别文本。
260.在一实施例中，所述调整单元，包括：
261.识别子单元，用于识别所述初始语音识别文本的音素信息；
262.第一调整子单元，用于利用所述目标音素集合对所述音素信息进行调整，得到音素调整后语音识别文本；
263.第二调整子单元，用于利用所述目标词集合对所述音素调整后语音识别文本进行调整，得到并输出所述语音数据的语音识别文本。
264.具体实施时，以上各个单元可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个单元的具体实施可参见前面的方法实施例，在此不再赘述。
265.通过上述的基于语音识别装置可以提高人们乘坐交通工具的便捷性。
266.本技术实施例还提供一种计算机设备，该计算机设备可以包括终端或服务器，比如，计算机设备可以作为基于语音识别终端，该终端可以为手机、平板电脑等等；又比如计算机设备可以为服务器，如基于语音识别服务器等。如图12所示，其示出了本技术实施例所涉及的终端的结构示意图，具体来讲：
267.该计算机设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解，图12中示出的计算机设备结构并不构成对计算机设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：
268.处理器401是该计算机设备的控制中心，利用各种接口和线路连接整个计算机设备的各个部分，通过运行或执行存储在存储器402内的软件程序和/ 或模块，以及调用存储在存储器402内的数据，执行计算机设备的各种功能和处理数据，从而对计算机设备进行整体监控。可选的，处理器401可包括一个或多个处理核心；优选的，处理器401可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户页面和应用程序等，调制解调处理器主要处理无线通讯。可以理解的是，上述调制解调处理器也可以不集成到处理器401中。
269.存储器402可用于存储软件程序以及模块，处理器401通过运行存储在存储器402的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据计算机设备的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器402还可以包括存储器控制器，以提供处理器401对存储器402 的访问。
270.计算机设备还包括给各个部件供电的电源403，优选的，电源403可以通过电源管理系统与处理器401逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
271.该计算机设备还可包括输入单元404，该输入单元404可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
272.尽管未示出，计算机设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，计算机设备中的处理器401会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中，并由处理器401来运行存储在存储器402中的应用程序，从而实现各种功能，如下：
273.获取目标语言下语音数据的至少一个语音特征帧；
274.分别对所述至少一个语音特征帧进行音素对齐，得到所述语音数据在所述目标语言中的目标音素集合；
275.分别对所述至少一个语音特征帧进行词单元对齐，得到所述语音数据在所述目标语言中的目标词集合，其中，所述目标词集合包括每个语音特征帧对应的词单元；
276.分别对所述至少一个语音特征帧进行文本映射，得到所述语音数据在目标语言中的初始语音识别文本；
277.根据所述目标音素集合和所述目标词集合，对所述初始语音识别文本进行调整，得到并输出所述语音数据的语音识别文本。
278.以上各个操作的具体实施可参见前面的实施例，在此不再赘述。
279.根据本技术的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例中各种可选实现方式中提供的方法。
280.本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过计算机程序来完成，或通过计算机程序控制相关的硬件来完成，该计算机程序可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。
281.为此，本技术实施例还提供一种存储介质，其中存储有计算机程序，该计算机程序能够被处理器进行加载，以执行本技术实施例所提供的任一种语音识别方法中的步骤。例如，该计算机程序可以执行如下步骤：
282.获取目标语言下语音数据的至少一个语音特征帧；
283.分别对所述至少一个语音特征帧进行音素对齐，得到所述语音数据在所述目标语言中的目标音素集合；
284.分别对所述至少一个语音特征帧进行词单元对齐，得到所述语音数据在所述目标语言中的目标词集合，其中，所述目标词集合包括每个语音特征帧对应的词单元；
285.分别对所述至少一个语音特征帧进行文本映射，得到所述语音数据在目标语言中的初始语音识别文本；
286.根据所述目标音素集合和所述目标词集合，对所述初始语音识别文本进行调整，得到并输出所述语音数据的语音识别文本。
287.由于该存储介质中所存储的计算机程序，可以执行本技术实施例所提供的任一种语音识别方法中的步骤，因此，可以实现本技术实施例所提供的任一种语音识别方法所能实现的有益效果，详见前面的实施例，在此不再赘述。
288.以上对本技术实施例所提供的一种语音识别方法、装置、计算机设备和存储介质进行了详细介绍，本文中应用了具体个例对本技术的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本技术的方法及其核心思想；同时，对于本领域的技术人员，
依据本技术的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本技术的限制。