一种基于深度学习的高识别率的智能语音识别方法和系统与流程

1.本发明涉及语音识别领域，特别是指一种基于深度学习的高识别率的智能语音识别方法和系统。

背景技术：

2.语音识别技术，也被称为自动语音识别(automatic speech recognition，asr)，其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码、字符序列或文本信息等。现有技术中的语音识别方法通常需要从待识别的语音信息中提取语音特征信息，再将提取的语音特征信息输入基于机器学习算法训练得到的声学模型进行处理，得到语音识别结果。
3.然而，对于语音来说，同样的语言，不同的语气、腔调、发音权重等，其表达的含义相差极大，甚至可能完全相反，因此，对于现阶段的语音识别来说，会使得原始信号中的部分重要信息丢失，导致语音信息识别结果不准确。

技术实现要素：

4.本发明的主要目的在于克服现有技术中的上述缺陷，提出一种基于深度学习的高识别率的智能语音识别方法，通过识别语音中的语气变化和发音权重变化，分析出语音的语调类型，结合文字信息从而能够准确地识别出语音中表达的信息。
5.本发明采用如下技术方案：
6.一种基于深度学习的高识别率的智能语音识别方法，包括如下步骤：
7.获取待处理识别语音；
8.将待处理识别语音输入发音识别矫正模型进行发音的识别矫正，并生成待处理识别语音相对应的发音矫正语音；所述发音识别矫正模型是通过发音差别音频对进行训练，所述发音差别音频对是通过第一标注样本音频和第二标注样本音频获取；
9.将发音矫正语音输入语音识别模型进行语音识别，生成相应的文本信息；所述语音识别模型包括采样层、语义分析层和语音识别层，采样层进行卷积和下采样处理，获取局部信息特征向量；再将得到的局部信息特征向量输入语义分析层进行处理，确定所述局部信息特征向量的上下文信息，并基于所述局部特征信息向量以及所述上下文信息生成语音序列特征向量；最后将所述语音序列特征向量输入所述语音识别模型的语音识别层进行处理，获取所述发音矫正语音对应的文本信息；
10.将发音矫正语音分别输入语气变化识别模型和发音权重变化识别模型，生成语气变化向量和发音权重变化向量，将获取的语气变化向量和发音权重变化向量输入语调分类器，生成语调信息；所述语调分类器的训练：获得多个语音样本，每个语音样本对应一个预先标记的语调类型标签；将多个语音样本输入所述语气变化识别模型和发音权重变化识别模型，得到所述多个语音样本各自对应的语气变化向量、发音权重变化向量，并将对应同一语音样本的语调类型标签和语气变化向量、发音权重变化向量组成一个样本对；利用所述
多个语音各自对应的样本对，对所述语调分类器进行训练。
11.根据文本信息和语调信息生成相应的待处理识别语音相对应的文本内容。
12.具体地，所述局部信息特征向量用于标识所述初始语音向量对应的局部特征。
13.所述语音序列特征向量用于标识所有所述局部特征的上下文关系。
14.具体地，将发音矫正语音分别输入语气变化识别模型和发音权重识别模型，生成语气变化向量和发音权重向量，具体包括：
15.所述语气变化识别模型包括第一编码层、第一中间层以及第一解码层；所述发音权重识别模型包括第二编码层、第二中间层和第二解码层，
16.将发音矫正语音输入所述第一编码层；
17.从所述第一编码层的预设语气表中提取所述语音中每个发音对应的语气向量，并输入所述第一中间层；
18.所述第一中间层对所述发音矫正语音中每个发音的语气向量进行信息融合，得到融合后的语气向量；
19.将所述融合后的语气向量输入所述第一解码层，输出语气变化向量；
20.将发音矫正语音输入所述第二编码层；
21.从所述第二编码层的预设发音权重表中提取所述语音中每个发音对应的发音权重向量，并输入所述第二中间层；
22.所述第一中间层对所述发音矫正语音中每个发音的发音权重向量进行信息融合，得到融合后的发音权重向量；
23.将所述融合后的发音权重向量输入所述第二解码层，输出发音权重变化向量。
24.具体地，所述语调分类器为贝叶斯文本分类器、支持向量机文本分类器或神经网络文本分类器。
25.本发明另一方面提出了一种基于深度学习的高识别率的智能语音识别系统，所述语音识别系统包括：
26.样本获取模块：获取待处理识别语音；
27.发音识别矫正模块：将待处理识别语音输入发音识别矫正模型进行发音的识别矫正，并生成待处理识别语音相对应的发音矫正语音；所述发音识别矫正模型是通过发音差别音频对进行训练，所述发音差别音频对是通过第一标注样本音频和第二标注样本音频获取；
28.文本信息生成模块：将发音矫正语音输入语音识别模型进行语音识别，生成相应的文本信息；所述语音识别模型包括采样层、语义分析层和语音识别层，采样层进行卷积和下采样处理，获取局部信息特征向量；再将得到的局部信息特征向量输入语义分析层进行处理，确定所述局部信息特征向量的上下文信息，并基于所述局部特征信息向量以及所述上下文信息生成语音序列特征向量；最后将所述语音序列特征向量输入所述语音识别模型的语音识别层进行处理，获取所述发音矫正语音对应的文本信息；
29.语调信息生成模块：将发音矫正语音分别输入语气变化识别模型和发音权重变化识别模型，生成语气变化向量和发音权重变化向量，将获取的语气变化向量和发音权重变化向量输入语调分类器，生成语调信息；所述语调分类器的训练：获得多个语音样本，每个语音样本对应一个预先标记的语调类型标签；将多个语音样本输入所述语气变化识别模型
和发音权重变化识别模型，得到所述多个语音样本各自对应的语气变化向量、发音权重变化向量，并将对应同一语音样本的语调类型标签和语气变化向量、发音权重变化向量组成一个样本对；利用所述多个语音各自对应的样本对，对所述语调分类器进行训练。
30.文本内容生成模块：根据文本信息和语调信息生成相应的待处理识别语音相对应的文本内容。
31.具体地，所述局部信息特征向量用于标识所述初始语音向量对应的局部特征。
32.所述语音序列特征向量用于标识所有所述局部特征的上下文关系。
33.具体地，语调信息生成模块中，将发音矫正语音分别输入语气变化识别模型和发音权重识别模型，生成语气变化向量和发音权重向量，具体包括：
34.所述语气变化识别模型包括第一编码层、第一中间层以及第一解码层；所述发音权重识别模型包括第二编码层、第二中间层和第二解码层，
35.将发音矫正语音输入所述第一编码层；
36.从所述第一编码层的预设语气表中提取所述语音中每个发音对应的语气向量，并输入所述第一中间层；
37.所述第一中间层对所述发音矫正语音中每个发音的语气向量进行信息融合，得到融合后的语气向量；
38.将所述融合后的语气向量输入所述第一解码层，输出语气变化向量；
39.将发音矫正语音输入所述第二编码层；
40.从所述第二编码层的预设发音权重表中提取所述语音中每个发音对应的发音权重向量，并输入所述第二中间层；
41.所述第一中间层对所述发音矫正语音中每个发音的发音权重向量进行信息融合，得到融合后的发音权重向量；
42.将所述融合后的发音权重向量输入所述第二解码层，输出发音权重变化向量。
43.具体地，所述语调分类器为贝叶斯文本分类器、支持向量机文本分类器或神经网络文本分类器。
44.本发明再一方面提供一种基于深度学习的语音识别电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行时实现如如上所述的一种基于深度学习的高识别率的智能语音识别方法中的步骤。
45.本发明又一方面提供一种可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上所述的一种基于深度学习的高识别率的智能语音识别方法中的步骤。
46.由上述对本发明的描述可知，与现有技术相比，本发明具有如下有益效果：
47.1)本发明提供了一种基于深度学习的高识别率的智能语音识别方法，具体包括，获取待处理识别语音；将待处理识别语音输入发音识别矫正模型进行发音的识别矫正，并生成待处理识别语音相对应的发音矫正语音；所述发音识别矫正模型是通过发音差别音频对进行训练，所述发音差别音频对是通过第一标注样本音频和第二标注样本音频获取；将发音矫正语音输入语音识别模型进行语音识别，生成相应的文本信息；所述语音识别模型包括采样层、语义分析层和语音识别层，采样层进行卷积和下采样处理，获取局部信息特征向量；再将得到的局部信息特征向量输入语义分析层进行处理，确定所述局部信息特征向量的上下文信息，并基于所述局部特征信息向量以及所述上下文信息生成语音序列特征向
量；最后将所述语音序列特征向量输入所述语音识别模型的语音识别层进行处理，获取所述发音矫正语音对应的文本信息；将发音矫正语音分别输入语气变化识别模型和发音权重变化识别模型，生成语气变化向量和发音权重变化向量，将获取的语气变化向量和发音权重变化向量输入语调分类器，生成语调信息；所述语调分类器的训练：获得多个语音样本，每个语音样本对应一个预先标记的语调类型标签；将多个语音样本输入所述语气变化识别模型和发音权重变化识别模型，得到所述多个语音样本各自对应的语气变化向量、发音权重变化向量，并将对应同一语音样本的语调类型标签和语气变化向量、发音权重变化向量组成一个样本对；利用所述多个语音各自对应的样本对，对所述语调分类器进行训练；根据文本信息和语调信息生成相应的待处理识别语音相对应的文本内容；本发明提出的方法通过识别语音中的语气变化和发音权重变化，分析出语音的语调类型，结合文字信息从而能够准确地识别出语音中表达的信息。
48.2)本发明将待处理识别语音输入发音识别矫正模型进行发音的识别矫正，且考虑不同地域的用户发音差别，首先进行发音的识别矫正，从而提高语音识别的准确性。
附图说明
49.图1为本发明实施例提供的一种基于深度学习的高识别率的智能语音识别方法流程图；
50.图2为本发明实施例提供的一种基于深度学习的高识别率的智能语音识别系统的实施例示意图；
51.图3为本发明实施例提供的一种电子设备的实施例示意图；
52.图4为本发明实施例提供的一种计算机可读存储介质的实施例示意图。
53.以下结合附图和具体实施例对本发明作进一步详述。
具体实施方式
54.本发明提出本发明提供了一种基于深度学习的高识别率的智能语音识别方法，本发明提出的方法通过识别语音中的语气变化和发音权重变化，分析出语音的语调类型，结合文字信息从而能够准确地识别出语音中表达的信息。
55.如图1，为本发明实施例提供一种基于深度学习的高识别率的智能语音识别方法的流程图，具体包括如下步骤：
56.一种基于深度学习的高识别率的智能语音识别方法，包括如下步骤：
57.s101：获取待处理识别语音；
58.本技术实施例的语音识别方法适用于特定目标场景的中文识别系统，作为一种示例，本技术实施例的语音识别方法可应用于搜索引擎，例如，搜索引擎可支持语音识别，当监测到用户通过搜索引擎输入了语音时，可将用户输入的语音确定为待识别语音，然后对该待识别语音进行识别，得到对应的简体中文文本，以便搜索引擎利用该简体中文文本进行搜索，从而可以实现语音搜索的功能。
59.s102：将待处理识别语音输入发音识别矫正模型进行发音的识别矫正，并生成待处理识别语音相对应的发音矫正语音；所述发音识别矫正模型是通过发音差别音频对进行训练，所述发音差别音频对是通过第一标注样本音频和第二标注样本音频获取；
60.以目标场景为粤语到简体中文识别为例，目标样本文本的语言种类为粤语，样本识别结果的语言种类可为中文，上述目标样本文本对应的第一标注音频可为粤语音频，样本识别结果对应的第二标注音频可为中文音频。
61.s103：将发音矫正语音输入语音识别模型进行语音识别，生成相应的文本信息；所述语音识别模型包括采样层、语义分析层和语音识别层，采样层进行卷积和下采样处理，获取局部信息特征向量；再将得到的局部信息特征向量输入语义分析层进行处理，确定所述局部信息特征向量的上下文信息，并基于所述局部特征信息向量以及所述上下文信息生成语音序列特征向量；最后将所述语音序列特征向量输入所述语音识别模型的语音识别层进行处理，获取所述发音矫正语音对应的文本信息；
62.具体地，所述局部信息特征向量用于标识所述初始语音向量对应的局部特征。
63.所述语音序列特征向量用于标识所有所述局部特征的上下文关系。
64.s104：将发音矫正语音分别输入语气变化识别模型和发音权重变化识别模型，生成语气变化向量和发音权重变化向量，将获取的语气变化向量和发音权重变化向量输入语调分类器，生成语调信息；所述语调分类器的训练：获得多个语音样本，每个语音样本对应一个预先标记的语调类型标签；将多个语音样本输入所述语气变化识别模型和发音权重变化识别模型，得到所述多个语音样本各自对应的语气变化向量、发音权重变化向量，并将对应同一语音样本的语调类型标签和语气变化向量、发音权重变化向量组成一个样本对；利用所述多个语音各自对应的样本对，对所述语调分类器进行训练。
65.具体地，将发音矫正语音分别输入语气变化识别模型和发音权重识别模型，生成语气变化向量和发音权重向量，具体包括：
66.所述语气变化识别模型包括第一编码层、第一中间层以及第一解码层；所述发音权重识别模型包括第二编码层、第二中间层和第二解码层，
67.将发音矫正语音输入所述第一编码层；
68.从所述第一编码层的预设语气表中提取所述语音中每个发音对应的语气向量，并输入所述第一中间层；
69.所述第一中间层对所述发音矫正语音中每个发音的语气向量进行信息融合，得到融合后的语气向量；
70.将所述融合后的语气向量输入所述第一解码层，输出语气变化向量；
71.将发音矫正语音输入所述第二编码层；
72.从所述第二编码层的预设发音权重表中提取所述语音中每个发音对应的发音权重向量，并输入所述第二中间层；
73.所述第一中间层对所述发音矫正语音中每个发音的发音权重向量进行信息融合，得到融合后的发音权重向量；
74.将所述融合后的发音权重向量输入所述第二解码层，输出发音权重变化向量。
75.具体地，所述语调分类器为贝叶斯文本分类器、支持向量机文本分类器或神经网络文本分类器。
76.s105：根据文本信息和语调信息生成相应的待处理识别语音相对应的文本内容。
77.根据识别出的语调信息，即说话者的情感，转换为标点符号，例如句号，问号和感叹号等等，结合文本信息得到待处理识别语音相对应的完整的文本内容。
78.如图2，本发明另一实施例提出了一种基于深度学习的高识别率的智能语音识别系统，所述语音识别系统包括：
79.样本获取模块201：获取待处理识别语音；
80.本技术实施例的语音识别方法适用于特定目标场景的中文识别系统，作为一种示例，本技术实施例的语音识别方法可应用于搜索引擎，例如，搜索引擎可支持语音识别，当监测到用户通过搜索引擎输入了语音时，可将用户输入的语音确定为待识别语音，然后对该待识别语音进行识别，得到对应的简体中文文本，以便搜索引擎利用该简体中文文本进行搜索，从而可以实现语音搜索的功能。
81.发音识别矫正模块202：将待处理识别语音输入发音识别矫正模型进行发音的识别矫正，并生成待处理识别语音相对应的发音矫正语音；所述发音识别矫正模型是通过发音差别音频对进行训练，所述发音差别音频对是通过第一标注样本音频和第二标注样本音频获取；
82.以目标场景为粤语到简体中文识别为例，目标样本文本的语言种类为粤语，样本识别结果的语言种类可为中文，上述目标样本文本对应的第一标注音频可为粤语音频，样本识别结果对应的第二标注音频可为中文音频。
83.文本信息生成模块203：将发音矫正语音输入语音识别模型进行语音识别，生成相应的文本信息；所述语音识别模型包括采样层、语义分析层和语音识别层，采样层进行卷积和下采样处理，获取局部信息特征向量；再将得到的局部信息特征向量输入语义分析层进行处理，确定所述局部信息特征向量的上下文信息，并基于所述局部特征信息向量以及所述上下文信息生成语音序列特征向量；最后将所述语音序列特征向量输入所述语音识别模型的语音识别层进行处理，获取所述发音矫正语音对应的文本信息；
84.具体地，所述局部信息特征向量用于标识所述初始语音向量对应的局部特征。
85.所述语音序列特征向量用于标识所有所述局部特征的上下文关系。
86.语调信息生成模块204：将发音矫正语音分别输入语气变化识别模型和发音权重变化识别模型，生成语气变化向量和发音权重变化向量，将获取的语气变化向量和发音权重变化向量输入语调分类器，生成语调信息；所述语调分类器的训练：获得多个语音样本，每个语音样本对应一个预先标记的语调类型标签；将多个语音样本输入所述语气变化识别模型和发音权重变化识别模型，得到所述多个语音样本各自对应的语气变化向量、发音权重变化向量，并将对应同一语音样本的语调类型标签和语气变化向量、发音权重变化向量组成一个样本对；利用所述多个语音各自对应的样本对，对所述语调分类器进行训练。
87.具体地，语调信息生成模块中，将发音矫正语音分别输入语气变化识别模型和发音权重识别模型，生成语气变化向量和发音权重向量，具体包括：
88.所述语气变化识别模型包括第一编码层、第一中间层以及第一解码层；所述发音权重识别模型包括第二编码层、第二中间层和第二解码层，
89.将发音矫正语音输入所述第一编码层；
90.从所述第一编码层的预设语气表中提取所述语音中每个发音对应的语气向量，并输入所述第一中间层；
91.所述第一中间层对所述发音矫正语音中每个发音的语气向量进行信息融合，得到融合后的语气向量；
92.将所述融合后的语气向量输入所述第一解码层，输出语气变化向量；
93.将发音矫正语音输入所述第二编码层；
94.从所述第二编码层的预设发音权重表中提取所述语音中每个发音对应的发音权重向量，并输入所述第二中间层；
95.所述第一中间层对所述发音矫正语音中每个发音的发音权重向量进行信息融合，得到融合后的发音权重向量；
96.将所述融合后的发音权重向量输入所述第二解码层，输出发音权重变化向量。
97.具体地，所述语调分类器为贝叶斯文本分类器、支持向量机文本分类器或神经网络文本分类器。
98.文本内容生成模块205：根据文本信息和语调信息生成相应的待处理识别语音相对应的文本内容。
99.根据识别出的语调信息，即说话者的情感，转换为标点符号，例如句号，问号和感叹号等等，结合文本信息得到待处理识别语音相对应的完整的文本内容。
100.如图3，本发明再一实施例提供一种基于深度学习的语音识别电子设备，包括存储器310、处理器320及存储在存储器320上并可在处理器320上运行的计算机程序311，处理器320执行计算机程序311时，实现如如上所述的一种基于深度学习的高识别率的智能语音识别方法中的步骤。
101.如图4，本发明又一实施例提供了一种计算机可读存储介质400，其上存储有计算机程序411，该计算机程序411被处理器执行时实现如上所述的一种基于深度学习的高识别率的智能语音识别方法中的步骤。
102.本发明提供了一种基于深度学习的高识别率的智能语音识别方法，具体包括，获取待处理识别语音；将待处理识别语音输入发音识别矫正模型进行发音的识别矫正，并生成待处理识别语音相对应的发音矫正语音；所述发音识别矫正模型是通过发音差别音频对进行训练，所述发音差别音频对是通过第一标注样本音频和第二标注样本音频获取；将发音矫正语音输入语音识别模型进行语音识别，生成相应的文本信息；所述语音识别模型包括采样层、语义分析层和语音识别层，采样层进行卷积和下采样处理，获取局部信息特征向量；再将得到的局部信息特征向量输入语义分析层进行处理，确定所述局部信息特征向量的上下文信息，并基于所述局部特征信息向量以及所述上下文信息生成语音序列特征向量；最后将所述语音序列特征向量输入所述语音识别模型的语音识别层进行处理，获取所述发音矫正语音对应的文本信息；将发音矫正语音分别输入语气变化识别模型和发音权重变化识别模型，生成语气变化向量和发音权重变化向量，将获取的语气变化向量和发音权重变化向量输入语调分类器，生成语调信息；所述语调分类器的训练：获得多个语音样本，每个语音样本对应一个预先标记的语调类型标签；将多个语音样本输入所述语气变化识别模型和发音权重变化识别模型，得到所述多个语音样本各自对应的语气变化向量、发音权重变化向量，并将对应同一语音样本的语调类型标签和语气变化向量、发音权重变化向量组成一个样本对；利用所述多个语音各自对应的样本对，对所述语调分类器进行训练；根据文本信息和语调信息生成相应的待处理识别语音相对应的文本内容；本发明提出的方法通过识别语音中的语气变化和发音权重变化，分析出语音的语调类型，结合文字信息从而能够准确地识别出语音中表达的信息。
103.2)本发明将待处理识别语音输入发音识别矫正模型进行发音的识别矫正，且考虑不同地域的用户发音差别，首先进行发音的识别矫正，从而提高语音识别的准确性。
104.上述仅为本发明的具体实施方式，但本发明的设计构思并不局限于此，凡利用此构思对本发明进行非实质性的改动，均应属于侵犯本发明保护范围的行为。