语音识别模型的训练方法、装置、设备及存储介质与流程

1.本技术实施例涉及人工智能技术领域，尤其涉及一种语音识别模型的训练方法、装置、设备及存储介质。

背景技术：

2.随着科技的不断发展，语音识别技术日趋完善，使得智能语音交互被广泛应用于各个领域，例如智能家居唤醒、号码状态检测等。
3.相关技术中，可以通过语音识别模型进行检测来检测语音中的关键词，从而实现智能语音交互。然而，目前的语音识别模型中，在对语音识别模型中的声学模型进行训练时，需要将已标注的语音信号中的每一帧信号都进行标注，从而获得帧级别的对齐数据，再通过对齐数据对声学模型进行训练。因此，通过上述技术训练语音识别模型时，还需要单独训练对齐模型以得到帧级别的对齐数据，此过程相对繁琐。

技术实现要素：

4.本技术的实施例提供一种语音识别模型的训练方法、装置、设备及存储介质，以简化语音识别模型的训练过程，提高模型训练效率。
5.第一方面，本技术的实施例提供一种语音识别模型的训练方法，包括：
6.获取多个样本语音数据，样本语音数据为包含一种关键词的语音数据；
7.根据关键词对应的声学特征中信号帧进行建模，得到初始声学模型，每个声学特征包含多个信号帧；
8.利用多个样本语音数据对初始声学模型进行训练，得到目标声学模型；
9.根据目标声学模型构建语音识别模型，语音识别模型用于识别待识别语音数据中的目标关键词。
10.一些实施例中，根据关键词对应的声学特征中信号帧进行建模，得到初始声学模型，包括：
11.通过n状态hmm对关键词对应的声学特征中信号帧进行建模，得到目标声学模型，其中，n为大于等于5的整数。
12.一些实施例中，利用多个样本语音数据对初始声学模型进行训练，得到目标声学模型，包括：
13.利用多个样本语音数据对初始声学模型进行训练，得到每次训练的输出结果；
14.根据输出结果，获得当前声学模型的损失值；
15.根据损失值，确定是否对初始声学模型的模型参数进行更新；
16.若是，则对当前声学模型的模型参数更新；
17.若否，则确定当前的声学模型为目标声学模型。
18.一些实施例中，输出结果包括各关键词中每个信号帧对应的n个目标后验概率，其中，每个目标后验概率为信号帧对应每个状态的后验概率，根据输出结果，获得当前声学模
型的损失值，包括：
19.根据每个关键词对应的目标后验概率，确定第一概率，第一概率为根据目标后验概率获得的路径为正确路径的概率，正确路径中包含关键词；
20.根据各关键词对应的目标后验概率，确定第二概率，第二概率为各关键词对应的正确路径的概率之和；
21.根据第一概率和第二概率，确定当前声学模型的损失值。
22.一些实施例中，根据各关键词对应的目标后验概率，确定第一概率，包括：
23.将各关键词对应的目标后验概率输入到第一有限状态机中，获得第一有限状态机输出的第一概率；
24.根据各关键词对应的目标后验概率，确定第二概率，包括：
25.将各关键词对应的目标后验概率输入到第二有限状态机中，获得第二有限状态机输出的第二概率。
26.一些实施例中，根据损失值，确定是否对当前声学模型的模型参数进行更新，包括：
27.若损失值小于或等于预设值，和/或，相对于上次更新损失值未发生变化，则确定不对当前声学模型的模型参数进行更新；
28.若损失值大于预设值，和/或，相对于上次更新损失值发生变化，则确定对当前声学模型的模型参数进行更新。
29.一些实施例中，根据目标声学模型构建语音识别模型，包括：
30.将音素模型和语音模型进行融合，获得目标解码网络；根据目标声学模型和目标解码网络，构建语音识别模型。
31.一些实施例中，样本语音数据还包括：包含非关键词的语音数据，训练方法还包括：
32.根据关键词和非关键词对应的声学特征中的信号帧进行建模，得到初始声学模型。
33.第二方面，本技术实施例提供一种语音识别方法，包括：
34.获取待识别语音数据；
35.基于语音识别模型对待识别语音数据进行识别，获取待识别语音数据中包含的目标关键词，其中，语音识别模型中的目标声学模型是对初始声学模型进行训练得到的，初始声学模型是对关键词的声学特征中的信号帧进行建模得到的，每个声学特征包含多个信号帧。
36.一些实施例中，目标声学模型为n状态hmm，其中，n为大于等于5的整数。
37.一些实施例中，基于语音识别模型对待识别语音数据进行识别，获取待识别语音数据中包含的目标关键词，包括：
38.通过目标声学模型，获取待识别语音信号对应的多个信号帧；
39.通过目标声学模型，确定每个信号帧对应的n个目标后验概率，其中，每个目标后验概率为信号帧对应每个状态的后验概率；
40.根据待识别语音信号对应的目标后验概率，确定待识别语音数据中包含的目标关键词。
41.一些实施例中，语音识别模型还包括：解码网络，解码网络是将音素模型和语音模型进行融合得到的，根据待识别语音信号对应的目标后验概率，确定待识别语音数据中包含的目标关键词，包括：
42.将各信号帧和每个信号帧对应的n个目标后验概率输入到解码网络中，在解码网络中进行动态路径搜索，获取解码网络中多个路径的概率值；
43.确定概率值最大的路径为目标路径；确定目标路径中包含的关键词为目标关键词。
44.第三方面，本技术实施例提供一种语音识别方法，包括：获取待识别语音数据；
45.将待识别语音数据向量转化后输入语音识别模型中的目标声学模型，语音识别模型不包括对齐模型；
46.将目标声学模型输出的后验概率，输入语音识别模型中的目标解码网络，输出识别结果。
47.第四方面，本技术实施例提供一种号码状态检测方法，包括：
48.获取当前呼叫号码对应的状态描述语音；基于语音识别模型对状态描述语音进行识别，获取状态描述语音中的目标关键词，目标关键词用于指示当前呼叫号码的状态，其中，语音识别模型中的目标声学模型是对初始声学模型进行训练得到的，初始声学模型是对用于指示号码状态的关键词的声学特征中的信号帧进行建模得到的，每个声学特征包含多个信号帧。
49.第五方面，本技术实施例提供一种语音识别模型的训练装置，包括：
50.获取模块，用于获取多个样本语音数据，每个样本语音数据为包含一种关键词的语音数据；
51.处理模块，用于根据关键词对应的声学特征中的信号帧进行建模，得到初始声学模型，每个声学特征包含多个信号帧；
52.训练模块，用于利用多个样本语音数据对初始声学模型进行训练，得到目标声学模型；
53.处理模块还用于：根据目标声学模型构建语音识别模型，语音识别模型用于识别待识别语音数据中的目标关键词。
54.第六方面，本技术实施例提供一种语音识别装置，包括：
55.获取模块，用于获取待识别语音数据；
56.识别模块，用于基于语音识别模型对待识别语音数据进行识别，获取待识别语音数据中包含的目标关键词，其中，语音识别模型中的目标声学模型是对初始声学模型进行训练得到的，初始声学模型是对关键词的声学特征中的信号帧进行建模得到的，每个声学特征包含多个信号帧。
57.第七方面，本技术实施例提供一种语音识别装置，包括：
58.获取模块，用于获取待识别语音数据；
59.识别模块，用于将待识别语音数据向量转化后输入语音识别模型中的目标声学模型，语音识别模型不包括对齐模型；
60.解码模块，用于将目标声学模型输出的后验概率，输入语音识别模型的目标解码网络，最后输出识别结果。
61.第八方面，本技术实施例提供一种号码状态检测方法，包括：
62.获取模块，用于获取当前呼叫号码对应的状态描述语音；
63.识别模块，用于基于语音识别模型对状态描述语音进行识别，获取状态描述语音中的目标关键词，目标关键词用于指示当前呼叫号码的状态，其中，语音识别模型中的目标声学模型是对初始声学模型进行训练得到的，初始声学模型是对用于指示号码状态的关键词的声学特征中的信号帧进行建模得到的，每个声学特征包含多个信号帧。
64.第九方面，本技术实施例提供一种电子设备，包括：存储器和至少一个处理器，存储器用于存储程序指令，处理器用于调用存储器中的程序指令，执行如第一方面所述的语音识别模型的训练方法，和/或，如第二方面和第三方面所述的语音识别方法，和/或，如第四方面所述的号码状态检测方法。
65.第十方面，本技术实施例提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序；计算机程序被执行时，实现如第一方面所述的语音识别模型的训练方法，和/或，如第二方面和第三方面所述的语音识别方法，和/或，如第四方面所述的号码状态检测方法。
66.第十一方面，本技术实施例提供一种计算机程序产品，包括：计算机程序，该计算机程序被处理器执行时，实现如第一方面所述的语音识别模型的训练方法，和/或，如第二方面和第三方面所述的语音识别方法，和/或，如第四方面所述的号码状态检测方法。
67.本技术实施例提供一种语音识别模型的训练方法、装置、设备及存储介质，获取多个样本语音数据，样本语音数据为包含一种关键词的语音数据；根据关键词对应的声学特征中的信号帧进行建模，得到初始声学模型，每个声学特征包含多个信号帧；利用多个样本语音数据对初始声学模型进行训练，得到目标声学模型；根据目标声学模型构建语音识别模型，语音识别模型用于识别待识别语音数据中的目标关键词。本技术通过关键词对应的帧级别的声学特征来构建声学模型，无需对样本语音数据进行对齐处理，训练过程相对简单，可以提升训练效率，另外，在通过该语音识别模型识别关键词的过程中，也无需对待识别语音进行对齐处理，可以提升关键词识别效率。
附图说明
68.为了更清楚地说明本技术实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
69.图1为本技术实施例提供的语音识别模型的结构示意图；
70.图2为本技术实施例提供的语音识别模型的训练方法的流程示意图一；
71.图3为本技术实施例提供的语音识别模型的训练方法的流程示意图二；
72.图4a为本技术实施例提供的语音识别方法的场景示意图；
73.图4b为本技术实施例提供号码状态检测过程的原理示意图；
74.图5为本技术实施例提供的语音识别方法的流程示意图一；
75.图6为本技术实施例提供的语音识别方法的流程示意图二；
76.图7为本技术实施例提供的号码状态检测方法的流程示意图；
77.图8为本技术实施例提供的语音识别模型的训练装置的结构示意图；
78.图9为本技术实施例提供的语音识别装置的结构示意图；
79.图10为本技术实施例提供的号码状态检测装置的结构示意图；
80.图11为本技术实施例提供的电子设备的结构示意图。
具体实施方式
81.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
82.本技术实施例的说明书、权利要求书及上述附图中的术语“第一”和“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本技术的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
83.应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，a和/或b，可以表示：单独存在a，同时存在a和b，单独存在b这三种情况。“/”表示“或”的关系。
84.相关技术中，可以通过语音识别模型来检测语音中的关键词，从而实现智能语音交互，从而保障关键词识别的效率和准确性。接下来对语音识别模型的结构进行说明：
85.图1为本技术实施例提供的语音识别模型的结构示意图。如图1所示，语音识别模型包括声学模型和解码网络。
86.其中，声学模型主要采用隐马尔可夫模型(hidden markov model，hmm)进行建模，其中，hmm是统计模型，它用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数；然后利用这些参数来做进一步的分析。声学模型通过hmm描述每个单元音的发音过程，并按照每个单元音与发音字典中词的对应规则形成每个词的hmm序列；再将这些hmm序列按照词首尾相接的规则串接成连续的hmm串，构成解码网络的搜索空间。
87.应理解，对于解码网络的类型，本技术实施例不做限定，以加权有限状态转换器(weighted finaite
‑
state transducer，简称wfst)形式的解码网络为例，在解码网络中，包含有限个节点(即状态)，状态之间通过带箭头的方向线段表示转移，转移上的字符为输入标签，多个状态和转移组成路径。由初始状态进入，通过输入标签进行转移，到达下一个状态，在完成最后一个转移后到达的状态为终止状态，则路径为成功路径，否则便是失败路径。
88.在实际应用中，在通过语音识别模型进行语音识别时，首先将待识别的语音流输入到语音识别模型中的声学模型中，使得声学模型输出该待识别语音流中包含目标关键词的后验概率，再将后验概率输入到解码网络中，由解码网络根据后验概率在解码网络中进
行路径搜索，从而获得该待识别语音流对应的路径，并根据路径得出识别结果。
89.相关技术中，语音识别模型中的声学模型通常是基于关键词的音素进行hmm建模得到的，因此，在声学模型的训练过程中，需要将已标注的语音信号中关键词对应的每一帧数据都进行标注，从而获得帧级别的对齐数据，再通过该对齐数据对声学模型进行训练，才能得到目标声学模型。因此，在通过上述方法进行训练时，还需要通过关键词单独训练一个对齐模型，从而通过该对齐模型将获得帧级别的标注数据。
90.具体的，对齐模型由至少一个音素模型构成，在对齐模型的训练过程中，通常需要人工对不同的训练数据进行帧级别的标注，获得标注数据，再采用该标注数据对至少一个音素模型进行对齐训练，直到该对齐模型可以输出帧级别的标签数据，即训练结束，由于需要人工进行标注训练数据，此过程相对繁琐，且效率较低，进而会降低语音模型训练的效率。
91.另外，现有技术中，在对关键词的音素进行建模前，还需要准备关键词与音素对应的发音词典，从而根据发音词典获得关键词的音素，并构建关键词对应的音素发音序列，以实现对关键词音素的建模，此过程进一步增加了模型训练难度，降低模型训练效率。
92.基于上述问题，本技术提供一种语音识别模型的训练方法、装置、设备及存储介质，根据关键词对应的帧级别的声学特征进行建模，得到初始声学模型，再对初始声学模型进行迭代训练，从而得到目标声学模型。由于无需对样本语音数据进行对齐处理，训练过程相对简单，可以提升训练效率。
93.接下来，结合具体实施例对语音识别模型的训练方法进行详细说明：
94.图2为本技术实施例提供的语音识别模型的训练方法的流程示意图一。该训练方法可以由模型训练装置执行，该模型训练装置可以通过软件和/或硬件的方式实现，例如，可以是服务器或服务器中的芯片或电路。
95.如图2所示，本实施例提供的语音识别模型的训练方法包括：
96.s201、获取多个样本语音数据。
97.应理解，本技术实施例提供的语音识别模型可以用于多种场景的语音识别，例如是，app音频审核、设备唤醒、智能语音对话和号码状态检测等场景，且不同场景的语音识别模型对应的关键词不同，相同场景的语音识别模型包含对应场景的关键词，每种场景的样本语音数据的关键词为一种关键词，关键词就是能够最大程度概括对应场景的信息内容。以号码状态检测场景为例，关键词为用于描述号码状态的词，例如是，“关机”、“停机”、“通话中”、“空号”，相应的，每个样本语音数据为包含其中一种关键词的音频数据，每个关键词可以对应于多个样本语音数据。
98.s202、根据关键词对应的声学特征中的信号帧进行建模，得到初始声学模型。
99.在获取到关键词对应的样本语音数据之后，首先提取样本语音数据中关键词对应的音频段，例如，若样本语音数据为“您拨打的号码已关机”的音频数据，则获取该语音数据中“关机”所对应的音频段。
100.进一步的，根据声学模型的建模粒度，提取该关键词对应的音频段的声学特征，其中，每个声学特征包括多个信号帧。应理解，对于提取声学特征的方式，本技术实施例不做限定，例如，可以采用以下至少一种算法提取声学特征：梅尔频率倒谱系数(mel frequency cepstrum coefficient，mfcc)、线性预测系数(linear prediction coefficient，lpc)、线
性预测倒谱系数(linear prediction cepstral coefficients lpcc)和线谱对(linear spectrum pair，lsp)等等，在此不一一列举。
101.在实际应用中，对于初始声学模型的类型，本技术实施例不做限定，例如本实施例中，可以采用hmm对声学特征中的信号帧进行建模。对于建模粒度，本技术实施例也不做限定，例如，可以通过n状态的hmm根据声学特征中的信号帧进行建模，其中，n可以为大于等于5的整数。
102.示例性的，以通过5状态的hmm根据声学特征中的信号帧进行建模为例，在本步骤中，将每个样本语音数据中的关键词对应的音频段均分为5等份的音频段，再获取每个音频段对应的声学特征中的信号帧，即每个关键词包含5个声学特征，每个声学特征包含多个信号帧。
103.进一步的，将每个声学特征都转换为状态表示，从而构建初始声学模型。其中，每个关键词均对应于5个状态：状态1、状态2、状态3、状态4和状态5。
104.示例性的，以样本语音数据为“您拨打的用户已关机”，关键词为“关机”为例，获取该语音数据中“关机”对应的音频，将该音频按照帧序列均分为5个音频段，并获取每个音频段对应的声学特征，例如“声学特征1”、“声学特征2”、“声学特征3”、“声学特征4”、“声学特征5”，上述每个声学特征都包含相同数量的帧信号。例如，若“关机”这一关键词为100帧的音频，则该关键词的每个声学特征均包含20个信号帧。
105.s203、利用多个样本语音数据对初始声学模型进行训练，得到目标声学模型。
106.本步骤中，将多个样本语音数据输入到初始声学模型中，进行迭代训练，每次迭代训练过程中，输出当前声学模型对应的损失值，当损失值满足预设要求时，训练结束，确定当前声学模型为目标声学模型，至于具体训练过程，在后续实施例中示出。
107.s204、根据目标声学模型构建语音识别模型。
108.具体的，可以将目标声学模型和解码网络进行结合，获得语音识别模型，在识别过程中，由目标声学模型输出待识别语音信号中每个信号帧对应的n个目标后验概率，由解码网络根据目标后验概率进行动态规划搜索路径，确定待识别语音信号对应的路径，并根据路径确定目标关键词。
109.本技术实施例中，获取多个样本语音数据，样本语音数据为包含一种关键词的语音数据；根据关键词对应的声学特征中的信号帧进行建模，得到初始声学模型，每个声学特征包含多个信号帧；利用多个样本语音数据对初始声学模型进行训练，得到目标声学模型；根据目标声学模型构建语音识别模型，语音识别模型用于识别待识别语音数据中的目标关键词。本技术通过关键词对应的帧级别的声学特征来构建声学模型，无需对样本语音数据进行对齐处理，训练过程相对简单，可以提升训练效率，并且，在通过该语音识别模型识别关键词的过程中，同样无需对待识别语音进行对齐处理，从而可以提升关键词识别效率。
110.另外，本实施例中提供的声学模型是基于关键词的帧级别声学特征进行训练的，相比现有技术中基于关键词音素进行训练的方案，本实施例的方案无需构建关键词对应的音素发音序列，也无需准备音素级别的发音词典，即可实现模型训练，可以进一步简化模型训练过程，同时提升模型训练效率。
111.图3为本技术实施例提供的语音识别模型的训练方法的流程示意图二。在上述实施例的基础上，本技术实施例对上述训练过程进行更详细的说明，如图3所示，本实施例中
的语音识别模型的训练方法具体包括如下步骤：
112.s301、获取多个样本语音数据。
113.其中，样本语音数据为包含一种关键词的语音数据以及包含非关键词的语音数据。
114.s302、根据关键词和非关键词对应的声学特征进行建模，得到初始声学模型。
115.需要说明的是，对于非关键词对应的声学特征进行建模的方式，与图2所示实施例中的步骤s202类似，此处不再赘述。
116.在本技术实施例中，考虑到在语音识别过程中，是根据语音识别模型输出的概率值来确定待识别语音中的关键词，因此，即使待识别语音中不包含任何关键词，通过语音识别模型，也能输出一个概率值，最终确定该概率值对应的关键词为目标关键词，使得最终的识别结果并不准确。
117.有鉴于此，在建模过程中，通过非关键词进行建模，从而使得声学模型具备非关键词识别功能，即待识别语音信号中不包含任何关键词时，也可以准确的识别当前语音信号不包含关键词的情况，通过本方案，可以进一步提升语音识别模型的准确性。
118.s303、利用多个样本语音数据对初始声学模型进行训练，得到每次训练的输出结果。
119.s304、根据输出结果，获得当前声学模型的损失值。
120.其中，输出结果包括各关键词中每个信号帧对应的n个目标后验概率，其中，每个目标后验概率为信号帧对应每个状态的后验概率。
121.一些实施例中，步骤s304具体包括如下步骤：
122.s3041、根据各关键词对应的目标后验概率，确定第一概率。
123.具体的，将每个关键词中每个信号帧的n个目标后验概率均输入到第一有限状态机中，获得第一有限状态机输出的第一概率。其中，第一概率为根据每个信号帧的n个目标后验概率获得的路径为正确路径的概率，该正确路径中包含关键词。
124.示例性的，以关键词为“关机”包含100个信号帧为例，在每次迭代训练中，分别确定100个信号帧中每一个信号帧为“状态1”、“状态2”、“状态3
”…“
状态n”的概率，也就是说，每个信号帧对应于n个后验概率，关键词“关机”对应于100*n个后验概率。
125.进一步的，将该关键词中100个信号帧对应的100*n个目标后验概率输入到第一有限状态机中，通过第一状态机进行动态路径搜索，获得多个路径中概率最大的路径，并确定该路径中包含“关机”这一关键词的概率为第一概率。
126.其中，有限状态机(finite state machine，fsm)在任意时刻都处于有限状态集合中的某一状态，当其获得一个输入字符时，将从当前状态转换到另一个状态，或者仍然保持在当前状态。
127.s3042、根据各关键词对应的目标后验概率，确定第二概率。
128.类似的，将各个关键词对应的目标状态后验概率输入到第二有限状态机中，获得第二有限状态机输出的第二概率。其中，第二概率为各关键词对应的正确路径的概率之和。
129.仍以上为例，分别将“关机”、“停机”、“空号”以及非关键词中每个关键词(或非关键词)中多个信号帧的n个目标后验概率输入到第二有限状态机中，分别获得“关机”、“停机”、“空号”以及非关键词对应的概率，其中，“关机”对应的概率用于表示根据每个信号帧
的n个目标后验概率获得的路径中包含“关机”这一关键词的概率；“停机”对应的概率用于表示根据每个信号帧的n个目标后验概率获得的路径中包含“停机”这一关键词的概率，至于其他关键词以及非关键词的概率确定方法，可参考上述，此处不做赘述。
130.进一步的，确定所有关键词和非关键词的对应的概率之和为第二概率。
131.s3043、根据第一概率和第二概率，确定当前声学模型的损失值。
132.具体的，确定第一概率与第二概率的比值为当前声学模型的损失值。
133.另一些实施例中，还可以通过损失函数来获取步骤s304中的损失值。其中，损失函数可以为lf
‑
mmi函数。
134.具体的，根据lf
‑
mmi函数计算损失值时，具体计算公式如下：
[0135][0136]
其中，f
lf
‑
mmi
当前声学模型的损失值，l为关键词序列，o为输入声学模型的声学特征序列，n为关键词或非关键词的序号。
[0137]
本实施例中，通过序列级别的损失函数lf
‑
mmi来训练声学模型，可以进一步提升声学模型的训练效率。
[0138]
s305、根据损失值，确定是否对当前声学模型的模型参数进行更新。
[0139]
实际应用中。上述步骤s305具体包括如下两种情况：
[0140]
(1)若损失值小于或等于预设值，和/或，损失值相对于上次更新损失值未发生变化，则确定不对当前声学模型的模型参数进行更新。
[0141]
(2)若损失值大于预设值，和/或，损失值相对于上次更新损失值发生变化，则确定对当前声学模型的模型参数进行更新。
[0142]
s306、若是，则对当前声学模型的模型参数更新。
[0143]
需要说明的是，对于更新模型参数的方法，本技术实施例不做具体限定，例如，可以通过反向传播调整声学模型的权重，从而实现声学模型的模型参数更新。
[0144]
s307、若否，则确定当前声学模型为目标声学模型。
[0145]
s308、将音素模型和语音模型进行融合，获得目标解码网络，得到音素模型和语音模型的方法可以通过现有技术的方式得到，在此不再赘述。
[0146]
s309、根据目标声学模型和目标解码网络，构建语音识别模型。
[0147]
本技术通过关键词对应的帧级别的声学特征来构建声学模型，无需对样本语音数据进行对齐处理，训练过程相对简单，可以提升声学模型的训练效率，另外，在训练声学模型的过程中，通过序列级别的损失函数lf
‑
mmi函数来训练声学模型，可以进一步提升声学模型的训练效率。
[0148]
本技术实施例还提供一种语音识别方法，用于通过上述实施例中的语音识别模型来识别语音信号中的关键词，下面结合具体实施例对本技术实施例提供的语音识别过程进行详细说明：
[0149]
在实际应用中，本技术实施例提供的方案可以应用于多种类型的关键词识别场景，例如是，app音频审核、设备唤醒、智能语音对话和号码状态检测等。接下来，以号码状态检测的场景对语音识别方法的应用场景进行示例说明，但不以此为限定。
[0150]
图4a为本技术实施例提供的语音识别方法的场景示意图。如图4a所示，本实施例提供的场景中包括：服务器和呼叫中心。
[0151]
其中，在服务器中存储有根据上述实施例中提供的训练方法的语音识别模型，服务器用于通过该语音识别模型为呼叫中心提供号码状态检测服务。
[0152]
在实际应用中，呼叫中心用于呼叫终端设备，接收终端设备返回的应答语音信号，并将应答语音信号作为待识别语音信号携带在号码状态检测请求中发送给服务器，用于请求服务器对该待识别语音信号进行语音识别。
[0153]
相应的，服务器接收到待识别语音信号后，根据语音识别模型对该待识别语音信号进行识别，向呼叫中心输出识别到的待识别语音信号中包含的关键词。
[0154]
可选的，服务器可以将识别到的关键词发送给呼叫中心。
[0155]
应理解，图4a仅是本技术实施例提供的一种应用场景的示意图，本技术实施例不对图4a中包括的设备种类及设备个数进行限定，例如，在图4a所示的应用场景中，还可以包括数据存储设备，该数据存储设备相对服务器可以是外部存储器，也可以是集成在服务器中的内部存储器。另外，服务器可以是独立的服务器，或者，也可以是服务集群等。
[0156]
图4b为本技术实施例提供号码状态检测过程的原理示意图。如图4b所示，呼叫中心在接收到终端设备返回的应答语音信号后，将携带应答语音信号携带在号码状态检测请求中，并发送至能够提供号码状态检测服务的服务器。
[0157]
进一步的，服务器通过训练好的声学模型获取该应答语音信号的对应的后验概率，通过后验概率在解码网络中获取该应答语音信号对应的路径，并获得该路径对应的关键词。
[0158]
更进一步的，服务器将解码网络输出的关键词作为识别结果发送至呼叫中心。
[0159]
下面将结合附图，以具体地实施例对本技术实施例的技术方案以及本技术的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。
[0160]
图5为本技术实施例提供的语音识别方法的流程示意图一。应理解，该训练方法可以由上述服务器来执行，如图5所示，本实施例提供的语音识别方法包括如下步骤：
[0161]
s501、获取待识别语音数据。
[0162]
在实际应用中，不同场景的语音识别过程对应的待识别语音数据也不同，例如，对于设备唤醒场景，待识别语音数据可以为用户发出的唤醒语音，例如是，“打开空调/播放音乐”等；对于号码状态检测场景，待识别语音数据可以为终端设备返回的当前呼叫号码的状态描述语音，例如是，“您拨打的用户已关机/停机”等。
[0163]
s502、基于语音识别模型对待识别语音数据进行识别，获取待识别语音数据中包含的目标关键词。
[0164]
其中，语音识别模型中的目标声学模型是对初始声学模型进行训练得到的，初始声学模型是根据关键词的声学特征进行建模得到的，每个声学特征包含多个信号帧。
[0165]
应理解，语音识别模型的训练过程在上述实施例中示出，具体可参考上述实施例，此处不再赘述，至于具体的识别方法，在后续实施例中示出。
[0166]
本技术实施例提供的语音识别方法，获取待识别语音数据；基于语音识别模型对待识别语音数据进行识别，获取待识别语音数据中包含的目标关键词。由于语音识别模型
中的目标声学模型是对初始声学模型进行训练得到的，初始声学模型是对关键词的帧级别的声学特征进行建模得到的，在通过该语音识别模型识别关键词的过程中，无需对待识别语音进行对齐处理，可以提升关键词识别效率。
[0167]
图6为本技术实施例提供的语音识别方法的流程示意图二。在上述实施例的基础上，本技术实施例对上述识别过程进行更详细的说明，如图6所示，本实施例提供的语音识别方法具体包括如下步骤：
[0168]
s601、获取待识别语音数据。
[0169]
s602、通过目标声学模型，获取待识别语音信号对应的多个信号帧。
[0170]
一些实施例中，目标声学模型为n状态hmm，对于n的取值，本技术实施例不做限定，例如，n可以为大于等于5的任意整数。应理解，后续实施例中n的取值以为5为例示出，但不以此为限定。
[0171]
具体的，对待识别语音数据进行特征提取，将特征提取后的声学特征输入语音识别模型中的目标声学模型，语音识别模型不包括对齐模型；目标声学模型会将待识别语音数据的语音特征向量划分为多个信号帧，示例性的，若输入的待识别语音为100帧的音频，则将该待识别语音划分为100个信号帧。
[0172]
s603、通过目标声学模型，确定每个信号帧对应的n个目标后验概率。
[0173]
其中，每个目标后验概率为信号帧对应每个状态的后验概率。具体的，对于每个信号帧，确定该信号帧为状态1的第一后验概率、该信号帧为状态2的第二后验概率
…
该信号帧为状态5的第五后验概率。
[0174]
应理解，通过hmm模型确定后验概率的具体方案可参考现有技术，此处不做赘述。
[0175]
s604、根据待识别语音信号对应的目标后验概率，确定待识别语音数据中包含的目标关键词。
[0176]
一些实施例中，语音识别模型还包括：解码网络，解码网络是将音素模型和语音模型进行融合得到的，至于获得解码网络的具体构建方案，请参考图3所示的实施例，此处不再赘述。
[0177]
下面结合步骤s6041～s6043对上述步骤s604进行详细说明：
[0178]
s6041、将各信号帧和每个信号帧对应的n个目标后验概率输入到解码网络中，在解码网络中进行动态路径搜索，获取解码网络中多个路径的概率值。
[0179]
需要说明的是，通过解码网络进行动态搜索的方案，可参考现有技术，此处不做赘述。
[0180]
s6042、确定概率值最大的路径为目标路径。
[0181]
s6043、确定目标路径中包含的关键词为目标关键词。
[0182]
一些实施例中，在声学模型的建模过程或声学模型的训练过程中，若未通过非关键词进行建模或训练，则该语音识别模型不具备非关键词识别能力，此时，即使待识别语音数据中不包含任何关键词，该解码网络也会输出一个概率最大的路径，而在实际情况中，待识别语音数据中可能并不包含该路径对应的关键词。
[0183]
有鉴于此，本技术实施例中，当语音识别模型具备非关键词识别能力时，可以通过步骤s6042～s6043的步骤获取目标关键词，当语音识别模型不具备非关键词识别能力时，在获得概率值最大的路径后，还需要对路径是否正确进行判断，即若满足预设条件则确定
该路径为目标路径，若不满足预设条件，则确定该路径不是目标路径，对于具体的预设条件以及判断方式，本技术实施例不做具体限定。
[0184]
可选的，可以根据该路径的概率值大小，来确定该路径是否为目标路径，示例性的，若该路径的概率值小于阈值概率，则说明该待识别语音数据中的关键词为该路径包含的关键词的概率较小，则确定该路径不是目标路径；相应的，若该路径的概率值小大于阈值概率，则说明该待识别语音数据中的关键词为该路径包含的关键词的概率较大，则确定该路径是目标路径。
[0185]
相应的，在确定目标关键词时，若确定该路径不是目标路径，则确定该待识别语音数据中不包含任何关键词。
[0186]
可选的，在确定待识别语音数据中不包含任何关键词后，同步输出该识别结果。
[0187]
本技术实施例中，通过概率最大的路径对应的概率值大小，确定待识别语音数据中是否包含关键词，在语音识别模型不具备非关键词识别功能时，也可以准确的输出关键词识别结果，通过本方案，不要求在建模或训练过程中对非关键词进行建模或训练，可以在简化建模/训练过程、提升建模/训练效率的同时，保证语音识别模型的识别结果的准确性。
[0188]
随着通信行业的发展，号码状态检测已被广泛应用于各种场景，例如，电话营销、运营商的客户维护等等，通过号码状态检测，可以预先检测外呼号码的状态，从而实现号码清洗、空号过滤、号码筛选、号段查询、活跃号提取和风险号检测等场景，进而提高呼叫的有效性。因此，如何提升号码状态检测的准确性和号码状态检测效率是如今亟待解决的问题。
[0189]
本技术实施例还提供一种号码状态检测方法，用于提升号码状态检测的准确性和号码状态检测效率。
[0190]
图7为本技术实施例提供的号码状态检测方法的流程示意图。应理解，该训练方法可以由上述服务器来执行，如图7所示，本实施例提供的号码状态检测方法包括如下步骤：
[0191]
s701、获取当前呼叫号码对应的状态描述语音。
[0192]
s702、基于语音识别模型对状态描述语音进行识别，获取状态描述语音中的目标关键词。
[0193]
其中，语音识别模型中的目标声学模型是对初始声学模型进行训练得到的，初始声学模型是对用于指示号码状态的关键词的声学特征进行建模得到的，每个声学特征包含多个信号帧。
[0194]
示例性的，若当前呼叫号码对应的状态描述语音为“您拨打的用户已关机/停机”，则目标关键词为“关机/停机”。
[0195]
需要说明的是，初始声学模型的构建方法以及语音识别模型的训练方法请参考上述实施例，此处不做赘述。
[0196]
本实施例中，通过语音识别模型对当前号码对应的状态描述语音进行识别，可以更准确、更高效的检测出当前呼叫号码的状态。
[0197]
图8为本技术实施例提供的语音识别模型的训练装置的结构示意图。该训练装置可以通过软件和/或硬件的方式实现。实际应用中，该训练装置可以集成在如前的服务器中。
[0198]
如图8所示，训练装置800包括：获取模块801、处理模块802和训练模块803。
[0199]
其中，获取模块801，用于获取多个样本语音数据，每个样本语音数据为包含一种
关键词的语音数据；
[0200]
处理模块802，用于根据关键词对应的声学特征中的信号帧进行建模，得到初始声学模型，每个声学特征包含多个信号帧；
[0201]
训练模块803，用于利用多个样本语音数据对初始声学模型进行训练，得到目标声学模型；
[0202]
处理模块802还用于：根据目标声学模型构建语音识别模型，语音识别模型用于识别待识别语音数据中的目标关键词。
[0203]
一些实施例中，处理模块802具体用于：通过n状态hmm对关键词对应的声学特征中的信号帧进行建模，得到目标声学模型，其中，n为大于等于5的整数。
[0204]
一些实施例中，训练模块803具体用于：利用多个样本语音数据对初始声学模型进行训练，得到每次训练的输出结果；
[0205]
根据输出结果，获得当前声学模型的损失值；
[0206]
根据损失值，确定是否对初始声学模型的模型参数进行更新；
[0207]
若是，则对初始声学模型的模型参数更新；
[0208]
若否，则确定当前的声学模型为目标声学模型。
[0209]
一些实施例中，输出结果包括各关键词中每个信号帧对应的n个目标后验概率，其中，每个目标后验概率为信号帧对应每个状态的后验概率，训练模块803具体用于：
[0210]
根据每个关键词对应的目标后验概率，确定第一概率，第一概率为根据目标后验概率获得的路径为正确路径的概率，正确路径中包含关键词；
[0211]
根据各关键词对应的目标后验概率，确定第二概率，第二概率为各关键词对应的正确路径的概率之和；
[0212]
根据第一概率和第二概率，确定当前声学模型的损失值。
[0213]
一些实施例中，训练模块803具体用于：将各关键词对应的目标后验概率输入到第一有限状态机中，获得第一有限状态机输出的第一概率；
[0214]
根据各关键词对应的目标后验概率，确定第二概率，包括：
[0215]
将各关键词对应的目标后验概率输入到第二有限状态机中，获得第二有限状态机输出的第二概率。
[0216]
一些实施例中，训练模块803具体用于：若损失值小于或等于预设值，和/或，相对于上次更新损失值未发生变化，则确定不对当前声学模型的模型参数进行更新；若损失值大于预设值，和/或，相对于上次更新损失值发生变化，则确定对当前声学模型的模型参数进行更新。
[0217]
一些实施例中，处理模块802具体用于：将音素模型和语音模型进行融合，获得目标解码网络；根据目标声学模型和目标解码网络，构建语音识别模型。
[0218]
一些实施例中，样本语音数据还包括：包含非关键词的语音数据，：处理模块802具体用于：根据关键词和非关键词对应的声学特征进行建模，得到初始声学模型。
[0219]
应理解，本技术实施例提供的训练装置800可应用于上述语音识别模型训练方法所示实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。
[0220]
图9为本技术实施例提供的语音识别装置的结构示意图。该语音识别装置可以通过软件和/或硬件的方式实现。实际应用中，该语音识别装置可以集成在如前的服务器中。
[0221]
如图9所示，语音识别装置900包括：获取模块901和识别模块902，其中，获取模块901，用于获取待识别语音数据；
[0222]
识别模块902，用于基于语音识别模型对待识别语音数据进行识别，获取待识别语音数据中包含的目标关键词，其中，语音识别模型中的目标声学模型是对初始声学模型进行训练得到的，初始声学模型是对关键词的声学特征进行建模得到的，每个声学特征包含多个信号帧。
[0223]
一些实施例中，目标声学模型为n状态hmm，其中，n为大于等于5的整数。
[0224]
一些实施例中，识别模块902具体用于：通过目标声学模型，获取待识别语音信号对应的多个信号帧；通过目标声学模型，确定每个信号帧对应的n个目标后验概率，其中，每个目标后验概率为信号帧对应每个状态的后验概率；根据待识别语音信号对应的目标后验概率，确定待识别语音数据中包含的目标关键词。
[0225]
一些实施例中，语音识别模型还包括：解码网络，解码网络是将音素模型和语音模型进行融合得到的，
[0226]
识别模块902具体用于：将各信号帧和每个信号帧对应的n个目标后验概率输入到解码网络中，在解码网络中进行动态路径搜索，获取解码网络中多个路径的概率值；确定概率值最大的路径为目标路径；确定目标路径中包含的关键词为目标关键词。
[0227]
一些实施例中，识别模块902包括识别单元和解码单元(图中均未示出)，其中，识别单元，用于对待识别语音数据进行特征提取，将特征提取后的声学特征输入语音识别模型中的目标声学模型，语音识别模型不包括对齐模型；
[0228]
解码单元，用于将目标声学模型输出的后验概率输入语音识别模型的目标解码网络，最后输出识别结果。
[0229]
应理解，本技术实施例提供的语音识别装置900可应用于上述语音识别方法所示实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。
[0230]
图10为本技术实施例提供的号码状态检测装置的结构示意图。该号码状态检测装置可以通过软件和/或硬件的方式实现。实际应用中，该号码状态检测装置可以集成在如前的服务器中。如图10所示，语音识别装置1000包括：获取模块1001和识别模块1002。
[0231]
其中，获取模块1001，用于获取当前呼叫号码对应的状态描述语音；
[0232]
识别模块902，用于基于语音识别模型对状态描述语音进行识别，获取状态描述语音中的目标关键词，目标关键词用于指示当前呼叫号码的状态，其中，语音识别模型中的目标声学模型是对初始声学模型进行训练得到的，初始声学模型是对用于指示号码状态的关键词的声学特征进行建模得到的，每个声学特征包含多个信号帧。
[0233]
应理解，本技术实施例提供的号码状态检测装置1000可应用于上述号码状态检测方法所示实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。
[0234]
图11为本技术实施例提供的电子设备的结构示意图。如图10所示，电子设备1100包括：处理器1101、存储器1102、通信接口1103和系统总线1104。
[0235]
其中，存储器1102和通信接口1103通过系统总线1104与处理器1101连接并完成相互间的通信，存储器1102用于存储程序指令，通信接口1103用于和其他设备进行通信，处理器1101用于调用存储器中的程序指令以执行如上述方法实施例的语音识别模型训练过程的方案，和/或，执行如上述方法实施例的语音识别过程的方案。
[0236]
具体地，处理器1101可以包括一个或多个处理单元，例如：处理器1101可以是中央处理单元(central processing unit，简称cpu)，也可以是数字信号处理器(digital signal processor，简称dsp)、专用集成电路(application specific integrated circuit，简称asic)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合申请所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。
[0237]
存储器1102可以用于存储程序指令。存储器1102可以包括存储程序区和存储数据区。其中，存储程序区可存储操作系统，至少一个功能所需的应用程序(比如声音播放功能等)等。存储数据区可存储电子设备1100使用过程中所创建的数据(比如音频数据等)等。此外，存储器1102可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件，闪存器件，通用闪存存储器(universal flash storage，简称ufs)等。处理器1101通过运行存储在存储器1102的程序指令，执行电子设备1100的各种功能应用以及数据处理。
[0238]
通信接口1103可以提供应用在电子设备1100上的包括2g/3g/4g/110g等无线通信的解决方案。通信接口1103可以由天线接收电磁波，并对接收的电磁波进行滤波，放大等处理，传送至调制解调处理器进行解调。通信接口1103还可以对经调制解调处理器调制后的信号放大，经天线转为电磁波辐射出去。在一些实施例中，通信接口1103的至少部分功能模块可以被设置于处理器1101中。在一些实施例中，通信接口1103的至少部分功能模块可以与处理器1101的至少部分模块被设置在同一个器件中。
[0239]
系统总线1104可以是外设部件互连标准(peripheral component interconnect，简称pci)总线或扩展工业标准结构(extended industry standard architecture，简称eisa)总线等。该系统总线1104可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。
[0240]
需说明的是，对于存储器1102及处理器1101的个数，本技术实施例不对其进行限制，其均可以为一个或多个，图11以一个为例进行图示；存储器1102、及处理器1101之间，可以通过多种方式进行有线或者无线连接，例如通过总线连接。实际应用中，该电子设备1100可以是各种形式的计算机或移动终端。其中，计算机例如为膝上型计算机、台式计算机、工作台、服务器、刀片式服务器、大型计算机等；移动终端例如为个人数字处理、蜂窝电话、智能电话、可穿戴设备以及其它类似的计算装置。
[0241]
本实施例的电子设备，可以用于执行上述方法实施例中的技术方案，其实现原理和技术效果类似，此处不再赘述。
[0242]
本技术实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有程序指令，该程序指令被执行时，实现如上述任一实施例的语音识别模型的训练方法，和/或，语音识别方法，和/或，号码状态检测方法。
[0243]
本技术实施例还提供一种计算机程序产品，包括：计算机程序，该计算机程序被处理器执行时，实现如上述任一项方法实施例中的语音识别模型的训练方法，和/或，语音识别方法，和/或，号码状态检测方法。
[0244]
在上述的实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，模块的划分，仅仅为一种逻辑功
能划分，实际实现时可以有另外的划分方式，例如多个模块可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。
[0245]
另外，在本技术各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个单元中。上述模块成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。
[0246]
上述以软件功能模块的形式实现的集成的模块，可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本技术各个实施例方法的部分步骤。
[0247]
上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(sram)、电可擦除可编程只读存储器(eeprom)、可擦除可编程只读存储器(eprom)、可编程只读存储器(prom)、只读存储器(rom)、磁存储器、快闪存储器、磁盘或光盘等。存储介质可以是通用或专用计算机能够存取的任何可用介质。
[0248]
本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。