1.本技术语音识别技术领域,尤其涉及一种发音词典构建方法、语音识别方法、装置、设备及存储介质。
背景技术:2.目前主流商用语音识别系统依然是基于声学模型和语言模型联合解码的框架,其中声学模型主要负责语音特征到音素的映射,语言模型结合发音词典将音素串转变为对应的文字串。
3.在发音词典中,记录了由音素构成的发音与文本之间的对应关系。当声学模型识别得到的音素串的发音与发音词典中的某一发音相匹配时,可以根据发音词典中的该发音与文本之间的对应关系,确定该音素串对应的文本,即实现音素向文本的转换。
4.现有的语音识别方案的容错性较差,具体表现在,只有与发音词典中的发音严格匹配的音素串,才会被识别为与发音词典中的发音对应的文本,这样虽然能够保证语音识别的绝对精度,但是却降低了语音识别的鲁棒性,不利于语音识别效果提升。
技术实现要素:5.基于上述技术现状,本技术提出一种发音词典构建方法、语音识别方法、装置、设备及存储介质,能够提高语音识别的容错性和鲁棒性,提升语音识别效果。
6.一种发音词典构建方法,包括:
7.对目标音频数据进行音素提取,得到对应的音素集合;所述目标音频数据为覆盖全部音素的音频数据;
8.根据提取得到的音素集合中的每个音素的识别概率,以及所述目标音频数据对应的音素标签,从所述音素集合中确定出所述音素标签中的音素的相似音素;其中,音素标签中的音素的相似音素,是指从所述音素集合中选出的与音素标签中的音素对应的、识别概率最高的设定数量的音素;
9.按照单词与该单词对应的标准发音和相似发音对应存储的规则,构建得到多发音词典;其中,所述相似发音由所述音素标签中的音素的相似音素构成。
10.可选的,按照单词与该单词对应的标准发音和相似发音对应存储的规则,构建得到多发音词典,包括:
11.确定与发音词典中的单词对应的标准发音,以及,根据所述音素标签中的音素的相似音素,确定与发音词典中的单词对应的相似发音;
12.通过将单词与该单词对应的标准发音和相似发音对应存储,得到多发音词典。
13.可选的,确定与发音词典中的单词对应的标准发音,以及,根据所述音素标签中的音素的相似音素,确定与发音词典中的单词对应的相似发音,包括:
14.分别确定与发音词典中的高频易错词对应的标准发音,以及,根据所述音素标签中的音素的相似音素,分别确定与发音词典中的高频易错词对应的相似发音;
15.通过将单词与该单词对应的标准发音和相似发音对应存储,得到多发音词典,包括:
16.通过将发音词典中的高频易错词与该高频易错词对应的标准发音和相似发音对应存储,得到多发音词典。
17.可选的,通过将发音词典中的高频易错词与该高频易错词对应的标准发音和相似发音对应存储,得到多发音词典,包括:
18.根据发音词典中的高频易错词对应的相似发音,以及所述音素集合中的每个音素的识别概率,计算得到高频易错词对应的相似发音的得分;
19.根据高频易错词对应的相似发音的得分,从各个高频易错词对应的相似发音中选出得分高于设定的得分阈值的相似发音,作为目标相似发音;
20.将发音词典中的高频易错词与该高频易错词对应的标准发音和目标相似发音对应存储,得到多发音词典。
21.可选的,所述对目标音频数据进行音素提取,得到对应的音素集合,包括:
22.将目标音频数据输入预先训练的声学模型进行音素提取,得到与目标音频数据对应的音素集合。
23.一种语音识别方法,包括:
24.获取待识别语音的音素序列;
25.根据所述待识别语音的音素序列,以及预先构建的多发音词典,确定对所述待识别语音的语音识别结果;
26.其中,所述多发音词典中的单词与该单词对应的标准发音和相似发音对应存储;单词对应的相似发音由目标音频数据对应的音素标签中的音素的相似音素构建得到;所述目标音频数据包含该单词对应的音频数据。
27.可选的,所述多发音词典按照上述的发音词典构建方法构建得到。
28.可选的,所述获取待识别语音的音素序列,包括:
29.将待识别语音输入预先训练的声学模型进行音素提取,得到该待识别语音的音素序列。
30.可选的,所述声学模型按照如下方式训练得到:
31.将训练语音的音频特征输入声学模型,得到所述训练语音的音素信息;
32.将所述训练语音的音素信息,以及根据所述训练语音的音频特征提取得到的非语义信息,输入音频合成模型,得到音频合成结果;
33.根据所述声学模型的语音识别损失,以及所述音频合成模型的音频合成损失,对所述声学模型进行参数校正。
34.可选的,将所述训练语音的音素信息,以及根据所述训练语音的音频特征提取得到的非语义信息,输入音频合成模型,得到音频合成结果,包括:
35.将所述训练语音的音素信息,以及所述训练语音的音频特征进行相同尺度的下采样;
36.根据下采样后的所述训练语音的音频特征,提取得到所述训练语音的非语义信息;
37.对下采样后的音素信息和所述非语义信息进行融合,得到音频合成基础信息;
38.将所述音频合成基础信息输入音频合成模型,得到音频合成结果。
39.可选的,所述声学模型的语音识别损失通过交叉熵损失函数确定,所述音频合成模型的音频合成损失通过均方差损失函数确定。
40.一种发音词典构建装置,包括:
41.音素提取单元,用于对目标音频数据进行音素提取,得到对应的音素集合;所述目标音频数据为覆盖全部音素的音频数据;
42.音素筛选单元,用于根据提取得到的音素集合中的每个音素的识别概率,以及所述目标音频数据对应的音素标签,从所述音素集合中确定出所述音素标签中的音素的相似音素;其中,音素标签中的音素的相似音素,是指从所述音素集合中选出的与音素标签中的音素对应的、识别概率最高的设定数量的音素;
43.词典构建单元,用于按照单词与该单词对应的标准发音和相似发音对应存储的规则,构建得到多发音词典;其中,所述相似发音由所述音素标签中的音素的相似音素构成。
44.一种语音识别装置,包括:
45.语音处理单元,用于获取待识别语音的音素序列;
46.语音识别单元,用于根据所述待识别语音的音素序列,以及预先构建的多发音词典,确定对所述待识别语音的语音识别结果;
47.其中,所述多发音词典中的单词与该单词对应的标准发音和相似发音对应存储;单词对应的相似发音由目标音频数据对应的音素标签中的音素的相似音素构建得到;所述目标音频数据包含该单词对应的音频数据。
48.一种电子设备,其特征在于,包括:
49.存储器和处理器;
50.所述存储器与所述处理器连接,用于存储程序;
51.所述处理器用于通过运行所述存储器中的程序,实现上述的发音词典构建方法,或者实现上述的语音识别方法。
52.一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时,实现上述的发音词典构建方法,或者实现上述的语音识别方法。
53.基于本技术提出的发音词典构建方法所构建的多发音词典,其中一个单词对应多个发音,具体是对应该单词的标准发音,以及该单词的相似发音。基于该发音词典进行语音识别时,即便对待识别语音进行音素提取不准确,比如将待识别语音的发音预测为相似发音而并非准确发音,则基于该多发音词典,也能够识别出正确文本。因此,通过本技术技术方案构建的多发音词典,能够提高语音识别的容错性和鲁棒性,进而可以提升语音识别效果,即使复杂场景下也能够取得较好的识别效果。
附图说明
54.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
55.图1是本技术实施例提供的一种发音词典构建方法的流程示意图;
56.图2是本技术实施例提供的一种语音识别方法的流程示意图;
57.图3是本技术实施例提供的声学模型训练过程示意图;
58.图4是本技术实施例提供的一种发音词典构建装置的结构示意图;
59.图5是本技术实施例提供的一种语音识别装置的结构示意图;
60.图6是本技术实施例提供的一种电子设备的结构示意图。
具体实施方式
61.本技术实施例技术方案适用于语音识别应用场景,采用本技术实施例技术方案,能够提升语音识别的鲁棒性,进而可以提升语音识别效果。
62.语音识别技术,也被称为自动语音识别(asr,automatic speech recognition),其以语音为研究对象,目标是将人类的声音信号转化为文字或指令。在人工智能快速发展的今天,语音识别技术是让机器“听懂”人类语言的第一步。
63.目前主流商用语音识别系统依然是基于声学模型和语言模型联合解码的框架,其中声学模型主要负责语音特征到音素的映射,语言模型结合发音词典将音素串转变为对应的文字串。
64.在发音词典中,记录了由音素构成的发音与文本之间的对应关系。当声学模型识别得到的音素串的发音与发音词典中的某一发音相匹配时,可以根据发音词典中的该发音与文本之间的对应关系,确定该音素串对应的文本,即实现音素向文本的转换。
65.现有的语音识别方案的容错性较差,具体表现在,只有与发音词典中的发音严格匹配的音素串,才会被识别为与发音词典中的发音对应的文本,这样虽然能够保证语音识别的绝对精度,但是却降低了语音识别的鲁棒性,不利于语音识别效果提升。
66.例如,在发音词典中的词“准备”对应的正确发音为“zhun3 bei4”,但是在复杂场景下由于语速或者环境的影响,声学模型可能会将“准备”这一语音对应的音素串预测为“zun3 bei4”,这时,按照匹配规则,由于“zun3 bei4”与发音词典中的“zhun3 bei4”不匹配,因此不能将音素串“zun3 bei4”识别为“准备”,即无法实现正确识别。
67.可见,现有的语音识别方案的容错性较差,在复杂场景下的识别效果不佳。
68.基于上述技术现状,本技术实施例提出一种发音词典构建方法,借助本技术实施例技术方案构建的发音词典,能够提高语音识别的容错性及鲁棒性,提升语音识别效果,尤其是能够提升在复杂场景下的语音识别效果。
69.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
70.本技术实施例提出一种发音词典构建方法,参见图1所示,该方法包括:
71.s101、对目标音频数据进行音素提取,得到对应的音素集合。
72.具体的,上述的目标音频数据,为覆盖全部音素的音频数据。该全部音素,为某一语种所包含的全部音素,例如汉语语种中的全部音素、英语语种中的全部音素等,具体以该发音词典所应用的语种领域而确定。
73.上述的目标音频数据,具体为一定数量的音频数据。该目标音频数据覆盖全部音
素,具体体现在,该全部音素中的任意一个音素,均出现在该目标音频数据中的任意一个或多个单词的发音中。例如,对于汉语语种中的音素“a”,只要在目标音频数据中的至少一个单词的发音中包含该音素“a”,即认为该目标音频数据覆盖音素“a”。
74.其中,上述的单词,视语种的不同而不同。例如在汉语语种中,上述的单词具体可以是单个的汉字,也可以是由多个汉字组成的词;而在英语语种中,上述的单词具体可以是英文单词或者英文字母。
75.作为一种示例性的实现方式,将上述的目标音频数据或者目标音频数据的声学特征分别输入预先训练的声学模型进行音素提取,可以得到与输入的目标音频数据对应的音素,由于目标音频数据是由一定量的音频数据构成的,因此对目标音频数据进行音素提取得到的音素也是大量的音素,该大量音素可以构成音素集合。
76.上述的声学模型,为预先训练的用于对音频数据进行音素提取的模型,其具体训练过程可参见后续实施例的介绍。
77.s102、根据提取得到的音素集合中的每个音素的识别概率,以及所述目标音频数据对应的音素标签,从所述音素集合中确定出所述音素标签中的音素的相似音素。
78.其中,上述的音素集合中的每一音素的识别概率,是指在对上述的目标音频数据进行音素提取时,某一音频帧被识别为该音素的概率。示例性的,可以通过上述的声学模型对目标音频数据进行音素提取时,输出提取得到的音素,以及该音素的识别概率。例如,假设某一音频帧被识别为音素“a”的概率为0.8,则该音素“a”的识别概率为0.8。
79.音素集合中的音素的识别概率,体现了该音素被识别正确的概率。某一音频帧被识别为某一音素的识别概率越高,则说明将该音频帧识别为该音素的正确率越高,因此,当同一音频帧同时被识别为多个不同的音素时,可以根据各个音素的识别概率,从中选出正确的音素识别结果,通常情况下,该正确的音素识别结果,即为识别出的多个不同的音素中识别概率最高的音素。例如,假设某一音频帧被识别为“a”的概率为0.8,被识别为“b”的概率为0.4,则可以确定该音频帧对应的音素为“a”,因为音素“a”的识别概率更高。
80.具体的关于音素提取以及音素的识别概率的内容,也可以参见常规技术方案中的关于音素提取以及音素提取时的音素得分的内容。
81.上述的音素标签,是由人工对上述的目标音频数据进行音素标注得到的音素标签,目标音频数据的音素标签中包含了与目标音频数据中的每个音频帧对应的正确的音素。
82.音素标签中的音素的相似音素,是指从所述音素集合中选出的与音素标签中的音素对应的、识别概率最高的设定数量的音素。
83.示例性的,通过将音素集合中的,以及上述的音素标签中的、对应同一音频帧的音素进行对比,从音素集合中选出与音素标签中的音素对应同一音频帧的、识别概率topn的音素,即可得到音素标签中的音素的相似音素。其中,n为上述的设定数量,在本技术实施例中,n=3,即,音素标签中的音素的相似音素,具体是从音素集合中选出的与音素标签中的音素对应的、识别概率最高的3个音素。
84.具体而言,比如,假设对于目标音频数据中的某一音频帧a,其音素标签为“a”;当将目标音频数据输入预先训练的声学模型进行音素提取时,在该目标音频数据中可能在多个不同的音频语句中存在多个音频帧a,在音素提取时,该多个音频帧a分别被识别为音素“a1”、“a2”、“a3”、“a4”,并且,“a1”、“a2”、“a3”、“a4”的识别概率分别为0.8、0.6、0.7、0.3,则“a1”、“a2”、“a3”为识别概率最高的3个音素,因此可以将“a1”、“a2”、“a3”分别作为音素标签中的音素“a”的相似音素。
85.进一步的,为了便于比较各个相似音素与音素标签的相似度,本技术实施例对音素标签中的音素的相似音素的识别概率进行归一化,作为各相似音素的最终识别概率。则,音素标签中的音素的相似音素的归一化识别概率,即可表示音素标签中的音素与该相似音素的相似度。
86.另外,由于目标音频数据的数据多样性,可能同一音频帧会在目标音频数据中多次出现,而由于上下文的不同,同样的音频帧又可能被识别为相同的音素或不同的音素。因此,上述的音素集合中的对应同一音频帧的音素,可能是相同的,也可能是不同的,而且,即便是相同的音素,其识别概率也会不同。
87.例如对于上述的音频帧a,在对其进行音素提取时,可能得到识别率最高的3个音素为:音素“a2”,识别概率0.5;音素“a2”,识别概率0.8;音素“a4”,识别概率0.3。可见与音频帧a的音素标签“a”相似的音素,虽然选出的是3个识别概率最高的音素,但其实只有2个不同的音素,此时,在对各个相似音素的识别概率进行归一化处理,对于相同的音素,进行识别概率合并归一化。
88.具体而言,对于上述的音素“a2”,其归一化的识别概率为(0.5+0.8)/(0.5+0.8+0.3)=0.81,音素“a4”的归一化识别概率为0.3/(0.5+0.8+0.3)=0.19。
89.更进一步的,为了更加清晰地记录音素标签中的音素与相似音素的关系和相似度,本技术实施例对上述的目标音频数据的音素标签中的音素及其相似音素构建音素混淆矩阵,在该音素混淆矩阵中,以各个音素作为矩阵的行和列,以音素间的相似度为矩阵元素。
90.具体的音素混淆矩阵可参见如下表1所示:
91.表1
[0092] abcda1.00.30.40.3b0.31.00.50.2c0.40.51.00.1d0.30.20.11.0
[0093]
在上述表1中,以音素a、b、c、d为例,展示其相互之间的相似度。例如,当音素a为上述的音素标签中的音素时,可以确定与其相似的音素为音素b、c、d,并且可知音素a与音素b、c、d的相似度分别为0.3、0.4、0.3。
[0094]
参照上述介绍,对于上述的目标音频数据的音素标签中的每个音素,均可以构建如表1所示的音素混淆矩阵,用于记录该音素的相似音素,以及该音素与其相似音素间的相似度。
[0095]
s103、按照单词与该单词对应的标准发音和相似发音对应存储的规则,构建得到多发音词典;其中,所述标准发音由所述音素标签中的音素构成,所述相似发音由所述音素标签中的音素的相似音素构成。
[0096]
具体的,上述的单词,是指发音词典中的各个单词,该发音词典中的单词的具体形
式,以该发音词典所属的语种不同而不同。例如,在汉语语种的发音词典中,上述的单词具体可以是单个的汉字,也可以是由多个汉字组成的词;而在英语语种的发音词典中,上述的单词具体可以是英文单词或者英文字母。
[0097]
在常规的发音词典中,一个单词只对应一个发音。则,在语音识别时,只有待识别语音的音素构成的发音x,与发音词典中的发音x严格匹配时,才可以确认该待识别语音的文本为该发音词典中的发音x对应的文本,否则,无法将该待识别语音识别为与发音词典中的发音x对应的文本。
[0098]
与上述常规的发音词典不同的,本技术实施例对发音词典进行扩充,按照单词与该单词对应的标准发音和相似发音对应存储的规则,构建得到多发音词典。则可以理解,在该多发音词典中,一个单词可以对应两个或两个以上的发音,在两个或两个以上的发音中,既有与单词对应的标准发音,又有与单词对应的相似发音,与单词对应的相似发音的数量可以为一个或多个。
[0099]
其中,上述的标准发音,是由上述的目标音频数据的音素标签中的音素构成的发音。由于上述的目标音频数据是覆盖了全部音素的音频数据,因此从该目标音频数据的音素标签中,能够查询到与发音词典中的任意单词对应的正确音素,从而可以由该音素标签中的音素构成单词的标准发音。
[0100]
上述的相似发音,是由上述的音素标签中的音素的相似音素构成的发音。上述的音素标签中的音素的相似音素,可以参照上述实施例介绍。
[0101]
示例性的,比如对于发音词典中的“准备”这一单词,按照上述的目标语音数据的音素标签,以及音素标签中的音素,可知该单词的发音为“zhun3bei4”,其中包含的音素依次为“zh”、“un”、“b”、“ei”。则,“zhun3bei4”为与单词“准备”对应的标准发音。
[0102]
参见上述内容介绍,假设音素“zh”有相似音素为“z”,则可以由该相似音素“z”,构成单词“准备”的相似发音“zun3 bei4”;同时,假设音素“ei”有相似音素为“en”,则可以由该相似音素“en”,构成单词“准备”的相似发音“zhun3 ben4”。
[0103]
在此基础上,将单词“准备”,与其对应的标准发音“zhun3 bei4”和相似发音“zun3 bei4”和“zhun3 ben4”对应存储,则在该多发音词典中,单词“准备”对应三个发音,分别为“zhun3 bei4”、“zun3 bei4”和“zhun3 ben4”。
[0104]
作为优选的实施方式,在上述的多发音词典中,与单词对应的相似发音,其具体可以是与单词对应的标准发音的相似度大于设定阈值的相似发音。比如,对于某一单词x来说,该单词x可能包含多个音素,而每个音素又分别有多个相似音素,这样,多个音素以及多个音素的相似音素可以组成与单词x的标准发音对应的多个相似发音,而且,多个音素的相似音素相互组合,能够衍生出的发音的数量比音素的数量更多。但是,由于音素之间的相似度差异,由音素组合而成的发音之间的相似度也会有差异,有的相似发音与标准发音的相似度是很低的,比如,相似发音的各个音素,与标准发音的各个音素的相似度均较低,这样会使得相似发音与标准发音的相似度较低。
[0105]
如果将大量的与标注发音相似度较低的相似发音,都记录到多发音词典中,又会导致语音识别效果下降。比如对于单词x来说,用户随便说了一个与单词x发音相近的单词,比如用户说了单词y,如果该单词y的发音与某一个与单词x的标准发音的相似度较低的发音相同,这时候会将该单词y识别为单词x,这显然是不正确的。
[0106]
所以,为了保证语音识别效果,对于多发音词典中的、与单词对应的相似发音,可以设置筛选条件,具体的筛选条件,可以视实际需要灵活设置,比如可以根据对语音识别精度、识别率等,进行设置。具体的,可以设置只有相似度超过设定相似度阈值的相似发音,才可以记录到多发音词典中,或者,对于一个单词,只选与其标准发音的相似度最高的几个相似发音记录到多发音词典中,等等。具体的相似发音筛选,可以在上述技术思想下灵活执行。
[0107]
在构建得到上述的多发音词典后,基于该多发音词典重新构建解码网络用于语音识别,即可实现利用上述的多发音词典进行语音解码。
[0108]
可以理解,基于上述的多发音词典,当对待识别语音的音素提取不准确时,或者由于发音者携带口音或者由于场景复杂导致待识别语音本身不够清晰和准确进而影响音素提取准确度的情况下,即便待识别语音的音素提取结果与待识别语音的标准发音存在差异,比如提取的音素构成了待识别语音的相似发音,也是能够识别到正确文本的。
[0109]
比如,假设在用户的某一句语音中包含“准备”一词,但是由于场景复杂或者声学模型性能受限,提取到的对应“准备”一词的语音的音素为“zun b ei”,并且基于音调得到对应“准备”一词的语音的发音为“zun3 bei4”,此时,虽然对“准备”一词的音素提取不够准确,但是基于上述的多发音词典,由于该多发音词典中存储有“zun3 bei4”这一发音对应“准备”这一单词,因此能够将“zun3 bei4”识别为“准备”这一单词,即得到正确识别结果。
[0110]
通过上述介绍可见,基于本技术实施例提出的发音词典构建方法所构建的多发音词典,其中一个单词对应多个发音,具体是对应该单词的标准发音,以及该单词的相似发音。基于该发音词典进行语音识别时,即便对待识别语音进行音素提取不准确,比如将待识别语音的发音预测为相似发音而并非准确发音,则基于该多发音词典,也能够识别出正确文本。因此,通过本技术实施例技术方案构建的多发音词典,能够提高语音识别的容错性和鲁棒性,进而可以提升语音识别效果,即使复杂场景下也能够取得较好的识别效果。
[0111]
作为一种可选的实施方式,上述的“按照单词与该单词对应的标准发音和相似发音对应存储的规则,构建得到多发音词典”,可以通过执行如下步骤a1-a2实现:
[0112]
a1、确定与发音词典中的单词对应的标准发音,以及,根据所述音素标签中的音素的相似音素,确定与发音词典中的单词对应的相似发音。
[0113]
具体的,对于发音词典中的某一单词,确定其标准发音,具体是确定其发音所包含的各个音素。然后,对于该单词对应的标准发音中的音素,从该音素的相似音素中,选择相似音素替换该音素,得到该标准发音的相似发音,也就是与该单词对应的相似发音。
[0114]
比如,对于“准备”一词,首先确定其标准发音,即“zhun3bei4”;然后,基于上述介绍的音素标签中的音素的相似音素,对“zhun3bei4”进行相似音素替换,得到相似发音。具体是,基于上述的音素标签中的音素的相似音素,确定“准备”一词的标准发音中的音素的相似音素,并利用其相似音素对其进行替换,得到“准备”一词的相似发音。例如,将“zhun3bei4”中的音素“zh”替换为其相似音素“z”,得到相似发音“zun3bei4”。
[0115]
作为一种优选的实施方式,为了尽可能降低对现有发音词典进行改动带来的负面影响,可以只针对发音词典中的高频易错词进行相似发音扩充。
[0116]
即,在执行上述的步骤a1时,分别确定与发音词典中的高频易错词对应的标准发音,以及,根据音素标签中的音素的相似音素,分别确定与发音词典中的高频易错词对应的
相似发音。
[0117]
具体的,利用开发集合对语音识别基线系统进行测试,筛选出识别错误率较高的单词,即高频易错词。然后,针对筛选出的高频易错词,参照上述介绍,确定其标准发音以及相似发音。
[0118]
作为另一种可选的实施方式,在确定高频易错词的相似发音时,可以直接将高频易错词的错误识别结果的发音,作为该高频易错词的相似发音。
[0119]
具体的,利用开发集合对语音识别基线系统进行测试,筛选出识别错误率较高的高频错词对。该高频错词对,具体是被识别错误的词,以及当对该词识别错误时,对该词的实际识别结果。
[0120]
例如,假设在对语音识别基线系统进行测试时,有较高频率将“准备”一词识别成了“准笨”,则可以确定“准备”和“准笨”是一对高频错词对。对于单词“准备”,当确定其相似发音时,可以直接将“准笨”一词的发音“zhun3ben4”确定为“准备”的相似发音。
[0121]
a2、通过将单词与该单词对应的标准发音和相似发音对应存储,得到多发音词典。
[0122]
具体的,对于发音词典中的单词,将该单词、以及与该单词对应的标准发音和相似发音对应存储,即可实现对发音词典的扩充,得到多发音词典。
[0123]
当步骤a1在确定与发音词典中的单词对应的标准发音和相似发音具体是确定与发音词典中的高频易错词对应的标准发音和相似发音时,步骤a2具体是将发音词典中的高频易错词与该高频易错词对应的标准发音和相似发音对应存储,得到多发音词典,即,只对发音词典中的高频易错词进行发音扩充。
[0124]
仅对发音词典中的高频易错词进行发音扩充,能够有针对性地提升语音识别对高频易错词的识别效果,避免由于多发音扩充,对原本识别真确率较高的词造成负面影响。
[0125]
作为更加优选的实施方案,当通过将发音词典中的高频易错词与该高频易错词对应的标准发音和相似发音对应存储,构建多发音词典时,还可以对高频易错词的相似发音进行筛选,具体参见如下步骤b1-b3所示的处理内容:
[0126]
b1、根据发音词典中的高频易错词对应的相似发音,以及所述音素集合中的每个音素的识别概率,计算得到高频易错词对应的相似发音的得分。
[0127]
具体的,如上文所述,在对目标音频数据进行音素提取时,不仅能够得到音素集合,还能确定音素集合中的每个音素的识别概率,进而,根据音素集合中的每个音素与目标音频数据的音素标签中的音素的对应关系,以及音素集合中的每个音素的识别概率,可以确定与音素标签中的音素的相似音素,以及确定音素标签中的音素及其相似音素的相似度。
[0128]
基于上述处理,对于发音词典中的高频易错词对应的相似发音,可以根据该相似发音中的音素与标准发音中的音素的相似度,计算得到该高频易错词对应的相似发音的得分。
[0129]
示例性的,计算高频易错词的相似发音中的每个音素,与该高频易错词的标准发音中的相应音素的相似度的算术平均数,即可作为该高频易错词的相似发音的得分。
[0130]
以“准备”一词为例,其标准发音为“zhun3bei4”,对于其相似发音“zun3bei4”来说,假设音素“z”与音素“zh”的相似度为0.8,同时可以确定“zhun3bei4”与“zun3bei4”的其他音素均相同,相似度为1,此时可以确定该相似发音“zun3bei4”的得分为(0.8+1+1+1)/4
=0.95。
[0131]
按照上述方式,可以计算得到高频易错词的每个相似发音的得分。
[0132]
b2、根据高频易错词对应的相似发音的得分,从各个高频易错词对应的相似发音中选出得分高于设定的得分阈值的相似发音,作为目标相似发音。
[0133]
具体的,从高频易错词对应的各个相似发音中,选出其得分高于设定的得分阈值的相似发音,作为与该高频易错词对应的目标相似发音。
[0134]
b3、将发音词典中的高频易错词与该高频易错词对应的标准发音和目标相似发音对应存储,得到多发音词典。
[0135]
具体的,在对发音词典中的高频易错词进行发音扩充时,将该高频易错词的标准发音以及目标相似发音,与该高频易错词对应存储。
[0136]
按照上述b1-b3所述的处理,对发音词典中的各个高频易错词,分别进行目标相似发音选取,以及进行发音扩充,得到最终的多发音词典。
[0137]
上述步骤b1-b3的处理实现了对高频易错词的相似发音的筛选,该操作可以保证多发音词典中的高频易错词的相似发音是与高频易错词的标准发音的相似度较高的发音,从而可以避免由于大量地相似度的发音影响对其他非高频易错词的识别效果。
[0138]
基于上述的发音词典构建方法,本技术另一实施例还提出一种语音识别方法,参见图2所示,该方法包括:
[0139]
s201、获取待识别语音的音素序列。
[0140]
具体的,对待识别语音进行音素提取处理,得到该待识别语音的音素序列。
[0141]
示例性的,将待识别语音或者待识别语音的声学特征输入预先训练的声学模型进行音素提取,可以得到该声学模型输出的该待识别语音的音素序列。
[0142]
上述的声学模型,为预先训练的用于对音频数据进行音素提取的模型,其具体训练过程可参见后续实施例的介绍。
[0143]
s202、根据所述待识别语音的音素序列,以及预先构建的多发音词典,确定对所述待识别语音的语音识别结果。
[0144]
其中,所述多发音词典中的单词与该单词对应的标准发音和相似发音对应存储;单词对应的标准发音由目标音频数据对应的音素标签中的音素构建得到,单词对应的相似发音由所述音素标签中的音素的相似音素构建得到;所述目标音频数据包含该单词对应的音频数据。
[0145]
具体的,上述的多发音词典,是通过上述任一实施例所介绍的发音词典构建方法而构建得到的多发音词典,其具体构建过程以及该多发音词典的具体内容,均可以参见上述的发音词典构建方法实施例的介绍,此处不再重复。
[0146]
基于上述的多发音词典,当获取到待识别语音的音素序列时,基于该多发音词典对该音素序列进行解码,得到与其对应的文本。示例性的,通过将该音素序列与多发音词典中的发音进行匹配,从而确定对该待识别语音的语音识别结果。
[0147]
例如,当待识别语音的音素序列中的某音素串与多发音词典中的某一发音匹配时,可以确定与该音素串对应的文本即为该多发音词典中的该发音对应的文本。
[0148]
由于该多发音词典中的单词不仅对应其标准发音,还对应其相似发音,因此,当对待识别语音的音素提取不准确时,或者由于发音者携带口音或者由于场景复杂导致待识别
语音本身不够清晰和准确进而影响音素提取准确度的情况下,即便待识别语音的音素提取结果与待识别语音的标准发音存在差异,比如提取的音素构成了待识别语音的相似发音,也是能够识别到正确文本的。
[0149]
通过上述介绍可见,本技术实施例提出的语音识别方法,基于预先构建的多发音词典对待识别语音的音素序列进行解码,得到语音识别结果。该发音词典中的单词与该单词对应的标准发音和相似发音对应存储,基于该发音词典进行待识别语音的音素序列解码时,即便对待识别语音进行音素提取不准确,比如将待识别语音的发音预测为相似发音而并非准确发音,则基于该多发音词典,也能够识别出正确文本。因此,本技术实施例提出的基于多发音词典的语音识别方法,能够提高语音识别的容错性和鲁棒性,进而可以提升语音识别效果,即使复杂场景下也能够取得较好的识别效果。
[0150]
下面,对上述的声学模型的训练过程进行介绍。
[0151]
首先需要说明的是,本技术实施例提出的声学模型训练方案,适用于上述任一实施例所涉及的声学模型,尤其是适用于上述实施例提出的发音词典构建方法在将目标音频数据输入预先训练的声学模型进行音素提取时所应用的声学模型,同时,适用于上述实施例提出的语音识别方法在将待识别语音输入预先训练的声学模型进行音素提取时所应用的声学模型。
[0152]
作为优选的实施方式,可以按照本技术实施例介绍的模型训练方法,训练得到声学模型,然后将该声学模型分别用于上述实施例介绍的发音词典构建方法以及上述实施例介绍的语音识别方法,具体是将该声学模型用于上述实施例介绍的发音词典构建方法,对目标音频数据进行音素提取,实现多发音词典构建的目的,然后,基于构架的多发音词典,再将该声学模型用于上述实施例介绍的语音识别方法,对待识别语音进行音素提取,进而实现对待识别语音的识别。
[0153]
在介绍本技术实施例提出的声学模型训练方案之前,先简要介绍常规的声学模型训练方案:
[0154]
声学模型一般采用深度神经网络进行建模,其训练时采用的损失函数为交叉熵损失函数,具体形式如下:
[0155][0156]
其中,x表示语音的频谱特征向量(例如:filterbank、mfcc等),y
t
表示t时刻对应的音素标签。
[0157]
为了解决复杂场景下声学模型分类的准确度,目前主流方案是在训练数据方面进行研究,主要是收集大量复杂场景下真实音频,或者通过机器仿真的方式生成大量与目标场景分布匹配的数据,然后加入到训练集合中进行混合训练。
[0158]
另外,交叉熵训练准则在声学模型训练上存在一定的局限性,因为交叉熵准则只关注当前预测值与真实目标值之间是否一致,是一种极大似然的训练方式;当模型预测输出与真实目标不一致时,其训练代价是相同的,这种训练方案对于声学模型训练是存在局限的,特别对模型鲁棒性提升方面没有任何指导作用,比如:在中文声学模型建模上,当真实音素标签为a1,而模型预测输出为a2和z1对应的训练代价是一样的,但是把目标音素a1识别成为a2,用户在句意理解上一般不会存在太大困难,而把目标音素a1识别成为z1,一般
会导致句意上出现大幅偏差。因此,单纯基于交叉熵损失函数的声学模型训练方案会导致模型鲁棒性大幅下降。
[0159]
结合图3所示,本技术实施例提出的声学模型训练方案主要包括如下步骤c1-c3:
[0160]
c1、将训练语音的音频特征输入声学模型,得到所述训练语音的音素信息。
[0161]
具体的,参见图3所示,将训练语音的音频特征x
t=1,
…
t
,输入声学模型asr-net,该声学模型asr-net可以为任意类型的声学模型,例如lstm、tdnn以及dfsmn等。
[0162]
该声学模型基于输入的声学特征,提取音频对应的音素信息h
txt
。该音素信息是声学模型最后一个隐藏层输出的信息内容,该信息内容大部分为音频内容信息,音频中的说话人、信道等信息都已经被弱化,因此,声学模型提取到的音素信息一般也可以理解为音频的语义信息,因此,声学模型asr-net提取到的音素信息h
txt
,可以等价为训练语音的语义特征信息。
[0163]
c2、将所述训练语音的音素信息,以及根据所述训练语音的音频特征提取得到的非语义信息,输入音频合成模型,得到音频合成结果。
[0164]
具体的,上述的音频合成模型,具体是文本转语音(text to speech,tts)网络tts-net,该网络能够以语音对应的语义信息和说话人、环境信息等,合成语音。具体的tts网络的功能和结构,可参见常规的tts网络介绍。
[0165]
基于上述的音频合成模型,本技术实施例将提取得到的训练语音的音素信息,以及根据训练语音的音频特征提取得到的非语义信息,输入该音频合成模型,得到该音频合成模型输出的音频合成结果。
[0166]
上述的根据训练语音的音频特征提取得到的非语义信息,是指通过训练语音的音频特征,提取得到的该训练语音中所包含的说话人、环境因子等非语义的信息。
[0167]
作为示例性的实现方式,参见图3所示,将训练语音的音频特征输入长短期记忆(long short-term memory,lstm)网络,可以从中提取得到训练语音的非语义信息。在实际实现时,也可以采用卷积神经网络cnn或者其他的基于注意力机制的神经网络,实现训练语音的非语义信息的提取。
[0168]
然后将训练语音的音素信息,以及训练语音的非语义信息,输入音频合成模型tts-net,得到该音频合成模型输出的音频合成结果。
[0169]
需要说明的是,上述的音频合成模型,为效果理想的音频合成模型,即,在该理想状态下,将训练语音的语义信息,即音素信息,以及训练语音的非语义信息,输入该音频合成模型,该音频合成模型能够准确合成该训练语音,也就是基于训练语音的语义信息和非语义信息能够准确恢复出该训练语音。
[0170]
作为一种优选的实施方式,为了避免音频合成模型tts-net直接拷贝输入的语义信息和非语义信息,本技术实施例对训练语音的音素信息以及对训练语音的音频特征进行下采样,然后使音频合成模型基于下采样后的信息进行音频合成。
[0171]
具体的,参见图3所示,将训练语音的音素信息,以及训练语音的音频特征进行相同尺度的下采样,本技术实施例示例性地分别对训练语音的音素信息和音频特征进行r帧下采样,即,每r帧数据的平均值作为采样后取值。例如,每4帧取一个平均值,作为采样值。
[0172]
如果是单帧预测,当r=1时,参见图3所示,需要在输入lstm网络的训练语音的音频特征中加入噪声noise。
[0173]
以训练语音的音素信息h
txt
为例,对其进行r帧下采样,具体是每r帧音素信息h
txt,1
,
…
,h
txt,r
计算一个均值avg(h
txt,1
,
…
,h
txt,r
),其中,其中,k表示取topk,αk表示当前帧的第top-k标签对应的后验概率,wk表示第top-k个节点的embeding或连接权重。
[0174]
然后,根据下采样后的所述训练语音的音频特征,提取得到所述训练语音的非语义信息。
[0175]
作为示例性的实现方式,参见图3所示,将训练语音的下采样后的音频特征输入长短期记忆(long short-term memory,lstm)网络,可以从中提取得到训练语音的非语义信息。在实际实现时,也可以采用卷积神经网络cnn或者其他的基于注意力机制的神经网络,实现训练语音的非语义信息的提取。
[0176]
最后,对下采样后的音素信息和所述非语义信息进行融合,得到音频合成基础信息;将所述音频合成基础信息输入音频合成模型,得到音频合成结果。
[0177]
示例性的,参见图3所示,对训练语音的非语义信息进行code编码后,与训练语音的下采样后的音素信息进行concat拼接,得到的拼接信息作为音频合成基础信息。然后,将该音频合成基础信息输入音频合成模型tts-net进行音频合成,得到音频合成结果。
[0178]
作为可选的实现方式,上述的对下采样后的音素信息和非语义信息进行融合,除了采用concat方式进行直接拼接外,还可以通过网络融合或者通过注意力机制attention的方式实现融合。
[0179]
c3、根据所述声学模型的语音识别损失,以及所述音频合成模型的音频合成损失,对所述声学模型进行参数校正。
[0180]
具体的,声学模型的语音识别损失,可以是声学模型对训练语音提取的音素与训练语音的音素标签之间的损失,也可以是基于声学模型的音素提取结果而确定的语音识别结果与训练语音的文本标签之间的损失,该损失可以示例性地通过交叉熵损失函数确定,即,声学模型的语音识别损失为交叉熵损失ce-loss。
[0181]
上述的音频合成模型的音频合成损失,具体是音频合成模型输出的音频合成结果与训练语音之间的损失,该损失可以示例性地通过均方差损失函数确定,即,音频合成模型的音频合成损失为均方差损失mse-loss,此外,音频合成模型的音频合成损失也可以是mdn-loss。
[0182]
假设声学模型的语音识别损失为l
ce
,音频合成模型的音频合成损失为l
tts
,则最终的声学模型训练损失l
sum
为两者之和,即:l
sum
=l
ce
+αl
tts
,其中,α为超参。
[0183]
然后,基于上述的声学模型训练损失l
sum
对声学模型进行参数校正。
[0184]
可以理解,按照上述方案对声学模型进行训练时,不仅包含了声学模型本身的损失,还考虑了音频合成模型的损失。
[0185]
基于音频合成模型tts-net网络的特性可知,tts网络在合成音频时是通过语音的文本特征(对应上图左边h
txt
)和语音code信息(包含:说话人、环境等信息)进行音频合成。由于说话人和环境因子等信息在一条语音中属于稳态信息,所以可直接复用前一时刻或者前n时刻的信息用于当前语音帧的合成,而对应文本信息则是时变信息,需要与当前时刻一一对应。从图3中可以看出语义特征是来自于声学模型asr-net网络的预测输出,为了能够
使得合成更加精准,则asr-net网络的输出就需要越精准。
[0186]
同时,tts-net网络采用的是一种概率似然的方式进行训练,其输出的准确度与输入内容的准确度成线性关系,即,输入内容与标准内容的差异越大,其输出的语音与标准语音的差异就越大,也就是其损失越大;输入内容与标准内容的差异越小,其输出的语音与标准语音的差异就越小,也就是其损失越小。
[0187]
所以,对于tts-net网络来说,错误的类型不同,对应的训练准则计算出来的代价也是不同的,即:asr-net网络的预测输出与目标标签差异越大,则对应tts-net网络的损失代价也就越大,相应的,声学模型训练损失也就越大;反之,asr-net网络的预测输出与目标标签差异越小,则对应tts-net网络的损失代价也就越小,相应的,声学模型训练损失也就越小。这样就实现了asr-net网络预测输出的差异化错误惩罚的目的,通过多次迭代训练收敛后,声学模型asr-net在音素预测的时候即使出错也会错在与当前真实标签相近的音素上。
[0188]
可见,基于上述的音频合成模型的加入,以及上述的音频合成损失,本技术实施例提出的声学模型训练方案能够对模型分类错误进行差异化惩罚,即:分类错误与目标音素在发音上越相近惩罚越小,而分类错误与目标音素在发音上相差越远则惩罚越大;通过音频合成模型对声学模型进行辅助训练,在进行复杂场景音频测试时,声学模型预测即使在出错的情况下,也是会预测出相同音素只是其对应的音调可能会存在差异。也就是,通过本技术实施例所提出的训练方案训练得到的声学模型预测基本不会出现离谱错误,从而可以提升语音识别效果。
[0189]
基于上述方式训练得到的声学模型,结合本技术上述实施例提出的发音词典构建方法构建的多发音词典,以及相应的语音识别方法,可以系统性地显著提升语音识别的容错性和鲁棒性,显著提升语音识别效果。
[0190]
与上述的发音词典构建方法相对应的,本技术另一实施例还提出一种发音词典构建装置,参见图4所示,该装置包括:
[0191]
音素提取单元001,用于对目标音频数据进行音素提取,得到对应的音素集合;所述目标音频数据为覆盖全部音素的音频数据;
[0192]
音素筛选单元002,用于根据提取得到的音素集合中的每个音素的识别概率,以及所述目标音频数据对应的音素标签,从所述音素集合中确定出所述音素标签中的音素的相似音素;其中,音素标签中的音素的相似音素,是指从所述音素集合中选出的与音素标签中的音素对应的、识别概率最高的设定数量的音素;
[0193]
词典构建单元003,用于按照单词与该单词对应的标准发音和相似发音对应存储的规则,构建得到多发音词典;其中,所述标准发音由所述音素标签中的音素构成,所述相似发音由所述音素标签中的音素的相似音素构成。
[0194]
作为一种可选的实施方式,按照单词与该单词对应的标准发音和相似发音对应存储的规则,构建得到多发音词典,包括:
[0195]
确定与发音词典中的单词对应的标准发音,以及,根据所述音素标签中的音素的相似音素,确定与发音词典中的单词对应的相似发音;
[0196]
通过将单词与该单词对应的标准发音和相似发音对应存储,得到多发音词典。
[0197]
作为一种可选的实施方式,确定与发音词典中的单词对应的标准发音,以及,根据
所述音素标签中的音素的相似音素,确定与发音词典中的单词对应的相似发音,包括:
[0198]
分别确定与发音词典中的高频易错词对应的标准发音,以及,根据所述音素标签中的音素的相似音素,分别确定与发音词典中的高频易错词对应的相似发音;
[0199]
通过将单词与该单词对应的标准发音和相似发音对应存储,得到多发音词典,包括:
[0200]
通过将发音词典中的高频易错词与该高频易错词对应的标准发音和相似发音对应存储,得到多发音词典。
[0201]
作为一种可选的实施方式,通过将发音词典中的高频易错词与该高频易错词对应的标准发音和相似发音对应存储,得到多发音词典,包括:
[0202]
根据发音词典中的高频易错词对应的相似发音,以及所述音素集合中的每个音素的识别概率,计算得到高频易错词对应的相似发音的得分;
[0203]
根据高频易错词对应的相似发音的得分,从各个高频易错词对应的相似发音中选出得分高于设定的得分阈值的相似发音,作为目标相似发音;
[0204]
将发音词典中的高频易错词与该高频易错词对应的标准发音和目标相似发音对应存储,得到多发音词典。
[0205]
作为一种可选的实施方式,所述对目标音频数据进行音素提取,得到对应的音素集合,包括:
[0206]
将目标音频数据输入预先训练的声学模型进行音素提取,得到与目标音频数据对应的音素集合。
[0207]
作为一种可选的实施方式,所述声学模型按照如下方式训练得到:
[0208]
将训练语音的音频特征输入声学模型,得到所述训练语音的音素信息;
[0209]
将所述训练语音的音素信息,以及根据所述训练语音的音频特征提取得到的非语义信息,输入音频合成模型,得到音频合成结果;
[0210]
根据所述声学模型的语音识别损失,以及所述音频合成模型的音频合成损失,对所述声学模型进行参数校正。
[0211]
作为一种可选的实施方式,将所述训练语音的音素信息,以及根据所述训练语音的音频特征提取得到的非语义信息,输入音频合成模型,得到音频合成结果,包括:
[0212]
将所述训练语音的音素信息,以及所述训练语音的音频特征进行相同尺度的下采样;
[0213]
根据下采样后的所述训练语音的音频特征,提取得到所述训练语音的非语义信息;
[0214]
对下采样后的音素信息和所述非语义信息进行融合,得到音频合成基础信息;
[0215]
将所述音频合成基础信息输入音频合成模型,得到音频合成结果。
[0216]
作为一种可选的实施方式,所述声学模型的语音识别损失通过交叉熵损失函数确定,所述音频合成模型的音频合成损失通过均方差损失函数确定。
[0217]
具体的,上述的发音词典构建装置的各个单元的具体工作内容,请参见上述的发音词典构建方法的相应处理步骤的处理内容,此处不再重复。
[0218]
与上述的语音识别方法相对应的,本技术另一实施例还提出一种语音识别装置,参见图5所示,该装置包括:
[0219]
语音处理单元010,用于获取待识别语音的音素序列;
[0220]
语音识别单元011,用于根据所述待识别语音的音素序列,以及预先构建的多发音词典,确定对所述待识别语音的语音识别结果;
[0221]
其中,所述多发音词典中的单词与该单词对应的标准发音和相似发音对应存储;单词对应的标准发音由目标音频数据对应的音素标签中的音素构建得到,单词对应的相似发音由所述音素标签中的音素的相似音素构建得到;所述目标音频数据包含该单词对应的音频数据。
[0222]
作为一种可选的实施方式,所述多发音词典按照上述的发音词典构建方法构建得到。
[0223]
作为一种可选的实施方式,所述获取待识别语音的音素序列,包括:
[0224]
将待识别语音输入预先训练的声学模型进行音素提取,得到该待识别语音的音素序列。
[0225]
作为一种可选的实施方式,所述声学模型按照如下方式训练得到:
[0226]
将训练语音的音频特征输入声学模型,得到所述训练语音的音素信息;
[0227]
将所述训练语音的音素信息,以及根据所述训练语音的音频特征提取得到的非语义信息,输入音频合成模型,得到音频合成结果;
[0228]
根据所述声学模型的语音识别损失,以及所述音频合成模型的音频合成损失,对所述声学模型进行参数校正。
[0229]
作为一种可选的实施方式,将所述训练语音的音素信息,以及根据所述训练语音的音频特征提取得到的非语义信息,输入音频合成模型,得到音频合成结果,包括:
[0230]
将所述训练语音的音素信息,以及所述训练语音的音频特征进行相同尺度的下采样;
[0231]
根据下采样后的所述训练语音的音频特征,提取得到所述训练语音的非语义信息;
[0232]
对下采样后的音素信息和所述非语义信息进行融合,得到音频合成基础信息;
[0233]
将所述音频合成基础信息输入音频合成模型,得到音频合成结果。
[0234]
作为一种可选的实施方式,所述声学模型的语音识别损失通过交叉熵损失函数确定,所述音频合成模型的音频合成损失通过均方差损失函数确定。
[0235]
具体的,上述的语音识别装置的各个单元的具体工作内容,以及上述的声学模型训练过程的具体内容,请参见上述的语音识别方法的相应处理步骤的处理内容,此处不再重复。
[0236]
本技术另一实施例还提出一种电子设备,参见图6所示,该设备包括:
[0237]
存储器200和处理器210;
[0238]
其中,所述存储器200与所述处理器210连接,用于存储程序;
[0239]
所述处理器210,用于通过运行所述存储器200中存储的程序,实现上述任一实施例公开的发音词典构建方法,或者,实现上述任一实施例公开的语音识别方法。
[0240]
具体的,上述电子设备还可以包括:总线、通信接口220、输入设备230和输出设备240。
[0241]
处理器210、存储器200、通信接口220、输入设备230和输出设备240通过总线相互
连接。其中:
[0242]
总线可包括一通路,在计算机系统各个部件之间传送信息。
[0243]
处理器210可以是通用处理器,例如通用中央处理器(cpu)、微处理器等,也可以是特定应用集成电路(application-specific integrated circuit,asic),或一个或多个用于控制本发明方案程序执行的集成电路。还可以是数字信号处理器(dsp)、专用集成电路(asic)、现成可编程门阵列(fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
[0244]
处理器210可包括主处理器,还可包括基带芯片、调制解调器等。
[0245]
存储器200中保存有执行本发明技术方案的程序,还可以保存有操作系统和其他关键业务。具体地,程序可以包括程序代码,程序代码包括计算机操作指令。更具体的,存储器200可以包括只读存储器(read-only memory,rom)、可存储静态信息和指令的其他类型的静态存储设备、随机存取存储器(random access memory,ram)、可存储信息和指令的其他类型的动态存储设备、磁盘存储器、flash等等。
[0246]
输入设备230可包括接收用户输入的数据和信息的装置,例如键盘、鼠标、摄像头、扫描仪、光笔、语音输入装置、触摸屏、计步器或重力感应器等。
[0247]
输出设备240可包括允许输出信息给用户的装置,例如显示屏、打印机、扬声器等。
[0248]
通信接口220可包括使用任何收发器一类的装置,以便与其他设备或通信网络通信,如以太网,无线接入网(ran),无线局域网(wlan)等。
[0249]
处理器210执行存储器200中所存放的程序,以及调用其他设备,可用于实现本技术上述实施例所提供的发音词典构建方法的各个步骤,或者用于实现本技术上述实施例提供的语音识别方法的各个步骤。
[0250]
本技术另一实施例还提供了一种存储介质,该存储介质上存储有计算机程序,该计算机程序被处理器运行时,实现本技术上述实施例所提供的发音词典构建方法的各个步骤,或者用于实现本技术上述实施例提供的语音识别方法的各个步骤。
[0251]
具体的,上述的电子设备的各个部分的具体工作内容,以及上述的存储介质上的计算机程序被处理器运行时的具体处理内容,均可以参见上述的发音词典构建方法的各个实施例的内容,或者参见上述的语音识别方法的各个实施例的内容,此处不再赘述。
[0252]
对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本技术并不受所描述的动作顺序的限制,因为依据本技术,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本技术所必须的。
[0253]
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
[0254]
本技术各实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减,各实施例中记载的技术特征可以进行替换或者组合。
[0255]
本技术各实施例种装置及终端中的模块和子模块可以根据实际需要进行合并、划分和删减。
[0256]
本技术所提供的几个实施例中,应该理解到,所揭露的终端,装置和方法,可以通过其它的方式实现。例如,以上所描述的终端实施例仅仅是示意性的,例如,模块或子模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个子模块或模块可以结合或者可以集成到另一个模块,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
[0257]
作为分离部件说明的模块或子模块可以是或者也可以不是物理上分开的,作为模块或子模块的部件可以是或者也可以不是物理模块或子模块,即可以位于一个地方,或者也可以分布到多个网络模块或子模块上。可以根据实际的需要选择其中的部分或者全部模块或子模块来实现本实施例方案的目的。
[0258]
另外,在本技术各个实施例中的各功能模块或子模块可以集成在一个处理模块中,也可以是各个模块或子模块单独物理存在,也可以两个或两个以上模块或子模块集成在一个模块中。上述集成的模块或子模块既可以采用硬件的形式实现,也可以采用软件功能模块或子模块的形式实现。
[0259]
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术的范围。
[0260]
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件单元,或者二者的结合来实施。软件单元可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。
[0261]
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0262]
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本技术。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下,在其它实施例中实现。因此,本技术将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。