首页 > 乐器声学 专利正文
音频识别模型的训练方法、装置和存储介质及电子设备与流程

时间:2022-02-18 阅读: 作者:专利查询

音频识别模型的训练方法、装置和存储介质及电子设备与流程

1.本发明涉及计算机领域,具体而言,涉及一种音频识别模型的训练方法、装置和存储介质及电子设备。


背景技术:

2.近年来音频识别技术的应用越发广泛,如应用在口语评测领域、安全检测领域等,但如何提高音频识别的准确性,还是一个正在研究的课题。
3.在相关技术中,通常利用对音频识别模型的训练以提高音频识别的准确性,但在相关技术的音频识别模型的训练过程中,往往需依赖大量的、人工标注的样本数据。或者说,在人工标注的样本数据较少的情况下,上述音频识别模型的训练效果往往难以保障。
4.但人工标注本身就要耗费大量的人力、物力,进而若想获得人工标注且大量的样本数据,不仅要付出高昂的人、物成本,还需耗费较长的等待时间,从而降低了音频识别模型的训练效率。即,现有技术中存在音频识别模型的训练效率较低的技术问题。
5.针对上述的问题,目前尚未提出有效的解决方案。


技术实现要素:

6.本发明实施例提供了一种音频识别模型的训练方法、装置和存储介质及电子设备,以至少解决音频识别模型的训练效率较低的技术问题。
7.根据本发明实施例的一个方面,提供了一种音频识别模型的训练方法,包括:使用第一训练样本集合对待训练的音频识别模型进行训练,得到初始音频识别模型,其中,上述第一训练样本集合包括第一组音频样本以及对上述第一组音频样本进行标注得到的第一组实际音频识别结果,上述初始音频识别模型用于根据输入的音频特征确定预测音频识别;将第二组音频样本的音频特征输入到上述初始音频识别模型,得到第一组预测音频识别结果,其中,上述第二组音频样本未标注有对应的实际音频识别结果;将上述第二组音频样本的音频特征输入到不确定性分析模型,得到第一组不确定性分析结果,其中,上述第一组不确定性分析结果用于表示上述第一组预测音频识别结果的可信度;根据上述第一组不确定性分析结果,在上述第一组预测音频识别结果中筛选出可信度满足预设条件的第二组预测音频识别结果,并在上述第二组音频样本中筛选出与上述第二组预测音频识别结果对应的第三组音频样本;根据上述第三组音频样本以及上述第二组预测音频识别结果,对上述初始音频识别模型进行当前一轮训练,其中,上述初始音频识别模型被设置为经过多轮训练,直到满足预设的收敛条件。
8.根据本发明实施例的另一个方面,提供了一种音频识别方法,包括:在目标应用中获取输入的目标音频;获取通过目标音频识别模型根据上述目标音频的音频特征确定的目标音频识别结果,其中,上述目标音频识别模型是对初始音频识别模型进行多轮训练,直到满足预设的收敛条件时所得到的音频识别模型,上述初始音频识别模型是使用第一训练样本集合对待训练的音频识别模型进行训练所得到的模型,上述第一训练样本集合包括第一
组音频样本以及对上述第一组音频样本进行标注得到的第一组实际音频识别结果,上述初始音频识别模型用于根据输入的音频特征确定预测音频识别,在每轮训练中使用每轮对应的训练样本集合对上一轮训练得到的音频识别模型进行训练,上述每轮对应的训练样本集合包括上一轮训练得到的训练样本集合以及本轮筛选得到的训练样本集合,上述本轮筛选得到的训练样本集合包括一组音频样本以及上述一组音频样本对应的一组预测音频识别结果,上述一组音频样本未标注有对应的实际音频识别结果,上述一组预测音频识别结果是上一轮训练后的音频识别模型根据上述一组音频样本的音频特征确定的预测音频识别结果;在上述目标应用中显示上述目标音频识别结果。
9.作为一种可选的方案,上述根据上述第一组不确定性分析结果,在上述第一组预测音频识别结果中筛选出可信度满足预设条件的第二组预测音频识别结果,包括:在上述下一轮训练后的音频识别模型输出的预测音频识别结果与上述第三训练样本集合中的实际音频识别结果之间的差异满足上述收敛条件时,结束对上述初始音频识别模型进行的训练,得到目标音频识别模型,其中,在上述第三训练样本集合中上述一组预测音频识别结果被视为一组实际音频识别结果。
10.作为一种可选的方案,上述根据上述第一组不确定性分析结果,在上述第一组预测音频识别结果中筛选出可信度满足预设条件的第二组预测音频识别结果,包括:在上述第一组不确定性分析结果包括一组不确定性分数时,按照分数从小到大对上述一组不确定性分数进行排序,得到不确定性分数序列,其中,上述不确定性分数越高,表示对应的预测音频识别结果的可信度越低;在上述不确定性分数序列中获取排序前n个的不确定性分数,其中,上述不确定性分数序列包括m个不确定性分数,n<m;在上述第一组预测音频识别结果中筛选出与上述排序前m位的不确定性分数对应的上述第二组预测音频识别结果。
11.作为一种可选的方案,上述在目标应用中获取输入的目标音频,包括:在上述目标应用中显示参考文本的情况下,在上述目标应用中获取朗读上述参考文本所产生的上述目标音频,或者,获取回复上述参考文本所产生的上述目标音频;上述在上述目标应用中显示上述目标音频识别结果,包括:在上述目标应用中显示上述目标音频识别模型确定的对上述目标音频的评测分数。
12.根据本发明实施例的另一方面,还提供了一种音频识别模型的训练装置,包括:第一训练单元,用于使用第一训练样本集合对待训练的音频识别模型进行训练,得到初始音频识别模型,其中,上述第一训练样本集合包括第一组音频样本以及对上述第一组音频样本进行标注得到的第一组实际音频识别结果,上述初始音频识别模型用于根据输入的音频特征确定预测音频识别;第一输入单元,用于将第二组音频样本的音频特征输入到上述初始音频识别模型,得到第一组预测音频识别结果,其中,上述第二组音频样本未标注有对应的实际音频识别结果;将上述第二组音频样本的音频特征输入到不确定性分析模型,得到第一组不确定性分析结果,其中,上述第一组不确定性分析结果用于表示上述第一组预测音频识别结果的可信度;第一筛选单元,用于根据上述第一组不确定性分析结果,在上述第一组预测音频识别结果中筛选出可信度满足预设条件的第二组预测音频识别结果,并在上述第二组音频样本中筛选出与上述第二组预测音频识别结果对应的第三组音频样本;第二训练单元,用于根据上述第三组音频样本以及上述第二组预测音频识别结果,对上述初始音频识别模型进行当前一轮训练,其中,上述初始音频识别模型被设置为经过多轮训练,直
到满足预设的收敛条件。
13.作为一种可选的方案,上述第二训练单元,包括:第一合并模块,用于将上述第三组音频样本以及上述第二组预测音频识别结果合并到上述第一训练样本集合中,得到第二训练样本集合,其中,在上述第二训练样本集合中上述第二组预测音频识别结果被视为第二组实际音频识别结果;第一训练模块,用于使用上述第二训练样本集合对上述初始音频识别模型进行当前一轮训练,得到当前一轮训练后的音频识别模型。
14.作为一种可选的方案,上述装置还包括:第一获取模块,用于在上述当前一轮训练后的音频识别模型输出的预测音频识别结果与上述第二训练样本集合中的实际音频识别结果之间的差异不满足上述收敛条件时,获取下一轮训练中待使用的一组音频样本以及上述一组音频样本对应的一组预测音频识别结果,其中,上述待使用的一组音频样本未标注有对应的实际音频识别结果,上述一组预测音频识别结果是上述当前一轮训练后的音频识别模型根据上述一组音频样本的音频特征确定的预测音频识别结果;第二合并模块,用于将上述待使用的一组音频样本以及对应的上述一组预测音频识别结果合并到上述第二训练样本集合中,得到第三训练样本集合;第二训练模块,用于使用上述第三训练样本集合对上述当前一轮训练后的音频识别模型进行上述下一轮训练,得到下一轮训练后的音频识别模型。
15.作为一种可选的方案,上述获取模块,包括:输入子模块,用于将第四组音频样本的音频特征输入到上述当前一轮训练后的音频识别模型,得到第三组预测音频识别结果,其中,上述第四组音频样本未标注有对应的实际音频识别结果;将上述第四组音频样本的音频特征输入到上述不确定性分析模型,得到第二组不确定性分析结果,其中,上述第二组不确定性分析结果用于表示上述第三组预测音频识别结果的可信度;筛选子模块,用于根据上述第二组不确定性分析结果,在上述第三组预测音频识别结果中筛选出可信度满足预设条件的第四组预测音频识别结果,并在上述第四组音频样本中筛选出与上述第四组预测音频识别结果对应的第五组音频样本。
16.作为一种可选的方案,上述第一筛选单元,包括:第二获取模块,用于在上述下一轮训练后的音频识别模型输出的预测音频识别结果与上述第三训练样本集合中的实际音频识别结果之间的差异满足上述收敛条件时,结束对上述初始音频识别模型进行的训练,得到目标音频识别模型,其中,在上述第三训练样本集合中上述一组预测音频识别结果被视为一组实际音频识别结果。
17.作为一种可选的方案,上述第一筛选单元,包括:第三获取模块,用于在上述第一组不确定性分析结果包括一组不确定性分数时,按照分数从小到大对上述一组不确定性分数进行排序,得到不确定性分数序列,其中,上述不确定性分数越高,表示对应的预测音频识别结果的可信度越低;第四获取模块,用于在上述不确定性分数序列中获取排序前n个的不确定性分数,其中,上述不确定性分数序列包括m个不确定性分数,n<m;筛选模块,用于在上述第一组预测音频识别结果中筛选出与上述排序前m位的不确定性分数对应的上述第二组预测音频识别结果。
18.作为一种可选的方案,上述装置还包括:第一获取单元,用于在目标应用中获取输入的目标音频;第二获取单元,用于获取通过目标音频识别模型根据上述目标音频的音频特征确定的目标音频识别结果,其中,上述目标音频识别模型是对上述初始音频识别模型
进行多轮训练,直到满足预设的上述收敛条件时所得到的音频识别模型;第一显示单元,用于在上述目标应用中显示上述目标音频识别结果。
19.作为一种可选的方案,包括:上述第一获取单元,包括:目标音频模块,用于在上述目标应用中显示参考文本的情况下,在上述目标应用中获取朗读上述参考文本所产生的上述目标音频,或者,获取回复上述参考文本所产生的上述目标音频;上述第一显示单元,包括:第一分数模块,用于在上述目标应用中显示上述目标音频识别模型确定的对上述目标音频的评测分数。
20.根据本发明实施例的另一方面,还提供了一种音频识别模型的训练装置,包括:第三获取单元,用于在目标应用中获取输入的目标音频;第四获取单元,用于获取通过目标音频识别模型根据上述目标音频的音频特征确定的目标音频识别结果,其中,上述目标音频识别模型是对初始音频识别模型进行多轮训练,直到满足预设的收敛条件时所得到的音频识别模型,上述初始音频识别模型是使用第一训练样本集合对待训练的音频识别模型进行训练所得到的模型,上述第一训练样本集合包括第一组音频样本以及对上述第一组音频样本进行标注得到的第一组实际音频识别结果,上述初始音频识别模型用于根据输入的音频特征确定预测音频识别,在每轮训练中使用每轮对应的训练样本集合对上一轮训练得到的音频识别模型进行训练,上述每轮对应的训练样本集合包括上一轮训练得到的训练样本集合以及本轮筛选得到的训练样本集合,上述本轮筛选得到的训练样本集合包括一组音频样本以及上述一组音频样本对应的一组预测音频识别结果,上述一组音频样本未标注有对应的实际音频识别结果,上述一组预测音频识别结果是上一轮训练后的音频识别模型根据上述一组音频样本的音频特征确定的预测音频识别结果;第三显示单元,用于在上述目标应用中显示上述目标音频识别结果。
21.作为一种可选的方案,包括:第三训练单元,用于在上述目标应用中获取输入的目标音频之前,使用第一训练样本集合对待训练的音频识别模型进行训练,得到初始音频识别模型,其中,上述第一训练样本集合包括第一组音频样本以及对上述第一组音频样本进行标注得到的第一组实际音频识别结果,上述初始音频识别模型用于根据输入的音频特征确定预测音频识别;第二输入单元,用于在上述目标应用中获取输入的目标音频之前,将第二组音频样本的音频特征输入到上述初始音频识别模型,得到第一组预测音频识别结果,其中,上述第二组音频样本未标注有对应的实际音频识别结果;将上述第二组音频样本的音频特征输入到不确定性分析模型,得到第一组不确定性分析结果,其中,上述第一组不确定性分析结果用于表示上述第一组预测音频识别结果的可信度;第二筛选单元,用于在上述目标应用中获取输入的目标音频之前,根据上述第一组不确定性分析结果,在上述第一组预测音频识别结果中筛选出可信度满足预设条件的第二组预测音频识别结果,并在上述第二组音频样本中筛选出与上述第二组预测音频识别结果对应的第三组音频样本;第四训练单元,用于在上述目标应用中获取输入的目标音频之前,根据上述第三组音频样本以及上述第二组预测音频识别结果,对上述初始音频识别模型进行当前一轮训练,其中,上述初始音频识别模型被设置为经过多轮训练,直到满足预设的收敛条件。
22.作为一种可选的方案,包括:第一合并单元,用于在上述目标应用中获取输入的目标音频之前,将上述第三组音频样本以及上述第二组预测音频识别结果合并到上述第一训练样本集合中,得到第二训练样本集合,其中,在上述第二训练样本集合中上述第二组预测
音频识别结果被视为第二组实际音频识别结果;第五训练单元,用于在上述目标应用中获取输入的目标音频之前,使用上述第二训练样本集合对上述初始音频识别模型进行当前一轮训练,得到当前一轮训练后的音频识别模型。
23.作为一种可选的方案,包括:第五获取单元,用于在上述当前一轮训练后的音频识别模型输出的预测音频识别结果与上述第二训练样本集合中的实际音频识别结果之间的差异不满足上述收敛条件时,获取下一轮训练中待使用的一组音频样本以及上述一组音频样本对应的一组预测音频识别结果,其中,上述待使用的一组音频样本未标注有对应的实际音频识别结果,上述一组预测音频识别结果是上述当前一轮训练后的音频识别模型根据上述一组音频样本的音频特征确定的预测音频识别结果;第二合并单元,用于将上述待使用的一组音频样本以及对应的上述一组预测音频识别结果合并到上述第二训练样本集合中,得到第三训练样本集合;第四训练单元,用于使用上述第三训练样本集合对上述当前一轮训练后的音频识别模型进行上述下一轮训练,得到下一轮训练后的音频识别模型。
24.作为一种可选的方案,包括:第三输入单元,用于在上述目标应用中获取输入的目标音频之前,将第四组音频样本的音频特征输入到上述当前一轮训练后的音频识别模型,得到第三组预测音频识别结果,其中,上述第四组音频样本未标注有对应的实际音频识别结果;将上述第四组音频样本的音频特征输入到上述不确定性分析模型,得到第二组不确定性分析结果,其中,上述第二组不确定性分析结果用于表示上述第三组预测音频识别结果的可信度;第三筛选单元,用于在上述目标应用中获取输入的目标音频之前,根据上述第二组不确定性分析结果,在上述第三组预测音频识别结果中筛选出可信度满足预设条件的第四组预测音频识别结果,并在上述第四组音频样本中筛选出与上述第四组预测音频识别结果对应的第五组音频样本。
25.作为一种可选的方案,包括:第六获取单元,用于在上述目标应用中获取输入的目标音频之前,在上述下一轮训练后的音频识别模型输出的预测音频识别结果与上述第三训练样本集合中的实际音频识别结果之间的差异满足上述收敛条件时,结束对上述初始音频识别模型进行的训练,得到目标音频识别模型,其中,在上述第三训练样本集合中上述一组预测音频识别结果被视为一组实际音频识别结果。
26.作为一种可选的方案,包括:排序单元,用于在上述目标应用中获取输入的目标音频之前,在上述第一组不确定性分析结果包括一组不确定性分数时,按照分数从小到大对上述一组不确定性分数进行排序,得到不确定性分数序列,其中,上述不确定性分数越高,表示对应的预测音频识别结果的可信度越低;第七获取单元,用于在上述目标应用中获取输入的目标音频之前,在上述不确定性分数序列中获取排序前n个的不确定性分数,其中,上述不确定性分数序列包括m个不确定性分数,n<m;第四筛选单元,用于在上述目标应用中获取输入的目标音频之前,在上述第一组预测音频识别结果中筛选出与上述排序前m位的不确定性分数对应的上述第二组预测音频识别结果。
27.作为一种可选的方案,上述装置还包括:上述第三获取单元,包括:第二音频模块,用于在上述目标应用中显示参考文本的情况下,在上述目标应用中获取朗读上述参考文本所产生的上述目标音频,或者,获取回复上述参考文本所产生的上述目标音频;上述第三显示单元,包括:第二分数模块,用于在上述目标应用中显示上述目标音频识别模型确定的对上述目标音频的评测分数。
28.根据本发明实施例的又一方面,还提供了一种计算机可读的存储介质,该计算机可读的存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述音频识别模型的训练方法。
29.根据本发明实施例的又一方面,还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,上述处理器通过计算机程序执行上述的音频识别模型的训练方法。
30.在本发明实施例中使用第一训练样本集合对待训练的音频识别模型进行训练,得到初始音频识别模型,其中,上述第一训练样本集合包括第一组音频样本以及对上述第一组音频样本进行标注得到的第一组实际音频识别结果,上述初始音频识别模型用于根据输入的音频特征确定预测音频识别;将第二组音频样本的音频特征输入到上述初始音频识别模型,得到第一组预测音频识别结果,其中,上述第二组音频样本未标注有对应的实际音频识别结果;将上述第二组音频样本的音频特征输入到不确定性分析模型,得到第一组不确定性分析结果,其中,上述第一组不确定性分析结果用于表示上述第一组预测音频识别结果的可信度;根据上述第一组不确定性分析结果,在上述第一组预测音频识别结果中筛选出可信度满足预设条件的第二组预测音频识别结果,并在上述第二组音频样本中筛选出与上述第二组预测音频识别结果对应的第三组音频样本;根据上述第三组音频样本以及上述第二组预测音频识别结果,对上述初始音频识别模型进行当前一轮训练,其中,上述初始音频识别模型被设置为经过多轮训练,直到满足预设的收敛条件,通过无需保证全部音频样本都进行标注,即可完成对音频识别模型的训练,进而达到了降低标注样本对音频识别模型的影响程度的目的,从而实现了提高音频识别模型的训练效率的技术效果,进而解决了音频识别模型的训练效率较低的技术问题。
附图说明
31.此处所说明的附图用来提供对本发明的进一步理解,构成本技术的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
32.图1是根据本发明实施例的一种可选的音频识别模型的训练方法的应用环境的示意图;
33.图2是根据本发明实施例的一种可选的音频识别模型的训练方法的流程的示意图;
34.图3是根据本发明实施例的一种可选的音频识别模型的训练方法的示意图;
35.图4是根据本发明实施例的另一种可选的音频识别模型的训练方法的示意图;
36.图5是根据本发明实施例的另一种可选的音频识别模型的训练方法的示意图;
37.图6是根据本发明实施例的另一种可选的音频识别模型的训练方法的示意图;
38.图7是根据本发明实施例的另一种可选的音频识别模型的训练方法的示意图;
39.图8是根据本发明实施例的另一种可选的音频识别模型的训练方法的示意图;
40.图9是根据本发明实施例的另一种可选的音频识别模型的训练方法的示意图;
41.图10是根据本发明实施例的另一种可选的音频识别模型的训练方法的示意图;
42.图11是根据本发明实施例的另一种可选的音频识别模型的训练方法的示意图;
43.图12是根据本发明实施例的另一种可选的音频识别模型的训练方法的示意图;
44.图13是根据本发明实施例的另一种可选的音频识别模型的训练方法的示意图;
45.图14是根据本发明实施例的一种可选的音频识别模型的训练装置的示意图;
46.图15是根据本发明实施例的一种可选的音频识别装置的示意图;
47.图16是根据本发明实施例的一种可选的电子设备的结构示意图。
具体实施方式
48.为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
49.需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
50.首先,为方便理解本发明实施例,下面对本发明中所涉及的部分术语或名词进行解释说明:
51.自动语音识别(automatic speech recognition,简称asr:),将音频转化为文本的过程。
52.半监督学习(semi

supervised learning,简称ssl),是监督学习与无监督学习相结合的一种学习方法,使用大量的未标记数据,以及同时使用标记数据,来进行模式识别工作。
53.皮尔逊相关系数:是用于度量两个变量x和y之间的相关(线性相关),其值介于

1与1之间
54.svr:support vector regression,是基于支持向量机的一种回归算法
55.k近邻算法(k

nearest neighbors,简称knn:),对新来的预测实例寻找k近邻,然后对这k个样本的目标值取均值即可作为新样本的预测值。
56.gbt:gradient boost tree,一种基于提升树的回归算法。利用损失函数的负梯度在当前模型的值作为残差的近似值,拟合一个回归树。
57.人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
58.人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、
大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
59.语音技术(speech technology)的关键技术有自动语音识别技术(asr)和语音合成技术(tts)以及声纹识别技术。让计算机能听、能看、能说、能感觉,是未来人机交互的发展方向,其中语音成为未来最被看好的人机交互方式之一。
60.机器学习(machine learning,ml)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
61.随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
62.本技术实施例提供的方案涉及人工智能的语音识别、机器学习等技术,具体通过如下实施例进行说明:
63.根据本发明实施例的一个方面,提供了一种音频识别模型的训练方法,可选地,作为一种可选的实施方式,上述音频识别模型的训练方法可以但不限于应用于如图1所示的环境中。其中,可以但不限于包括用户设备102、网络110及服务器112,其中,该用户设备102上可以但不限于包括显示器108、处理器106及存储器104。
64.具体过程可如下步骤:
65.步骤s102,用户设备102获取对虚拟按钮“开启训练”触发的训练指令,其中,该训练指令用于指示根据有标注的第一组音频样本1022以及无标注的第二组音频样本1024进行模型训练;
66.步骤s104

s106,用户设备102通过网络110将训练指令发送给服务器112;
67.步骤s108,服务器112响应训练指令,并通过处理引擎116将第一组音频样本1022以及第二组音频样本1024进行处理,从而获取训练完成的音频识别模型,并生成对应的训练结果;
68.步骤s110

s112,服务器112通过网络110将训练结果发送给用户设备102,用户设备102中的处理器106将训练结果显示在显示器108中,并将训练结果存储在存储器104中。
69.除图1示出的示例之外,上述步骤可以由用户设备102独立完成,即由用户设备102执行将第一组音频样本1022以及第二组音频样本1024进行处理等步骤,从而减轻服务器的处理压力。该用户设备102包括但不限于手持设备(如手机)、电脑、智能语音交互设备、智能家电、车载终端等,本发明并不限制用户设备102的具体实现方式。
70.可选地,作为一种可选的实施方式,如图2所示,音频识别模型的训练方法包括:
71.s202,使用第一训练样本集合对待训练的音频识别模型进行训练,得到初始音频识别模型,其中,第一训练样本集合包括第一组音频样本以及对第一组音频样本进行标注得到的第一组实际音频识别结果,初始音频识别模型用于根据输入的音频特征确定预测音
频识别;
72.s204,将第二组音频样本的音频特征输入到初始音频识别模型,得到第一组预测音频识别结果,其中,第二组音频样本未标注有对应的实际音频识别结果;将第二组音频样本的音频特征输入到不确定性分析模型,得到第一组不确定性分析结果,其中,第一组不确定性分析结果用于表示第一组预测音频识别结果的可信度;
73.s206,根据第一组不确定性分析结果,在第一组预测音频识别结果中筛选出可信度满足预设条件的第二组预测音频识别结果,并在第二组音频样本中筛选出与第二组预测音频识别结果对应的第三组音频样本;
74.s208,根据第三组音频样本以及第二组预测音频识别结果,对初始音频识别模型进行当前一轮训练,其中,初始音频识别模型被设置为经过多轮训练,直到满足预设的收敛条件。
75.可选地,在本实施例中,上述音频识别模型的训练方法可以但不限于应用在自动口语评测场景中,例如通过上述音频识别模型的训练方法训练出一个可以识别口语音频的音频识别模型,对用户输入的音频进行识别评测,并将音频识别模型的输出显示为评测结果,以使用户可以清晰地获知自己的口语水平。
76.可选地,在本实施例中,第一组音频样本和第二组音频样本可以但不限于同为未标注的音频样本,而第一组实际音频识别结果为对第一组音频样本进行标注得到的一组音频样本。
77.可选地,在本实施例中,初始音频识别模型可以但不限于为使用少带有标注的音频样本训练获得的音频识别模型,该初始音频识别模型可以但不限于具有基本功能且训练效果未达收敛条件的半成品音频识别模型。
78.可选地,在本实施例中,不确定性分析模型可以但不限于为一种可自动执行不确定性方法的模型,其中,不确定性方法可以但不限于包括以下至少之一:高斯过程回归,蒙特卡罗dropout方法,深度混合密度网络等。其中,高斯过程采用高斯分布建模输出,确定每个预测结果的均值和方差,该方法采用方差作为不确定性的衡量,方差越大,不确定性越大。蒙特卡罗dropout方法采用多个模型集成分析模型的不确定性,它假设对于不确定的数据,每个模型的输出具有多样性[8],如果输出越多样,不确定越大。深度混合密度网络与高斯过程建模类似,对结果的均值和方差和建模[9],该方法也采用方差作为不确定性的衡量,方差越大,不确定性越大。
[0079]
需要说明的是,先基于带有标注的第一组音频样本训练得到初始音频识别模型,对无标注的第二组音频样本进行初始的音频识别,以获得第一组预测音频识别结果;再使用训练好的不确定性分析模型对无标注的第二组音频样本进行不确定性分析,并利用分析结果对第一组预测音频识别结果进行筛选,以获得第二组预测音频识别结果;再者,获取第二组音频样本中与第二组预测音频识别结果对应的第三组音频样本,并利用第三组音频样本对初始音频识别模型进行迭代训练,直至满足预设的收敛条件,获取训练好的音频识别模型。
[0080]
进一步举例说明,可选的例如图3所示,首先使用带有标注的第一组音频样本302对待训练的音频识别模型304进行训练,得到初始音频识别模型306;再将第二组音频样本308的音频特征输入到初始音频识别模型306,得到第一组预测音频识别结果312;以及将第
二组音频样本308的音频特征输入到不确定性分析模型310,得到第一组不确定性分析结果314,其中,第一组不确定性分析结果314用于表示第一组预测音频识别结果312的可信度;根据第一组不确定性分析结果314,在第一组预测音频识别结果312中筛选出可信度满足预设条件的第二组预测音频识别结果316,并在第二组音频样本308中筛选出与第二组预测音频识别结果316对应的第三组音频样本318;根据第三组音频样本318以及第二组预测音频识别结果316,对初始音频识别模型306进行当前一轮训练,其中,初始音频识别模型306被设置为经过多轮训练,直到满足预设的收敛条件;
[0081]
此外,可选地在获取到训练好的音频识别模型320的情况下,获取口语评测场景下的输入音频322(如阅读参看文本的朗读音频),并将输入音频322输入至音频识别模型320中,并根据音频识别模型320的输出结果确定音频识别结果324(如口语评测分数)。
[0082]
进一步举例说明,可选的音频识别模型的训练过程例如图4所示,具体步骤如下:
[0083]
步骤s402,使用带有标注的样本对待训练的音频识别模型进行训练,得到初始音频识别模型;
[0084]
步骤s404,使用无标注的样本,利用不确定性分析模型,对初始音频识别模型进行初始训练以及迭代训练,其中,初始训练包括了利用不确定性分析模型对当前轮次的样本做筛选处理,并在筛选处理结束后,得到的对应样本即为迭代训练过程中的第一轮训练所用样本,且在第一轮训练过程中,除利用初始训练获得到的样本对初始音频识别模型进行训练外,还利用不确定性分析模型再次进行筛选处理,并在筛选处理结束后,得到的对应样本即为迭代训练过程中的第二轮训练所用样本;概括而言,迭代训练中,除第一轮训练使用的样本为初始训练得到的样本外,其余轮次训练所使用的样本皆为上一轮次训练所筛选除的样本;
[0085]
步骤s406,经过多轮训练,直到满足预设的收敛条件,获取训练好的音频识别模型。
[0086]
通过本技术提供的实施例,使用第一训练样本集合对待训练的音频识别模型进行训练,得到初始音频识别模型,其中,第一训练样本集合包括第一组音频样本以及对第一组音频样本进行标注得到的第一组实际音频识别结果,初始音频识别模型用于根据输入的音频特征确定预测音频识别;将第二组音频样本的音频特征输入到初始音频识别模型,得到第一组预测音频识别结果,其中,第二组音频样本未标注有对应的实际音频识别结果;将第二组音频样本的音频特征输入到不确定性分析模型,得到第一组不确定性分析结果,其中,第一组不确定性分析结果用于表示第一组预测音频识别结果的可信度;根据第一组不确定性分析结果,在第一组预测音频识别结果中筛选出可信度满足预设条件的第二组预测音频识别结果,并在第二组音频样本中筛选出与第二组预测音频识别结果对应的第三组音频样本;根据第三组音频样本以及第二组预测音频识别结果,对初始音频识别模型进行当前一轮训练,其中,初始音频识别模型被设置为经过多轮训练,直到满足预设的收敛条件,通过无需保证全部音频样本都进行标注,即可完成对音频识别模型的训练,进而达到了降低标注样本对音频识别模型的影响程度的目的,从而实现了提高音频识别模型的训练效率的技术效果。
[0087]
作为一种可选的方案,根据第三组音频样本以及第二组预测音频识别结果,对初始音频识别模型进行当前一轮训练,包括:
[0088]
s1,将第三组音频样本以及第二组预测音频识别结果合并到第一训练样本集合中,得到第二训练样本集合,其中,在第二训练样本集合中第二组预测音频识别结果被视为第二组实际音频识别结果;
[0089]
s2,使用第二训练样本集合对初始音频识别模型进行当前一轮训练,得到当前一轮训练后的音频识别模型。
[0090]
可选地,在本实施例中,经过筛选得到的第三组音频样本可作为带有标注的音频样本合并至第一训练样本集合中,以共同训练初始音频识别模型。如此一来,即使人力物力或时间有限,无法获取大量的带有标注的音频样本,仍可完成对音频识别模型的训练。
[0091]
通过本技术提供的实施例,将第三组音频样本以及第二组预测音频识别结果合并到第一训练样本集合中,得到第二训练样本集合,其中,在第二训练样本集合中第二组预测音频识别结果被视为第二组实际音频识别结果;使用第二训练样本集合对初始音频识别模型进行当前一轮训练,得到当前一轮训练后的音频识别模型,实现了提高音频识别模型的训练效率的效果。
[0092]
作为一种可选的方案,方法还包括:
[0093]
s1,在当前一轮训练后的音频识别模型输出的预测音频识别结果与第二训练样本集合中的实际音频识别结果之间的差异不满足收敛条件时,获取下一轮训练中待使用的一组音频样本以及一组音频样本对应的一组预测音频识别结果,其中,待使用的一组音频样本未标注有对应的实际音频识别结果,一组预测音频识别结果是当前一轮训练后的音频识别模型根据一组音频样本的音频特征确定的预测音频识别结果;
[0094]
s2,将待使用的一组音频样本以及对应的一组预测音频识别结果合并到第二训练样本集合中,得到第三训练样本集合;
[0095]
s3,使用第三训练样本集合对当前一轮训练后的音频识别模型进行下一轮训练,得到下一轮训练后的音频识别模型。
[0096]
可选地,在本实施例中,每一轮的训练都可以但不限于采用新的音频样本,且新的音频样本可以但不限于都未带有标注。基于此,使得在音频识别模型的训练过程中,除最开始对初始音频识别模型的构建需使用少量带有批注的音频样本外,其余步骤皆可直接使用未带有标注的音频样本进行训练,大大节省了音频样本的标注时间,也为音频识别模型的训练节省了标注所需消耗的资源。
[0097]
通过本技术提供的实施例,在当前一轮训练后的音频识别模型输出的预测音频识别结果与第二训练样本集合中的实际音频识别结果之间的差异不满足收敛条件时,获取下一轮训练中待使用的一组音频样本以及一组音频样本对应的一组预测音频识别结果,其中,待使用的一组音频样本未标注有对应的实际音频识别结果,一组预测音频识别结果是当前一轮训练后的音频识别模型根据一组音频样本的音频特征确定的预测音频识别结果;将待使用的一组音频样本以及对应的一组预测音频识别结果合并到第二训练样本集合中,得到第三训练样本集合;使用第三训练样本集合对当前一轮训练后的音频识别模型进行下一轮训练,得到下一轮训练后的音频识别模型,实现了提高音频识别模型的训练效率的效果。
[0098]
作为一种可选的方案,获取下一轮训练中待使用的一组音频样本以及一组音频样本对应的一组预测音频识别结果,包括:
[0099]
s1,将第四组音频样本的音频特征输入到当前一轮训练后的音频识别模型,得到第三组预测音频识别结果,其中,第四组音频样本未标注有对应的实际音频识别结果;将第四组音频样本的音频特征输入到不确定性分析模型,得到第二组不确定性分析结果,其中,第二组不确定性分析结果用于表示第三组预测音频识别结果的可信度;
[0100]
s2,根据第二组不确定性分析结果,在第三组预测音频识别结果中筛选出可信度满足预设条件的第四组预测音频识别结果,并在第四组音频样本中筛选出与第四组预测音频识别结果对应的第五组音频样本。
[0101]
通过本技术提供的实施例,将第四组音频样本的音频特征输入到当前一轮训练后的音频识别模型,得到第三组预测音频识别结果,其中,第四组音频样本未标注有对应的实际音频识别结果;将第四组音频样本的音频特征输入到不确定性分析模型,得到第二组不确定性分析结果,其中,第二组不确定性分析结果用于表示第三组预测音频识别结果的可信度;根据第二组不确定性分析结果,在第三组预测音频识别结果中筛选出可信度满足预设条件的第四组预测音频识别结果,并在第四组音频样本中筛选出与第四组预测音频识别结果对应的第五组音频样本,实现了提高音频识别模型的训练完整度的效果。
[0102]
作为一种可选的方案,根据第一组不确定性分析结果,在第一组预测音频识别结果中筛选出可信度满足预设条件的第二组预测音频识别结果,包括:
[0103]
在下一轮训练后的音频识别模型输出的预测音频识别结果与第三训练样本集合中的实际音频识别结果之间的差异满足收敛条件时,结束对初始音频识别模型进行的训练,得到目标音频识别模型,其中,在第三训练样本集合中一组预测音频识别结果被视为一组实际音频识别结果。
[0104]
可选地,在本实施例中,在达到收敛条件时,结束对初始音频识别模型进行的训练,以得到训练好的目标音频识别模型。
[0105]
通过本技术提供的实施例,在下一轮训练后的音频识别模型输出的预测音频识别结果与第三训练样本集合中的实际音频识别结果之间的差异满足收敛条件时,结束对初始音频识别模型进行的训练,得到目标音频识别模型,其中,在第三训练样本集合中一组预测音频识别结果被视为一组实际音频识别结果,实现了提高音频识别模型的训练完整度的效果。
[0106]
作为一种可选的方案,根据第一组不确定性分析结果,在第一组预测音频识别结果中筛选出可信度满足预设条件的第二组预测音频识别结果,包括:
[0107]
s1,在第一组不确定性分析结果包括一组不确定性分数时,按照分数从小到大对一组不确定性分数进行排序,得到不确定性分数序列,其中,不确定性分数越高,表示对应的预测音频识别结果的可信度越低;
[0108]
s2,在不确定性分数序列中获取排序前n个的不确定性分数,其中,不确定性分数序列包括m个不确定性分数,n<m;
[0109]
s3,在第一组预测音频识别结果中筛选出与排序前m位的不确定性分数对应的第二组预测音频识别结果。
[0110]
可选地,在本实施例中,可以但不限于将不确定性分数作为筛选的方式之一,按照不确定性分数对每个音频识别结果进行排序,并取前m位或取不确定分数大于等于目标阈值的音频识别结果,组成第二组预测音频识别结果。
[0111]
通过本技术提供的实施例,在第一组不确定性分析结果包括一组不确定性分数时,按照分数从小到大对一组不确定性分数进行排序,得到不确定性分数序列,其中,不确定性分数越高,表示对应的预测音频识别结果的可信度越低;在不确定性分数序列中获取排序前n个的不确定性分数,其中,不确定性分数序列包括m个不确定性分数,n<m;在第一组预测音频识别结果中筛选出与排序前m位的不确定性分数对应的第二组预测音频识别结果,实现了提高对音频识别结果的筛选效率的效果。
[0112]
作为一种可选的方案,方法还包括:
[0113]
s1,在目标应用中获取输入的目标音频;
[0114]
s2,获取通过目标音频识别模型根据目标音频的音频特征确定的目标音频识别结果,其中,目标音频识别模型是对初始音频识别模型进行多轮训练,直到满足预设的收敛条件时所得到的音频识别模型;
[0115]
s3,在目标应用中显示目标音频识别结果。
[0116]
其中,在目标应用中获取输入的目标音频,可以但不限于包括:在目标应用中显示参考文本的情况下,在目标应用中获取朗读参考文本所产生的目标音频,或者,获取回复参考文本所产生的目标音频;
[0117]
在目标应用中显示目标音频识别结果,可以但不限于包括:在目标应用中显示目标音频识别模型确定的对目标音频的评测分数。
[0118]
可选地,在本实施例中,每个参考文本可以但不限于都各自对应一个或多个参考音频,在口语评测的场景下,可以但不限于通过获取到的目标音频与参考音频之间的相似度比对,以确定目标音频的评测分数。
[0119]
进一步举例说明,可选的例如图5所示,在目标应用界面502上显示有参考文本“who are you?”,以及提示信息“请大声朗读上述文本信息”,进而如图5中的(a)所示,在虚拟按钮“开始阅读”上识别到触控操作,进而采集目标时间段内的音频信号,并将该音频信号作为目标音频输入目标音频识别模型中,以使目标音频识别模型根据该目标音频输出对应的识别结果,其识别过程在前台的表现可以但不限于如图5中的(b)所示;再者,在获取到目标音频识别模型的输出结果后,将该输出结果转化为评测结果,如图5中的(c)所示的评测结果表现为评测分数“85分”。
[0120]
进一步举例说明,可选的例如图6所示,在目标应用界面602上显示有参考文本“how are you?”,以及提示信息“请回答以上文本”,进而如图6中的(a)所示,在虚拟按钮“开始回答”上识别到触控操作,进而采集目标时间段内的音频信号,并将该音频信号作为目标音频输入目标音频识别模型中,以使目标音频识别模型根据该目标音频输出对应的识别结果,其识别过程在前台的表现可以但不限于如图6中的(b)所示;再者,在获取到目标音频识别模型的输出结果后,将该输出结果转化为评测结果,如图6中的(c)所示的评测结果表现为识别出的回答文本,此外,还可以基于该回答文本是否正确以及发音是否标注,再给出一个评测分数(图中未示出)。
[0121]
通过本技术提供的实施例,在目标应用中显示参考文本的情况下,在目标应用中获取朗读参考文本所产生的目标音频,或者,获取回复参考文本所产生的目标音频;在目标应用中显示目标音频识别模型确定的对目标音频的评测分数,实现了提高音频评测的准确性的效果。
[0122]
可选地,作为一种可选的实施方式,如图7所示,音频识别方法包括:
[0123]
s702,在目标应用中获取输入的目标音频;
[0124]
s704,获取通过目标音频识别模型根据目标音频的音频特征确定的目标音频识别结果,其中,目标音频识别模型是对初始音频识别模型进行多轮训练,直到满足预设的收敛条件时所得到的音频识别模型,初始音频识别模型是使用第一训练样本集合对待训练的音频识别模型进行训练所得到的模型,第一训练样本集合包括第一组音频样本以及对第一组音频样本进行标注得到的第一组实际音频识别结果,初始音频识别模型用于根据输入的音频特征确定预测音频识别,在每轮训练中使用每轮对应的训练样本集合对上一轮训练得到的音频识别模型进行训练,每轮对应的训练样本集合包括上一轮训练得到的训练样本集合以及本轮筛选得到的训练样本集合,本轮筛选得到的训练样本集合包括一组音频样本以及一组音频样本对应的一组预测音频识别结果,一组音频样本未标注有对应的实际音频识别结果,一组预测音频识别结果是上一轮训练后的音频识别模型根据一组音频样本的音频特征确定的预测音频识别结果;
[0125]
s706,在目标应用中显示目标音频识别结果。
[0126]
可选地,在本实施例中,上述音频识别方法可以但不限于应用在自动口语评测场景中,例如通过上述音频识别方法,将用户输入的音频进行口语评测,以使用户可以清晰地获知自己的口语水平。
[0127]
可选地,在本实施例中,第一组音频样本和第二组音频样本可以但不限于同为未标注的音频样本,而第一组实际音频识别结果为对第一组音频样本进行标注得到的一组音频样本。
[0128]
可选地,在本实施例中,初始音频识别模型可以但不限于为使用少带有标注的音频样本训练获得的音频识别模型,该初始音频识别模型可以但不限于具有基本功能且训练效果未达收敛条件的半成品音频识别模型。
[0129]
可选地,在本实施例中,不确定性分析模型可以但不限于为一种可自动执行不确定性方法的模型,其中,不确定性方法可以但不限于包括以下至少之一:高斯过程回归,蒙特卡罗dropout方法,深度混合密度网络等。其中,高斯过程采用高斯分布建模输出,确定每个预测结果的均值和方差,该方法采用方差作为不确定性的衡量,方差越大,不确定性越大。蒙特卡罗dropout方法采用多个模型集成分析模型的不确定性,它假设对于不确定的数据,每个模型的输出具有多样性[8],如果输出越多样,不确定越大。深度混合密度网络与高斯过程建模类似,对结果的均值和方差和建模[9],该方法也采用方差作为不确定性的衡量,方差越大,不确定性越大。
[0130]
通过本技术提供的实施例,在目标应用中获取输入的目标音频;获取通过目标音频识别模型根据目标音频的音频特征确定的目标音频识别结果,其中,目标音频识别模型是对初始音频识别模型进行多轮训练,直到满足预设的收敛条件时所得到的音频识别模型,初始音频识别模型是使用第一训练样本集合对待训练的音频识别模型进行训练所得到的模型,第一训练样本集合包括第一组音频样本以及对第一组音频样本进行标注得到的第一组实际音频识别结果,初始音频识别模型用于根据输入的音频特征确定预测音频识别,在每轮训练中使用每轮对应的训练样本集合对上一轮训练得到的音频识别模型进行训练,每轮对应的训练样本集合包括上一轮训练得到的训练样本集合以及本轮筛选得到的训练
样本集合,本轮筛选得到的训练样本集合包括一组音频样本以及一组音频样本对应的一组预测音频识别结果,一组音频样本未标注有对应的实际音频识别结果,一组预测音频识别结果是上一轮训练后的音频识别模型根据一组音频样本的音频特征确定的预测音频识别结果;在目标应用中显示目标音频识别结果,通过无需大量标注的音频样本的模型训练方式,快速地得到满足收敛条件的音频识别模型用以音频识别,从而实现了提高音频识别的效率的技术效果。
[0131]
作为一种可选的方案,在在目标应用中获取输入的目标音频之前,包括:
[0132]
s1,使用第一训练样本集合对待训练的音频识别模型进行训练,得到初始音频识别模型,其中,第一训练样本集合包括第一组音频样本以及对第一组音频样本进行标注得到的第一组实际音频识别结果,初始音频识别模型用于根据输入的音频特征确定预测音频识别;
[0133]
s2,将第二组音频样本的音频特征输入到初始音频识别模型,得到第一组预测音频识别结果,其中,第二组音频样本未标注有对应的实际音频识别结果;将第二组音频样本的音频特征输入到不确定性分析模型,得到第一组不确定性分析结果,其中,第一组不确定性分析结果用于表示第一组预测音频识别结果的可信度;
[0134]
s3,根据第一组不确定性分析结果,在第一组预测音频识别结果中筛选出可信度满足预设条件的第二组预测音频识别结果,并在第二组音频样本中筛选出与第二组预测音频识别结果对应的第三组音频样本;
[0135]
根据第三组音频样本以及第二组预测音频识别结果,对初始音频识别模型进行当前一轮训练,其中,初始音频识别模型被设置为经过多轮训练,直到满足预设的收敛条件。
[0136]
需要说明的是,先基于带有标注的第一组音频样本训练得到初始音频识别模型,对无标注的第二组音频样本进行初始的音频识别,以获得第一组预测音频识别结果;再使用训练好的不确定性分析模型对无标注的第二组音频样本进行不确定性分析,并利用分析结果对第一组预测音频识别结果进行筛选,以获得第二组预测音频识别结果;再者,获取第二组音频样本中与第二组预测音频识别结果对应的第三组音频样本,并利用第三组音频样本对初始音频识别模型进行迭代训练,直至满足预设的收敛条件,获取训练好的音频识别模型。
[0137]
进一步举例说明,可选的例如图3所示,首先使用带有标注的第一组音频样本302对待训练的音频识别模型304进行训练,得到初始音频识别模型306;再将第二组音频样本308的音频特征输入到初始音频识别模型306,得到第一组预测音频识别结果312;以及将第二组音频样本308的音频特征输入到不确定性分析模型310,得到第一组不确定性分析结果314,其中,第一组不确定性分析结果314用于表示第一组预测音频识别结果312的可信度;根据第一组不确定性分析结果314,在第一组预测音频识别结果312中筛选出可信度满足预设条件的第二组预测音频识别结果316,并在第二组音频样本308中筛选出与第二组预测音频识别结果316对应的第三组音频样本318;根据第三组音频样本318以及第二组预测音频识别结果316,对初始音频识别模型306进行当前一轮训练,其中,初始音频识别模型306被设置为经过多轮训练,直到满足预设的收敛条件;
[0138]
此外,可选地在获取到训练好的音频识别模型320的情况下,获取口语评测场景下的输入音频322(如阅读参看文本的朗读音频),并将输入音频322输入至音频识别模型320
中,并根据音频识别模型320的输出结果确定音频识别结果324(如口语评测分数)。
[0139]
进一步举例说明,可选的音频识别模型的训练过程例如图4所示,具体步骤如下:
[0140]
步骤s402,使用带有标注的样本对待训练的音频识别模型进行训练,得到初始音频识别模型;
[0141]
步骤s404,使用无标注的样本,利用不确定性分析模型,对初始音频识别模型进行初始训练(第0轮训练)以及迭代训练(第1~n轮训练),其中,初始训练包括了利用不确定性分析模型对当前轮次的样本做筛选处理,并在筛选处理结束后,得到的对应样本即为迭代训练过程中的第一轮训练所用样本,且在第一轮训练过程中,除利用初始训练获得到的样本对初始音频识别模型进行训练外,还利用不确定性分析模型再次进行筛选处理,并在筛选处理结束后,得到的对应样本即为迭代训练过程中的第二轮训练所用样本;概括而言,迭代训练中,除第一轮训练使用的样本为初始训练得到的样本外,其余轮次训练所使用的样本皆为上一轮次训练所筛选除的样本,具体可参考图4中右侧的多轮训练图所示;
[0142]
步骤s406,经过多轮训练,直到满足预设的收敛条件,获取训练好的音频识别模型。
[0143]
通过本技术提供的实施例,使用第一训练样本集合对待训练的音频识别模型进行训练,得到初始音频识别模型,其中,第一训练样本集合包括第一组音频样本以及对第一组音频样本进行标注得到的第一组实际音频识别结果,初始音频识别模型用于根据输入的音频特征确定预测音频识别;将第二组音频样本的音频特征输入到初始音频识别模型,得到第一组预测音频识别结果,其中,第二组音频样本未标注有对应的实际音频识别结果;将第二组音频样本的音频特征输入到不确定性分析模型,得到第一组不确定性分析结果,其中,第一组不确定性分析结果用于表示第一组预测音频识别结果的可信度;根据第一组不确定性分析结果,在第一组预测音频识别结果中筛选出可信度满足预设条件的第二组预测音频识别结果,并在第二组音频样本中筛选出与第二组预测音频识别结果对应的第三组音频样本;根据第三组音频样本以及第二组预测音频识别结果,对初始音频识别模型进行当前一轮训练,其中,初始音频识别模型被设置为经过多轮训练,直到满足预设的收敛条件,通过无需保证全部音频样本都进行标注,即可完成对音频识别模型的训练,进而达到了降低标注样本对音频识别模型的影响程度的目的,从而实现了提高音频识别模型的训练效率的技术效果。
[0144]
作为一种可选的方案,根据第三组音频样本以及第二组预测音频识别结果,对初始音频识别模型进行当前一轮训练,包括:
[0145]
s1,将第三组音频样本以及第二组预测音频识别结果合并到第一训练样本集合中,得到第二训练样本集合,其中,在第二训练样本集合中第二组预测音频识别结果被视为第二组实际音频识别结果;
[0146]
s2,使用第二训练样本集合对初始音频识别模型进行当前一轮训练,得到当前一轮训练后的音频识别模型。
[0147]
可选地,在本实施例中,经过筛选得到的第三组音频样本可作为带有标注的音频样本合并至第一训练样本集合中,以共同训练初始音频识别模型。如此一来,即使人力物力或时间有限,无法获取大量的带有标注的音频样本,仍可完成对音频识别模型的训练。
[0148]
通过本技术提供的实施例,将第三组音频样本以及第二组预测音频识别结果合并
到第一训练样本集合中,得到第二训练样本集合,其中,在第二训练样本集合中第二组预测音频识别结果被视为第二组实际音频识别结果;使用第二训练样本集合对初始音频识别模型进行当前一轮训练,得到当前一轮训练后的音频识别模型,实现了提高音频识别模型的训练效率的效果。
[0149]
作为一种可选的方案,方法还包括:
[0150]
在当前一轮训练后的音频识别模型输出的预测音频识别结果与第二训练样本集合中的实际音频识别结果之间的差异不满足收敛条件时,获取下一轮训练中待使用的一组音频样本以及一组音频样本对应的一组预测音频识别结果,其中,待使用的一组音频样本未标注有对应的实际音频识别结果,一组预测音频识别结果是当前一轮训练后的音频识别模型根据一组音频样本的音频特征确定的预测音频识别结果;
[0151]
将待使用的一组音频样本以及对应的一组预测音频识别结果合并到第二训练样本集合中,得到第三训练样本集合;
[0152]
使用第三训练样本集合对当前一轮训练后的音频识别模型进行下一轮训练,得到下一轮训练后的音频识别模型。
[0153]
可选地,在本实施例中,每一轮的训练都可以但不限于采用新的音频样本,且新的音频样本可以但不限于都未带有标注。基于此,使得在音频识别模型的训练过程中,除最开始对初始音频识别模型的构建需使用少量带有批注的音频样本外,其余步骤皆可直接使用未带有标注的音频样本进行训练,大大节省了音频样本的标注时间,也为音频识别模型的训练节省了标注所需消耗的资源。
[0154]
通过本技术提供的实施例,在当前一轮训练后的音频识别模型输出的预测音频识别结果与第二训练样本集合中的实际音频识别结果之间的差异不满足收敛条件时,获取下一轮训练中待使用的一组音频样本以及一组音频样本对应的一组预测音频识别结果,其中,待使用的一组音频样本未标注有对应的实际音频识别结果,一组预测音频识别结果是当前一轮训练后的音频识别模型根据一组音频样本的音频特征确定的预测音频识别结果;将待使用的一组音频样本以及对应的一组预测音频识别结果合并到第二训练样本集合中,得到第三训练样本集合;使用第三训练样本集合对当前一轮训练后的音频识别模型进行下一轮训练,得到下一轮训练后的音频识别模型,实现了提高音频识别模型的训练效率的效果。
[0155]
作为一种可选的方案,获取下一轮训练中待使用的一组音频样本以及一组音频样本对应的一组预测音频识别结果,包括:
[0156]
将第四组音频样本的音频特征输入到当前一轮训练后的音频识别模型,得到第三组预测音频识别结果,其中,第四组音频样本未标注有对应的实际音频识别结果;将第四组音频样本的音频特征输入到不确定性分析模型,得到第二组不确定性分析结果,其中,第二组不确定性分析结果用于表示第三组预测音频识别结果的可信度;
[0157]
根据第二组不确定性分析结果,在第三组预测音频识别结果中筛选出可信度满足预设条件的第四组预测音频识别结果,并在第四组音频样本中筛选出与第四组预测音频识别结果对应的第五组音频样本。
[0158]
通过本技术提供的实施例,将第四组音频样本的音频特征输入到当前一轮训练后的音频识别模型,得到第三组预测音频识别结果,其中,第四组音频样本未标注有对应的实
际音频识别结果;将第四组音频样本的音频特征输入到不确定性分析模型,得到第二组不确定性分析结果,其中,第二组不确定性分析结果用于表示第三组预测音频识别结果的可信度;根据第二组不确定性分析结果,在第三组预测音频识别结果中筛选出可信度满足预设条件的第四组预测音频识别结果,并在第四组音频样本中筛选出与第四组预测音频识别结果对应的第五组音频样本,实现了提高音频识别模型的训练完整度的效果。
[0159]
作为一种可选的方案,根据第一组不确定性分析结果,在第一组预测音频识别结果中筛选出可信度满足预设条件的第二组预测音频识别结果,包括:
[0160]
在下一轮训练后的音频识别模型输出的预测音频识别结果与第三训练样本集合中的实际音频识别结果之间的差异满足收敛条件时,结束对初始音频识别模型进行的训练,得到目标音频识别模型,其中,在第三训练样本集合中一组预测音频识别结果被视为一组实际音频识别结果。
[0161]
可选地,在本实施例中,在达到收敛条件时,结束对初始音频识别模型进行的训练,以得到训练好的目标音频识别模型。
[0162]
通过本技术提供的实施例,在下一轮训练后的音频识别模型输出的预测音频识别结果与第三训练样本集合中的实际音频识别结果之间的差异满足收敛条件时,结束对初始音频识别模型进行的训练,得到目标音频识别模型,其中,在第三训练样本集合中一组预测音频识别结果被视为一组实际音频识别结果,实现了提高音频识别模型的训练完整度的效果。
[0163]
作为一种可选的方案,根据第一组不确定性分析结果,在第一组预测音频识别结果中筛选出可信度满足预设条件的第二组预测音频识别结果,包括:
[0164]
s1,在第一组不确定性分析结果包括一组不确定性分数时,按照分数从小到大对一组不确定性分数进行排序,得到不确定性分数序列,其中,不确定性分数越高,表示对应的预测音频识别结果的可信度越低;
[0165]
s2,在不确定性分数序列中获取排序前n个的不确定性分数,其中,不确定性分数序列包括m个不确定性分数,n<m;
[0166]
s3,在第一组预测音频识别结果中筛选出与排序前m位的不确定性分数对应的第二组预测音频识别结果。
[0167]
可选地,在本实施例中,可以但不限于将不确定性分数作为筛选的方式之一,按照不确定性分数对每个音频识别结果进行排序,并取前m位或取不确定分数大于等于目标阈值的音频识别结果,组成第二组预测音频识别结果。
[0168]
通过本技术提供的实施例,在第一组不确定性分析结果包括一组不确定性分数时,按照分数从小到大对一组不确定性分数进行排序,得到不确定性分数序列,其中,不确定性分数越高,表示对应的预测音频识别结果的可信度越低;在不确定性分数序列中获取排序前n个的不确定性分数,其中,不确定性分数序列包括m个不确定性分数,n<m;在第一组预测音频识别结果中筛选出与排序前m位的不确定性分数对应的第二组预测音频识别结果,实现了提高对音频识别结果的筛选效率的效果。
[0169]
作为一种可选的方案,在目标应用中获取输入的目标音频,包括:在目标应用中显示参考文本的情况下,在目标应用中获取朗读参考文本所产生的目标音频,或者,获取回复参考文本所产生的目标音频;
[0170]
在目标应用中显示目标音频识别结果,包括:在目标应用中显示目标音频识别模型确定的对目标音频的评测分数。
[0171]
可选地,在本实施例中,每个参考文本可以但不限于都各自对应一个或多个参考音频,在口语评测的场景下,可以但不限于通过获取到的目标音频与参考音频之间的相似度比对,以确定目标音频的评测分数。
[0172]
进一步举例说明,可选的例如图5所示,在目标应用界面502上显示有参考文本“who are you?”,以及提示信息“请大声朗读上述文本信息”,进而如图5中的(a)所示,在虚拟按钮“开始阅读”上识别到触控操作,进而采集目标时间段内的音频信号,并将该音频信号作为目标音频输入目标音频识别模型中,以使目标音频识别模型根据该目标音频输出对应的识别结果,其识别过程在前台的表现可以但不限于如图5中的(b)所示;再者,在获取到目标音频识别模型的输出结果后,将该输出结果转化为评测结果,如图5中的(c)所示的评测结果表现为评测分数“85分”。
[0173]
进一步举例说明,可选的例如图6所示,在目标应用界面602上显示有参考文本“how are you?”,以及提示信息“请回答以上文本”,进而如图6中的(a)所示,在虚拟按钮“开始回答”上识别到触控操作,进而采集目标时间段内的音频信号,并将该音频信号作为目标音频输入目标音频识别模型中,以使目标音频识别模型根据该目标音频输出对应的识别结果,其识别过程在前台的表现可以但不限于如图6中的(b)所示;再者,在获取到目标音频识别模型的输出结果后,将该输出结果转化为评测结果,如图6中的(c)所示的评测结果表现为识别出的回答文本,此外,还可以基于该回答文本是否正确以及发音是否标注,再给出一个评测分数(图中未示出)。
[0174]
通过本技术提供的实施例,在目标应用中显示参考文本的情况下,在目标应用中获取朗读参考文本所产生的目标音频,或者,获取回复参考文本所产生的目标音频;在目标应用中显示目标音频识别模型确定的对目标音频的评测分数,实现了提高音频评测的准确性的效果。
[0175]
作为一种可选的方案,为方便理解,以自动口语评测场景阐述上述音频识别模型的训练方法以及音频识别方法,其中,自动口语评测场景可以但不限于包括应用于口语考试中的相关场景,例如应用于客观题型,如朗读题型中,也可应用于主观题型,如看图说话、口头作文等,具体如下:
[0176]
自动口语评测往往依赖于大量人工标注数据,在人工标注数据较少的情况下,效果难以保障。基于此,提出了一种利用半监督学习伪标签算法进行口语评测训练的算法,该算法有效缓解了对数据的需求。首先基于少量有标签的口语评测数据,训练一个口语评测模型。对剩余的无标签的口语评测音频,利用该模型进行分数的预测。由于预测的分数中包含较多的标签不正确或噪声数据,因此利用不确定性分析算法,获取不确定性参数。基于不确定性分析结果,对预测的测试数据进行筛选,将筛选出的数据进行训练集的扩充。基于新的扩充的训练集,重新训练口语评测模型,提升口语评测效果。
[0177]
具体的,首先可如图8中的(a)所示,点击开始跟读按钮802,开始跟读句子;再如图8中的(b)所示,点击结束跟读按钮804,结束跟读句子;再如图9所示,屏幕返回评测结果902,展示给用户,如句子评测结果为4颗星。
[0178]
再例如图10所示,点击开始录音按钮1002,开始回答问题;点击结束录音按钮
1004,结束回答问题。再如图11所示,屏幕返回评测结果1102,展示给用户,如句子评测结果为4颗星.
[0179]
此外,整体流程可参考图12所示,具体步骤如下:
[0180]
s1202,用户打开应用程序1202,屏幕显示题目;点击应用程序1202中的开始录音,进行题目作答;
[0181]
s1204,应用程序1202将音频和朗读文本发送给服务器1204端;
[0182]
s1206,服务器1204端将音频和题目信息发送给基于伪标签的口语评测模型1206;
[0183]
s1208,口语评测模块1206将评分结果返回给服务器1204;
[0184]
s1210,服务器1204返回最终的分数给应用程序1202端,用户在应用程序1202端查看最终得分。
[0185]
再者,结合不确定性分析的伪标签的口语评测模型可参考图13所示,具体步骤如下:
[0186]
首先输入音频,将音频输入到asr(自动语音识别)中,获得语音识别的文本以及音频中每个音素、每个单词的起止时间。将音频、对齐结果和识别文本输入到特征提取模块,提取声学特征和文本特征。将这些特征输入到一个已经训练好的基模型中,对口语分数进行预测。同时将这些特征输入到一个分数不确定性分析模块,获得不确定性分析结果。最终,将预测的分数和不确定性分析结果输入到伪样本筛选模块,筛选出可用的伪样本。将伪样本d
u
(10个题目、10个音频,10模型预测的分数)与基模型的训练数据d
l
(10个题目、10个音频,10人工的分数)结合,如下述公式(1)所示。重新训练口语评测模型。这个过程可以重复多次,不断融入新的伪标签样本,不断重新训练口语评测模型,直至收敛。
[0187]
d

l
=d
u
∪d
l
ꢀꢀꢀꢀ
(1)
[0188]
其中,基于asr识别的文本提取文本特征,主要包含语义特征、语用特征,关键词特征、文本不流利特征。关键词特征主要包括提取标准答案中的关键词与答题内容的关键词,计算精确率、召回率等。语用特征包括答题内容的词语的多样性,句式的多样性以及基于语言模型分析答题内容的语法准确性。语义特征包含答题内容的主题特征,tf

idf特征等。文本不流利度特征即识别文本中不流利成分的比例统计;
[0189]
声学特征主要分为发音准确度、发音流利度、发音韵律度等。发音准确度基于语音识别的置信度得到对应发音内容中的音素、单词、句子级别等评估。发音流利度包含发音过程中的语速特征、基于时长统计的特征如发音段的平均时长,发音段之间的平均停顿时长等特征。发音韵律度包含对发音节奏感的评估、句子中单词重读正确性评估、句子边界调评估等;
[0190]
基于提取的声学特征和文本特征,构建回归模型,拟合人工打分。回归模型可以是传统的一些回归模型,如knn,svr,gbt树模型等,也可以是深度神经网络模型,通过多层网络前向传播,获得最终的分数;
[0191]
基于提取的文本特征和声学特征,构建不确定性分析模型。目前,不确定性方法种类比较多,典型的方法包含高斯过程回归,蒙特卡罗dropout方法,深度混合密度网络等。其中,高斯过程采用高斯分布建模输出,确定每个预测结果的均值和方差,该方法采用方差作为不确定性的衡量,方差越大,不确定性越大。蒙特卡罗dropout方法采用多个模型集成分析模型的不确定性,它假设对于不确定的数据,每个模型的输出具有多样性[8],如果输出
越多样,不确定越大。深度混合密度网络与高斯过程建模类似,对结果的均值和方差和建模,该方法也采用方差作为不确定性的衡量,方差越大,不确定性越大;
[0192]
基于口语评测模型输出的分数以及不确定性分析模块输出的不确定分数,确定是否采用该伪样本进行模型的再训练。假设第i条语音的预测分数为p
i
,不确定性分数为c
i
,则最终样本是否被选中r
i
表示为下述公式(2)。其中t1和t2是预设的阈值,表示选中样本的最小不确定性和最大不确定性,这种阈值可以通过人工设定或者搜索算法确定,t1<t2,取偏小的部分;
[0193]
r
i
=i[c
i
>t1&c
i
<t2]
ꢀꢀꢀꢀ
(2)
[0194]
此外,在本实施例中,还可以但不限于采用两个数据集,一个数据集为口语考试中朗读题型的回答数据,一个为口语考试中看图说话题型的回答数据。其中每种数据共1500条,由三名专家标注。最终衡量效果主要通过皮尔逊相关系数和准确率(即标签与预测打分小于等于1档的比例)。从结果可知,结合不确定性分析结果基于伪标签算法可以较大提升口语评测模型的效果。
[0195]
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
[0196]
根据本发明实施例的另一个方面,还提供了一种用于实施上述音频识别模型的训练方法的音频识别模型的训练装置。如图14所示,该装置包括:
[0197]
第一训练单元1402,用于使用第一训练样本集合对待训练的音频识别模型进行训练,得到初始音频识别模型,其中,第一训练样本集合包括第一组音频样本以及对第一组音频样本进行标注得到的第一组实际音频识别结果,初始音频识别模型用于根据输入的音频特征确定预测音频识别;
[0198]
第一输入单元1404,用于将第二组音频样本的音频特征输入到初始音频识别模型,得到第一组预测音频识别结果,其中,第二组音频样本未标注有对应的实际音频识别结果;将第二组音频样本的音频特征输入到不确定性分析模型,得到第一组不确定性分析结果,其中,第一组不确定性分析结果用于表示第一组预测音频识别结果的可信度;
[0199]
第一筛选单元1406,用于根据第一组不确定性分析结果,在第一组预测音频识别结果中筛选出可信度满足预设条件的第二组预测音频识别结果,并在第二组音频样本中筛选出与第二组预测音频识别结果对应的第三组音频样本;
[0200]
第二训练单元1408,用于根据第三组音频样本以及第二组预测音频识别结果,对初始音频识别模型进行当前一轮训练,其中,初始音频识别模型被设置为经过多轮训练,直到满足预设的收敛条件。
[0201]
可选地,在本实施例中,上述音频识别模型的训练装置可以但不限于应用在自动口语评测场景中,例如通过上述音频识别模型的训练装置训练出一个可以识别口语音频的音频识别模型,对用户输入的音频进行识别评测,并将音频识别模型的输出显示为评测结果,以使用户可以清晰地获知自己的口语水平。
[0202]
可选地,在本实施例中,第一组音频样本和第二组音频样本可以但不限于同为未
标注的音频样本,而第一组实际音频识别结果为对第一组音频样本进行标注得到的一组音频样本。
[0203]
可选地,在本实施例中,初始音频识别模型可以但不限于为使用少带有标注的音频样本训练获得的音频识别模型,该初始音频识别模型可以但不限于具有基本功能且训练效果未达收敛条件的半成品音频识别模型。
[0204]
可选地,在本实施例中,不确定性分析模型可以但不限于为一种可自动执行不确定性装置的模型,其中,不确定性装置可以但不限于包括以下至少之一:高斯过程回归,蒙特卡罗dropout装置,深度混合密度网络等。其中,高斯过程采用高斯分布建模输出,确定每个预测结果的均值和方差,该装置采用方差作为不确定性的衡量,方差越大,不确定性越大。蒙特卡罗dropout装置采用多个模型集成分析模型的不确定性,它假设对于不确定的数据,每个模型的输出具有多样性[8],如果输出越多样,不确定越大。深度混合密度网络与高斯过程建模类似,对结果的均值和方差和建模[9],该装置也采用方差作为不确定性的衡量,方差越大,不确定性越大。
[0205]
需要说明的是,先基于带有标注的第一组音频样本训练得到初始音频识别模型,对无标注的第二组音频样本进行初始的音频识别,以获得第一组预测音频识别结果;再使用训练好的不确定性分析模型对无标注的第二组音频样本进行不确定性分析,并利用分析结果对第一组预测音频识别结果进行筛选,以获得第二组预测音频识别结果;再者,获取第二组音频样本中与第二组预测音频识别结果对应的第三组音频样本,并利用第三组音频样本对初始音频识别模型进行迭代训练,直至满足预设的收敛条件,获取训练好的音频识别模型。
[0206]
具体实施例可以参考上述音频识别模型的训练方法中所示示例,本示例中在此不再赘述。
[0207]
通过本技术提供的实施例,使用第一训练样本集合对待训练的音频识别模型进行训练,得到初始音频识别模型,其中,第一训练样本集合包括第一组音频样本以及对第一组音频样本进行标注得到的第一组实际音频识别结果,初始音频识别模型用于根据输入的音频特征确定预测音频识别;将第二组音频样本的音频特征输入到初始音频识别模型,得到第一组预测音频识别结果,其中,第二组音频样本未标注有对应的实际音频识别结果;将第二组音频样本的音频特征输入到不确定性分析模型,得到第一组不确定性分析结果,其中,第一组不确定性分析结果用于表示第一组预测音频识别结果的可信度;根据第一组不确定性分析结果,在第一组预测音频识别结果中筛选出可信度满足预设条件的第二组预测音频识别结果,并在第二组音频样本中筛选出与第二组预测音频识别结果对应的第三组音频样本;根据第三组音频样本以及第二组预测音频识别结果,对初始音频识别模型进行当前一轮训练,其中,初始音频识别模型被设置为经过多轮训练,直到满足预设的收敛条件,通过无需保证全部音频样本都进行标注,即可完成对音频识别模型的训练,进而达到了降低标注样本对音频识别模型的影响程度的目的,从而实现了提高音频识别模型的训练效率的技术效果。
[0208]
作为一种可选的方案,第二训练单元1408,包括:
[0209]
第一合并模块,用于将第三组音频样本以及第二组预测音频识别结果合并到第一训练样本集合中,得到第二训练样本集合,其中,在第二训练样本集合中第二组预测音频识
别结果被视为第二组实际音频识别结果;
[0210]
第一训练模块,用于使用第二训练样本集合对初始音频识别模型进行当前一轮训练,得到当前一轮训练后的音频识别模型。
[0211]
具体实施例可以参考上述音频识别模型的训练方法中所示示例,本示例中在此不再赘述。
[0212]
作为一种可选的方案,装置还包括:
[0213]
第一获取模块,用于在当前一轮训练后的音频识别模型输出的预测音频识别结果与第二训练样本集合中的实际音频识别结果之间的差异不满足收敛条件时,获取下一轮训练中待使用的一组音频样本以及一组音频样本对应的一组预测音频识别结果,其中,待使用的一组音频样本未标注有对应的实际音频识别结果,一组预测音频识别结果是当前一轮训练后的音频识别模型根据一组音频样本的音频特征确定的预测音频识别结果;
[0214]
第二合并模块,用于将待使用的一组音频样本以及对应的一组预测音频识别结果合并到第二训练样本集合中,得到第三训练样本集合;
[0215]
第二训练模块,用于使用第三训练样本集合对当前一轮训练后的音频识别模型进行下一轮训练,得到下一轮训练后的音频识别模型。
[0216]
具体实施例可以参考上述音频识别模型的训练方法中所示示例,本示例中在此不再赘述。
[0217]
作为一种可选的方案,获取模块,包括:
[0218]
输入子模块,用于将第四组音频样本的音频特征输入到当前一轮训练后的音频识别模型,得到第三组预测音频识别结果,其中,第四组音频样本未标注有对应的实际音频识别结果;将第四组音频样本的音频特征输入到不确定性分析模型,得到第二组不确定性分析结果,其中,第二组不确定性分析结果用于表示第三组预测音频识别结果的可信度;
[0219]
筛选子模块,用于根据第二组不确定性分析结果,在第三组预测音频识别结果中筛选出可信度满足预设条件的第四组预测音频识别结果,并在第四组音频样本中筛选出与第四组预测音频识别结果对应的第五组音频样本。
[0220]
具体实施例可以参考上述音频识别模型的训练方法中所示示例,本示例中在此不再赘述。
[0221]
作为一种可选的方案,第一筛选单元1406,包括:
[0222]
第二获取模块,用于在下一轮训练后的音频识别模型输出的预测音频识别结果与第三训练样本集合中的实际音频识别结果之间的差异满足收敛条件时,结束对初始音频识别模型进行的训练,得到目标音频识别模型,其中,在第三训练样本集合中一组预测音频识别结果被视为一组实际音频识别结果。
[0223]
具体实施例可以参考上述音频识别模型的训练方法中所示示例,本示例中在此不再赘述。
[0224]
作为一种可选的方案,第一筛选单元1406,包括:
[0225]
第三获取模块,用于在第一组不确定性分析结果包括一组不确定性分数时,按照分数从小到大对一组不确定性分数进行排序,得到不确定性分数序列,其中,不确定性分数越高,表示对应的预测音频识别结果的可信度越低;
[0226]
第四获取模块,用于在不确定性分数序列中获取排序前n个的不确定性分数,其
中,不确定性分数序列包括m个不确定性分数,n<m;
[0227]
筛选模块,用于在第一组预测音频识别结果中筛选出与排序前m位的不确定性分数对应的第二组预测音频识别结果。
[0228]
具体实施例可以参考上述音频识别模型的训练方法中所示示例,本示例中在此不再赘述。
[0229]
作为一种可选的方案,装置还包括:
[0230]
第一获取单元,用于在目标应用中获取输入的目标音频;
[0231]
第二获取单元,用于获取通过目标音频识别模型根据目标音频的音频特征确定的目标音频识别结果,其中,目标音频识别模型是对初始音频识别模型进行多轮训练,直到满足预设的收敛条件时所得到的音频识别模型;
[0232]
第一显示单元,用于在目标应用中显示目标音频识别结果。
[0233]
具体实施例可以参考上述音频识别模型的训练方法中所示示例,本示例中在此不再赘述。
[0234]
作为一种可选的方案,包括:
[0235]
第一获取单元,包括:目标音频模块,用于在目标应用中显示参考文本的情况下,在目标应用中获取朗读参考文本所产生的目标音频,或者,获取回复参考文本所产生的目标音频;
[0236]
第一显示单元,包括:第一分数模块,用于在目标应用中显示目标音频识别模型确定的对目标音频的评测分数。
[0237]
具体实施例可以参考上述音频识别模型的训练方法中所示示例,本示例中在此不再赘述。
[0238]
根据本发明实施例的另一个方面,还提供了一种用于实施上述音频识别方法的音频识别装置。如图15所示,该装置包括:
[0239]
第三获取单元1502,用于在目标应用中获取输入的目标音频;
[0240]
第四获取单元1504,用于获取通过目标音频识别模型根据目标音频的音频特征确定的目标音频识别结果,其中,目标音频识别模型是对初始音频识别模型进行多轮训练,直到满足预设的收敛条件时所得到的音频识别模型,初始音频识别模型是使用第一训练样本集合对待训练的音频识别模型进行训练所得到的模型,第一训练样本集合包括第一组音频样本以及对第一组音频样本进行标注得到的第一组实际音频识别结果,初始音频识别模型用于根据输入的音频特征确定预测音频识别,在每轮训练中使用每轮对应的训练样本集合对上一轮训练得到的音频识别模型进行训练,每轮对应的训练样本集合包括上一轮训练得到的训练样本集合以及本轮筛选得到的训练样本集合,本轮筛选得到的训练样本集合包括一组音频样本以及一组音频样本对应的一组预测音频识别结果,一组音频样本未标注有对应的实际音频识别结果,一组预测音频识别结果是上一轮训练后的音频识别模型根据一组音频样本的音频特征确定的预测音频识别结果;
[0241]
第三显示单元1506,用于在目标应用中显示目标音频识别结果。
[0242]
可选地,在本实施例中,上述音频识别装置可以但不限于应用在自动口语评测场景中,例如通过上述音频识别方法,将用户输入的音频进行口语评测,以使用户可以清晰地获知自己的口语水平。
[0243]
可选地,在本实施例中,第一组音频样本和第二组音频样本可以但不限于同为未标注的音频样本,而第一组实际音频识别结果为对第一组音频样本进行标注得到的一组音频样本。
[0244]
可选地,在本实施例中,初始音频识别模型可以但不限于为使用少带有标注的音频样本训练获得的音频识别模型,该初始音频识别模型可以但不限于具有基本功能且训练效果未达收敛条件的半成品音频识别模型。
[0245]
可选地,在本实施例中,不确定性分析模型可以但不限于为一种可自动执行不确定性方法的模型,其中,不确定性方法可以但不限于包括以下至少之一:高斯过程回归,蒙特卡罗dropout方法,深度混合密度网络等。其中,高斯过程采用高斯分布建模输出,确定每个预测结果的均值和方差,该方法采用方差作为不确定性的衡量,方差越大,不确定性越大。蒙特卡罗dropout方法采用多个模型集成分析模型的不确定性,它假设对于不确定的数据,每个模型的输出具有多样性[8],如果输出越多样,不确定越大。深度混合密度网络与高斯过程建模类似,对结果的均值和方差和建模[9],该方法也采用方差作为不确定性的衡量,方差越大,不确定性越大。
[0246]
通过本技术提供的实施例,在目标应用中获取输入的目标音频;获取通过目标音频识别模型根据目标音频的音频特征确定的目标音频识别结果,其中,目标音频识别模型是对初始音频识别模型进行多轮训练,直到满足预设的收敛条件时所得到的音频识别模型,初始音频识别模型是使用第一训练样本集合对待训练的音频识别模型进行训练所得到的模型,第一训练样本集合包括第一组音频样本以及对第一组音频样本进行标注得到的第一组实际音频识别结果,初始音频识别模型用于根据输入的音频特征确定预测音频识别,在每轮训练中使用每轮对应的训练样本集合对上一轮训练得到的音频识别模型进行训练,每轮对应的训练样本集合包括上一轮训练得到的训练样本集合以及本轮筛选得到的训练样本集合,本轮筛选得到的训练样本集合包括一组音频样本以及一组音频样本对应的一组预测音频识别结果,一组音频样本未标注有对应的实际音频识别结果,一组预测音频识别结果是上一轮训练后的音频识别模型根据一组音频样本的音频特征确定的预测音频识别结果;在目标应用中显示目标音频识别结果,通过无需大量标注的音频样本的模型训练方式,快速地得到满足收敛条件的音频识别模型用以音频识别,从而实现了提高音频识别的效率的技术效果。
[0247]
作为一种可选的方案,包括:
[0248]
第三训练单元,用于在目标应用中获取输入的目标音频之前,使用第一训练样本集合对待训练的音频识别模型进行训练,得到初始音频识别模型,其中,第一训练样本集合包括第一组音频样本以及对第一组音频样本进行标注得到的第一组实际音频识别结果,初始音频识别模型用于根据输入的音频特征确定预测音频识别;
[0249]
第二输入单元,用于在目标应用中获取输入的目标音频之前,将第二组音频样本的音频特征输入到初始音频识别模型,得到第一组预测音频识别结果,其中,第二组音频样本未标注有对应的实际音频识别结果;将第二组音频样本的音频特征输入到不确定性分析模型,得到第一组不确定性分析结果,其中,第一组不确定性分析结果用于表示第一组预测音频识别结果的可信度;
[0250]
第二筛选单元,用于在目标应用中获取输入的目标音频之前,根据第一组不确定
性分析结果,在第一组预测音频识别结果中筛选出可信度满足预设条件的第二组预测音频识别结果,并在第二组音频样本中筛选出与第二组预测音频识别结果对应的第三组音频样本;
[0251]
第四训练单元,用于在目标应用中获取输入的目标音频之前,根据第三组音频样本以及第二组预测音频识别结果,对初始音频识别模型进行当前一轮训练,其中,初始音频识别模型被设置为经过多轮训练,直到满足预设的收敛条件。
[0252]
具体实施例可以参考上述音频识别模型的训练方法中所示示例,本示例中在此不再赘述。
[0253]
作为一种可选的方案,包括:
[0254]
第一合并单元,用于在目标应用中获取输入的目标音频之前,将第三组音频样本以及第二组预测音频识别结果合并到第一训练样本集合中,得到第二训练样本集合,其中,在第二训练样本集合中第二组预测音频识别结果被视为第二组实际音频识别结果;
[0255]
第五训练单元,用于在目标应用中获取输入的目标音频之前,使用第二训练样本集合对初始音频识别模型进行当前一轮训练,得到当前一轮训练后的音频识别模型。
[0256]
具体实施例可以参考上述音频识别模型的训练方法中所示示例,本示例中在此不再赘述。
[0257]
作为一种可选的方案,包括:
[0258]
第五获取单元,用于在当前一轮训练后的音频识别模型输出的预测音频识别结果与第二训练样本集合中的实际音频识别结果之间的差异不满足收敛条件时,获取下一轮训练中待使用的一组音频样本以及一组音频样本对应的一组预测音频识别结果,其中,待使用的一组音频样本未标注有对应的实际音频识别结果,一组预测音频识别结果是当前一轮训练后的音频识别模型根据一组音频样本的音频特征确定的预测音频识别结果;
[0259]
第二合并单元,用于将待使用的一组音频样本以及对应的一组预测音频识别结果合并到第二训练样本集合中,得到第三训练样本集合;
[0260]
第四训练单元,用于使用第三训练样本集合对当前一轮训练后的音频识别模型进行下一轮训练,得到下一轮训练后的音频识别模型。
[0261]
具体实施例可以参考上述音频识别模型的训练方法中所示示例,本示例中在此不再赘述。
[0262]
作为一种可选的方案,包括:
[0263]
第三输入单元,用于在目标应用中获取输入的目标音频之前,将第四组音频样本的音频特征输入到当前一轮训练后的音频识别模型,得到第三组预测音频识别结果,其中,第四组音频样本未标注有对应的实际音频识别结果;将第四组音频样本的音频特征输入到不确定性分析模型,得到第二组不确定性分析结果,其中,第二组不确定性分析结果用于表示第三组预测音频识别结果的可信度;
[0264]
第三筛选单元,用于在目标应用中获取输入的目标音频之前,根据第二组不确定性分析结果,在第三组预测音频识别结果中筛选出可信度满足预设条件的第四组预测音频识别结果,并在第四组音频样本中筛选出与第四组预测音频识别结果对应的第五组音频样本。
[0265]
具体实施例可以参考上述音频识别模型的训练方法中所示示例,本示例中在此不
再赘述。
[0266]
作为一种可选的方案,包括:
[0267]
第六获取单元,用于在目标应用中获取输入的目标音频之前,在下一轮训练后的音频识别模型输出的预测音频识别结果与第三训练样本集合中的实际音频识别结果之间的差异满足收敛条件时,结束对初始音频识别模型进行的训练,得到目标音频识别模型,其中,在第三训练样本集合中一组预测音频识别结果被视为一组实际音频识别结果。
[0268]
具体实施例可以参考上述音频识别模型的训练方法中所示示例,本示例中在此不再赘述。
[0269]
作为一种可选的方案,包括:
[0270]
排序单元,用于在目标应用中获取输入的目标音频之前,在第一组不确定性分析结果包括一组不确定性分数时,按照分数从小到大对一组不确定性分数进行排序,得到不确定性分数序列,其中,不确定性分数越高,表示对应的预测音频识别结果的可信度越低;
[0271]
第七获取单元,用于在目标应用中获取输入的目标音频之前,在不确定性分数序列中获取排序前n个的不确定性分数,其中,不确定性分数序列包括m个不确定性分数,n<m;
[0272]
第四筛选单元,用于在目标应用中获取输入的目标音频之前,在第一组预测音频识别结果中筛选出与排序前m位的不确定性分数对应的第二组预测音频识别结果。
[0273]
具体实施例可以参考上述音频识别模型的训练方法中所示示例,本示例中在此不再赘述。
[0274]
作为一种可选的方案,装置还包括:
[0275]
第三获取单元,包括:第二音频模块,用于在目标应用中显示参考文本的情况下,在目标应用中获取朗读参考文本所产生的目标音频,或者,获取回复参考文本所产生的目标音频;
[0276]
第三显示单元,包括:第二分数模块,用于在目标应用中显示目标音频识别模型确定的对目标音频的评测分数。
[0277]
具体实施例可以参考上述音频识别模型的训练方法中所示示例,本示例中在此不再赘述。
[0278]
根据本发明实施例的又一个方面,还提供了一种用于实施上述音频识别模型的训练方法的电子设备,如图16所示,该电子设备包括存储器1602和处理器1604,该存储器1602中存储有计算机程序,该处理器1604被设置为通过计算机程序执行上述任一项方法实施例中的步骤。
[0279]
可选地,在本实施例中,上述电子设备可以位于计算机网络的多个网络设备中的至少一个网络设备。
[0280]
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
[0281]
s1,使用第一训练样本集合对待训练的音频识别模型进行训练,得到初始音频识别模型,其中,第一训练样本集合包括第一组音频样本以及对第一组音频样本进行标注得到的第一组实际音频识别结果,初始音频识别模型用于根据输入的音频特征确定预测音频识别;
[0282]
s2,将第二组音频样本的音频特征输入到初始音频识别模型,得到第一组预测音频识别结果,其中,第二组音频样本未标注有对应的实际音频识别结果;将第二组音频样本
的音频特征输入到不确定性分析模型,得到第一组不确定性分析结果,其中,第一组不确定性分析结果用于表示第一组预测音频识别结果的可信度;
[0283]
s3,根据第一组不确定性分析结果,在第一组预测音频识别结果中筛选出可信度满足预设条件的第二组预测音频识别结果,并在第二组音频样本中筛选出与第二组预测音频识别结果对应的第三组音频样本;
[0284]
s4,根据第三组音频样本以及第二组预测音频识别结果,对初始音频识别模型进行当前一轮训练,其中,初始音频识别模型被设置为经过多轮训练,直到满足预设的收敛条件。或,
[0285]
s1,在目标应用中获取输入的目标音频;
[0286]
s2,获取通过目标音频识别模型根据目标音频的音频特征确定的目标音频识别结果,其中,目标音频识别模型是对初始音频识别模型进行多轮训练,直到满足预设的收敛条件时所得到的音频识别模型,初始音频识别模型是使用第一训练样本集合对待训练的音频识别模型进行训练所得到的模型,第一训练样本集合包括第一组音频样本以及对第一组音频样本进行标注得到的第一组实际音频识别结果,初始音频识别模型用于根据输入的音频特征确定预测音频识别,在每轮训练中使用每轮对应的训练样本集合对上一轮训练得到的音频识别模型进行训练,每轮对应的训练样本集合包括上一轮训练得到的训练样本集合以及本轮筛选得到的训练样本集合,本轮筛选得到的训练样本集合包括一组音频样本以及一组音频样本对应的一组预测音频识别结果,一组音频样本未标注有对应的实际音频识别结果,一组预测音频识别结果是上一轮训练后的音频识别模型根据一组音频样本的音频特征确定的预测音频识别结果;
[0287]
s3,在目标应用中显示目标音频识别结果。可选地,本领域普通技术人员可以理解,图16所示的结构仅为示意,电子设备也可以是智能手机(如android手机、ios手机等)、平板电脑、掌上电脑以及移动互联网设备(mobile internet devices,mid)、pad等终端设备。图16其并不对上述电子设备的结构造成限定。例如,电子设备还可包括比图16中所示更多或者更少的组件(如网络接口等),或者具有与图16所示不同的配置。
[0288]
其中,存储器1602可用于存储软件程序以及模块,如本发明实施例中的音频识别模型的训练方法和装置对应的程序指令/模块,处理器1604通过运行存储在存储器1602内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的音频识别模型的训练方法。存储器1602可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器1602可进一步包括相对于处理器1604远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中,存储器1602具体可以但不限于用于存储第一组音频样本、第二组音频样本以及音频识别模型等信息。作为一种示例,如图16所示,上述存储器1602中可以但不限于包括上述音频识别模型的训练装置中的第一训练单元1402、第、第一筛选单元1406一输入单元1404及第二训练单元1408。此外,还可以包括但不限于上述音频识别模型的训练装置中的其他模块单元,本示例中不再赘述。
[0289]
可选地,上述的传输装置1606用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中,传输装置1606包括一个网络适配器
(network interface controller,nic),其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中,传输装置1606为射频(radio frequency,rf)模块,其用于通过无线方式与互联网进行通讯。
[0290]
此外,上述电子设备还包括:显示器1608,用于显示上述第一组音频样本、第二组音频样本以及音频识别模型等信息;和连接总线1610,用于连接上述电子设备中的各个模块部件。
[0291]
在其他实施例中,上述终端设备或者服务器可以是一个分布式系统中的一个节点,其中,该分布式系统可以为区块链系统,该区块链系统可以是由该多个节点通过网络通信的形式连接形成的分布式系统。其中,节点之间可以组成点对点(peer to peer,简称p2p)网络,任意形式的计算设备,比如服务器、终端等电子设备都可以通过加入该点对点网络而成为该区块链系统中的一个节点。
[0292]
根据本技术的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述音频识别模型的训练以及音频识别方法,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
[0293]
可选地,在本实施例中,上述计算机可读的存储介质可以被设置为存储用于执行以下步骤的计算机程序:
[0294]
s1,使用第一训练样本集合对待训练的音频识别模型进行训练,得到初始音频识别模型,其中,第一训练样本集合包括第一组音频样本以及对第一组音频样本进行标注得到的第一组实际音频识别结果,初始音频识别模型用于根据输入的音频特征确定预测音频识别;
[0295]
s2,将第二组音频样本的音频特征输入到初始音频识别模型,得到第一组预测音频识别结果,其中,第二组音频样本未标注有对应的实际音频识别结果;将第二组音频样本的音频特征输入到不确定性分析模型,得到第一组不确定性分析结果,其中,第一组不确定性分析结果用于表示第一组预测音频识别结果的可信度;
[0296]
s3,根据第一组不确定性分析结果,在第一组预测音频识别结果中筛选出可信度满足预设条件的第二组预测音频识别结果,并在第二组音频样本中筛选出与第二组预测音频识别结果对应的第三组音频样本;
[0297]
s4,根据第三组音频样本以及第二组预测音频识别结果,对初始音频识别模型进行当前一轮训练,其中,初始音频识别模型被设置为经过多轮训练,直到满足预设的收敛条件。或,
[0298]
s1,在目标应用中获取输入的目标音频;
[0299]
s2,获取通过目标音频识别模型根据目标音频的音频特征确定的目标音频识别结果,其中,目标音频识别模型是对初始音频识别模型进行多轮训练,直到满足预设的收敛条件时所得到的音频识别模型,初始音频识别模型是使用第一训练样本集合对待训练的音频识别模型进行训练所得到的模型,第一训练样本集合包括第一组音频样本以及对第一组音频样本进行标注得到的第一组实际音频识别结果,初始音频识别模型用于根据输入的音频特征确定预测音频识别,在每轮训练中使用每轮对应的训练样本集合对上一轮训练得到的
音频识别模型进行训练,每轮对应的训练样本集合包括上一轮训练得到的训练样本集合以及本轮筛选得到的训练样本集合,本轮筛选得到的训练样本集合包括一组音频样本以及一组音频样本对应的一组预测音频识别结果,一组音频样本未标注有对应的实际音频识别结果,一组预测音频识别结果是上一轮训练后的音频识别模型根据一组音频样本的音频特征确定的预测音频识别结果;
[0300]
s3,在目标应用中显示目标音频识别结果。
[0301]
可选地,在本实施例中,本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(read

only memory,rom)、随机存取器(random access memory,ram)、磁盘或光盘等。
[0302]
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
[0303]
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
[0304]
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
[0305]
在本技术所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
[0306]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0307]
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0308]
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。