1.本发明涉及人工智能的语音识别领域,尤其涉及一种语音识别模型训练方法、装置、计算机设备及存储介质。
背景技术:2.语音翻译是将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程,不同于传统的机器翻译,语音翻译的输入直接是语音,输出是文本,随着国际性交流的增加,使用不同语种的语言沟通越来越频繁,为克服语言交流障碍,基于客户端进行在线语音翻译得到广泛的应用。
3.在线语音翻译一般涉及两个环节,第一是进行语音识别,即将用户输入的第一语种的语音信号转换为文本;第二是通过机器翻译装置对文本进行在线翻译,以得到作为翻译结果的第二语种的文本,最后向用户提供第二语种的文本或者语音信息,然而现有方案中的语音识别通常是采用大量的由人工低效率标注的语音样本训练得到的,而且训练得到的语音识别模型的结构复杂以及计算量大,导致输出的文本效率低,最终存在翻译滞后时长较长的情况,造成实时的在线语音翻译效果差,用户体验满意度低。
技术实现要素:4.本发明提供一种语音识别模型训练方法、装置、计算机设备及存储介质,实现了无需人工标注的自监督语音识别模型的训练,通过老师声学特征提取和学生声学特征提取,运用动态队列进行老师网络和学生网络之间的对齐对比处理,从而不断进行训练,提高了训练速度,最终简化了学生网络的结构且保证了识别精度,为后续的语音翻译提高了翻译效率和准确率。
5.一种语音识别模型训练方法,包括:
6.获取语音样本集;所述语音样本集包括多个语音样本;
7.将所述语音样本输入含有初始参数的初始识别模型;
8.通过所述初始识别模型对所述语音样本进行音频增强处理,得到待处理音频片段;
9.通过老师网络对所述待处理音频片段进行老师声学特征提取,得到第一特征向量,同时通过学生网络对所述待处理音频片段进行学生声学特征提取,得到第二特征向量;其中,所述初始识别模型包括所述老师网络和所述学生网络;所述学生网络为对所述老师网络进行蒸馏学习后获得;
10.对所述第一特征向量、所述第二特征向量和所述老师网络中的动态队列进行对齐对比处理,得到损失值;
11.在所述损失值未达到预设的收敛条件时,迭代更新所述初始识别模型的初始参数,直至所述损失值达到所述收敛条件时,将收敛之后的所述初始识别模型记录为训练完成的语音识别模型。
12.一种语音识别模型训练装置,包括:
13.获取模块,用于获取语音样本集;所述语音样本集包括多个语音样本;
14.输入模块,用于将所述语音样本输入含有初始参数的初始识别模型;
15.增强模块,用于通过所述初始识别模型对所述语音样本进行音频增强处理,得到待处理音频片段;
16.提取模块,用于通过老师网络对所述待处理音频片段进行老师声学特征提取,得到第一特征向量,同时通过学生网络对所述待处理音频片段进行学生声学特征提取,得到第二特征向量;其中,所述初始识别模型包括所述老师网络和所述学生网络;所述学生网络为对所述老师网络进行蒸馏学习后获得;
17.损失模块,用于对所述第一特征向量、所述第二特征向量和所述老师网络中的动态队列进行对齐对比处理,得到损失值;
18.训练模块,用于在所述损失值未达到预设的收敛条件时,迭代更新所述初始识别模型的初始参数,直至所述损失值达到所述收敛条件时,将收敛之后的所述初始识别模型记录为训练完成的语音识别模型。
19.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述语音识别模型训练方法的步骤。
20.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其中,所述计算机程序被处理器执行时实现上述语音识别模型训练方法的步骤。
21.本发明提供的语音识别模型训练方法、装置、计算机设备及存储介质,通过获取包含有多个语音样本的语音样本集;将所述语音样本输入含有初始参数的初始识别模型;通过所述初始识别模型对所述语音样本进行音频增强处理,得到待处理音频片段;通过老师网络对所述待处理音频片段进行老师声学特征提取,得到第一特征向量,同时通过学生网络对所述待处理音频片段进行学生声学特征提取,得到第二特征向量;其中,所述初始识别模型包括所述老师网络和所述学生网络;所述学生网络为对所述老师网络进行蒸馏学习后获得;对所述第一特征向量、所述第二特征向量和所述老师网络中的动态队列进行对齐对比处理,得到损失值;在所述损失值未达到预设的收敛条件时,迭代更新所述初始识别模型的初始参数,直至所述损失值达到所述收敛条件时,将收敛之后的所述初始识别模型记录为训练完成的语音识别模型,如此,实现了通过音频增强处理,并通过老师网络提取老师声学特征,以及通过从老师网络中蒸馏学习获得的学生网络提取学生声学特征,结合动态队列进行对齐对比处理,迭代训练获得语音识别模型,因此,实现了自动增强有用的音频信息,无需大量对语音样本进行标注,节省了人工成本,而且运用蒸馏学习方法,以及通过自监督的老师网络和学生网络的模型训练,训练完成获得语音识别模型,减少了人工标注时间和工作量,通过学生网络,加快了语音识别的效率,从而提高了语音识别效率,并通过老师网络和学生网络共同的语音识别,提高了语音识别的准确性。
附图说明
22.为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施
例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
23.图1是本发明一实施例中语音识别模型训练方法的应用环境示意图;
24.图2是本发明一实施例中语音识别模型训练方法的流程图;
25.图3是本发明一实施例中语音识别模型训练方法的步骤s50的流程图;
26.图4是本发明一实施例中语音识别模型训练装置的原理框图;
27.图5是本发明一实施例中语音识别模型训练装置的损失模块的原理框图;
28.图6是本发明一实施例中计算机设备的示意图。
具体实施方式
29.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
30.本发明提供的语音识别模型训练方法,可应用在如图1的应用环境中,其中,客户端(计算机设备或终端)通过网络与服务器进行通信。其中,客户端(计算机设备或终端)包括但不限于为各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(contentdelivery network,cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。
31.在一实施例中,如图2所示,提供一种语音识别模型训练方法,其技术方案主要包括以下步骤s10
‑
s70:
32.s10,获取语音样本集;所述语音样本集包括多个语音样本。
33.可理解地,所述语音样本集为所有所述语音样本的集合,所述语音样本为历史收集的音频文件,所述语音样本可以为预设时长的音频文件,可以将一段音频文件按照预设时长进行分割从而得到语音样本。
34.s20,将所述语音样本输入含有初始参数的初始识别模型。
35.可理解地,所述初始识别模型包含有所述初始参数,所述初始参数为所述初始识别模型中各个层级的参数,所述初始识别模型包括老师网络和学生网络,所述初始参数包括与所述老师网络对应的老师参数和与所述学生网络对应的学生参数。
36.s30,通过所述初始识别模型对所述语音样本进行音频增强处理,得到待处理音频片段。
37.可理解地,所述音频增强处理的过程为:首先,预加重所述语音样本中高频部分的信噪比,由于语音信号的功率谱随频率的增加而减小,导致语音的大部分能量都集中在低频部分,从而导致高频部分的信噪比很低,通过一阶或者二阶高通滤波器进行提升高频部分的信噪比;其次,对预加重高频部分的信噪比之后的所述语音样本进行分帧及加窗,即以预设时间长度(例如10ms、15ms、20ms等等)为一帧,为了保证帧与帧之间平滑过渡保持连续性,帧与帧之间会有部分重叠(例如:1ms、2ms)的时长,优选地,该部分重叠的时长小于预设时间长度的三分之一,加窗的方式为通过窗函数对分帧后的信号进行加窗提取操作;再次,
对提取出的帧信号进行傅里叶变换,以及幅值平方操作;最后,对幅值平方后的信号进行滤波器进行过滤,并通过对数功率变换得到特征向量的过程,从而拼接各个音频增强处理后的帧信号,得到所述待处理音频片段,所述待处理音频片段为与频域特征相关的特征向量组成的片段。
38.s40,通过老师网络对所述待处理音频片段进行老师声学特征提取,得到第一特征向量,同时通过学生网络对所述待处理音频片段进行学生声学特征提取,得到第二特征向量;其中,所述初始识别模型包括所述老师网络和所述学生网络;所述学生网络为对所述老师网络进行蒸馏学习后获得。
39.可理解地,所述老师网络为预先训练完成的神经网络模型,所述老师网络用于对输入的所述待处理音频片段进行提取所述老师声学特征,并根据提取的老师声学特征输出第一特征向量,并能够对输出的第一特征向量进行识别得到文本内容的模型,所述学生网络为对所述老师网络进行蒸馏学习后获得,所述学生网络可以通过蒸馏学习的方式提取输入的的待处理音频片段中的学生声学特征,并根据提取的学生声学特征输出第二特征向量,并能够对输出的第二特征向量进行识别得到文本内容的模型,优选地,所述老师网络为基于bert构建的模型,所述学生网络为基于tinybert构建的模型,所述老师声学特征提取的过程为对输入的所述待处理音频片段进行bert模型的编码以及特征规范化的过程,所述学生声学特征提取的过程为运用蒸馏学习方法学习老师网络后进行压缩方式的编码及特征规范化的过程。
40.其中,所述老师声学特征为与声学频率相关的特征,即学习频域上的序列编码映射成文本内容的特征,所述学生声学特征为运用蒸馏学习方法学习到老师声学特征中的映射关系的特征,所述蒸馏学习方法为迁移学习对应层的参数,通过采用预先训练好的复杂模型(teacher model,老师网络)的输出作为监督信号去训练一个简单模型(student model,学生网络),例如:基于tinybert的学生网络是基于bert的老师网络的蒸馏学习获得,比如,学生网络采用隔n层蒸馏的方式。
41.在一实施例中,所述步骤s40之前,即所述通过老师网络对所述待处理音频片段进行老师声学特征提取,得到第一特征向量之前,包括:
42.获取预训练样本集;所述预训练样本集包括多个预训练样本;一个所述预训练样本对应一个文本标签。
43.可理解地,所述预训练样本集为所有所述预训练样本的集合,所述预训练样本集可以为所述语音样本集的一部分经过所述音频增强处理后的集合,所述预训练样本为历史收集的少量的人工标注且经过所述音频增强处理后得到的样本,所述文本标签为与其对应的所述预训练样本中由人工标注后的文本内容。
44.将所述预训练样本输入含有老师参数的初始网络;所述初始网络为基于bert构建的模型。
45.可理解地,所述老师参数为该初始网络的各层的参数,所述bert模型的网络结构为采用一种掩蔽预测编码的语言模型。
46.运用moco训练方法,通过所述初始网络对所述预训练样本进行频域特征提取,根据提取的频域特征进行编码处理,得到待识别特征向量,并将所述待识别特征向量插入至所述初始网络中的动态队列。
47.可理解地,所述moco训练方法为利用动态队列(queue)来更新负样本,使其能够兼顾大样本的训练并保持负样本之间的一致性,并通过动态队列,让频域特征提取的过程靠近正确的样本,远离负样本(即不正确的样本)的训练方法,初始的所述动态队列为收集的所有负样本,也即与输入的预训练样本不同的样本,所述频域特征提取为从所述预训练样本中提取出与人声频率相关的特征,所述编码处理为对提取的频域特征进行编码(encoder),即通过映射函数进行序列转换,从而得到所述待识别特征向量,将该所述待识别特征向量更新至所述动态队列中,从而可以说明更新后的动态队列中包括一个该待识别特征向量和多个负样本。
48.根据所述待识别特征向量和插入后的所述动态队列进行文字预测,得到与所述预训练样本对应的文本识别结果。
49.可理解地,所述文字预测的过程为对所述待识别特征向量进行相同维度的序列转换,同时对所述待识别特征向量与插入后的所述动态队列中的各特征向量进行点乘编码转换,对经序列转换和点乘编码转换后的特征向量进行掩蔽预测编码处理以及微调文字解码,以及对微调文字解码后的所有所述掩蔽序列进行对比预测出文本内容的过程,从而得到与所述与训练样本对应的所述文本识别结果。
50.在一实施例中,所述根据所述待识别特征向量和插入后的所述动态队列进行文字预测,得到与所述预训练样本对应的文本识别结果,包括:
51.对所述待识别特征向量进行转换编码,得到第一编码序列,同时对所述待识别特征向量与插入后的所述动态队列进行点乘编码,得到多个第二编码序列。
52.可理解地,所述转换编码为与输入的特征向量相同维度的转换,可以认为是进行正则化处理,对所述待识别特征向量进行编码规范化处理,得到所述第一编码序列,所述点乘编码处理为将所述待识别特征向量与插入后的所述动态队列中的各个特征向量进行点乘计算,对点乘计算后的同维度的特征向量进行正则化处理,得到与所述动态队列中的各特征向量一一对应的所述第二编码序列。
53.对所述第一编码序列、各所述第二编码序列进行掩蔽预测编码,得到多个掩蔽序列,并更新所述动态队列。
54.可理解地,所述掩蔽预测编码也称为mpc(masked predictive coding),是来对基于机器学习的transformer的模型进行预测编码,也即每个所述掩蔽序列15%的标记会被随机掩蔽,选出掩蔽帧,又在选出的掩蔽帧中按80%的帧以零向量来表示,10%的掩蔽帧使用随机的其它帧的信息来表示,而其余10%的掩蔽帧不做任何变化的编码过程,最终得到与所述第一编码序列对应的所述掩蔽序列,以及与各所述第二编码序列对应的所述掩蔽序列,在所述掩蔽预测编码之后,更新所述动态队列,更新方式为将所述动态队列中最早插入的特征向量进行移除,按照“先进先出”的规则进行更新,从而可以保证动态队列的个数不变,从而能够维持负样本的字典大小,节省了模型的空间。
55.对各所述掩蔽序列进行微调文字解码,以及对微调文字解码后的所有所述掩蔽序列进行对比预测,得到所述文本识别结果。
56.可理解地,所述微调文字解码为对输入的所述掩蔽序列进行序列变量靠近,靠近与所述掩蔽序列中单元序列与其最邻近的序列变量,并根据该序列变量解码出相应的文本向量,所述对比预测为解码输出的各所述掩蔽序列所对应的文本向量进行对比,缩小与动
态队列中所述待识别特征向量相应的距离,扩大与动态队列中负样本相应的距离,从而预测出各单元序列对应的文字,从而将所有单元序列所对应的文字进行拼接,并按照bert模型独特的上下文的语义预测,得到预测概率最高的一段文本,将其确定为所述文本识别结果,
57.根据与所述预训练样本对应的所述文本标签和所述文本识别结果,确定出对比损失值。
58.可理解地,将所述文本标签和所述文本识别结果输入所述初始网络中的损失函数,计算得到与所述预训练样本对应的所述对比损失值,所述损失函数可以根据需求设定,比如损失函数为交叉熵损失函数,所述损失函数为所述文本标签和所述文本识别结果的对数,表明了所述文本标签和所述文本识别结果的差距。
59.在所述对比损失值未达到预训练收敛条件时,迭代更新所述初始网络的老师参数,直至所述对比损失值达到所述预训练收敛条件时,将收敛之后的所述初始网络记录为老师网络。
60.可理解地,所述预训练收敛条件可以为所述对比损失值经过了3000次计算后值为很小且不会再下降的条件,即在所述对比损失值经过3000次计算后值为很小且不会再下降时,停止训练,并将收敛之后的所述初始网络记录为老师网络;所述预训练收敛条件也可以为所述对比损失值小于设定阈值的条件,即在所述对比损失值小于设定阈值时,停止训练,并将收敛之后的所述初始网络记录为老师网络,如此,在所述对比损失值未达到预训练收敛条件时,不断调整所述初始网络的老师参数,可以不断向准确的结果靠拢,让识别的准确率越来越高。如此,能够提高语音识别的准确率,以及提高语音识别出文本的效率,且优化了老师网络的容量,无需不断增加动态队列以作为负样本供语音识别。
61.本发明实现了通过获取预训练样本集;将所述预训练样本输入含有老师参数的初始网络;所述初始网络为基于bert构建的模型;运用moco训练方法,通过所述初始网络对所述预训练样本进行频域特征提取,根据提取的频域特征进行编码处理,得到待识别特征向量,并将所述待识别特征向量插入至所述初始网络中的动态队列;根据所述待识别特征向量和插入后的所述动态队列进行文字预测,得到与所述预训练样本对应的文本识别结果;根据与所述预训练样本对应的所述文本标签和所述文本识别结果,确定出对比损失值;在所述对比损失值未达到预训练收敛条件时,迭代更新所述初始网络的老师参数,直至所述对比损失值达到所述预训练收敛条件时,将收敛之后的所述初始网络记录为老师网络,如此,能够运用moco训练方法,提高语音识别的准确率,以及提高语音识别出文本的效率,且优化了老师网络的容量。
62.在一实施例中,所述将收敛之后的所述初始网络记录为老师网络之后,包括:
63.运用蒸馏学习方法,对所述老师网络中的各层进行隔层蒸馏处理,得到蒸馏层。
64.可理解地,所述蒸馏学习方法为迁移学习对应层的参数,通过采用预先训练好的复杂模型(teacher model,老师网络)的输出作为监督信号去训练一个简单模型(student model,学生网络),例如:基于tinybert的学生网络是基于bert的老师网络的蒸馏学习获得,比如,学生网络采用隔n层蒸馏的方式,举个例子,老师网络一共有12层,若是设置学生网络为4层,就是每隔3层计算一个transformer loss,映射函数g(m)=3
×
m,m为学生网络中涉及编码的层数,具体对应如下:学生网络的第1层transformer对应老师网络的第3层,
学生网络的第2层对应老师网络的第6层,学生网络的第3层对应老师网络的第9层,学生网络的第4层对应老师网络的第12层。
65.其中,所述隔层蒸馏处理为间隔预设的n层进行标识出所述蒸馏层的过程。
66.将所有所述蒸馏层进行结构拼接,以及从所述老师网络中迁移获得各所述蒸馏层中的学生参数。
67.可理解地,所述结构拼接为将相邻所述蒸馏层之间的输入输出进行拼接的过程,以及从所述老师网络中迁移获得各所述蒸馏层中的学生参数,在语音识别模型训练过程中所述老师参数被冻结,学生参数进行迭代更新。
68.根据迁移后的所有所述蒸馏层构建出基于tinybert的所述学生网络;其中,所述学生网络的层级小于所述老师网络的层级。
69.可理解地,根据迁移后的所有所述蒸馏层进行输入输出的向量对齐,从而构建出基于tinybert的所述学生网络,其中,所述学生网络的层级小于所述老师网络的层级,所述学生网络迁移的层级包括老师网络中的嵌入层、转换层和预测层。
70.本发明实现了通过运用蒸馏学习方法,对所述老师网络中的各层进行隔层蒸馏处理,得到蒸馏层;将所有所述蒸馏层进行结构拼接,以及从所述老师网络中迁移获得各所述蒸馏层中的学生参数;根据迁移后的所有所述蒸馏层构建出基于tinybert的所述学生网络,如此,能够运用蒸馏学习方法,迁移得到蒸馏层中的参数,不需要提前给样本定标签,只需要提取声学特征向量即可,将层级的映射关系由老师网络的多层输出结果压缩成学生网络的一层输出的结果,提高学生网络输出的速度。
71.s50,对所述第一特征向量、所述第二特征向量和所述老师网络中的动态队列进行对齐对比处理,得到损失值。
72.可理解地,所述对齐对比处理指为了缓解无法对齐从而进入无法找到正确的特征向量进行对齐从而死循环的问题将所述第一特征向量加入所述动态队列中,作为新的历史特征向量;将所述第一特征向量与各所述历史特征向量进行内积处理,同时将所述第二特征向量与各所述历史特征向量进行内积处理,从而确定出损失值的处理过程,通过所述对齐对比可以向正确的声学特征(包括老师声学特征和学生声学特征)对齐同时与其他不相关的特征形成反差(远离),在输出所述损失值的同时,所述学生网络还能在蒸馏学习方法下迁移转换层和预测层,能够对所述第二特征向量进行掩蔽预测编码以及文本预测出与所述第二特征向量相应的文本内容。
73.在一实施例中,如图3所示,所述对所述第一特征向量、所述第二特征向量和所述老师网络中的动态队列进行对齐对比处理,得到损失值,包括:
74.将所述第一特征向量加入所述动态队列中,作为新的历史特征向量;其中,所述动态队列包括多个所述历史特征向量。
75.可理解地,初始的所述动态队列为负样本的历史特征向量,在不断训练学习过程中动态的更新该队列,不断引入新的历史特征向量,即将每次输入的第一特征向量加入动态队列中。
76.将所述第一特征向量与各所述历史特征向量进行内积处理,得到第一相似值,同时将所述第二特征向量与各所述历史特征向量进行内积处理,得到第二相似值。
77.可理解地,所述内积处理为输入的特征向量与各所述历史特征向量进行点乘处理
的过程,在内积过程中引入各特征向量的权重,从而得到相似值的过程。
78.计算所述第一相似值和所述第二相似值的交叉熵,得到所述损失值。
79.可理解地,运用交叉熵公式,计算所述第一相似值和所述第二相似值之间的损失,得到所述损失值。
80.本发明实现了通过将所述第一特征向量加入所述动态队列中,作为新的历史特征向量;其中,所述动态队列包括多个所述历史特征向量;将所述第一特征向量与各所述历史特征向量进行内积处理,得到第一相似值,同时将所述第二特征向量与各所述历史特征向量进行内积处理,得到第二相似值;计算所述第一相似值和所述第二相似值的交叉熵,得到所述损失值,如此,实现了通过动态队列和内积处理的方式,对比老师网络输出和学生网络输出之间的对齐情况,确定出相应的损失值,从而提供语音识别模型训练的迭代依据,冻结老师网络中的老师参数,迭代学生网络中的学生参数能够以老师网络的识别为标准,优化学生网络,达到无需给学生网络标注样本,做到自监督学习的方式,提高了学生网络的学习效率,以及降低了学生网络学习的成本。
81.s60,在所述损失值未达到预设的收敛条件时,迭代更新所述初始识别模型的初始参数,直至所述损失值达到所述收敛条件时,将收敛之后的所述初始识别模型记录为训练完成的语音识别模型。
82.可理解地,所述收敛条件可以为所述损失值经过了5000次计算后值为很小且不会再下降的条件,即在所述损失值经过5000次计算后值为很小且不会再下降时,停止训练,并将收敛之后的所述初始识别模型记录为训练完成的语音识别模型;所述收敛条件也可以为所述损失值小于设定收敛阈值的条件,即在所述损失值小于设定收敛阈值时,停止训练,并将收敛之后的所述初始识别模型记录为训练完成的语音识别模型,如此,在所述损失值未达到预训练收敛条件时,不断调整初始识别模型的初始参数,其中,冻结老师参数,调整学生参数,可以不断让学习网络向准确的结果靠拢,以及让语音识别的准确率越来越高。如此,能够提高语音识别的准确率,以及提高语音识别出文本的效率,且优化了语音识别模型的容量,无需不断增加动态队列以作为负样本供语音识别。
83.本发明实现了通过获取包含有多个语音样本的语音样本集;将所述语音样本输入含有初始参数的初始识别模型;通过所述初始识别模型对所述语音样本进行音频增强处理,得到待处理音频片段;通过老师网络对所述待处理音频片段进行老师声学特征提取,得到第一特征向量,同时通过学生网络对所述待处理音频片段进行学生声学特征提取,得到第二特征向量;其中,所述初始识别模型包括所述老师网络和所述学生网络;所述学生网络为对所述老师网络进行蒸馏学习后获得;对所述第一特征向量、所述第二特征向量和所述老师网络中的动态队列进行对齐对比处理,得到损失值;在所述损失值未达到预设的收敛条件时,迭代更新所述初始识别模型的初始参数,直至所述损失值达到所述收敛条件时,将收敛之后的所述初始识别模型记录为训练完成的语音识别模型,如此,实现了通过音频增强处理,并通过老师网络提取老师声学特征,以及通过从老师网络中蒸馏学习获得的学生网络提取学生声学特征,结合动态队列进行对齐对比处理,迭代训练获得语音识别模型,
84.因此,实现了自动增强有用的音频信息,无需大量对语音样本进行标注,节省了人工成本,而且运用蒸馏学习方法,以及通过自监督的老师网络和学生网络的模型训练,训练完成获得语音识别模型,减少了人工标注时间和工作量,通过学生网络,加快了语音识别的
效率,从而提高了语音识别效率,并通过老师网络和学生网络共同的语音识别,提高了语音识别的准确性。
85.在一实施例中,所述将收敛之后的所述初始识别模型记录为训练完成的语音识别模型之后,包括:
86.将待识别语音输入所述语音识别模型训练方法训练完成的语音识别模型,通过该语音识别模型中的学生网络对所述待识别语音进行频域特征的蒸馏提取,以及根据蒸馏提取的频域特征进行文字预测,得到与所述待识别语音对应的待翻译文本;其中,所述待识别语音从包含有翻译目标语种的翻译请求中获取。
87.可理解地,通过训练完成的所述语音识别模型中的学生网络进行频域特征的蒸馏提取,所述蒸馏提取为运用蒸馏学习方法学习到的学生声学特征的提取,并根据蒸馏提取的频域特征进行所述文字预测的方法进行预测,得到所述待翻译文本,如此,能够大大减少提取的层级,大大缩短了翻译滞后时长,大大缩短了语音识别的时间,提高了翻译的及时性和准确性,所述翻译请求为实时采集音频文件,采集过程中间隔预设短时间段内提取出短时长的音频文件触发该请求,将该短时长的音频文件记录为所述待识别语音,所述翻译目标语种为需要翻译成的语种。
88.将所述待翻译文本输入与所述翻译目标语种对应的训练完成的翻译模型,通过所述翻译模型进行翻译处理,得到与所述待翻译文本对应的翻译文本。
89.可理解地,不同的翻译目标语种对应不同的翻译模型,而且各个所述翻译模型均训练完成,各所述翻译模型能够对输入的文本内容进行相应的与翻译目标语种的内容的映射关系转换,从而得到与所述待翻译文本对应的翻译文,所述翻译文本表征了所述待翻译文本转换成对应翻译目标语种的文本内容。
90.本发明实现了通过将待识别语音输入所述语音识别模型训练方法训练完成的语音识别模型,通过该语音识别模型中的学生网络对所述待识别语音进行频域特征的蒸馏提取,以及根据蒸馏提取的频域特征进行文字预测,得到与所述待识别语音对应的待翻译文本;将待识别语音输入所述语音识别模型训练方法训练完成的语音识别模型,通过该语音识别模型中的学生网络对所述待识别语音进行频域特征的蒸馏提取,以及根据蒸馏提取的频域特征进行文字预测,得到与所述待识别语音对应的待翻译文本;其中,所述待识别语音从包含有翻译目标语种的翻译请求中获取;将所述待翻译文本输入与所述翻译目标语种对应的训练完成的翻译模型,通过所述翻译模型进行翻译处理,得到与所述待翻译文本对应的翻译文本将所述待翻译文本输入与所述翻译目标语种对应的训练完成的翻译模型,通过所述翻译模型进行翻译处理,得到与所述待翻译文本对应的翻译文本,如此,实现了实时地自动识别出待识别语音中的文本内容,以及通过相应的翻译模型自动翻译出与文本内容相应的翻译文本,能够做到实时翻译,大大缩短了翻译滞后时长,提高了翻译的及时性和准确性,提升了客户的体验满意度。
91.应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
92.在一实施例中,提供一种语音识别模型训练装置,该语音识别模型训练装置与上述实施例中语音识别模型训练方法一一对应。如图4所示,该语音识别模型训练装置包括获
取模块11、输入模块12、增强模块13、提取模块14、损失模块15和训练模块16。各功能模块详细说明如下:
93.获取模块11,用于获取语音样本集;所述语音样本集包括多个语音样本;
94.输入模块12,用于将所述语音样本输入含有初始参数的初始识别模型;
95.增强模块13,用于通过所述初始识别模型对所述语音样本进行音频增强处理,得到待处理音频片段;
96.提取模块14,用于通过老师网络对所述待处理音频片段进行老师声学特征提取,得到第一特征向量,同时通过学生网络对所述待处理音频片段进行学生声学特征提取,得到第二特征向量;其中,所述初始识别模型包括所述老师网络和所述学生网络;所述学生网络为对所述老师网络进行蒸馏学习后获得;
97.损失模块15,用于对所述第一特征向量、所述第二特征向量和所述老师网络中的动态队列进行对齐对比处理,得到损失值;
98.训练模块16,用于在所述损失值未达到预设的收敛条件时,迭代更新所述初始识别模型的初始参数,直至所述损失值达到所述收敛条件时,将收敛之后的所述初始识别模型记录为训练完成的语音识别模型。
99.在一实施例中,如图5所示,所述损失模块15包括:
100.加入子模块51,用于将所述第一特征向量加入所述动态队列中,作为新的历史特征向量;其中,所述动态队列包括多个所述历史特征向量;
101.内积子模块52,用于将所述第一特征向量与各所述历史特征向量进行内积处理,得到第一相似值,同时将所述第二特征向量与各所述历史特征向量进行内积处理,得到第二相似值;
102.计算子模块53,用于计算所述第一相似值和所述第二相似值的交叉熵,得到所述损失值。
103.关于语音识别模型训练装置的具体限定可以参见上文中对于语音识别模型训练方法的限定,在此不再赘述。上述语音识别模型训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
104.在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音识别模型训练方法。
105.在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例中语音识别模型训练方法。
106.在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算
机程序被处理器执行时实现上述实施例中语音识别模型训练方法。
107.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
108.所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
109.以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。