首页 > 乐器声学 专利正文
语音质量评价模型的训练方法、装置与存储介质与流程

时间:2022-02-13 阅读: 作者:专利查询

语音质量评价模型的训练方法、装置与存储介质与流程

1.本技术涉及人工智能技术领域,尤其涉及一种语音质量评价模型的训练方法、装置与存储介质。


背景技术:

2.随着语音合成技术的发展,机器合成语音已经应用于生活中的各个场景,如高铁播报、客服、销售等,实现了语音合成技术的应用落地。合成语音的质量,即自然性,是语音合成系统的关键。然而,由于语音质量评价任务主观性较强,目前仍然依赖主观的平均意见得分(mean opinion score,mos)测试来评估合成语音的质量。mos测试需要多位专家或经过培训的打分者对语音进行评分,这个过程较为耗时耗力。为了实现自动化的合成语音质量评价,有研究人员提出了mosnet,通过端到端的神经网络模型预测一段语音的mos得分,在对模型训练过程中通过预测得到的mos得分与语音的实际得分之间的差异调整模型参数,该种模型训练方式基于单一任务进行模型训练,训练得到的模型对语音质量评价不准确。


技术实现要素:

3.基于此,有必要针对上述技术问题,提供一种语音质量评价模型的训练方法、装置与存储介质,可以使模型更加关注高质量的合成语音以及提高模型对低级特征的提取能力,从而提高语音质量评价模型对语音质量评价的准确性。
4.第一方面,本技术提供一种语音质量评价模型的训练方法,所述语音质量评价模型包括语音特征提取网络、质量分数评价网络、第一分类网络以及第二分类网络;所述方法包括:
5.获取样本语音信号;
6.通过所述语音特征提取网络对所述样本语音信号进行语音特征提取,获得所述样本语音信号的语音特征;
7.通过所述质量分数评价网络基于所述语音特征获得所述样本语音信号的预测质量分数;
8.通过所述第一分类网络基于所述语音特征获得所述样本语音信号的预测质量分类,所述预测质量分类用于表示预测所述语音信号是合成人声或自然人声;
9.通过所述第二分类网络基于所述语音特征获得所述样本语音信号的预测来源分类,所述预测来源分类用于表示预测所述语音信号的来源对象;
10.基于所述预测质量分数、所述预测质量分类以及所述预测来源分类,计算所述语音质量评价模型的总损失函数值,并根据所述总损失函数值对所述语音质量评价模型的参数进行调整。
11.结合第一方面,在一些实施例中,所述基于所述预测质量分数、所述预测质量分类以及所述预测来源分类,计算所述语音质量评价模型的总损失函数值,包括:
12.基于所述预测质量分数和所述样本语音信号的实际质量分数,计算第一损失函数值;
13.基于所述预测质量分类和所述样本语音信号的实际质量分类,计算第二损失函数值;
14.基于所述预测来源分类和所述样本语音信号的实际来源分类,计算第三损失函数值;
15.将所述第一损失函数值、所述第二损失函数值以及所述第三损失函数值进行加权求和,获得所述语音质量评价模型的总损失函数值。
16.结合第一方面,在一些实施例中,所述通过所述语音特征提取网络对所述样本语音信号进行语音特征提取,获得所述样本语音信号的语音特征之前,还包括:
17.将所述样本语音信号划分为多个语音帧;
18.所述通过所述语音特征提取网络对所述样本语音信号进行语音特征提取,获得所述样本语音信号的语音特征,包括:
19.将所述多个语音帧中的每个语音帧输入所述语音特征提取网络,并通过所述语音特征提取网络提取所述每个语音帧的语音特征。
20.结合第一方面,在一些实施例中,所述质量分数评价网络包括第一全连接层和第一池化层;所述每个语音帧被标注语句标签,所述语句标签用于指示所述语音帧所关联的语句;
21.所述通过所述质量分数评价网络基于所述语音特征获得所述语音信号的预测质量分数,包括:
22.将所述多个语音帧的每个语音帧的语音特征输入所述第一全连接层,通过所述第一全连接层对所述每个语音帧的语音特征进行处理,获得所述每个语音帧对应的第一预测质量分数;
23.将所述每个语音帧对应的第一预测质量分数和所述每个语音帧被标注的语句标签输入所述第一池化层,通过所述第一池化层将所述多个语音帧中具有相同语句标签的语音帧对应的第一预测质量分数进行平均池化处理,获得所述多个语音帧所关联的至少一个语句中每个语句对应的第二预测质量分数;
24.将所述每个语音帧对应的第一预测质量分数和所述每个语句对应的第二预测质量分数,确定为所述样本语音信号的预测质量分数。
25.结合第一方面,在一些实施例中,所述基于所述预测质量分数和所述样本语音信号的实际质量分数,计算第一损失函数值,包括:
26.基于所述每个语音帧对应的第一预测质量分数与所述每个语音帧对应的第一实际质量分数,确定所述语音帧对应的损失函数值;
27.基于所述每个语句对应的第二预测质量分数与所述每个语句对应的第二实际质量分数,确定所述语句对应的损失函数值;
28.将所述语音帧对应的损失函数值与所述语句对应的损失函数值进行加权求和,获得第一损失函数值。
29.结合第一方面,在一些实施例中,所述第一分类网络包括第二全连接层和第二池化层;所述每个语音帧被标注语句标签,所述语句标签用于指示所述语音帧所关联的语句;
30.通过所述第一分类网络基于所述语音特征获得所述样本语音信号的预测质量分类,包括:
31.将所述多个语音帧的每个语音帧的语音特征输入所述第二全连接层,通过所述第二全连接层对所述每个语音帧的语音特征进行处理,获得所述每个语音帧对应的第一概率信息,所述第一概率信息用于指示所述语音帧属于合成人声和自然人声的概率;
32.将所述每个语音帧对应的第一概率信息和所述每个语音帧被标注的语句标签输入所述第二池化层,通过所述第二池化层将所述多个语音帧中具有相同语句标签的语音帧对应的第一概率信息进行平均池化处理,获得所述多个语音帧所关联的至少一个语句中每个语句对应的预测质量分类,并将所述每个语句对应的预测质量分类确定为所述样本语音信号的预测质量分类。
33.结合第一方面,在一些实施例中,所述第二分类网络包括第三全连接层和第三池化层;所述每个语音帧被标注语句标签,所述语句标签用于指示所述语音帧所关联的语句;
34.所述通过所述第二分类网络基于所述语音特征获得所述样本语音信号的预测来源分类,包括:
35.将所述多个语音帧的每个语音帧的语音特征输入所述第三全连接层,通过所述第三全连接层对所述每个语音帧的语音特征进行处理,获得所述每个语音帧对应的第二概率信息,所述第二概率信息用于指示所述语音帧是来源于m个来源对象的概率,所述m为大于或者等于2的整数;
36.将所述每个语音帧对应的第二概率信息和所述每个语音帧被标注的语句标签输入所述第三池化层,通过所述第三池化层将所述多个语音帧中具有相同语句标签的语音帧对应的第二概率信息进行平均池化处理,获得所述多个语音帧所关联的至少一个语句中每个语句对应的预测来源分类,并将所述每个语句对应的预测来源分类确定为所述样本语音信号的预测来源分类。
37.第二方面,本技术提供一种语音质量评价模型的训练装置,所述语音质量评价模型包括语音特征提取网络、质量分数评价网络、第一分类网络以及第二分类网络;该装置包括:
38.语音信号获取单元,用于获取样本语音信号;
39.特征提取单元,用于通过所述语音特征提取网络对所述样本语音信号进行语音特征提取,获得所述样本语音信号的语音特征;
40.质量分数获取单元,用于通过所述质量分数评价网络基于所述语音特征获得所述样本语音信号的预测质量分数;
41.第一分类单元,用于通过所述第一分类网络基于所述语音特征获得所述样本语音信号的预测质量分类,所述预测质量分类用于表示预测所述语音信号是合成人声或自然人声;
42.第二分类单元,用于通过所述第二分类网络基于所述语音特征获得所述样本语音信号的预测来源分类,所述预测来源分类用于表示预测所述语音信号的来源对象;
43.参数调整单元,用于基于所述预测质量分数、所述预测质量分类以及所述预测来源分类,计算所述语音质量评价模型的总损失函数值,并根据所述总损失函数值对所述语音质量评价模型的参数进行调整。
44.结合第二方面,在一些实施例中,所述参数调整单元具体用于:
45.基于所述预测质量分数和所述样本语音信号的实际质量分数,计算第一损失函数值;
46.基于所述预测质量分类和所述样本语音信号的实际质量分类,计算第二损失函数值;
47.基于所述预测来源分类和所述样本语音信号的实际来源分类,计算第三损失函数值;
48.将所述第一损失函数值、所述第二损失函数值以及所述第三损失函数值进行加权求和,获得所述语音质量评价模型的总损失函数值。
49.结合第二方面,在一些实施例中,该装置还包括:
50.划分单元,用于将所述样本语音信号划分为多个语音帧;
51.所述特征提取单元具体用于:将所述多个语音帧中的每个语音帧输入所述语音特征提取网络,并通过所述语音特征提取网络提取所述每个语音帧的语音特征。
52.结合第二方面,在一些实施例中,所述质量分数评价网络包括第一全连接层和第一池化层;所述每个语音帧被标注语句标签,所述语句标签用于指示所述语音帧所关联的语句;
53.所述质量分数获取单元具体用于:将所述多个语音帧的每个语音帧的语音特征输入所述第一全连接层,通过所述第一全连接层对所述每个语音帧的语音特征进行处理,获得所述每个语音帧对应的第一预测质量分数;
54.将所述每个语音帧对应的第一预测质量分数和所述每个语音帧被标注的语句标签输入所述第一池化层,通过所述第一池化层将所述多个语音帧中具有相同语句标签的语音帧对应的第一预测质量分数进行平均池化处理,获得所述多个语音帧所关联的至少一个语句中每个语句对应的第二预测质量分数;
55.将所述每个语音帧对应的第一预测质量分数和所述每个语句对应的第二预测质量分数,确定为所述样本语音信号的预测质量分数。
56.结合第二方面,在一些实施例中,所述参数调整单元具体用于:基于所述每个语音帧对应的第一预测质量分数与所述每个语音帧对应的第一实际质量分数,确定所述语音帧对应的损失函数值;
57.基于所述每个语句对应的第二预测质量分数与所述每个语句对应的第二实际质量分数,确定所述语句对应的损失函数值;
58.将所述语音帧对应的损失函数值与所述语句对应的损失函数值进行加权求和,获得第一损失函数值。
59.结合第二方面,在一些实施例中,所述第一分类网络包括第二全连接层和第二池化层;所述每个语音帧被标注语句标签,所述语句标签用于指示所述语音帧所关联的语句;
60.所述第一分类单元具体用于:将所述多个语音帧的每个语音帧的语音特征输入所述第二全连接层,通过所述第二全连接层对所述每个语音帧的语音特征进行处理,获得所述每个语音帧对应的第一概率信息,所述第一概率信息用于指示所述语音帧属于合成人声和自然人声的概率;
61.将所述每个语音帧对应的第一概率信息和所述每个语音帧被标注的语句标签输
入所述第二池化层,通过所述第二池化层将所述多个语音帧中具有相同语句标签的语音帧对应的第一概率信息进行平均池化处理,获得所述多个语音帧所关联的至少一个语句中每个语句对应的预测质量分类,并将所述每个语句对应的预测质量分类确定为所述样本语音信号的预测质量分类。
62.结合第二方面,在一些实施例中,所述第二分类网络包括第三全连接层和第三池化层;所述每个语音帧被标注语句标签,所述语句标签用于指示所述语音帧所关联的语句;所述第二分类单元具体用于:将所述多个语音帧的每个语音帧的语音特征输入所述第三全连接层,通过所述第三全连接层对所述每个语音帧的语音特征进行处理,获得所述每个语音帧对应的第二概率信息,所述第二概率信息用于指示所述语音帧是来源于m个来源对象的概率,所述m为大于或者等于2的整数;
63.将所述每个语音帧对应的第二概率信息和所述每个语音帧被标注的语句标签输入所述第三池化层,通过所述第三池化层将所述多个语音帧中具有相同语句标签的语音帧对应的第二概率信息进行平均池化处理,获得所述多个语音帧所关联的至少一个语句中每个语句对应的预测来源分类,并将所述每个语句对应的预测来源分类确定为所述样本语音信号的预测来源分类。
64.第三方面,本技术提供一种语音质量评价模型的训练装置,包括处理器、存储器以及通信接口,该处理器、存储器和通信接口相互连接,其中,该通信接口用于接收和发送数据,该存储器用于存储程序代码,该处理器用于调用该程序代码,执行如第一方面以及第一方面中任一可能的实现方式描述的方法。
65.第四方面,本技术提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序;当该计算机程序在一个或多个处理器上运行时,使得该终端设备执行如第一方面以及第一方面中任一可能的实现方式描述的方法。
66.本技术实施例中,在对语音质量评价模型进行训练时,引入两个辅助任务对模型进行训练,一个辅助任务是通过第一分类网络基于样本语音信号的语音特征预测该样本语音信号是合成人声或自然人声,另一个辅助任务是通过第二分类网络基于样本语音信号的语音特征预测该样本语音信号的预测来源分类。所引入的判断样本语音信号是否为自然人声的辅助任务能够使模型更加关注高质量的合成语音,一定程度上缓解了训练集中合成人声和自然人声的样本语音信号数量不均衡的问题,所引入的判断样本语音信号来源的辅助任务能够增强模型对于低级特征的提取能力。这两个辅助任务的加入提升了模型的表现,尤其是模型对于高质量合成语音的评价准确性,可以使模型预测的质量分数更加准确。
附图说明
67.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍。
68.图1为本技术实施例提供的语音质量评价模型的训练方法的流程示意图;
69.图2为本技术实施例提供的语音质量评价模型的示意图;
70.图3为本技术实施例提供的一种语音质量评价模型的训练装置的示意图;
71.图4为本技术实施例提供的另一种语音质量评价模型的训练装置的示意图。
具体实施方式
72.下面结合附图对本发明作进一步详细描述。
73.本技术以下实施例中所使用的术语只是为了描述特定实施例的目的,而并非旨在作为对本技术的限制。如在本技术的说明书和所附权利要求书中所使用的那样,单数表达形式“一个”、“一种”、“所述”、“上述”、“该”和“这一”旨在也包括复数表达形式,除非其上下文中明确地有相反指示。
74.在本技术中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上,“至少两个(项)”是指两个或三个及三个以上,“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“a和/或b”可以表示:只存在a,只存在b以及同时存在a和b三种情况,其中a,b可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”。
75.本技术实施例可以基于人工智能技术对相关的语音数据进行获取和处理。其中,人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
76.人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
77.本技术实施例提供了一种语音质量评价模型的训练方法,为了更清楚地描述本技术的方案,下面对本技术涉及的一些附图作进一步介绍。
78.请参阅图1,图1为本技术实施例提供的一种语音质量评价模型的训练方法的流程示意图。如图1所示,所述方法包括以下步骤:
79.步骤110,获取样本语音信号;
80.步骤120,通过所述语音特征提取网络对所述样本语音信号进行语音特征提取,获得所述样本语音信号的语音特征;
81.本技术实施例中,样本语音信号可以是训练集中的语音信号,该训练集中包括各种合成人声的语音信号、自然人声的语音信号,当然该训练集中的语音信号可以是来自于不同的来源对象,例如,可以包括来自于机器人a的语音信号、机器人b的语音信号,以及还可以包括自然人a和自然人b的语音信号。其中,训练集中的各个样本语音信号被用来训练本技术的语音质量评价模型,本技术的语音质量评价模型可以包括语音特征提取网络、质量分数评价网络(即主任务)、第一分类网络(即辅助任务1)以及第二分类网络(即辅助任务2),其中,语音特征提取网络分别与质量分数评价网络、第一分类网络和第二分类网络连接,通过语音特征提取网络对样本语音信号的语音特征进行提取,并将所提取的语音特征分别输入质量分数评价网络、第一分类网络和第二分类网络进行处理。
82.具体可选的,如图2所示,首先将样本语音信号输入频谱输入层进行频谱序列的转换,频谱输入层通过短时傅里叶变换(short

time fourier transform, stft)将样本语音信号转换为频谱序列,并将频谱序列划分为多个语音帧,每个语音帧时长为32ms,帧位移为
16ms。可选的,该样本语音信号可以是包括多个语句的语音数据,在将样本语音信号划分为多个语音帧之后,可以根据每个语音帧所关联的语句,为每个语音帧标注语句标签,与同一个语句关联的语音帧被标注的语句标签是相同的。
83.进一步,频谱输入层将每个语音帧的频谱序列输入到语音特征提取网络进行语音特征的提取,从而获得每个语音帧的语音特征。示例性的,如图2所示,语音特征提取网络可以是cnn

lstm特征提取层,该cnn

lstm特征提取层由cnn特征提取单元(即卷积conv层)和双向lstm单元组成。cnn特征提取单元能够对频谱序列的语音帧级别的空间特征进行提取,在模型中每个cnn 特征提取单元由3层cnn串联组成,模型中可以有多个cnn特征提取单元。双向lstm单元对频谱序列的前向时序特征和后向时序特征进行提取,能够同时捕捉到频谱序列的长时特征和短时特征。随后将提取的语音帧级别的语音特征经过全连接层(即fc)进行降维处理,得到降维后的语音特征,并输入到多任务输出层,如图2所示,该多任务输出层包括三条支路,分别为主任务对应的输出层和两个辅助任务对应的输出层,本技术将两个辅助任务分别称为辅助任务1和辅助任务2,辅助任务1用于对样本语音信号进行自然人声或合成人声的二分类,辅助任务2用于对样本语音信号的来源对象进行多分类。本技术实施例中将主任务输出层称为质量分数平均网络,辅助任务1输出层称为第一分类网络,辅助任务2输出层称为第二分类网络。
84.步骤130,通过所述质量分数评价网络基于所述语音特征获得所述样本语音信号的预测质量分数;
85.步骤140,通过所述第一分类网络基于所述语音特征获得所述样本语音信号的预测质量分类,所述预测质量分类用于表示所述样本语音信号是合成人声或自然人声;
86.步骤150,通过所述第二分类网络基于所述语音特征获得所述样本语音信号的预测来源分类,所述预测来源分类用于表示所述样本语音信号的来源对象;
87.步骤160,基于所述预测质量分数、所述预测质量分类以及所述预测来源分类,计算所述语音质量评价模型的总损失函数值,并根据所述总损失函数值对所述语音质量评价模型的参数进行调整。
88.本技术实施例中,将提取到的多个语音帧的每个语音帧的语音特征分别输入质量分数评价网络、第一分类网络以及第二分类网络。
89.示例性的,该质量分数评价网络(即主任务输出层)包括第一全连接层,该第一全连接层基于每个语音帧的语音特征得到每个语音帧的预测质量分数,比如,每个语音帧的预测mos得分。进一步可选的,该质量分数评价网络还可以包括第一池化层,将每个语音帧的预测质量分数和每个语音帧被标注的语句标签输入该第一池化层,通过第一池化层将具有相同语句标签的语音帧的预测质量分数进行平均池化处理,得到多个语音帧所关联的至少一个语句中每个语句的预测质量分数。通过平均池化处理从而将帧级别的预测质量分数聚合为句子级别的预测质量分数。
90.在计算主任务的第一损失函数值l
main
时,可以采用第一损失函数进行计算,例如使用mse函数衡量误差的大小,如下公式中,第一项表示语句级别的mos 得分误差,即语句对应的损失函数值,该语句对应的损失函数值是基于样本语音信号中每个语句的预测质量分数与每个语句对应的实际质量分数之间的差别得到的,第二项表示语音帧级别的mos得分误差,语音帧对应的损失函数值,该语音帧对应的损失函数值是基于样本语音信号中每
个语音帧的预测质量分数与每个语音帧的实际质量分数之间的差别得到的:
[0091][0092]
得分;q
u
表示第u句话的预测mos得分;t
u
表示第u句话的长度(即一句话有多少个语音帧);α
f
是一个控制权重的参数;q
u,
表示第u句话的第t帧的预测mos得分。
[0093]
示例性的,第一分类网络(即辅助任务1输出层)可以包括第二全连接层和softmax分类器,该第二全连接层和softmax分类器可以基于语音帧级别的语音特征得到样本语音信号的预测质量分类,该预测质量分类为自然人声或者合成人声。采用第二损失函数,根据样本语音信号的预测质量分类和样本语音信号的实际质量分类,计算得到该第一分类网络对应的第二损失函数值。
[0094]
具体可选的,如图2所示,辅助任务1输出层为判断该样本语音信号是自然人声还是合成人声,即二分类问题。在通用的大规模语音训练集中,充斥着大量的低质量合成人声,而自然人声的质量都比较高,在训练集中自然人声的语音信号比较少,如果仅仅采用训练集中的样本语音信号对主任务对应的输出层进行训练,这种数据质量分布不均衡使得训练出的模型表现不佳。一般来说,高质量的语音信号更难区分其是否是合成语音,因此在模型训练时引入该辅助任务1,可以使模型更加关注高质量的合成语音,一定程度上缓解了数据集中样本语音信号质量不均衡的问题,提升模型的表现。在训练时,每个语音帧的语音特征经过辅助任务1对应的输出层中的第二全连接层得到每个语音帧对应的第一概率信息,即二维向量,第一概率信息用于表示该语音帧的语音信号是合成人声和自然人声的概率。可选的,该辅助任务1输出层还可以进一步包括第二池化层,可以将每个语音帧对应的二维向量和每个语音帧被标注的语句标签输入该第二池化层,进一步通过第二池化层将具有相同语句标签的语音帧的二维向量通过平均池化处理,得到各个语音帧所关联的语句是合成人声和自然人声的概率,从而将最大概率的分类作为语句预测质量分类,即预测各个语句是自然人声或者合成人声。在计算辅助任务1的第二损失函数值时,第二损失函数可以采用交叉熵函数,如下公式所示:
[0095][0096]
于第i类的预测概率(介于0和1之间)。
[0097]
示例性的,第二分类网络(即辅助任务2输出层)包括第三全连接层和 softmax分类器,该第三全连接层和softmax分类器基于语音特征可以得到样本语音信号的预测来源分类,该预测来源分类用于表示该样本语音信号的来源对象,该第二分类网络可以是一个多分类网络,比如预设m个来源对象,m为大于或者等于2的整数,那么可以是预测样本语音信号是来源于该m个来源对象中的某一个来源对象。
[0098]
具体可选的,如图2所示,辅助任务2输出层为判断语音信号的来源对象,即多分类问题,例如,判断该样本语音信号是来源于机器人a或机器人b。语音信号的来源决定了话语的低级特征,比如声学韵律等。通过引入该辅助任务2 可以增强模型对于低级特征的提取能力,这也最终提升了模型对于语音质量评价的表现。在训练时,将每个语音帧的语音特征经过辅助任务2对应的输出层中的第三全连接层进行处理,获得每个语音帧对应的第二概率信息,即得到m 维向量,m为预设来源对象的个数(即人声来源数与合成来源数的总和),该 m维向量用于表示语音帧来自m个来源对象中各个来源对象的概率。可选的,该辅助任务2输出层可以进一步包括第三池化层,将每个语音帧对应的第二概率信息和每个语音帧被标注的语句标签输入该第三池化层,通过该第三池化层将具有相同语句标签的语音帧对应的m维特征向量进行平均池化处理,得到各个语音帧所关联的语句来源于m个来源对象的概率,从而将最大概率的来源对象确定为语句的预测来源分类。在计算辅助任务2的第三损失函数值时,损失函数也可以采用交叉熵函数,如下公式所示:
[0099][0100]
其中,u为输入语音信号中语句的数量;表示第u句话属于第i类的实际概率(属于第i类该是1,不属于第i类该为0);c
u,
表示第u句话属于第i类的预测概率(介于0和1之间)。
[0101]
进一步,将第一损失函数值、第二损失函数值以及第三损失函数值进行加权求和,从而得到总损失函数值,基于总损失函数值调整语音质量评价模型的参数,即调整cnn

lstm特征提取层、第一全连接层、第二全连接层以及第三全连接层的参数,不断循环迭代训练,直到模型收敛,获得训练后的语音质量评价模型。
[0102]
如下公式所示,即为计算总损失函数值l的公式,其中α0,α1,α2是控制损失比重的参数:
[0103]
l=α0l
main
+α1l
aux1
+α2l
aux2

[0104]
在使用训练后的语音质量评价模型对待检测的合成语音信号进行质量评分时,首先将该待检测的合成语音信号输入频谱输入层、cnn

lstm特征提取层以及第一全连接层,获得帧级别的mos得分,可选的,将帧级别的mos得分进行平均池化处理,可以得到句子级别的mos得分。
[0105]
本技术实施例中,在对语音质量评价模型进行训练时,引入两个辅助任务对模型进行训练,一个辅助任务是通过第一分类网络基于样本语音信号的语音特征预测该样本语音信号是合成人声或自然人声,另一个辅助任务是通过第二分类网络基于样本语音信号的语音特征预测该样本语音信号的预测来源分类。所引入的判断样本语音信号是否为自然人声的辅助任务能够使模型更加关注高质量的合成语音,一定程度上缓解了训练集中合成人声和自然人声的样本语音信号数量不均衡的问题,所引入的判断样本语音信号来源的辅助任务能够增强模型对于低级特征的提取能力。这两个辅助任务的加入提升了模型的表现,尤其是模型对于高质量合成语音的评价准确性,可以使模型预测的质量分数更加准确。
[0106]
请参见图3,为本技术实施例提供了一种语音质量评价模型的训练装置的结构示意图,本技术的所述语音质量评价模型包括语音特征提取网络、质量分数评价网络、第一分类网络以及第二分类网络。如图3所示,该语音质量评价模型的训练装置可以包括:
[0107]
语音信号获取单元10,用于获取样本语音信号;
[0108]
特征提取单元11,用于通过所述语音特征提取网络对所述样本语音信号进行语音特征提取,获得所述样本语音信号的语音特征;
[0109]
质量分数获取单元12,用于通过所述质量分数评价网络基于所述语音特征获得所述样本语音信号的预测质量分数;
[0110]
第一分类单元13,用于通过所述第一分类网络基于所述语音特征获得所述样本语音信号的预测质量分类,所述预测质量分类用于表示预测所述语音信号是合成人声或自然人声;
[0111]
第二分类单元14,用于通过所述第二分类网络基于所述语音特征获得所述样本语音信号的预测来源分类,所述预测来源分类用于表示预测所述语音信号的来源对象;
[0112]
参数调整单元15,用于基于所述预测质量分数、所述预测质量分类以及所述预测来源分类,计算所述语音质量评价模型的总损失函数值,并根据所述总损失函数值对所述语音质量评价模型的参数进行调整。
[0113]
在一种可能的设计中,所述参数调整单元15具体用于:
[0114]
基于所述预测质量分数和所述样本语音信号的实际质量分数,计算第一损失函数值;
[0115]
基于所述预测质量分类和所述样本语音信号的实际质量分类,计算第二损失函数值;
[0116]
基于所述预测来源分类和所述样本语音信号的实际来源分类,计算第三损失函数值;
[0117]
将所述第一损失函数值、所述第二损失函数值以及所述第三损失函数值进行加权求和,获得所述语音质量评价模型的总损失函数值。
[0118]
在一种可能的设计中,该装置还包括:
[0119]
划分单元,用于将所述样本语音信号划分为多个语音帧;
[0120]
所述特征提取单元具体用于:将所述多个语音帧中的每个语音帧输入所述语音特征提取网络,并通过所述语音特征提取网络提取所述每个语音帧的语音特征。
[0121]
在一种可能的设计中,所述质量分数评价网络包括第一全连接层和第一池化层;所述每个语音帧被标注语句标签,所述语句标签用于指示所述语音帧所关联的语句;
[0122]
所述质量分数获取单元12具体用于:将所述多个语音帧的每个语音帧的语音特征输入所述第一全连接层,通过所述第一全连接层对所述每个语音帧的语音特征进行处理,获得所述每个语音帧对应的第一预测质量分数;
[0123]
将所述每个语音帧对应的第一预测质量分数和所述每个语音帧被标注的语句标签输入所述第一池化层,通过所述第一池化层将所述多个语音帧中具有相同语句标签的语音帧对应的第一预测质量分数进行平均池化处理,获得所述多个语音帧所关联的至少一个语句中每个语句对应的第二预测质量分数;
[0124]
将所述每个语音帧对应的第一预测质量分数和所述每个语句对应的第二预测质
量分数,确定为所述样本语音信号的预测质量分数。
[0125]
在一种可能的设计中,所述参数调整单元15具体用于:基于所述每个语音帧对应的第一预测质量分数与所述每个语音帧对应的第一实际质量分数,确定所述语音帧对应的损失函数值;
[0126]
基于所述每个语句对应的第二预测质量分数与所述每个语句对应的第二实际质量分数,确定所述语句对应的损失函数值;
[0127]
将所述语音帧对应的损失函数值与所述语句对应的损失函数值进行加权求和,获得第一损失函数值。
[0128]
在一种可能的设计中,所述第一分类网络包括第二全连接层和第二池化层;所述每个语音帧被标注语句标签,所述语句标签用于指示所述语音帧所关联的语句;
[0129]
所述第一分类单元13具体用于:将所述多个语音帧的每个语音帧的语音特征输入所述第二全连接层,通过所述第二全连接层对所述每个语音帧的语音特征进行处理,获得所述每个语音帧对应的第一概率信息,所述第一概率信息用于指示所述语音帧属于合成人声和自然人声的概率;
[0130]
将所述每个语音帧对应的第一概率信息和所述每个语音帧被标注的语句标签输入所述第二池化层,通过所述第二池化层将所述多个语音帧中具有相同语句标签的语音帧对应的第一概率信息进行平均池化处理,获得所述多个语音帧所关联的至少一个语句中每个语句对应的预测质量分类,并将所述每个语句对应的预测质量分类确定为所述样本语音信号的预测质量分类。
[0131]
在一种可能的设计中,所述第二分类网络包括第三全连接层和第三池化层;所述每个语音帧被标注语句标签,所述语句标签用于指示所述语音帧所关联的语句;所述第二分类单元14具体用于:将所述多个语音帧的每个语音帧的语音特征输入所述第三全连接层,通过所述第三全连接层对所述每个语音帧的语音特征进行处理,获得所述每个语音帧对应的第二概率信息,所述第二概率信息用于指示所述语音帧是来源于m个来源对象的概率,所述m为大于或者等于2 的整数;
[0132]
将所述每个语音帧对应的第二概率信息和所述每个语音帧被标注的语句标签输入所述第三池化层,通过所述第三池化层将所述多个语音帧中具有相同语句标签的语音帧对应的第二概率信息进行平均池化处理,获得所述多个语音帧所关联的至少一个语句中每个语句对应的预测来源分类,并将所述每个语句对应的预测来源分类确定为所述样本语音信号的预测来源分类。
[0133]
其中,图3所示装置实施例的具体描述可以参照前述图1所示方法实施例的具体说明,在此不进行赘述。
[0134]
请参照图4,为本技术实施例提供的另一种语音质量评价模型的训练装置的结构示意图,如图4所示,该语音质量评价模型的训练装置1000可以包括:至少一个处理器1001,例如cpu,至少一个通信接口1003,存储器1004,至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。通信接口1003可选的可以包括标准的有线接口、无线接口(如wi

fi接口)。存储器1004可以是高速ram存储器,也可以是非不稳定的存储器(non

volatilememory),例如至少一个磁盘存储器。存储器1004可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图4所示,作为一种计算机存储介质的存储器1004
中可以包括操作系统、网络通信单元以及程序指令。
[0135]
在图4所示的语音质量评价模型的训练装置1000中,处理器1001可以用于加载存储器1004中存储的程序指令,并具体执行以下操作:
[0136]
获取样本语音信号;
[0137]
通过所述语音特征提取网络对所述样本语音信号进行语音特征提取,获得所述样本语音信号的语音特征;
[0138]
通过所述质量分数评价网络基于所述语音特征获得所述样本语音信号的预测质量分数;
[0139]
通过所述第一分类网络基于所述语音特征获得所述样本语音信号的预测质量分类,所述预测质量分类用于表示预测所述语音信号是合成人声或自然人声;
[0140]
通过所述第二分类网络基于所述语音特征获得所述样本语音信号的预测来源分类,所述预测来源分类用于表示预测所述语音信号的来源对象;
[0141]
基于所述预测质量分数、所述预测质量分类以及所述预测来源分类,计算所述语音质量评价模型的总损失函数值,并根据所述总损失函数值对所述语音质量评价模型的参数进行调整。
[0142]
需要说明的是,具体执行过程可以参见图1所示方法实施例的具体说明,在此不进行赘述。
[0143]
本技术实施例还提供了一种计算机存储介质,所述计算机存储介质可以存储有多条指令,所述指令适于由处理器加载并执行如上述图1所示实施例的方法步骤,具体执行过程可以参见图1所示实施例的具体说明,在此不进行赘述。
[0144]
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时,全部或部分地产生按照本技术实施例该的流程或功能。该计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,该计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如dvd)、或者半导体介质(例如固态硬盘)等。
[0145]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,该流程可以由计算机程序来指令相关的硬件完成,该程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法实施例的流程。而前述的存储介质包括:rom或随机存储记忆体ram、磁碟或者光盘等各种可存储程序代码的介质。