首页 > 乐器声学 专利正文
一种音库训练数据的分析方法和装置与流程

时间:2022-02-06 阅读: 作者:专利查询

一种音库训练数据的分析方法和装置与流程

1.本发明涉及语音处理技术领域,特别是涉及一种音库训练数据的分析方法和装置。


背景技术:

2.语音合成技术经历了三个主要发展阶段,分别为拼接、参数合成、端到端合成。音库数据,不同于其他的音频数据,对声音质量、稳定度等都有特殊的要求。通常情况下,对于音库训练数据的要求是,发言人需要保持统一且稳定的录音风格,因为无论是拼接合成还是参数合成,都需要保证合成最小单位(如音素)的特征保持一致。
3.目前,音库训练数据的处理通常需要通过人工标注来完成,具体来说,人工创建一个音库,通过人工方式对原始语音进行剪辑,人工对剪辑出的语音片段进行标注,得到音库所需要的语料,存在耗时长、人力消耗大的问题。


技术实现要素:

4.鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种音库训练数据的分析方法、以及相应的一种音库训练数据的分析装置。
5.为了解决上述问题,一方面,本发明实施例公开了一种音库训练数据的分析方法,包括以下步骤:
6.获取音库训练数据;
7.从所述音库训练数据中提取至少一个语音片段;
8.计算所述语音片段的信噪比;
9.通过预设语音识别模型确定所述语音片段的语速;
10.通过预设神经网络确定发言人的说话人向量;
11.根据所述语速、所述信噪比、所述说话人向量中的至少一种,判断所述语音片段是否符合预设条件;
12.将符合预设条件的语音片段加入音库。
13.进一步地,根据所述语速、所述信噪比、所述说话人向量中的至少一种,判断所述语音片段是否符合预设条件包括:
14.判断所述语速是否位于预设语速阈值区间;
15.和/或判断所述信噪比是否大于预设信噪比阈值;
16.和/或判断所述说话人向量与预设集外发言人的说话人向量的距离是否大于预设距离阈值。
17.进一步地,在确定所述语音片段的所述语速前,获取音库样本数据,对所述音库样本数据中的多条语音数据进行语速计算,得到历史语速数值,并根据所述历史语速数值确定所述语速阈值区间。
18.进一步地,当所述语速的计算结果不在所述语速阈值区间时,将所述语音片段保存在备用音库。
19.进一步地,在确定所述语音片段的所述信噪比前,对音库样本数据中的多条语音数据进行信噪比计算,得到历史信噪比数值,并根据所述历史信噪比数值确定所述信噪比阈值。
20.进一步地,在获取所述音库训练数据前,根据所述音库样本数据对一基础模型进行训练以得到发言人编码器,通过所述发言人编码器确定所述预设集外发言人的说话人向量。
21.另一方面,本发明还提供了一种音库训练数据的分析装置,包括:
22.第一数据获取模块,用于获取音库训练数据;
23.语音片段提取模块,用于从所述音库训练数据中提取至少一个语音片段;
24.数据处理模块,用于将至少一个语音片段输入至一语音识别模型中以进行语音识别,同时根据一信噪比计算方法进行信噪比计算,以及用于对语音识别结果、信噪比计算结果、说话人向量计算结果进行处理;
25.判断模块,用于根据语速、所述信噪比、所述说话人向量中的至少一种,判断所述语音片段是否符合预设条件;
26.进一步地,所述判断模块包括:
27.第一判断子模块,用于判断所述语速是否位于预设语速阈值区间;
28.和/或,第二判断子模块,用于判断所述信噪比是否大于预设信噪比阈值;
29.和/或,第三判断子模块,用于判断所述说话人向量与预设集外发言人的说话人向量的距离是否大于预设距离阈值。
30.进一步地,该装置还包括:
31.第二数据获取模块,用于在确定所述语音片段的所述语速前,获取音库样本数据;
32.语速阈值计算模块,用于对音库样本数据中的多条语音数据进行语速计算,得到历史语速数值,并根据所述历史语速数值确定所述语速阈值区间。
33.进一步地,该装置还包括:第一数据存储模块,用于当所述第一判断子模块判断所述语速的计算结果不在所述语速阈值区间时,将所述语音片段保存在备用音库。
34.进一步地,该装置还包括:信噪比阈值计算模块,用于计算所述音库样本数据中多条语音数据的信噪比,得到历史信噪比数值,根据所述历史信噪比数值确定所述信噪比阈值。
35.进一步地,该装置还包括:向量距离阈值计算模块,所述向量距离阈值计算模块计算预设集外发言人的说话人向量的距离,得到历史向量距离数值,根据所述历史向量距离数值确定所述距离阈值。
36.进一步地,该装置还包括:第三数据获取模块,所述第三数据获取模块用于构建音库样本数据,根据所述音库样本数据对一基础模型进行训练以得到发言人编码器,所述发言人编码器用于确定预设集外发言人的说话人向量。
37.进一步地,该装置还包括:第二数据存储模块,当所述第三判断子模块判断所述说话人向量与预设集外发言人的说话人向量的距离小于或等于预设距离阈值时,将所述语音片段保存在备用音库。
38.另一方面,本发明的实施例还提供了一种电子设备,该电子设备包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现该音库训练数据的分析方法的步骤。
39.另一方面,本发明的实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现该音库训练数据的分析方法的步骤。
40.本发明实施例包括以下优点:根据音库样本数据对一基础模型进行训练以得到语音识别模型,从备选语音数据中筛选出合格的语音数据构成音库训练数据,从音库训练数据中提取至少一个语音片段,计算语音片段的信噪比,输入语音识别模型中进行语音识别,计算语音片段的语速,将信噪比和语速符合要求的语音片段输入神经网络,捕捉发言人的特征,计算出发言人的说话人向量,将符合预设条件的语音片段加入音库样本。在信噪比、语速、发言人特征三个方面进行评估,借助asr技术、利用snr值、说话人向量等特征自动化评估音库训练数据的质量,相对传统通过人工对原始语音进行剪辑、识别,得到音库所需要的语料的方法,提高了音库训练数据评估的速度、降低了人工的工作量。
附图说明
41.图1为本发明实施例的一种音库训练数据的分析方法的步骤流程图;
42.图2为本发明实施例中提取说话人向量的流程示意图;
43.图3为本发明实施例的另一种音库训练数据的分析方法的步骤流程图;
44.图4是本发明实施例提供的一种音库训练数据的分析装置的结构框图。
具体实施方式
45.为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
46.本发明提供了一种音库训练数据的分析方法,该音库训练数据的分析方法,包括以下步骤:
47.步骤101、获取音库训练数据;
48.具体的,从备选语音数据中筛选出合格的语音数据构成音库训练数据,在获取音库训练数据前,先选取对应应用场景的音库样本数据,根据音库样本数据对一基础模型进行训练以得到语音识别模型和发言人编码器。根据音库样本数据对一基础模型进行训练以得到语音识别模型为语音处理领域的通用技术,在此不做太多具体描述。训练发言人编码器(speakerencoder)可以借助语音识别系统并利用多人数据集(如speakerverification数据集),发言人编码器可以生成集外发言人的说话人向量,通常是将训练好的模型中间层作为说话人向量。
49.步骤102、从所述音库训练数据中提取至少一个语音片段;
50.将音库训练数据分成若干个语音片段,从音库训练数据中提取至少一个语音片段。
51.步骤103、计算所述语音片段的信噪比;
52.信噪比,又称snr(signal

noiseratio),通常作为衡量电子设备中电子信号与噪声的比例。在本技术中,电子信号指代的是通过设备捕捉到的待处理信号,即发言人的声音;而噪音是指经过该设备后产生的原信号中不存在的额外信号,这类信号一般不会随着原信号的变化而变化,如环境噪音或者设备噪音。信噪比计算方法可以为本领域中常用的信噪比计算公式,snr=10*lg(s/n),其中s为信号的平均能量/功率,n为噪声的平均能量/功率,单位为db。
53.根据上述信噪比计算公式,便可计算音库样本数据中的snr数值。其中,信噪比阈值的确定方法如下:计算音库样本中的多条语音数据的snr,得到历史snr数值,对历史snr数值进行归纳、统计,从而确定一snr阈值。通常,在考量信噪比的时候,也会参考音库的定位(如应用领域、风格等),在外呼回访领域,一般在音库合成声音前要先降噪到8k(电话信道),再播放给用户,因此,外呼回访类的音库,对信噪比的要求不高,一般大于75即可。但是,如果使用场景是机场广播,对信噪比的要求较高,一般要求信噪比大于400。需要说明的是,在不同的应用环境下,snr的具体阈值不一定相同。由于snr可以表现声音信号与噪音信号的关系,因此可以作为一种衡量音库训练数据的标准,且snr越高越好。
54.步骤104、通过预设语音识别模型确定所述语音片段的语速;
55.语音识别,又称asr(automaticspeechrecognition),简单来说,是完成将时域上的语音信号转化成文本的过程。成熟的asr系统可以将某段音频的文本转出,在假定发言人语速稳定的情况下,可以通过asr系统来计算音频的语速,即字数/音频秒数。如果需要更精确地统计,可以抽取音频的各个阶段的样本进行语速计算,挑选出语速稳定且合格的音频数据。其中,语速阈值的确定方法如下:计算音库样本中的多条语音数据的语速,得到历史语速数值,对历史语速数值进行归纳、统计,从而确定语速阈值。需要说明的是,语速这一指标,需要与音库的应用场景相关,如外呼催缴类的音库,语速相对较快,一般为6.1

7字/s,而广播类的音库,语速一般在4.2

5.2字/s。在不同的应用场景下,语速的具体阈值不一定相同,例如火车站播音员的语速要求相对平稳,而客服人员的语速要求相对较快。
56.步骤105、通过预设神经网络确定发言人的说话人向量;
57.神经网络是一种特征提取器和分类器的集合体,本技术中神经网络被用作发言人特征向量提取器。请同时参阅图2,将语音片段的音频作为输入(实际输入的是音频特征,如归一化后的20维梅尔倒谱系数(mel

frequencycepstralcoefficients,mfcc,归一化是为了降低音量对特征的影响),经过4层帧级别的时延神经网络(tdnn,time

delayneuralnetwork),再通过一个池化层(累积前几层的输出向量),之后再接两个全连接层,最后通过softmax函数层得到一个后验的输出概率,输出层的神经元个数与音库训练数据中的发言人个数保持一致。该结构中使用tdnn是因为tdnn更多地考虑当前帧及其前后帧,即更有能力表达特征在时间上的关系。最终,使用池化层后的全连接层1来提取说话人的x

vector特征,计算出发言人的说话人向量后,将所述说话人向量与集外发言人的说话人向量进行对比,如果向量距离较大,就可以认为发言人的特征与音库样本的差异较大,如果向量距离较小,则发言人的特征与音库样本的差异较小。这种差异属于音色的差异,为了实现音库音色差异的最大化,本技术的技术方案要选取与音库样本中发言人差异较大的音色。在计算语音片段的说话人向量前,对音库样本数据中的多条语音数据进行说话人向量计算,得到集外发言人的说话人向量数值,并根据集外发言人的说话人向量之间的距离确
定一距离阈值,当所述语音片段的说话人向量与集外发言人的说话人向量的距离大于该距离阈值时,说明该语音片段满足预设条件,将该语音片段加入音库,当该语音片段的说话人向量与集外发言人的说话人向量的距离小于或等于该距离阈值时,说明该语音片段不满足预设条件,为了提高音库训练数据的利用率,可将该语音片段进行标记,然后存入备用音库。
58.步骤106、根据所述语速、所述信噪比、所述说话人向量中的至少一种,判断所述语音片段是否符合预设条件;
59.步骤107、将符合预设条件的语音片段加入音库。
60.重复步骤102

107,直至音库训练数据处理结束。本实施例在具体应用时,根据应用场景的不同,对语速、信噪比和发言人的特征的具体要求也不相同。基于上述说明,本技术方案在语速稳定度、信噪比、发言人特征三个方面进行评估,借助asr技术、利用snr值、说话人向量等特征自动化评估音库训练数据的质量,相对传统通过人工对原始语音进行剪辑,人工对剪辑出的语音片段进行识别,得到音库所需要的语料的方法,提高了音库训练数据评估的速度、降低了人工的工作量。
61.为了提高音库训练数据的利用率,本发明还提供了另一种音库训练数据的分析方法的可选实施例,该音库训练数据的分析方法,包括以下步骤:
62.s21、获取音库训练数据;
63.s22、从所述音库训练数据中提取至少一个语音片段;
64.s23、通过预设语音识别模型确定所述语音片段的信噪比;
65.其中,s23可以包括以下子步骤:
66.s231、当信噪比的计算结果大于预设信噪比阈值时,执行步骤s24;
67.s232、当信噪比的计算结果小于或等于预设信噪比阈值时,执行步骤s233;
68.s233、将所述语音片段进行降噪处理后,执行步骤s23;
69.子步骤s231

233将信噪比不符合要求的语音片段保存到备用音库并进行相应标记,后续可考虑对标记的语音片段进行降噪处理,直至处理后的语音片段信噪比满足要求,提高训练数据的利用率。
70.s24、通过预设语音识别模型确定所述语音片段的语速;
71.其中,s24可以包括以下子步骤:
72.s241、当语速的计算结果位于预设语速阈值区间时,执行步骤s25;
73.s242、当语速的计算结果不在预设语速阈值区间时,执行步骤s243;
74.s243、将语音片段进行标记后保存在备用音库;
75.子步骤s241

s243将语速不符合要求的语音片段保存到备用音库并进行相应标记,发言人在后续进行相应的音库训练时,备用音库的音频材料可以起到较好的参考作用,提高训练数据的利用率,对音库样本进行有效补充。
76.s25、通过预设神经网络确定发言人的说话人向量;
77.其中,s25可以包括以下子步骤:
78.s251、当所述说话人向量与预设集外发言人的说话人向量的距离大于预设距离阈值时,执行步骤s26;
79.s252、当所述说话人向量与预设集外发言人的说话人向量的距离小于或等于预设
距离阈值时,执行步骤s253;
80.s253、将语音片段进行标记后保存在备用音库;
81.子步骤s251

s253将说话人向量不符合要求的语音片段保存到备用音库并进行相应标记,发言人在后续进行相应的音库训练时,备用音库的音频材料可以起到较好的参考作用,提高训练数据的利用率,对音库样本进行有效补充。
82.s26、将符合预设条件的语音片段加入音库。
83.需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
84.为了实现上述音库训练数据的分析方法,本发明实施例还提供了一种音库训练数据的分析装置,包括:
85.第一数据获取模块31,用于获取音库训练数据;
86.语音片段提取模块32,用于从所述音库训练数据中提取至少一个语音片段;
87.数据处理模块33,用于将至少一个语音片段输入至一语音识别模型中以进行语音识别,同时根据一信噪比计算方法进行信噪比计算,以及用于对语音识别结果、信噪比计算结果、说话人向量计算结果进行处理;
88.判断模块34,用于根据语速、所述信噪比、所述说话人向量中的至少一种,判断所述语音片段是否符合预设条件。判断模块包括第一判断子模块、第二判断子模块和第三判断子模块,其中第一判断子模块用于判断所述语速是否位于预设语速阈值区间,第二判断子模块用于判断信噪比计算结果中的所述信噪比数值是否大于预设信噪比阈值、第三判断子模块用于判断所述语音片段的说话人向量与所述预设集外发言人的说话人向量之间的距离是否大于所述距离阈值。
89.优选的,上述装置还包括第二数据获取模块和第三数据获取模块,该第二数据获取模块用于构建音库样本数据、以及根据音库样本数据对一基础模型进行训练以得到语音识别模型;第三数据获取模块用于构建音库样本数据,并根据音库样本数据对一基础模型进行训练以得到发言人编码器,发言人编码器用于确定预设集外发言人的说话人向量,根据应用场景的不同,音库样本数据选择对应的应用场景的音库数据作为样本;
90.优选的,上述装置还包括语速阈值计算模块、信噪比阈值计算模块、向量距离阈值计算模块、滤波模块、第一数据存储模块、以及第二数据存储模块。其中,语速阈值计算模块用于计算音库样本数据中多条语音数据的语速,得到历史语速数值,并根据历史语速数值确定语速阈值区间,当第一判断子模块判断语速的计算结果不在语速阈值区间时,第一数据存储模块将语音片段保存在备用音库;信噪比阈值计算模块用于计算音库样本数据中多条语音数据的信噪比,得到历史信噪比数值,根据历史信噪比数值确定信噪比阈值;滤波模块用于对语音片段进行降噪处理;向量距离阈值计算模块计算预设集外发言人的说话人向量的距离,得到历史向量距离数值,根据历史向量距离数值确定距离阈值,当第三判断子模块判断说话人向量与预设集外发言人的说话人向量的距离小于或等于预设距离阈值时,第二数据存储模块将语音片段保存在备用音库。
91.基于上述说明,本技术方案在语速稳定度、信噪比、发言人特征三个方面进行评估,借助asr技术、利用snr值、说话人向量等特征自动化评估音库训练数据的质量,相对传统通过人工对原始语音进行剪辑,人工对剪辑出的语音片段进行识别,得到音库所需要的语料的方法,提高了音库训练数据评估的速度、提高了训练数据的利用率,降低了人工的工作量,同时,相对人工对音库训练数据的评估,本技术方案的准确率更高。
92.本发明实施例还提供了一种电子设备,包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,该计算机程序被处理器执行时实现上述音库训练数据的分析方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
93.本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储计算机程序,计算机程序被处理器执行时实现上述音库训练数据的分析方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
94.本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
95.本领域内的技术人员应明白,本发明的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd

rom、光学存储器等)上实施的计算机程序产品的形式。
96.本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
97.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
98.这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
99.尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
100.最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作
之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
101.以上对本发明所提供的一种音库训练数据的分析方法和一种音库训练数据的分析装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。