1.本技术涉及人工智能领域,特别涉及一种基于对抗网络的声音样本生成方法、装置、设备及介质。
背景技术:2.随着人工智能技术的发展,神经网络在语音合成技术上的完善,模拟真实人声的语音合成技术在电话销售、人工智能客服、语音播报、导航播报等方面有着广泛的应用。现有的模拟真实人声的方式是对人声特征进行采集,利用得到的人声特征训练模型。但是该训练过程中语音的潜在差异难以量化,导致模型收敛过程及其缓慢,且利用该训练后的模型生成的声音样本与真实人声样本之间存在较大差异。
技术实现要素:3.本技术的目的在于提供一种基于对抗网络的声音样本生成方法、装置、设备及介质,以解决现有技术中存在的现有模型在训练过程中语音的潜在差异难以量化,导致模型收敛过程及其缓慢,且利用该训练后的模型生成的声音样本与真实人声样本之间存在较大差异的技术问题。
4.本技术实施例的第一方面提供了一种基于对抗网络的声音样本生成方法,包括:
5.利用对抗网络模型中的生成器,对人声语音样本对应的梅尔频谱进行多尺度特征融合操作,得到用于表征合成语音样本的新的梅尔频谱;
6.利用多分辨率梅尔谱损失函数,计算所述梅尔频谱的多尺度特征与所述新的梅尔频谱的多尺度特征之间的损失值,并根据所述损失值得到目标损失值;
7.基于所述目标损失值对所述对抗网络模型进行训练,得到训练后的对抗网络模型;
8.利用所述训练后的对抗网络模型对输入的人声语音进行样本模拟,得到声音样本。
9.本技术实施例的第二方面提供了一种基于对抗网络的声音样本生成装置,包括:
10.提取模块,用于利用对抗网络模型中的生成器,基于人声语音样本对应的梅尔频谱进行多尺度特征融合操作,得到用于表征合成语音样本的新的梅尔频谱;
11.优化模块,用于利用多分辨率梅尔谱损失函数,计算所述梅尔频谱的多尺度特征与所述新的梅尔频谱的多尺度特征之间的损失值,并根据所述损失值得到目标损失值;
12.训练模块,用于基于所述目标损失值对所述对抗网络模型进行训练,得到训练后的对抗网络模型;
13.模拟模块,用于利用所述训练后的对抗网络模型对输入的人声语音进行样本模拟,得到声音样本。
14.本技术实施例的第三方面提供了一种设备,包括存储器、处理器以及存储在所述存储器中并可在设备上运行的计算机程序,所述处理器执行所述计算机程序时实现第一方
案提供的基于对抗网络的声音样本生成方法的各步骤。
15.本技术实施例的第四方面提供了一种介质,所述介质存储有计算机程序,所述计算机程序被处理器执行时实现第一方案提供的基于对抗网络的声音样本生成方法的各步骤。
16.实施本技术实施例提供的一种基于对抗网络的声音样本生成方法、装置、设备及介质具有以下有益效果:
17.本技术实施例提供一种基于对抗网络的声音样本生成方法、装置、设备及介质,通过利用对抗网络模型的生成器中的多尺度信息融合层对人声样本的梅尔频谱进行多尺度特征融合以得到表征合成语音样本的新的梅尔频谱。由于新的梅尔频谱是对人声样本的梅尔频谱进行多尺度特征融合得到,故利用多分辨率梅尔谱损失函数能够计算梅尔频谱多尺度特征与新的梅尔频谱多尺度特征之间的损失值,令得到的目标损失值能够用于训练对抗网络模型,使得训练后的对抗网络模型的生成器生成的声音样本不被辨别器判定为伪造样本,提高了训练对抗网络模型收敛的速度,且利用该训练后的对抗网络模型生成的声音样本与真实人声样本之间的相似程度更高,能够得到更接近真实人声效果的声音样本。
附图说明
18.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
19.图1为本技术实施例提供的一种基于对抗网络的声音样本生成方法的实现流程图;
20.图2为本技术实施例提供的生成器的结构示意图;
21.图3为本技术实施例提供的多尺度信息融合层的结构示意图;
22.图4是本技术实施例提供的一种基于对抗网络的声音样本生成装置的结构框图;
23.图5是本技术实施例提供的一种设备的结构框图。
具体实施方式
24.为了使本技术所要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
25.本技术实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
26.人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
27.本技术实施例所提供一种基于对抗网络的声音样本生成方法,应用于计算机设备上。在实现时,基于对抗网络的声音样本生成方法以目标脚本的形式被配置于计算机设备上,该计算机设备通过执行该目标脚本,进而执行本实施例提供的基于对抗网络的声音样本生成方法的各个步骤。
28.参照图1所示,图1示出了本技术实施例提供的一种基于对抗网络的声音样本生成的方法,包括:
29.s11:利用对抗网络模型中的生成器,对人声语音样本对应的梅尔频谱进行多尺度特征融合操作,得到用于表征合成语音样本的新的梅尔频谱。
30.在步骤s11中,生成式对抗网络模型是一种深度学习模型,通常包括生成器和辨别器。在本实施例中的对抗网络模型应用多尺度的生成器和辨别器,使得对抗网络模型在不同尺寸、多分辨率的声音样本上都稳定收敛。生成器用于产生合成语音样本以逼近人声语音样本。生成器的目标就是最小化人声语音样本和合成语音样本直接的差距。辨别器用于辨别生成器产生的合成语音样本是否为人声语音样本。要对人声语音样本对应的梅尔频谱进行多尺度特征融合操作首先要得到人声语音样本对应的梅尔谱。因为梅尔频谱更能准确地描述人声特征,更符合人耳的听觉特性所以利用生成器对人声语音样本进行处理提取到人声语音样本对应的梅尔频谱。通常提取语音特征参数得到梅尔频谱,会对语音进行分帧和加窗,对每帧信号进行短时傅立叶变换,得到短时幅度谱,由得到的短时幅度谱通过梅尔谱滤波器组得到梅尔频谱。
31.在一实施例中,多尺度特征融合操作中的多尺度是对信号的不同粒度的采样,在不同的尺度下我们可以观察到不同的特征从而完成不同的任务,多尺度特征融合操作是尽可能提取所有网络层的特征提高利用效率。多尺度特征融合是低层和高层的特征融合,多尺度特征融合操作通常包括多尺度输入,通过多分支通道中的多个尺度卷积核提取不同的信息结果融合,最后进行多尺度特征融合。利用生成器中的多尺度信息融合层对人声语音样本的对应的梅尔频谱进行多尺度特征融合以得到合成语音样本的新的梅尔频谱。生成器中的多尺度信息融合层中有多个通道中的多个卷积层的卷积核是多尺度的,用于提取多尺度信息进行多尺度信息融合。
32.在一实施例中,步骤s11包括:
33.利用短时傅里叶变换对所述人声语音样本的幅度谱进行处理,得到处理后的幅度谱;
34.利用梅尔谱滤波器组计算所述处理后的幅度谱得到所述梅尔频谱;
35.利用所述生成器基于所述梅尔频谱进行多尺度特征采集操作与特征融合操作,得到所述新的梅尔频谱。
36.在上述步骤中,通常要对人声语音样本进行处理就要对人声语音样本的幅度谱进行处理。短时傅里叶变换是最常用的一种时频分析方法,是对短时的信号做傅里叶变换即对幅度谱的每一帧信号进行傅里叶变换,要对幅度谱的每一帧信号进行傅里叶变换首先要对幅度谱分帧加窗后再进行傅里叶变换。为了得到符合听觉特征的梅尔频谱还需要使用梅尔谱滤波器组转换处理后的幅度谱并计算得到梅尔频谱。具体地,在处理后的幅度谱上设置若干带通滤波器,若干带通滤波器都是等带宽的。
37.在本实施例中,梅尔频谱作为生成器的输入,生成器对梅尔频谱进行多尺度特征
采集操作与特征融合操作以得到所述新的梅尔频谱,需要利用生成器的卷积层对梅尔频谱进行采样,转置卷积层对梅尔频谱进行上采样,多尺度信息融合层对梅尔频谱进行多尺度特征融合。作为一个示例,图2为本技术实施例提供的生成器的结构示意图。在图2中,生成器的结构包括卷积层、转置卷积层和多尺度信息融合层。卷积层包括卷积层1和卷积层2,转置卷积层包括转置卷积层1,转置卷积层2和转置卷积层3,多尺度信息融合层包括信息融合层1,信息融合层2和信息融合层3。每一转置卷积层下接一个多尺度信息融合层。转置卷积层是反卷积,是卷积的逆向,用来进行上采样。设置多尺度信息融合层是用于提取不同尺度的信息,不同尺度的信息上的特征不同,达到多尺度信息融合的目的。生成器的卷积层和转置卷积层对梅尔频谱进行多尺度特征采集,生成器中的多尺度信息融合层对梅尔频谱进行特征融合。除了卷积层、转置卷积层和多尺度信息融合层,同时还利用irelu激活函数和最后一层即输出层利用tanh激活函数。利用irelu激活函数和tanh激活函数是为了引入非线性特性,从输入输出之间生成非线性映射。
38.在一实施例中,上述步骤:利用短时傅里叶变换对所述人声语音样本的幅度谱进行处理,得到处理后的幅度谱,包括:
39.对所述人声语音样本的幅度谱进行使用分帧与加窗处理,得到待变换幅度谱;
40.对所述待变换幅度谱进行短时傅里叶变换,得到处理后的幅度谱。
41.具体地,对人声语音样本的幅度谱进行分帧处理,在时序上,每间隔一定的时间截取一部分幅度谱为一帧,而间隔的时间则为分帧的步长。进行分帧有助于进一步细分幅度谱的声音特性。帧移是在帧与帧之间保留重叠部分数据,以满足分帧后幅度谱连续的要求。对人声语音样本的幅度谱进行分帧处理可以使用50ms帧长,12.5ms帧移。再使用汉宁窗函数对频率谱进行加窗处理,加窗的目的是为了使幅度谱全局更加连续,避免出现吉布斯效应。为了减少幅度谱泄漏,通常在分帧后加窗。分帧和加窗之后得到待变换幅度谱后再进行短时傅里叶变换,得到处理后的幅度谱还需要梅尔谱滤波器组进行处理才能得到有用的声音特征。
42.在一实施例中,上述步骤,利用所述生成器基于所述梅尔频谱进行多尺度特征采集操作与特征融合操作,得到所述新的梅尔频谱,包括:
43.利用所述生成器中的转置卷积层对所述梅尔频谱进行上采样;
44.利用所述生成器中的多尺度信息融合层对所述梅尔频谱进行多尺度提取和特征融合,得到新的梅尔频谱。
45.在实施例中,生成器中的的卷积层提取梅尔频谱的不同的特征,再通过转置卷积层对梅尔频谱进行上采样,多尺度信息融合层用于提取梅尔频谱不同尺度的信息进行融合。卷积层中的一个卷积操作是一个多对一的映射关系,而转置卷积层的卷积操作是一个一对多的映射关系即上采样。转置卷积是梅尔频谱输入进卷积层操作后尺寸会变小,通过转置卷积可以恢复成卷积之前的尺寸。然后利用生成器中的多尺度信息融合层对经过采样后的梅尔频谱进行多尺度提取和特征融合以得到新的梅尔频谱。融合不同尺度的特征能提高分割性能,因为高层网络的感受野比较大,但是特征图的分辨率低,几何信息的表征能力弱而低层网络的感受野比较小,但是语义信息表征能力弱。因此特征融合对于检测和分割都很有效果。多尺度信息融合层对采样后的梅尔频谱进行多尺度的特征提取得到不同的信息之后再对信息进行融合得到新的梅尔频谱。
46.作为一个示例,图3为本技术实施例提供的多尺度信息融合层的结构示意图。如图3所示,多尺度信息融合层内有至少3个以上的resstack组成,包括resstack1、resstack2和resstack3。每个resstack内的结构相同,但是卷积核尺寸不同,不同尺寸是为了提取不同尺度的信息进行融合。当使用比较小的卷积核的时候可能无法表示其特征,采用较大的卷积核复杂度较高,选择多个相对小的卷积核来进行卷积较为合适。因此,resstack1的卷积核尺寸可以为1*1,resstack2的卷积核尺寸可以为3*1,resstack3的卷积核尺寸可以为5*1。
47.s12:利用多分辨率梅尔谱损失函数,计算所述梅尔频谱的多尺度特征与所述新的梅尔频谱的多尺度特征之间的损失值,并根据所述损失值得到目标损失值。
48.在步骤s12中,使用对抗网络模型中辨别器来计算梅尔频谱多尺度特征与所述新的梅尔频谱多尺度特征之间的损失值用来表示梅尔频谱相应的人声语音样本和新的梅尔频谱对应的合成语音样本之间的差异性。损失函数是将随机事件或其有关随机变量的取值映射为非负实数以表示该随机事件的“风险”或“损失”的函数。在实际应用中,损失函数通常通过最小化损失函数求解和评估模型。在本实施例中,利用多分辨率梅尔频谱损失函数用于计算梅尔频谱多尺度特征与所述新的梅尔频谱多尺度特征之间的结果。利用多分辨率梅尔谱损失函数会得到梅尔频谱多尺度特征与所述新的梅尔频谱多尺度特征之间的目标损失值。由得到的目标损失值去优化辨别器,优化后的辨别器又会去优化生成器,生成器和辨别器不断互相优化对抗训练。
49.在本实施例中,对抗网络模型包括生成器与辨别器,其中,生成器用于基于原始的数据样本生成一个伪造样本,且该伪造样本与原始的数据样本之间满足预设的相似度,辨别器用于基于原始的数据样本对伪造样本进行真伪判定,这里,对抗网络模型中的辨别器是用来对梅尔频谱和新的梅尔频谱进行下采样,得到梅尔频谱的多尺度特征和新的梅尔频谱的多尺度特征,还利用多分辨率梅尔谱损失函数去计算梅尔频谱的多尺度特征和新的梅尔频谱的多尺度特征之间的损失值。辨别器的作用也是对生成器生成的新的梅尔频谱进行辨别,辨别梅尔频谱和新的梅尔频谱,进而辨别梅尔频谱对应的人声语音样本和新的梅尔频谱对应的语音样本。
50.在一实施例中,步骤s12包括:
51.根据所述对抗网络中的辨别器对所述梅尔频谱和所述新的梅尔频谱进行多尺度的下采样,得到所述梅尔频谱多尺度特征与所述新的梅尔频谱多尺度特征;其中,所述辨别器的结构包括n个所述辨别器,其中,n为大于或等于3的整数;
52.利用多分辨率梅尔谱损失函数,计算所述梅尔频谱多尺度特征与所述新的梅尔频谱多尺度特征之间的损失值;
53.从所述损失值中得到目标损失值。
54.在上述步骤中,辨别器的结构内有至少3个辨别器,每个辨别器作用在不同尺度上。例如,辨别器可以由3个辨别器组成,3个辨别器的网络结构一致,但分别作用于不同尺度上。第一个辨别器直接作用于梅尔频谱尺度上,而第二个辨别器和第三个辨别器分别作用于梅尔频谱下采样2倍和4倍的尺度上。鉴别器可以由7层卷积层构成,除了最后一层卷积层,每一层后接irelu激活函数。辨别器对梅尔频谱和新的梅尔频谱进行下采样,下采样可以利用卷积核为4*1的均匀池化层完成。作用在不同尺度上的辨别器可得到梅尔频谱不同
频率的特征。利用多分辨率梅尔谱损失函数可以测量梅尔频谱多尺度特征与新的梅尔频谱多尺度特征直接的差异性。从损失值中得到目标损失值是利用辨别器,计算梅尔频谱多尺度特征与新的梅尔频谱多尺度特征之间得到的损失值,目标损失值一般越小越好。目标损失值越小,表明梅尔频谱所对应的人声语音样本和新的梅尔频谱对应的合成语音样本之间的差异越小。
55.具体地,利用3个公式来计算梅尔频谱多尺度特征与新的梅尔频谱多尺度特征之间的损失值。利用lmel(g)=||f(x)
‑
f(s)||1梅尔频谱损失函数公式来计算梅尔频谱和新的梅尔频谱之间的差异值。其中,f(x)为所述梅尔频谱;f(s)为所述新的梅尔频谱;f(x)
‑
f(s)为所述梅尔频谱与所述新的梅尔频谱之间的差值;||f(x)
‑
f(s)||1表示所述梅尔频谱与所述新的梅尔频谱之间的的l1范式,l1范式是指向量中各个元素绝对值之和。再由得到的差异值,通过多分辨率梅尔谱损失函数公式计算损失值,计算损失值就是计算不同分辨率的梅尔谱损失函数的平均值。多分辨率梅尔频谱损失函数为:lmr_mel(g)=(lmel_1(g)+
……
+lmel_n(g))/n;其中,lmel_1(g)为所述梅尔频谱和所述新的梅尔频谱的差异值;lmel_n(g)为第n个多尺度的所述梅尔频谱和所述新的梅尔频谱之间的差异值;(lmel_1(g)+
……
+lmel_n(g))为n个多尺度所述梅尔频谱和所述新的梅尔频谱之间的差异值之和;n为大于或等于3的整数;最后根据多分辨率梅尔谱损失函数计算得到的损失值计算最终损失值:
56.l=a(((g(m1))
‑
1)2+
……
+((g(mn))
‑
1)2)+lmr_mel(g),其中,g(m1)为所述梅尔频谱和所述新的梅尔频谱之间的差异值;g(mn)为第n个多尺度所述梅尔频谱和所述新的梅尔频谱之间的差异值;n为大于或等于3的整数;a为预设调整参数,a大于0。
57.s13:基于所述目标损失值对所述对抗网络模型进行训练,得到训练后的对抗网络模型。
58.在步骤s13中,基于目标损失值对对抗网络模型进行训练是基于目标损失值对对抗网络模型中的辨别器和生成器进行不断地交互对抗、训练直至达到平衡。基于目标损失值,训练对抗网络模型中的生成器和辨别器。训练生成器,生成器生成合成语音样本,生成的合成语音样本要无限接近人声语音样本,合成语音样本更贴近人声语音样本,真实性较高。训练辨别器直至辨别器无法分辨生成器生成的合成语音样本是否为人声语音样本。在这个过程中,根据目标损失值不断更新生成器和辨别器的参数来训练生成器和辨别器直至目标损失值不再波动,得到训练后的对抗网络模型,训练后的对抗网络中的生成器和辨别器两者之间达到一种均衡的状态。生成器输出的结果用损失函数难以定义,所以使用辨别器去指导生成器d的生成。而辨别器一开始能简单地分辨出生成器的人声语音和合成语音,经过训练辨别器难以辨别生成器生成的合成语音是不是真实的人声语音,这个过程生成器和辨别器互相博弈对抗学习产生好的输出,提高了对抗网络模型收敛速度。
59.在一实施例中,步骤s13包括:
60.基于所述目标损失值确定所述辨别器参数;
61.利用所述辨别器参数训练所述生成器,以确定所述生成器参数;
62.利用所述生成器参数训练所述辨别器,直到所述目标损失值不再波动,得到所述训练后的对抗网络模型。
63.在一实施例中,根据计算得到的目标损失值,判别器d得到判断结果,辨别器指导
生成器的训练,辨别器辨别生成器生成的结果。然后生成器和辨别器不断调整自身的网络参数,使得生成器和辨别器之间不断交互对抗、训练,直至达到平衡。训练辨别器是根据多分辨率梅尔谱损失函数计算梅尔频谱和新的梅尔频谱的之间得到的损失值来更新辨别器的参数,此时的辨别器能简单地辨别出人声语音样本和合成语音样本所以需要更新辨别器的参数来优化辨别器。而训练生成器时需要将辨别器和生成器相连,此时固定辨别器只优化生成器的参数。辨别器要以最大可能辨别出合成语音样本,生成器生成的合成语音样本与人声语音样本的差距尽可能的小。在训练过程中同时增强辨别器的辨别能力与提高生成器的生成更接近人声语音样本的能力。
64.s14:利用所述训练后的对抗网络模型对输入的人声语音进行样本模拟,得到声音样本。
65.在步骤s14中,声音样本是利用训练后的对抗网络模型模拟人声语音样本得到的,训练有多尺度信息融合层的生成器,训练辨别器进行多尺度下采样并使用多分辨率梅尔谱损失函数得到训练后的对抗网络模型。利用训练后的对抗网络模型,得到的声音样本和人声语音样本之间差异性较小,声音样本和人声语音样本的相识度更高,生成的声音样本更真实。
66.相应于上面的方法实施例,本发明实施例还提供了一种基于对抗网络的声音样本生成装置40,如图4所示,该装置可以包括以下模块:
67.提取模块41,用于利用对抗网络模型中的生成器,对人声语音样本对应的梅尔频谱进行多尺度特征融合操作,得到用于表征合成语音样本的新的梅尔频谱;
68.优化模块42,用于利用多分辨率梅尔谱损失函数,计算所述梅尔频谱的多尺度特征与所述新的梅尔频谱的多尺度特征之间的损失值,并根据所述损失值得到目标损失值;
69.训练模块43,用于基于所述目标损失值对所述对抗网络模型进行训练,得到训练后的对抗网络模型;
70.模拟模块44,用于利用所述训练后的对抗网络模型对输入的人声语音进行样本模拟,得到声音样本。
71.应当理解的是,图4示出的基于对抗网络的声音样本生成装置的结构框图中,各模块用于执行图1对应的实施例中的各步骤,而对于图1对应的实施例中的各步骤已在上述实施例中进行详细解释,具体请参阅图1以及图1所对应的实施例中的相关描述,此处不再赘述。
72.图5是本技术另一实施例提供的一种设备的结构框图。如图5所示,该实施例的设备50包括:处理器51、存储器52以及存储在所述存储器52中并可在所述处理器51上运行的计算机程序53,例如基于对抗网络的声音样本生成方法的程序。处理器51执行所述计算机程序53时实现上述各个基于对抗网络的声音样本生成方法各实施例中的步骤,例如图1所示的s11至s14。或者,所述处理器51执行所述计算机程序53时实现上述图4对应的实施例中各模块的功能,例如,图4所示的模块41至44的功能,具体请参阅图4对应的实施例中的相关描述,此处不赘述。
73.示例性的,所述计算机程序53可以被分割成一个或多个模块,所述一个或者多个模块被存储在所述存储器52中,并由所述处理器51执行,以完成本技术。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程
序53在所述设备50中的执行过程。例如,所述计算机程序53可以被分割成提取模块、优化模块、训练模块和模拟模块,各模块具体功能如上所述。
74.所述转台设备可包括,但不仅限于,处理器51、存储器52。本领域技术人员可以理解,图5仅仅是设备50的示例,并不构成对设备50的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述转台设备还可以包括输入输出设备、网络接入设备、总线等。
75.所称处理器51可以是中央处理单元(central processing unit,cpu),还可以是其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现成可编程门阵列(field
‑
12programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
76.所述存储器52可以是所述设备50的内部存储单元,例如设备50的硬盘或内存。所述存储器52也可以是所述设备50的外部存储设备,例如所述设备50上配备的插接式硬盘,智能存储卡(smart media card,smc),安全数字(secure digital,sd)卡,闪存卡(flash card)等。进一步地,所述存储器52还可以既包括所述设备50的内部存储单元也包括外部存储设备。所述存储器52用于存储所述计算机程序以及所述转台设备所需的其他程序和数据。所述存储器52还可以用于暂时地存储已经输出或者将要输出的数据。
77.在一个实施例中,提供了一种介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中基于对抗网络的声音样本生成方法。
78.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
79.以上所述实施例仅用以说明本技术的技术方案,而非对其限制;尽管参照前述实施例对本技术进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围,均应包含在本技术的保护范围之内。