首页 > 乐器声学 专利正文
语音判别方法、装置、电子设备及存储介质与流程

时间:2022-02-20 阅读: 作者:专利查询

语音判别方法、装置、电子设备及存储介质与流程

1.本公开涉及语音识别领域,尤其涉及一种语音判别方法、装置、电子设备及存储介质。


背景技术:

2.随着深度学习技术的发展,利用语音合成和语音转换技术得到的生成语音与真人发出的真实语音的相似度大幅提高,甚至以假乱真,在医疗、娱乐等领域有着广泛的应用,但是也给不法分子提供了利用生成语音进行网络诈骗的技术条件,对人民安全、社会稳定造成了极大的威胁,因此,对生成语音的鉴别技术成为了当今社会的迫切需求。现有技术往往使用声学特征鉴别生成语音和真实语音,但是仅使用声学特征,并不能很好地鉴别生成语音和真实语音。
3.在实现本公开构思的过程中,发明人发现相关技术中至少存在如下技术问题:鉴别生成语音和真实语音的准确率低,以及鉴别生成语音和真实语音的方法不具有普适性的问题。


技术实现要素:

4.为了解决上述技术问题或者至少部分地解决上述技术问题,本公开的实施例提供了一种语音判别方法、装置、电子设备及存储介质,以至少解决现有技术中,鉴别生成语音和真实语音的准确率低,以及鉴别生成语音和真实语音的方法不具有普适性的问题。
5.本公开的目的是通过以下技术方案实现的:第一方面,本公开的实施例提供了一种语音的判别方法,包括:获取待判别语音;提取所述待判别语音的声学特征和语言风格特征;对所述声学特征和所述语言风格特征进行语音拼接处理,得到融合特征;将所述融合特征输入语音判别器,以判别所述待判别语音是真实语音或是生成语音。
6.在一个示例性实施例中,提取所述待判别语音的语言风格特征,包括:通过语音识别技术将所述待判别语音转换为待判别文本;将所述待判别文本输入语言风格特征提取模型,通过所述语言风格特征提取模型中的特征提取网络输出语言风格特征,其中,所述语言风格特征提取模型已通过训练,使得所述特征提取网络学习并保存有所述待判别文本和所述语言风格特征的对应关系。
7.在一个示例性实施例中,所述将所述待判别文本输入语言风格特征提取模型之前,所述方法还包括:获取第一训练语音数据集,其中,所述第一训练语音数据集包括多条真实语音,每条真实语音包括:语音内容信息和发音对象信息;通过所述语音识别技术将所述第一训练语音数据集中的所述每条真实语音转换为文本信息,得到训练文本数据集;使用所述训练文本数据集训练所述语言风格特征提取模型,其中,所述语言风格特征提取模型,包括:特征提取网络和分类网络;其中,所述特征提取网络用于提取所述第一训练语音数据集中的所述每条真实语音对应的语言风格特征,所述每条真实语音对应的所述语言风
格特征是从所述每条真实语音中的所述语音内容信息中提取到的;所述分类网络用于根据所述每条真实语音对应的所述语言风格特征,确定所述每条真实语音的所述发音对象信息。
8.在一个示例性实施例中,所述将所述融合特征输入语音判别器,以判别所述待判别语音是真实语音或生成语音,包括:将所述融合特征输入语音判别器,得到所述待判别语音对应的生成概率;在所述生成概率大于等于预设阈值的情况下,将所述待判别语音确定为所述生成语音;在所述生成概率小于所述预设阈值的情况下,将所述待判别语音确定为所述真实语音。
9.在一个示例性实施例中,所述将所述融合特征输入语音判别器之前,所述方法还包括:获取第二训练语音数据集,其中,所述第二训练语音数据集,包括:多条真实语音与多条生成语音;提取所述第二训练语音数据集中每条语音的声学特征和语言风格特征;对所述第二训练语音数据集中所述每条语音的所述声学特征和所述语言风格特征进行所述语音拼接处理,得到训练特征数据集,其中,所述训练特征数据集包括所述每条语音的融合特征;使用所述训练特征数据集对所述语音判别器进行自监督学习训练,使得所述语音判别器学习并保存有所述融合特征和所述生成语音的关系。
10.在一个示例性实施例中,所述语音判别器,包括:多个残差块网络、门控循环网络、全连接层和输出层。
11.在一个示例性实施例中,提取所述待判别语音的声学特征,包括:对所述待判别语音进行预处理操作,其中,所述预处理操作,包括:预加重操作、分帧操作和加窗操作;对经过所述预处理操作之后的待判别语音进行快速傅里叶变换,得到傅里叶变换频谱;将所述傅里叶变换频谱输入滤波器组,得到所述待判别语音的声学特征,其中,所述滤波器组,包括多个滤波器。
12.第二方面,本公开的实施例提供了一种语音的判别装置,包括:获取模块,用于获取待判别语音;提取模块,用于提取所述待判别语音的声学特征和语言风格特征;拼接模块,用于对所述声学特征和所述语言风格特征进行语音拼接处理,得到融合特征;判别模块,用于将所述融合特征输入语音判别器,以判别所述待判别语音是真实语音或是生成语音。
13.第三方面,本公开的实施例提供了一种电子设备。上述电子设备包括处理器、通信接口、存储器和通信总线,其中,处理器、通信接口和存储器通过通信总线完成相互间的通信;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序时,实现如上所述的语音的判别方法或图像处理的方法。
14.第四方面,本公开的实施例提供了一种计算机可读存储介质。上述计算机可读存储介质上存储有计算机程序,上述计算机程序被处理器执行时实现如上所述的语音的判别方法或图像处理的方法。
15.本公开实施例提供的上述技术方案与现有技术相比至少具有如下优点的部分或全部:获取待判别语音;提取所述待判别语音的声学特征和语言风格特征;对所述声学特征和所述语言风格特征进行语音拼接处理,得到融合特征;将所述融合特征输入语音判别器,以判别所述待判别语音是真实语音或是生成语音。因为,本公开实施例拼接所述待判别语音的所述声学特征和所述语言风格特征,将所述融合特征输入语音判别器,以判别所述待
判别语音是真实语音或生成语音,因此,采用上述技术手段,可以解决现有技术中,鉴别生成语音和真实语音的准确率低,以及鉴别生成语音和真实语音的方法不具有普适性的问题,进而提供一种具有普适性鉴别生成语音和真实语音的方法,提高鉴别生成语音和真实语音的准确率。
附图说明
16.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
17.为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
18.图1示意性示出了本公开实施例一种语音的判别方法的计算机终端的硬件结构框图;图2示意性示出了本公开实施例的一种语音的判别方法的流程图;图3示意性示出了本公开实施例的一种语言风格特征提取模型的训练的流程图;图4示意性示出了本公开实施例的一种语音判别器的训练的流程图;图5示意性示出了本公开实施例的一种语音的判别装置的结构框图;图6示意性示出了本公开实施例提供的一种电子设备的结构框图。
具体实施方式
19.下文中将参考附图并结合实施例来详细说明本公开。需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。
20.需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
21.本公开实施例所提供的方法实施例可以在计算机终端或者类似的运算装置中执行。以运行在计算机终端上为例,图1示意性示出了本公开实施例的一种语音的判别方法的计算机终端的硬件结构框图。如图1所示,计算机终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器(microprocessor unit,简称是mpu)或可编程逻辑器件(programmable logic device,简称是pld)等处理装置和用于存储数据的存储器104,可选地,上述计算机终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述计算机终端的结构造成限定。例如,计算机终端还可包括比图1中所示更多或者更少的组件,或者具有与图1所示等同功能或比图1所示功能更多的不同的配置。
22.存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本公开实施例中的语音的判别方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端。上述网络的实例包括但
不限于互联网、企业内部网、局域网、移动通信网及其组合。
23.传输设备106用于经由网络接收或者发送数据。上述的网络具体实例可包括计算机终端的通信供应商提供的无线网络。在一个实例中,传输设备106包括一个网络适配器(network interface controller,简称为nic),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备106可以为射频(radio frequency,简称为rf)模块,其用于通过无线方式与互联网进行通讯。
24.在本公开实施例中提供了一种语音的判别方法,图2示意性示出了本公开实施例的一种语音的判别方法的流程图,如图2所示,该流程包括如下步骤:步骤s202,获取待判别语音;步骤s204,提取所述待判别语音的声学特征和语言风格特征;步骤s206,对所述声学特征和所述语言风格特征进行语音拼接处理,得到融合特征;步骤s208,将所述融合特征输入语音判别器,以判别所述待判别语音是真实语音或是生成语音。
25.通过本公开,获取待判别语音;提取所述待判别语音的声学特征和语言风格特征;对所述声学特征和所述语言风格特征进行语音拼接处理,得到融合特征;将所述融合特征输入语音判别器,以判别所述待判别语音是真实语音或是生成语音。因为,本公开实施例拼接所述待判别语音的所述声学特征和所述语言风格特征,将所述融合特征输入语音判别器,以判别所述待判别语音是真实语音或生成语音,因此,采用上述技术手段,可以解决现有技术中,鉴别生成语音和真实语音的准确率低,以及鉴别生成语音和真实语音的方法不具有普适性的问题,进而提供一种具有普适性鉴别生成语音和真实语音的方法,提高鉴别生成语音和真实语音的准确率。
26.需要说明的是,因为语音合成技术的发展,攻击者会提出不同的算法生成语音,因此仅仅利用声学特征构建出一个具有普适性的检测系统是极其困难的。而语言风格特征是对被攻击人的风格进行提取,很容易采集到被攻击者的信息,因而,根据拼接所述声学特征和所述语言风格特征之后的融合特征,更容易构建出一个具有普适性的检测真实语音和生成语音的模型。
27.将所述融合特征输入语音判别器,以判别所述待判别语音是真实语音或是生成语音,也就是将所述融合特征输入语音判别器,以判别所述待判别语音是真实语音或生成语音,其中,所述判别结果,包括:所述待判别语音是真实语音,所述待判别语音是生成语音。
28.在本公开实施例中,生成语音是通过语音合成技术或者语音转换技术得到的语音,真实语音是真人发出的语音。一条待判别语音不是真实语音,就是生成语音。
29.在步骤s204中,提取所述待判别语音的语言风格特征,包括:通过语音识别技术将所述待判别语音转换为待判别文本;将所述待判别文本输入语言风格特征提取模型,通过所述语言风格特征提取模型中的特征提取网络输出语言风格特征,其中,所述语言风格特征提取模型已通过训练,使得所述特征提取网络学习并保存有所述待判别文本和所述语言风格特征的对应关系。
30.语音的产生过程大致分为三个层次:最高层次是概念化,这个过程是确立说话的意图和想表达的概念;中间过程是言语组织,即把要表达的概念转换为语言形式;最后一个
过程是发声,即把语音编码转换为发声的肌肉运动程序。目前声音的语音检测系统主要是挖掘发声过程中真实语音和生成语音的声学差异及韵律差异来鉴别真假的。声学差异及韵律差异都是发声的肌肉运动方面的差异,本公开实施例旨在从言语组织中寻找差异性,也就是语言风格特征。言语组织包括词汇生成和语法编码两个部分,语法编码是指句子的选择和排序,即根据词汇的意义和语法性质选择恰当的词汇,并产生一句话的句法框架。言语组织的方式隐含着说话者个人独特的独立于表达内容的表达方式,其表现为可衡量的语音风格特征,即遣词造句的习惯,比如惯用词汇、语法、修辞、篇章结构等,且这种习惯常常是潜意识的。根据语言风格的独特性,可以从语言内容中提取语言风格特征作为特征向量,联合声学特征,可以达到对生成语言和真实语音的精准检测。
31.可选地,提取所述待判别语音的语言风格特征,包括:通过语音识别技术将所述待判别语音转换为待判别文本;通过特征提取网络提取所述待判别文本的语言风格特征,其中,所述特征提取网络已通过训练,学习并保存有所述待判别文本和所述语言风格特征的对应关系。
32.也就是说,直接训练所述语言风格特征提取模型中的特征提取网络,直接使用所述语言风格特征提取模型中的特征提取网络提取所述待判别语音的语言风格特征。
33.将所述待判别文本输入语言风格特征提取模型之前,所述方法还包括:获取第一训练语音数据集,其中,所述第一训练语音数据集包括多条真实语音,每条真实语音包括:语音内容信息和发音对象信息;通过所述语音识别技术将所述第一训练语音数据集中的所述每条真实语音转换为文本信息,得到训练文本数据集;使用所述训练文本数据集训练所述语言风格特征提取模型,其中,所述语言风格特征提取模型,包括:特征提取网络和分类网络;其中,所述特征提取网络用于提取所述第一训练语音数据集中的所述每条真实语音对应的语言风格特征,所述每条真实语音对应的所述语言风格特征是从所述每条真实语音中的所述语音内容信息中提取到的;所述分类网络用于根据所述每条真实语音对应的所述语言风格特征,确定所述每条真实语音的所述发音对象信息。
34.因为,只使用真实语音训练语言风格特征提取模型,就可以使得语言风格特征提取模型学习并保存有语音和所述语言风格特征的对应关系,语音包括真实语音与生成语音。也就是说,通过真实语音训练后的语言风格特征提取模型,可以提取生成语音的语言风格特征,也可以提取真实语音的语言风格特征。这是因为每条真实语音包括:语音内容信息和发音对象信息,而每条真实语音中的语音内容信息和发音对象信息因为存在对应的关系,每条真实语音中的语音内容信息和发音对象信息可以很好地促进语言风格特征提取模型提取语言风格特征的能力,因此本公开实施例仅适用含有多条真实语音第一训练语音数据集训练语言风格特征提取模型。当然,使用含有多条真实语音和多条生成语音的第二训练语音数据集训练语言风格特征提取模型,也是可行地。
35.本公开实施例中,实际上只用到了所述语言风格特征提取模型中的特征提取网络,之所以训练整个所述语言风格特征提取模型,是因为所述分类网络根据所述每条真实语音对应的所述语言风格特征,确定所述每条真实语音的所述发音对象信息,进而根据每条真实语音中的语音内容信息和发音对象信息存在的对应的关系促进语言风格特征提取模型提取语言风格特征的能力。
36.因为本公开实施例提取的是文本中的潜在的语言风格特征,所以语言风格特征提
取模型可以选择浅层的神经网络系统,如textcnn、textrnn等。
37.在步骤s208中,将所述融合特征输入语音判别器,以判别所述待判别语音是真实语音或生成语音,包括:将所述融合特征输入语音判别器,得到所述待判别语音对应的生成概率;在所述生成概率大于等于预设阈值的情况下,将所述待判别语音确定为所述生成语音;在所述生成概率小于所述预设阈值的情况下,将所述待判别语音确定为所述真实语音。
38.语音判别器的输出层之前的网络,整体上的作用是计算所述待判别语音对应的生成概率,语音判别器的输出层得到所述待判别语音对应的生成概率后,根据所述生成概率,判断所述待判别语音是不是所述生成语音。预设阈值可以在使用所述训练特征数据集对所述语音判别器进行自监督学习训练的过程中,确定,也可以是使用者根据实际情况自行设置。
39.在步骤s208中,将所述融合特征输入语音判别器,以判别所述待判别语音是真实语音或生成语音,包括:将所述融合特征输入语音判别器,得到所述待判别语音对应的真实概率;在所述真实概率大于等于第一预设阈值的情况下,将所述待判别语音确定为所述真实语音;在所述真实概率小于所述第一预设阈值的情况下,将所述待判别语音确定为所述生成语音。
40.第一预设阈值可以在使用所述训练特征数据集对所述语音判别器进行自监督学习训练的过程中,确定,也可以是使用者根据实际情况自行设置。
41.将所述融合特征输入语音判别器之前,所述方法还包括:获取第二训练语音数据集,其中,所述第二训练语音数据集,包括:多条真实语音与多条生成语音;提取所述第二训练语音数据集中每条语音的声学特征和语言风格特征;对所述第二训练语音数据集中所述每条语音的所述声学特征和所述语言风格特征进行所述语音拼接处理,得到训练特征数据集,其中,所述训练特征数据集包括所述每条语音的融合特征;使用所述训练特征数据集对所述语音判别器进行自监督学习训练,使得所述语音判别器学习并保存有所述融合特征和所述生成语音的关系。
42.语音判别器是根据二分类的方法判断所述待判别语音是真实语音,还是所述待判别语音是生成语音的,所以训练语音判别器,使用的是包括多条真实语音与多条生成语音的第二训练语音数据集。需要说明的是,所述第二训练语音数据集中的多条真实语音和所述第一训练语音数据集中的多条真实语音,可以是重复的。
43.在本公开实施例中,可以使用训练好的语言风格特征提取模型提取所述第二训练语音数据集中每条语音语言风格特征。对所述第二训练语音数据集中所述每条语音的所述声学特征和所述语言风格特征进行所述语音拼接处理,就会得到所述每条语音的融合特征,进而就会得到训练特征数据集。
44.使用所述训练特征数据集对所述语音判别器进行自监督学习训练,使得所述语音判别器学习并保存有所述融合特征和所述生成语音的关系,其中,所述融合特征和所述生成语音的关系,就是将所述融合特征输入语音判别器,得到所述待判别语音对应的生成概率;在所述生成概率大于等于预设阈值的情况下,将所述待判别语音确定为所述生成语音;在所述生成概率小于所述预设阈值的情况下,将所述待判别语音确定为所述真实语音。
45.需要说明的是,使用所述训练特征数据集对所述语音判别器进行自监督学习训练,所述语音判别器也可以学习并保存有所述融合特征和所述真实语音的关系。因为所述
待判别语音为所述生成语音,和所述待判别语音为真实语音的概率的和是1,所以真实概率和生成概率是可以互换的,进而所述融合特征和所述真实语音的关系和所述融合特征和所述生成语音的关系也是可以互换的。
46.在一个示例性实施例中,所述语音判别器,包括:多个残差块网络、门控循环网络、全连接层和输出层。
47.可选地,所述语音判别器的网络结构依次是:六个残差块网络、一个门控循环网络gru(gate recurrent unit)、一个全连接层和一个输出层。
48.判别器可以使用传统的分类模型,如gmm,svm等,也可以使用神经网络模型进行参数优化,进一步进行特征提取和学习,例如rawnet。
49.在步骤s204中,提取所述待判别语音的声学特征,包括:对所述待判别语音进行预处理操作,其中,所述预处理操作,包括:预加重操作、分帧操作和加窗操作;对经过所述预处理操作之后的待判别语音进行快速傅里叶变换,得到傅里叶变换频谱;将所述傅里叶变换频谱输入滤波器组,得到所述待判别语音的声学特征,其中,所述滤波器组,包括多个滤波器。
50.本公开实施例中的声学特征可以是线性预测谱系数lfcc,还可以是梅尔频谱系数mfcc和常数q变换倒谱系数cqcc等声学特征,只要是现有技术存在的任意一种声学特征都可以。比如将所述傅里叶变换频谱输入梅尔滤波器组,得到所述待判别语音的mfcc,将所述傅里叶变换频谱输入线性滤波器组,得到所述待判别语音的lfcc
……
预加重操作、分帧操作和加窗操作都是现有技术,本公开实施例不再赘述。
51.为了更好的理解上述技术方案,本公开实施例还提供了一种可选实施例,用于解释说明上述技术方案。
52.图3示意性示出了本公开实施例的一种语言风格特征提取模型的训练的流程图,如图3所示:s302:获取第一训练语音数据集,其中,所述第一训练语音数据集包括多条真实语音,每条真实语音包括:语音内容信息和发音对象信息;s304:通过所述语音识别技术将所述第一训练语音数据集中的所述每条真实语音转换为文本信息,得到训练文本数据集;s306:使用所述训练文本数据集训练所述语言风格特征提取模型。
53.图4示意性示出了本公开实施例的一种语音判别器的训练的流程图,如图4所示:s402:获取第二训练语音数据集,其中,所述第二训练语音数据集,包括:多条真实语音与多条生成语音;s404:提取所述第二训练语音数据集中每条语音的声学特征;s406:通过所述语音识别技术将所述第二训练语音数据集中的所述每条真实语音转换为文本信息;s408:提取所述第二训练语音数据集中每条语音的语言风格特征;s410:对所述第二训练语音数据集中所述每条语音的所述声学特征和所述语言风格特征进行所述语音拼接处理,得到训练特征数据集,其中,所述训练特征数据集包括所述每条语音的融合特征;s412:使用所述训练特征数据集对所述语音判别器进行自监督学习训练。
54.通过本公开,获取待判别语音;提取所述待判别语音的声学特征和语言风格特征;对所述声学特征和所述语言风格特征进行语音拼接处理,得到融合特征;将所述融合特征输入语音判别器,以判别所述待判别语音是真实语音或是生成语音。因为,本公开实施例拼接所述待判别语音的所述声学特征和所述语言风格特征,将所述融合特征输入语音判别器,以判别所述待判别语音是真实语音或生成语音,因此,采用上述技术手段,可以解决现有技术中,鉴别生成语音和真实语音的准确率低,以及鉴别生成语音和真实语音的方法不具有普适性的问题,进而提供一种具有普适性鉴别生成语音和真实语音的方法,提高鉴别生成语音和真实语音的准确率。
55.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如只读存储器(read

only memory,简称为rom)、随机存取存储器(random access memory,简称为ram)、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,组件服务端,或者网络设备等)执行本公开各个实施例的方法。
56.在本实施例中还提供了一种语音的判别装置,该语音的判别装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
57.图5示意性示出了本公开可选实施例的一种语音的判别装置的结构框图,如图5所示,该装置包括:获取模块502,用于获取待判别语音;提取模块504,用于提取所述待判别语音的声学特征和语言风格特征;拼接模块506,用于对所述声学特征和所述语言风格特征进行语音拼接处理,得到融合特征;判别模块508,用于将所述融合特征输入语音判别器,以判别所述待判别语音是真实语音或是生成语音。
58.通过本公开,获取待判别语音;提取所述待判别语音的声学特征和语言风格特征;对所述声学特征和所述语言风格特征进行语音拼接处理,得到融合特征;将所述融合特征输入语音判别器,以判别所述待判别语音是真实语音或是生成语音。因为,本公开实施例拼接所述待判别语音的所述声学特征和所述语言风格特征,将所述融合特征输入语音判别器,以判别所述待判别语音是真实语音或生成语音,因此,采用上述技术手段,可以解决现有技术中,鉴别生成语音和真实语音的准确率低,以及鉴别生成语音和真实语音的方法不具有普适性的问题,进而提供一种具有普适性鉴别生成语音和真实语音的方法,提高鉴别生成语音和真实语音的准确率。
59.在本公开实施例中,生成语音是通过语音合成技术或者语音转换技术得到的语音,真实语音是真人发出的语音。一条待判别语音不是真实语音,就是生成语音。
60.可选地,提取模块504还用于通过语音识别技术将所述待判别语音转换为待判别文本;将所述待判别文本输入语言风格特征提取模型,通过所述语言风格特征提取模型中
的特征提取网络输出语言风格特征,其中,所述语言风格特征提取模型已通过训练,使得所述特征提取网络学习并保存有所述待判别文本和所述语言风格特征的对应关系。
61.语音的产生过程大致分为三个层次:最高层次是概念化,这个过程是确立说话的意图和想表达的概念;中间过程是言语组织,即把要表达的概念转换为语言形式;最后一个过程是发声,即把语音编码转换为发声的肌肉运动程序。目前声音的语音检测系统主要是挖掘发声过程中真实语音和生成语音的声学差异及韵律差异来鉴别真假的。声学差异及韵律差异都是发声的肌肉运动方面的差异,本公开实施例旨在从言语组织中寻找差异性,也就是语言风格特征。言语组织包括词汇生成和语法编码两个部分,语法编码是指句子的选择和排序,即根据词汇的意义和语法性质选择恰当的词汇,并产生一句话的句法框架。言语组织的方式隐含着说话者个人独特的独立于表达内容的表达方式,其表现为可衡量的语音风格特征,即遣词造句的习惯,比如惯用词汇、语法、修辞、篇章结构等,且这种习惯常常是潜意识的。根据语言风格的独特性,可以从语言内容中提取语言风格特征作为特征向量,联合声学特征,可以达到对生成语言和真实语音的精准检测。
62.可选地,提取模块504还用于通过语音识别技术将所述待判别语音转换为待判别文本;通过特征提取网络提取所述待判别文本的语言风格特征,其中,所述特征提取网络已通过训练,学习并保存有所述待判别文本和所述语言风格特征的对应关系。
63.也就是说,直接训练所述语言风格特征提取模型中的特征提取网络,直接使用所述语言风格特征提取模型中的特征提取网络提取所述待判别语音的语言风格特征。
64.可选地,判别模块508还用于获取第一训练语音数据集,其中,所述第一训练语音数据集包括多条真实语音,每条真实语音包括:语音内容信息和发音对象信息;通过所述语音识别技术将所述第一训练语音数据集中的所述每条真实语音转换为文本信息,得到训练文本数据集;使用所述训练文本数据集训练所述语言风格特征提取模型,其中,所述语言风格特征提取模型,包括:特征提取网络和分类网络;其中,所述特征提取网络用于提取所述第一训练语音数据集中的所述每条真实语音对应的语言风格特征,所述每条真实语音对应的所述语言风格特征是从所述每条真实语音中的所述语音内容信息中提取到的;所述分类网络用于根据所述每条真实语音对应的所述语言风格特征,确定所述每条真实语音的所述发音对象信息。
65.因为,只使用真实语音训练语言风格特征提取模型,就可以使得语言风格特征提取模型学习并保存有语音和所述语言风格特征的对应关系,语音包括真实语音与生成语音。也就是说,通过真实语音训练后的语言风格特征提取模型,可以提取生成语音的语言风格特征,也可以提取真实语音的语言风格特征。这是因为每条真实语音包括:语音内容信息和发音对象信息,而每条真实语音中的语音内容信息和发音对象信息因为存在对应的关系,每条真实语音中的语音内容信息和发音对象信息可以很好地促进语言风格特征提取模型提取语言风格特征的能力,因此本公开实施例仅适用含有多条真实语音第一训练语音数据集训练语言风格特征提取模型。当然,使用含有多条真实语音和多条生成语音的第二训练语音数据集训练语言风格特征提取模型,也是可行地。
66.本公开实施例中,实际上只用到了所述语言风格特征提取模型中的特征提取网络,之所以训练整个所述语言风格特征提取模型,是因为所述分类网络根据所述每条真实语音对应的所述语言风格特征,确定所述每条真实语音的所述发音对象信息,进而根据每
条真实语音中的语音内容信息和发音对象信息存在的对应的关系促进语言风格特征提取模型提取语言风格特征的能力。
67.因为本公开实施例提取的是文本中的潜在的语言风格特征,所以语言风格特征提取模型可以选择浅层的神经网络系统,如textcnn、textrnn等。
68.可选地,判别模块508还用于将所述融合特征输入语音判别器,得到所述待判别语音对应的生成概率;在所述生成概率大于等于预设阈值的情况下,将所述待判别语音确定为所述生成语音;在所述生成概率小于所述预设阈值的情况下,将所述待判别语音确定为所述真实语音。
69.语音判别器的输出层之前的网络,整体上的作用是计算所述待判别语音对应的生成概率,语音判别器的输出层得到所述待判别语音对应的生成概率后,根据所述生成概率,判断所述待判别语音是不是所述生成语音。预设阈值可以在使用所述训练特征数据集对所述语音判别器进行自监督学习训练的过程中,确定,也可以是使用者根据实际情况自行设置。
70.可选地,判别模块508还用于将所述融合特征输入语音判别器,得到所述待判别语音对应的真实概率;在所述真实概率大于等于第一预设阈值的情况下,将所述待判别语音确定为所述真实语音;在所述真实概率小于所述第一预设阈值的情况下,将所述待判别语音确定为所述生成语音。
71.第一预设阈值可以在使用所述训练特征数据集对所述语音判别器进行自监督学习训练的过程中,确定,也可以是使用者根据实际情况自行设置。
72.可选地,判别模块508还用于获取第二训练语音数据集,其中,所述第二训练语音数据集,包括:多条真实语音与多条生成语音;提取所述第二训练语音数据集中每条语音的声学特征和语言风格特征;对所述第二训练语音数据集中所述每条语音的所述声学特征和所述语言风格特征进行所述语音拼接处理,得到训练特征数据集,其中,所述训练特征数据集包括所述每条语音的融合特征;使用所述训练特征数据集对所述语音判别器进行自监督学习训练,使得所述语音判别器学习并保存有所述融合特征和所述生成语音的关系。
73.语音判别器是根据二分类的方法判断所述待判别语音是真实语音,还是所述待判别语音是生成语音的,所以训练语音判别器,使用的是包括多条真实语音与多条生成语音的第二训练语音数据集。需要说明的是,所述第二训练语音数据集中的多条真实语音和所述第一训练语音数据集中的多条真实语音,可以是重复的。
74.在本公开实施例中,可以使用训练好的语言风格特征提取模型提取所述第二训练语音数据集中每条语音语言风格特征。对所述第二训练语音数据集中所述每条语音的所述声学特征和所述语言风格特征进行所述语音拼接处理,就会得到所述每条语音的融合特征,进而就会得到训练特征数据集。
75.使用所述训练特征数据集对所述语音判别器进行自监督学习训练,使得所述语音判别器学习并保存有所述融合特征和所述生成语音的关系,其中,所述融合特征和所述生成语音的关系,就是将所述融合特征输入语音判别器,得到所述待判别语音对应的生成概率;在所述生成概率大于等于预设阈值的情况下,将所述待判别语音确定为所述生成语音;在所述生成概率小于所述预设阈值的情况下,将所述待判别语音确定为所述真实语音。
76.需要说明的是,使用所述训练特征数据集对所述语音判别器进行自监督学习训
练,所述语音判别器也可以学习并保存有所述融合特征和所述真实语音的关系。因为所述待判别语音为所述生成语音,和所述待判别语音为真实语音的概率的和是1,所以真实概率和生成概率是可以互换的,进而所述融合特征和所述真实语音的关系和所述融合特征和所述生成语音的关系也是可以互换的。
77.所述语音判别器,包括:多个残差块网络、门控循环网络、全连接层和输出层。
78.可选地,所述语音判别器的网络结构依次是:六个残差块网络、一个门控循环网络gru(gate recurrent unit)、一个全连接层和一个输出层。
79.判别器可以使用传统的分类模型,如gmm,svm等,也可以使用神经网络模型进行参数优化,进一步进行特征提取和学习,例如rawnet。
80.可选地,提取模块504还用于对所述待判别语音进行预处理操作,其中,所述预处理操作,包括:预加重操作、分帧操作和加窗操作;对经过所述预处理操作之后的待判别语音进行快速傅里叶变换,得到傅里叶变换频谱;将所述傅里叶变换频谱输入滤波器组,得到所述待判别语音的声学特征,其中,所述滤波器组,包括多个滤波器。
81.本公开实施例中的声学特征可以是线性预测谱系数lfcc,还可以是梅尔频谱系数mfcc和常数q变换倒谱系数cqcc等声学特征,只要是现有技术存在的任意一种声学特征都可以。比如将所述傅里叶变换频谱输入梅尔滤波器组,得到所述待判别语音的mfcc,将所述傅里叶变换频谱输入线性滤波器组,得到所述待判别语音的lfcc
……
预加重操作、分帧操作和加窗操作都是现有技术,本公开实施例不再赘述。
82.需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
83.本公开的实施例提供了一种电子设备。
84.图6示意性示出了本公开实施例提供的一种电子设备的结构框图。
85.参照图6所示,本公开实施例提供的电子设备600包括处理器601、通信接口602、存储器603和通信总线604,其中,处理器601、通信接口602和存储器603通过通信总线604完成相互间的通信;存储器603,用于存放计算机程序;处理器601,用于执行存储器上所存放的程序时,实现上述任一项方法实施例中的步骤。
86.可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该输入输出设备与上述处理器连接。
87.可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:s1,获取待判别语音;s2,提取所述待判别语音的声学特征和语言风格特征;s3,对所述声学特征和所述语言风格特征进行语音拼接处理,得到融合特征;s4,将所述融合特征输入语音判别器,以判别所述待判别语音是真实语音或是生成语音。
88.本公开的实施例还提供了一种计算机可读存储介质。上述计算机可读存储介质上存储有计算机程序,上述计算机程序被处理器执行时实现上述任一项方法实施例中的步骤。
89.可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计
算机程序:s1,获取待判别语音;s2,提取所述待判别语音的声学特征和语言风格特征;s3,对所述声学特征和所述语言风格特征进行语音拼接处理,得到融合特征;s4,将所述融合特征输入语音判别器,以判别所述待判别语音是真实语音或是生成语音。
90.该计算机可读存储介质可以是上述实施例中描述的设备/装置中所包含的;也可以是单独存在,而未装配入该设备/装置中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的方法。
91.根据本公开的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、便携式紧凑磁盘只读存储器(cd

rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
92.可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
93.显然,本领域的技术人员应该明白,上述的本公开的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本公开不限制于任何特定的硬件和软件结合。
94.以上所述仅为本公开的优选实施例而已,并不用于限制于本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。