1.本发明属于语音信号处理技术领域,具体涉及到一种基于多监督多特征融合的语音测谎方法。
背景技术:2.说谎在人际交往中较为常见,是有意图传递错误信息的一个重要方式。从古至今,谎言检测都一个非常重要的一个研究方向,且该研究对刑事侦查、心理学研究等领域都有着重要的作用。传统的谎言检测技术主要是根据生理参数的变化进行判别,这种方法数据采集较困难,同时会引起受试者的抵触心理,从而影响检测结果。语音是人与人沟通交流最重要的途径之一,近些年,有学者提出了基于语音的测谎技术,该方法数据采集简单,隐蔽性较好,可以有效破解现有谎言检测技术的诸多问题,因此,该研究受到了广泛关注。
3.当前,针对语音谎言检测的研究主要集中在两个部分:谎言语料库的构建和语音特征的提取。对于数据库的构建,主要可以分为三类:游戏类型的谎言语料库、访谈类型的谎言语料库、模拟犯罪类型的谎言语料库。游戏类型的谎言语料库贴近生活,但受试者压力程度较低,谎言信息不显著;访谈类型的谎言语料库主要涉及面试、采访等场景,受试者相对研究,压力度略高于游戏类型数据库;模拟犯罪类型语料库主要涉及刑侦、间谍,问询者更加专业,包含诸多询问技巧与策略,受试者压力显著高于上述语料库,谎言特征相对显著,但数据不易获取。尽管学者们对谎言数据库的有了一定的研究,但与相关研究领域相比,公开的谎言数据库极少且数据量小,这给基于语音谎言检测的研究带来了巨大的难题。在特征提取方面,主要围绕韵律特征、谱相关特征、语音质量特征等进行研究。尽管上述研究取得了诸多巨大进步,但仍未有一种特征能够有效的表征语音中的谎言信息,因此,如何获取到更丰富的谎言特征仍需进一步努力。
4.基于上述分析,本文开展针对谎言特征提取及半监督识别模型的研究,旨在降低模型对有标签谎言语料库的依赖,同时提升模型识别性能。本研究首先搭建基于cnn、lstm、ae的混合神经网络模型,利用cnn从语音的mel谱中提取到与谎言相关的谱图时频信息;利用lstm从语音谱图中逐帧提取语音谎言特征,补充卷积神经网络忽略的帧级情感特征;自编码网络实现人工设计声学谎言特征的迁移表征,可以为其他网络补充人工设计特征所包含的谎言信息;不同网络提取到的特征具有互补性,通过使用不同类型的特征,达到充分利用语音中包含的谎言信息的目的;其次,将不同网络提取到的深度特征融合,并利用ae获取无监督重构误差,利用模型预测生成伪标签,并获取伪标签预测误差,利用少量有标签数据获取有监督识别误差,根据三部分误差对模型进行反复训练以得到最佳模型。
技术实现要素:5.基于伪标签的半监督方法在图像分类中有良好的性能,但是语音测谎与这些领域的分类任务不同,根据语音测谎的特点,将基础网络进行改进,使其可以实现对无标记输入数据的高置信度伪标签的预测,并实现分类。于是,一种基于多监督多特征融合的语音测谎
方法,具体步骤如下:
6.(1)语音信号预处理:在语音处理预处理阶段先给语音添加上真话与谎言的标签,然后再对语音进行分帧加窗等处理;
7.(2)语音特征提取:对(1)中经分帧加窗处理后的数据进行语音特征提取,提取预处理后语音的mels谱数据,并按帧输入lstm网络中,提取帧级特征,其次将mels谱数据构建成3d图片,输入alexnet网络,提取全局特征;再次采用人工设计特征提取人工设计特征,输入ae网络中;
8.(3)搭建网络模型:首先构建了基于cnn网络、lstm网络、ae网络网络的混合神经网络模型,实现不同特征的互补,从特征层面确保模型的性能,然后利用网络中的无监督误差、半监督误差及监督误差对实现反向微调的过程:
9.a.首先,将(2)中提取的语音特征作为输入发送(3)中构建的混合神经网络,其中该输入特征中包含了大量的无标签数据和少量的有标签数据,并对无标记数据的ae特征进行加噪,于是得到加噪后的数据如公式并(1)所示,将其作为强增强数据同时输入网络,于是网络的输入数据可以用公式(2)表示:
[0010][0011]
x={x
l
,x
u_weak
,x
u_strong
}(2)
[0012]
其中,为加噪后输入ae的人工统计特征,为随机噪声,x
l
所代表的是少量的有标签数据,而x
u_weak
、x
u_strong
分别同一批数据的弱增强版本和强增强版本的无标签数据;
[0013]
b.本发明中提取深层语音谎言特征之后,先利用少量的有标签数据训练模型,并对弱增强数据进行伪标签的生成,然后计算强增强数据的预测,并采用交叉熵损失对模型训练,最后结合ae的重构损失,对模型进行反复的训练,以生成置信度最高的伪标签用于模型反复训练,其中本发明的伪标签选择的约束条件使用以下公式表示:
[0014]
max(p(y'|x;θ))>τ(3)
[0015]
其中p(y'|x;θ)表示网络对弱增强无标签数据的标签预测输出,当输出最大概率大于所设置的阈值τ时,将该预测标签作为伪标签用于网络训练;
[0016]
(4)将构建的三种不同的网络提取的不同特征输出进行深层融合,该过程保留语音中更丰富的谎言信息;
[0017]
(5)本发明所提方法的优化过程由三部分误差函数共同实现,其中,利用ae对数据进行重构的功能,构建了ae的输入特征与重构特征之间的误差,同时利用模型为无标记数据生成伪标签,并获取伪标签预测误差,另外根据少量的有标签数据获取模型的监督识别误差。根据三部分的误差对网络进行训练,重复以上过程得到最佳语音测谎识别方法;
[0018][0019][0020]
[0021]
(6)分类识别输出:将步骤(4)得到的融合后的特征送入全连接层,并采用有标签的数据通过softmax层进行识别分类,该过程可以表示为:
[0022]
y
pre
=f(w
·
c+b)(7)
[0023]
其中,c是三个网络模块输出特征的融合数据集合,y
pre
是融合后数据经分类器后的分类结果,w,b分别是编码网络与分类器间的权重和偏置;
[0024]
(7)为优化该发明提出的方法,采用梯度下降法来最小化误差函数(无监督重构误差、伪标签预测误差、有监督识别误差),并根据误差函数进行网络参数的调整,此外,采用余弦退火衰减学习率对学习率进行调整,原理如公式(7),以使该发明所提出的语音测谎方法性能达到最佳,全部损失用公式(8)表示;
[0025][0026]
l
all
=l
s
+l
u
+l
r
(9)
附图说明
[0027]
图1为一种基于多监督多特征融合的语音测谎方法结构图,图2为alexnet结构图,图3为bi
‑
lstm结构图,图4为ae结构图,图5为伪标签生成过程图。
具体实施方式
[0028]
下面结合具体实施方式对本发明做更进一步的说明。
[0029]
本发明提出的是一种基于多监督多特征的语音测谎方法,针对在语音测谎领域存在的难题提出了可行性的解决方法,步骤如下:
[0030]
基于伪标签的半监督方法在图像分类中有良好的性能,但是语音测谎与这些领域的分类任务不同,根据语音测谎的特点,将基础网络进行改进,使其可以实现对无标记输入数据的高置信度伪标签的预测,并实现分类。于是,一种基于多监督多特征融合的语音测谎方法,具体步骤如下:
[0031]
(1)语音信号预处理:在语音处理预处理阶段先给语音添加上真话与谎言的标签,然后再对语音进行分帧加窗等处理;
[0032]
(2)语音特征提取:对(1)中经分帧加窗处理后的数据进行语音特征提取,提取预处理后语音的mels谱数据,并按帧输入lstm网络中,提取帧级特征,其次将mels谱数据构建成3d图片,输入alexnet网络,提取全局特征;再次采用人工设计特征提取人工设计特征,输入ae网络中;
[0033]
(3)搭建网络模型:首先构建了基于cnn网络、lstm网络、ae网络网络的混合神经网络模型,实现不同特征的互补,从特征层面确保模型的性能,然后利用网络中的无监督误差、半监督误差及监督误差对实现反向微调的过程:
[0034]
a.首先,将(2)中提取的语音特征作为输入发送(3)中构建的混合神经网络,其中该输入特征中包含了大量的无标签数据和少量的有标签数据,并对无标记数据的ae特征进行加噪,于是得到加噪后的数据如公式并(1)所示,将其作为强增强数据同时输入网络,于是网络的输入数据可以用公式(2)表示:
[0035][0036]
x={x
l
,x
u_weak
,x
u_strong
}(2)
[0037]
其中,为加噪后输入ae的人工统计特征,为随机噪声,x
l
所代表的是少量的有标签数据,而x
u_weak
、x
u_strong
分别同一批数据的弱增强版本和强增强版本的无标签数据;
[0038]
b.本发明中提取深层语音谎言特征之后,先利用少量的有标签数据训练模型,并对弱增强数据进行伪标签的生成,然后计算强增强数据的预测,并采用交叉熵损失对模型训练,最后结合ae的重构损失,对模型进行反复的训练,以生成置信度最高的伪标签用于模型反复训练,其中本发明的伪标签选择的约束条件使用以下公式表示:
[0039]
max(p(y'|x;θ))>τ(3)
[0040]
其中p(y'|x;θ)表示网络对弱增强无标签数据的标签预测输出,当输出最大概率大于所设置的阈值τ时,将该预测标签作为伪标签用于网络训练;
[0041]
(4)将构建的三种不同的网络提取的不同特征输出进行深层融合,该过程保留语音中更丰富的谎言信息;
[0042]
(5)本发明所提方法的优化过程由三部分误差函数共同实现,其中,利用ae对数据进行重构的功能,构建了ae的输入特征与重构特征之间的误差,同时利用模型为无标记数据生成伪标签,并获取伪标签预测误差,另外根据少量的有标签数据获取模型的监督识别误差。根据三部分的误差对网络进行训练,重复以上过程得到最佳语音测谎识别方法;
[0043][0044][0045][0046]
(6)分类识别输出:将步骤(4)得到的融合后的特征送入全连接层,并采用有标签的数据通过softmax层进行识别分类,该过程可以表示为:
[0047]
y
pre
=f(w
·
c+b)(7)
[0048]
其中,c是三个网络模块输出特征的融合数据集合,y
pre
是融合后数据经分类器后的分类结果,w,b分别是编码网络与分类器间的权重和偏置;
[0049]
(7)为优化该发明提出的方法,采用梯度下降法来最小化误差函数(无监督重构误差、伪标签预测误差、有监督识别误差),并根据误差函数进行网络参数的调整,此外,采用余弦退火衰减学习率对学习率进行调整,原理如公式(7),以使该发明所提出的语音测谎方法性能达到最佳,全部损失用公式(8)表示;
[0050][0051]
l
all
=l
s
+l
u
+l
r
(9)
[0052]
为了验证所提出的一种基于多监督多特征融合的语音测谎方法,本发明的验证在interview和csc谎言语料库上进行实验。其中,interview库共包含真话477条,谎言891条,
合计1368条语音。在本发明中,将训练集与测试集按照约9:1的比例划分,并且在测试集中仅选择150、300条有标签语音进行训练。csc谎言语料库包含有5411条语音(谎言为2209条,真话为3202条)。在本发明中,将训练集与测试集按照约9:1的比例划分,并且在测试集中仅选择500、1000条有标签语音进行训练。首先,3d
‑
mel谱图特征、帧级特征、384维静态特征分别输入到alexnet、bi
‑
lstm、ae用于深度特征的提取。特别地,alexnet两层全连接层的输出节点分别为2048和2(类别数);bi
‑
lstm模块隐层神经节点数设置为512,层数为2;ae为最简单的三层自编码器,每层的节点数为(384,64),(64,384),且对无标记的384维静态特征添加系数为0.3的随机噪声。其次,在伪标签的选择上,本文将最大概率阈值选择为0.80,假如预测概率超过该阈值,则保留该伪标签。最后,通过adam优化器最小化误差函数对模型进行优化,学习率设置为0.0000005。本发明提出的方法性能将用准确率进行评估,在每次的训练过程中,迭代次数为512,批次大小为32。为保证模型的有效性,模型进行10次的训练,并将10次训练的平均值作为最终的识别率。仿真实验结果表明:所提方法能够有效降低模型对有标签数据的依赖,在相同有标签数据的情况下,识别性能显著优于现有诸多方法。