一种基于多监督多特征融合的语音测谎方法与流程

1.本发明属于语音信号处理技术领域，具体涉及到一种基于多监督多特征融合的语音测谎方法。

背景技术：

2.说谎在人际交往中较为常见，是有意图传递错误信息的一个重要方式。从古至今，谎言检测都一个非常重要的一个研究方向，且该研究对刑事侦查、心理学研究等领域都有着重要的作用。传统的谎言检测技术主要是根据生理参数的变化进行判别，这种方法数据采集较困难，同时会引起受试者的抵触心理，从而影响检测结果。语音是人与人沟通交流最重要的途径之一，近些年，有学者提出了基于语音的测谎技术，该方法数据采集简单，隐蔽性较好，可以有效破解现有谎言检测技术的诸多问题，因此，该研究受到了广泛关注。
3.当前，针对语音谎言检测的研究主要集中在两个部分：谎言语料库的构建和语音特征的提取。对于数据库的构建，主要可以分为三类：游戏类型的谎言语料库、访谈类型的谎言语料库、模拟犯罪类型的谎言语料库。游戏类型的谎言语料库贴近生活，但受试者压力程度较低，谎言信息不显著；访谈类型的谎言语料库主要涉及面试、采访等场景，受试者相对研究，压力度略高于游戏类型数据库；模拟犯罪类型语料库主要涉及刑侦、间谍，问询者更加专业，包含诸多询问技巧与策略，受试者压力显著高于上述语料库，谎言特征相对显著，但数据不易获取。尽管学者们对谎言数据库的有了一定的研究，但与相关研究领域相比，公开的谎言数据库极少且数据量小，这给基于语音谎言检测的研究带来了巨大的难题。在特征提取方面，主要围绕韵律特征、谱相关特征、语音质量特征等进行研究。尽管上述研究取得了诸多巨大进步，但仍未有一种特征能够有效的表征语音中的谎言信息，因此，如何获取到更丰富的谎言特征仍需进一步努力。
4.基于上述分析，本文开展针对谎言特征提取及半监督识别模型的研究，旨在降低模型对有标签谎言语料库的依赖，同时提升模型识别性能。本研究首先搭建基于cnn、lstm、ae的混合神经网络模型，利用cnn从语音的mel谱中提取到与谎言相关的谱图时频信息；利用lstm从语音谱图中逐帧提取语音谎言特征，补充卷积神经网络忽略的帧级情感特征；自编码网络实现人工设计声学谎言特征的迁移表征，可以为其他网络补充人工设计特征所包含的谎言信息；不同网络提取到的特征具有互补性，通过使用不同类型的特征，达到充分利用语音中包含的谎言信息的目的；其次，将不同网络提取到的深度特征融合，并利用ae获取无监督重构误差，利用模型预测生成伪标签，并获取伪标签预测误差，利用少量有标签数据获取有监督识别误差，根据三部分误差对模型进行反复训练以得到最佳模型。

技术实现要素：

5.基于伪标签的半监督方法在图像分类中有良好的性能，但是语音测谎与这些领域的分类任务不同，根据语音测谎的特点，将基础网络进行改进，使其可以实现对无标记输入数据的高置信度伪标签的预测，并实现分类。于是，一种基于多监督多特征融合的语音测谎
方法，具体步骤如下：
6.(1)语音信号预处理：在语音处理预处理阶段先给语音添加上真话与谎言的标签，然后再对语音进行分帧加窗等处理；
7.(2)语音特征提取：对(1)中经分帧加窗处理后的数据进行语音特征提取，提取预处理后语音的mels谱数据，并按帧输入lstm网络中，提取帧级特征，其次将mels谱数据构建成3d图片，输入alexnet网络，提取全局特征；再次采用人工设计特征提取人工设计特征，输入ae网络中；
8.(3)搭建网络模型：首先构建了基于cnn网络、lstm网络、ae网络网络的混合神经网络模型，实现不同特征的互补，从特征层面确保模型的性能，然后利用网络中的无监督误差、半监督误差及监督误差对实现反向微调的过程：
9.a.首先，将(2)中提取的语音特征作为输入发送(3)中构建的混合神经网络，其中该输入特征中包含了大量的无标签数据和少量的有标签数据，并对无标记数据的ae特征进行加噪，于是得到加噪后的数据如公式并(1)所示，将其作为强增强数据同时输入网络，于是网络的输入数据可以用公式(2)表示：
[0010][0011]
x＝{x
l
,x
u_weak
,x
u_strong
}(2)
[0012]
其中，为加噪后输入ae的人工统计特征，为随机噪声，x
l
所代表的是少量的有标签数据，而x
u_weak
、x
u_strong
分别同一批数据的弱增强版本和强增强版本的无标签数据；
[0013]
b.本发明中提取深层语音谎言特征之后，先利用少量的有标签数据训练模型，并对弱增强数据进行伪标签的生成，然后计算强增强数据的预测，并采用交叉熵损失对模型训练，最后结合ae的重构损失，对模型进行反复的训练，以生成置信度最高的伪标签用于模型反复训练，其中本发明的伪标签选择的约束条件使用以下公式表示：
[0014]
max(p(y'|x；θ))＞τ(3)
[0015]
其中p(y'|x；θ)表示网络对弱增强无标签数据的标签预测输出，当输出最大概率大于所设置的阈值τ时，将该预测标签作为伪标签用于网络训练；
[0016]
(4)将构建的三种不同的网络提取的不同特征输出进行深层融合，该过程保留语音中更丰富的谎言信息；
[0017]
(5)本发明所提方法的优化过程由三部分误差函数共同实现，其中，利用ae对数据进行重构的功能，构建了ae的输入特征与重构特征之间的误差，同时利用模型为无标记数据生成伪标签，并获取伪标签预测误差，另外根据少量的有标签数据获取模型的监督识别误差。根据三部分的误差对网络进行训练，重复以上过程得到最佳语音测谎识别方法；
[0018][0019][0020]
[0021]
(6)分类识别输出：将步骤(4)得到的融合后的特征送入全连接层，并采用有标签的数据通过softmax层进行识别分类，该过程可以表示为：
[0022]
y
pre
＝f(w
·
c+b)(7)
[0023]
其中，c是三个网络模块输出特征的融合数据集合，y
pre
是融合后数据经分类器后的分类结果，w，b分别是编码网络与分类器间的权重和偏置；
[0024]
(7)为优化该发明提出的方法，采用梯度下降法来最小化误差函数(无监督重构误差、伪标签预测误差、有监督识别误差)，并根据误差函数进行网络参数的调整，此外，采用余弦退火衰减学习率对学习率进行调整，原理如公式(7)，以使该发明所提出的语音测谎方法性能达到最佳，全部损失用公式(8)表示；
[0025][0026]
l
all
＝l
s
+l
u
+l
r
(9)
附图说明
[0027]
图1为一种基于多监督多特征融合的语音测谎方法结构图，图2为alexnet结构图，图3为bi
‑
lstm结构图，图4为ae结构图，图5为伪标签生成过程图。
具体实施方式
[0028]
下面结合具体实施方式对本发明做更进一步的说明。
[0029]
本发明提出的是一种基于多监督多特征的语音测谎方法，针对在语音测谎领域存在的难题提出了可行性的解决方法，步骤如下：
[0030]
基于伪标签的半监督方法在图像分类中有良好的性能，但是语音测谎与这些领域的分类任务不同，根据语音测谎的特点，将基础网络进行改进，使其可以实现对无标记输入数据的高置信度伪标签的预测，并实现分类。于是，一种基于多监督多特征融合的语音测谎方法，具体步骤如下：
[0031]
(1)语音信号预处理：在语音处理预处理阶段先给语音添加上真话与谎言的标签，然后再对语音进行分帧加窗等处理；
[0032]
(2)语音特征提取：对(1)中经分帧加窗处理后的数据进行语音特征提取，提取预处理后语音的mels谱数据，并按帧输入lstm网络中，提取帧级特征，其次将mels谱数据构建成3d图片，输入alexnet网络，提取全局特征；再次采用人工设计特征提取人工设计特征，输入ae网络中；
[0033]
(3)搭建网络模型：首先构建了基于cnn网络、lstm网络、ae网络网络的混合神经网络模型，实现不同特征的互补，从特征层面确保模型的性能，然后利用网络中的无监督误差、半监督误差及监督误差对实现反向微调的过程：
[0034]
a.首先，将(2)中提取的语音特征作为输入发送(3)中构建的混合神经网络，其中该输入特征中包含了大量的无标签数据和少量的有标签数据，并对无标记数据的ae特征进行加噪，于是得到加噪后的数据如公式并(1)所示，将其作为强增强数据同时输入网络，于是网络的输入数据可以用公式(2)表示：
[0035][0036]
x＝{x
l
,x
u_weak
,x
u_strong
}(2)
[0037]
其中，为加噪后输入ae的人工统计特征，为随机噪声，x
l
所代表的是少量的有标签数据，而x
u_weak
、x
u_strong
分别同一批数据的弱增强版本和强增强版本的无标签数据；
[0038]
b.本发明中提取深层语音谎言特征之后，先利用少量的有标签数据训练模型，并对弱增强数据进行伪标签的生成，然后计算强增强数据的预测，并采用交叉熵损失对模型训练，最后结合ae的重构损失，对模型进行反复的训练，以生成置信度最高的伪标签用于模型反复训练，其中本发明的伪标签选择的约束条件使用以下公式表示：
[0039]
max(p(y'|x；θ))＞τ(3)
[0040]
其中p(y'|x；θ)表示网络对弱增强无标签数据的标签预测输出，当输出最大概率大于所设置的阈值τ时，将该预测标签作为伪标签用于网络训练；
[0041]
(4)将构建的三种不同的网络提取的不同特征输出进行深层融合，该过程保留语音中更丰富的谎言信息；
[0042]
(5)本发明所提方法的优化过程由三部分误差函数共同实现，其中，利用ae对数据进行重构的功能，构建了ae的输入特征与重构特征之间的误差，同时利用模型为无标记数据生成伪标签，并获取伪标签预测误差，另外根据少量的有标签数据获取模型的监督识别误差。根据三部分的误差对网络进行训练，重复以上过程得到最佳语音测谎识别方法；
[0043][0044][0045][0046]
(6)分类识别输出：将步骤(4)得到的融合后的特征送入全连接层，并采用有标签的数据通过softmax层进行识别分类，该过程可以表示为：
[0047]
y
pre
＝f(w
·
c+b)(7)
[0048]
其中，c是三个网络模块输出特征的融合数据集合，y
pre
是融合后数据经分类器后的分类结果，w，b分别是编码网络与分类器间的权重和偏置；
[0049]
(7)为优化该发明提出的方法，采用梯度下降法来最小化误差函数(无监督重构误差、伪标签预测误差、有监督识别误差)，并根据误差函数进行网络参数的调整，此外，采用余弦退火衰减学习率对学习率进行调整，原理如公式(7)，以使该发明所提出的语音测谎方法性能达到最佳，全部损失用公式(8)表示；
[0050][0051]
l
all
＝l
s
+l
u
+l
r
(9)
[0052]
为了验证所提出的一种基于多监督多特征融合的语音测谎方法，本发明的验证在interview和csc谎言语料库上进行实验。其中，interview库共包含真话477条，谎言891条，
合计1368条语音。在本发明中，将训练集与测试集按照约9:1的比例划分，并且在测试集中仅选择150、300条有标签语音进行训练。csc谎言语料库包含有5411条语音(谎言为2209条，真话为3202条)。在本发明中，将训练集与测试集按照约9:1的比例划分，并且在测试集中仅选择500、1000条有标签语音进行训练。首先，3d
‑
mel谱图特征、帧级特征、384维静态特征分别输入到alexnet、bi
‑
lstm、ae用于深度特征的提取。特别地，alexnet两层全连接层的输出节点分别为2048和2(类别数)；bi
‑
lstm模块隐层神经节点数设置为512，层数为2；ae为最简单的三层自编码器，每层的节点数为(384,64),(64,384)，且对无标记的384维静态特征添加系数为0.3的随机噪声。其次，在伪标签的选择上，本文将最大概率阈值选择为0.80，假如预测概率超过该阈值，则保留该伪标签。最后，通过adam优化器最小化误差函数对模型进行优化，学习率设置为0.0000005。本发明提出的方法性能将用准确率进行评估，在每次的训练过程中，迭代次数为512，批次大小为32。为保证模型的有效性，模型进行10次的训练，并将10次训练的平均值作为最终的识别率。仿真实验结果表明：所提方法能够有效降低模型对有标签数据的依赖，在相同有标签数据的情况下，识别性能显著优于现有诸多方法。