1.本发明属于机器学习与情感计算领域,具体涉及一种基于声纹和情感线索的抑郁症识别方法。
背景技术:2.作为世界第四大疾病的抑郁症是一种以持续的悲观情绪为特征的精神障碍,已经被认定为影响经济、司法和社会制度的负担。对抑郁症的检测和治疗是改善亿万人民生活和健康的重中之重。
3.抑郁症会导致神经生理和认知上的变化,进而影响对语言、动作和认知功能的控制,反映在个人的沟通交流上表现为对发音方式、面部动作和对话内容的选择差异。研究表明对个体的声音和视觉处理可以快速提供相关信息并以群体级别的形式发现心理健康医生可能错过的社会行为模式,从而有效的提高抑郁症识别率并降低成本。尽管部分研究表明视频模态相比于语音模态对抑郁症的自动识别具有更高的准确率,它存在泄露抑郁症患者个人隐私和数据可信度的问题。相比于视频,语音信号的收集更自由、简单,易于在舒适安全的环境下获得大量数据并且数据可信度更高;同时也对抑郁症患者的隐私具有更好的保护作用。因此,如何基于语音信号实现抑郁症的有效识别是提高抑郁症检测与治疗的关键。
技术实现要素:4.本发明的目的是提高抑郁症识别的精度和效率,提供了一种基于声纹和情感线索的抑郁症识别方法。该方法利用预训练模型来提取有效的深度sr和ser特征并进行融合,实现对说话人的声纹和情感差异信息的互补。进一步地,考虑到目前抑郁症识别的数据量较小且识别结果具有代价敏感性,提出一种新的层次抑郁症识别模型。该模型在回归器之前设置多个分类器,对每个样本进行多分类器结果导向的抑郁等级预测,避免模型训练的过拟合问题,提高预测精度。
5.为了达到上述目的,本发明采用如下的技术方案来实现:
6.一种基于声纹和情感线索的抑郁症识别方法,该方法首先从语音信号中提取深度说话人识别特征和情感识别特征;其次提出一个特征变化协调性的度量算法,针对这两种深度语音特征抽象出其动态变化协调性特征,作为抑郁症识别模型的输入;最后利用预设的层次抑郁症识别模型,同时构建分类器和回归器来进行抑郁症识别。
7.本发明进一步的改进在于,具体包括以下步骤:
8.1)深度语音特征提取:包括语音信号预处理和深度特征提取模型构建,具体有以下步骤,
[0009]1‑
1)语音信号预处理:通过检索语音信号的停顿来分割出发声片段,将每个发声片段先分帧处理再转化为时频图;
[0010]1‑
2)深度特征提取模型构建:以resnet
‑
50作为预训练模型,以被试身份编号id和
情感标签作为预测目标,训练基于resnet的说话人识别sr和语音情感识别ser模型,基于预训练好的sr和ser模型,分别提取深度sr特征和ser特征;
[0011]
2)特征变化协调性度量:在深度语音特征动态变化的时间和通道属性上设置不同的延迟尺度,通过计算相关系数和协方差来度量其动态变化的协调性,抽象出深度sr和ser特征动态变化的协调性特征来进行抑郁等级评估;
[0012]
3)层次抑郁症识别模型:以样本均衡为原则,采用抑郁等级的不同分区标准来划分语音记录的类别,包括误判距离约束的多分类器、回归区间伸缩算法和基于回归区间的抑郁等级预测,具体有以下步骤,
[0013]3‑
1)误判距离约束的多分类器:以多层感知机为分类器,分别以深度sr和ser协调性特征作为输入,训练每种分区对应的分类器,以误判距离作为损失函数的权重来提高抑郁分类的准确率,同时将多个分类器的输出概率串联得到每条记录的模糊向量;
[0014]3‑
2)回归区间伸缩算法:由于采用了抑郁等级的不同分区标准,每条记录的类别集合可以被划分为有交集的类别集合is和无交集的类别集合nis,对is所包含的类别的区间求平均来缩小回归区间,对nis取最大最小操作来扩大回归区间,从而得到每条记录的回归区间;
[0015]3‑
3)基于回归区间的抑郁等级预测:以每条语音记录的深度sr和ser协调性特征以及从分类器中得到的模糊向量为输入,以该记录对应的回归区间为条件约束,训练一个回归器来预测样本的抑郁等级值。
[0016]
本发明进一步的改进在于,所述步骤1
‑
1)具体操作为:利用praat工具包来读取语音文件,设置小于
‑
25db且持续时长大于0.75s为一次句子间的停顿,0.1s为最小发声时长阈值,将语音划分为发声片段和沉默片段;将每个发声片段以时长25ms、步长10ms分帧转化为一个时频图并调整为256
×
256的大小,采用数据增强方法,以224
×
224的大小对时频图的四个角和中心进行剪切来扩充数据量,避免模型过拟合。
[0017]
本发明进一步的改进在于,所述步骤1
‑
2)具体操作为:以resnet
‑
50作为预训练模型,在resnet
‑
50平均池化层后增加一层包含128个神经元的全连接层来减少特征的通道数,以被试id和情感标签作为预测目标训练基于resnet的sr和ser模型,对sr模型,以被试id为预测目标,softmax层设置对应训练集被试个数的神经元数量进行多分类训练,在预训练好的resnet
‑
50模型基础上,保持卷积层参数不变,对全连接层进行微调,对ser模型,以两个基本情感维度即效价和激励程度的象限划分的四种基本情感:愉悦、紧张、悲伤和平静,作为情感类别对数据集进行语音情感分类,softmax层设置4个神经元进行多分类训练,于预训练好的sr和ser模型得到两个深度语音特征矩阵m
ij
,维度为f
i
×
d
j
,其中,f
i
表示不定长记录i的帧数,d
j
表示特征维数,j=1表示深度sr特征,j=2表示深度ser特征,在特征变化协调性度量步骤之前对深度语音特征矩阵m
ij
进行规范化处理到(0,1)区间。
[0018]
本发明进一步的改进在于,所述步骤2)特征变化协调性度量,包含以下步骤:
[0019]
(i)以训练集记录每维特征变化的均值作为动态阈值,得到阈值向量计算深度语音特征矩阵m
ij
的特征变化零一矩阵m
′
ij
,维度为(f
i
‑
1)
×
d
j
;
[0020]
(ii)从4个不同的时延尺度上对m
′
ij
进行时间和通道属性上的协调性度量,k=1,
2,3,4,延迟时间设为{t1,t2,t3,t4}={2,4,8,16},延迟个数n=16,每个时延尺度上的时延计算取决于其对应的延迟时间t
k
和延迟序号n,n=1,2,..,n:
[0021]
τ
n
=(n
‑
1)t
k
ꢀꢀ
(1)
[0022]
(iii)对每个时延尺度k,计算其不定长的基准矩阵其中t
s
t
e
是在m
′
ij
上的起始帧和终点帧编号,起点帧t
s
由最大延迟个数n和延迟时间t
k
计算得到:t
s
=n
·
t
k
,终点t
e
=f
i
‑
1为m
′
ij
的最后一帧,在基础上计算第k个时延尺度上的时间延迟特征变化的零一矩阵x
ij,k
,再对x
ij,k
计算其协方差矩阵c
ij,k
和相关关系矩阵r
ij,k
,以此来度量时间延迟特征变化的协调性;
[0023]
利用pca将特征降维,得到最终的协调性特征向量x
ij
。
[0024]
本发明进一步的改进在于,所述步骤3
‑
1)具体操作为:以多层感知机为分类器,分别以深度sr和ser协调性特征x
ij
作为输入,训练每种分区对应的分类器,定义c
i
为记录i的真实类别,c
′
i
为预测类别,以误判距离作为损失函数的权重:经过分类步骤,得到记录i属于类别c
ab
的概率:
[0025][0026]
式中,表示记录i的第j种协调性特征经过模糊分类器预测的属于类别c
ab
的概率,a表示分区编号,b表示对应分区的类别编号;
[0027]
对每种分区设置相应阈值h
a
,选择出的类别,得到记录i的类别集合阈值h
a
取决于对应分区的类别数,
[0028]
本发明进一步的改进在于,步骤3
‑
2)具体操作为:用[min
ab
,max
ab
]表示类别c
ab
的抑郁等级区间,不同分区的类别区间之间存在交集,所有交集组合的集合为式中ε(
·
)表示类别c
ab
的抑郁等级区间:ε(c
ab
)=[min
ab
,max
ab
],表示空集;
[0029]
为了根据分类器结果界定回归区间,同时降低分类器误判对回归结果的影响,提出记录的类别组合在有交集和无交集情况下的回归区间伸缩算法;具体地,记录i的类别集合以ais为基准被划分为有交集的类别集合is和无交集的类别集合nis,对is,对其包含的类别的区间求平均来缩小回归区间,使得回归器的预测范围更加精确,式中,num(is)是集合is内的类别数量,对nis取最大最小操作来扩大回归区间以降低分类器误判对回归结果的影响,最后,对is和nis的回归区间进行加权融合来得到记录i最终的回归区间ri
i
:式中,和分别是回归区间的起点和终点值;
[0030]
显然,若记录i存在num(is)>num(nis),表示该记录为易分样本,采用取均值来缩小回归区间,可以获得更精确的回归预测范围;若记录i存在num(is)≤num(nis),则以两个集合中类别的比例为权重计算回归区间,目的是为了在缩小回归区间的同时降低类别误判
对回归结果的影响,若记录i存在num(nis)=num(s
i
),即λ
is
=0且λ
nis
=1,表明该记录为难分样本,采用所有类别的抑郁等级最小值和最大值来扩大回归区间,降低类别误判对回归结果的影响。
[0031]
本发明进一步的改进在于,所述步骤3
‑
3)具体操作为:以记录i的两种深度语音的协调性特征x
ij
及其模糊向量p
ij
为输入,以该记录对应的回归区间ri
i
为条件约束,训练一个mlp回归器以提高预测精度,定义记录i的真实抑郁等级为l
i
,为了使记录i训练得到的回归器的预测结果l
i
′
满足l
i
′
∈ri
i
,设置最大最小线性整流函数作为激活函数,将回归器初始输出结果γ
i
映射到ri
i
范围内,回归器预测结果通过下式计算:
[0032][0033]
回归器的损失函数通过下式计算:
[0034][0035]
式中,表示均方根误差函数,对映射后结果l
i
′
的损失和回归器初始输出结果γ
i
的损失求平均来使模型向回归区间内收敛。
[0036]
本发明至少具有如下有益的技术效果:
[0037]
本发明提供的一种基于声纹和情感线索的抑郁症识别方法,首先利用预训练模型来提取深度语音特征,并提出深度sr与ser特征融合的方法来对说话人的声纹和情感差异信息进行互补;其次针对抑郁患者与非抑郁患者之间的动态变化差异性和记录时长不固定问题,提出可变长片段的特征变化协调性度量算法来获取两种深度语音特征动态变化的协调性特征用于抑郁症识别;最后提出一种层次抑郁症识别模型。实验结果表明深度sr与ser特征的融合能够显著提高模型的预测性能。与目前普遍的抑郁症识别网络结构和最优方法相比,层次抑郁症识别模型可以避免利用小样本训练模型的过拟合问题,提高预测准确率,同时抑郁症识别性能优于目前语音模态的最优方法。
附图说明
[0038]
图1为本发明中基于声纹和情感线索的抑郁症识别方法流程图;
[0039]
图2为本发明中sr和ser模型的构建流程;
[0040]
图3为本发明中层次抑郁症识别模型结构。
具体实施方式
[0041]
下面结合附图对本发明做进一步详细描述。
[0042]
参照图1,本发明提供的一种基于声纹和情感线索的抑郁症识别方法。首先,深度语音特征提取以每条记录的发声信号分帧转化为的时频图为输入,从预训练好的sr和ser模型中分别提取音频帧级的深度sr和ser特征。sr和ser模型分别以被试id和情感标签为预测目标,在预训练的resnet模型基础上做微调得到。sr模型对不同的被试做声纹差异特征提取,ser做情感差异特征提取。音频帧级的深度sr和ser特征以时间顺序排列,分别得到两个深度语音特征矩阵。其次,计算深度语音特征变化矩阵,利用特征变化协调性的度量算法对两种深度语音特征变化矩阵进行多尺度的时间延迟相关关系和协方差矩阵的计算,提取
协调性特征。最后,提出层次抑郁症识别模型。第一层构建多个模糊分类器对每条记录的抑郁等级回归区间进行预测;第二层以两种深度语音的协调性特征及其模糊向量作为回归器的输入,以每条记录的回归区间为约束条件,训练回归器。具体包括以下步骤:
[0043]
1)深度语音特征提取:包括语音信号预处理和深度特征提取模型构建,参照图1和图2,具体有以下步骤,
[0044]
step1语音信号预处理:通过检索语音信号的停顿来分割出发声片段,将每个发声片段先分帧处理再转化为时频图;
[0045]
step2深度特征提取模型构建:以resnet
‑
50作为预训练模型,以被试身份编号(简称id)和情感标签作为预测目标,训练基于resnet的说话人识别(sr)和语音情感识别(ser)模型。基于预训练好的sr和ser模型,分别提取深度sr特征和ser特征。
[0046]
2)特征变化协调性度量:参照图1,在深度语音特征动态变化的时间和通道属性上设置不同的延迟尺度,通过计算相关系数和协方差来度量其动态变化的协调性,抽象出深度sr和ser特征动态变化的协调性特征来进行抑郁等级评估。
[0047]
3)层次抑郁症识别模型:包括误判距离约束的多分类器、回归区间伸缩算法和基于回归区间的抑郁等级预测,参照图1和图3,具体有以下步骤,
[0048]
step1误判距离约束的多分类器:以多层感知机为分类器,分别以深度sr和ser协调性特征作为输入,训练每种分区对应的分类器。由于抑郁症分类问题是代价敏感的,将一条记录误判到距离其真实类别较远的类别的损失明显大于误判到临近类别,且该损失与类别距离成正相关关系,因此,以误判距离作为损失函数的权重来提高抑郁分类的准确率,同时将多个分类器的输出概率串联得到每条记录的模糊向量;
[0049]
step2回归区间伸缩算法:由于采用了抑郁等级的不同分区标准,每条记录的类别集合可以被划分为有交集的类别集合(简称is)和无交集的类别集合(简称nis)。对is所包含的类别的区间求平均来缩小回归区间,对nis取最大最小操作来扩大回归区间,从而得到每条记录的回归区间;
[0050]
step3基于回归区间的抑郁等级预测:以每条语音记录的深度sr和ser协调性特征以及从分类器中得到的模糊向量为输入,以该记录对应的回归区间为条件约束,训练一个回归器来预测样本的抑郁等级值。
[0051]
参照表1,比较深度sr和ser协调性特征与声学特征(简称hsfs)、声学协调性特征和记录级(session
‑
level)的sr和ser特征为输入时模型的预测性能。结果表明,相比于hsfs、session
‑
level sr和ser特征,声学、sr和ser协调性特征使模型的预测性能取得了很大提升。同时,sr和ser协调性特征的融合相比于单个协调性特征的性能也有明显提升。
[0052]
表1:本发明中语音特征的选择对模型预测性能的影响(avec2014开发集)
[0053][0054][0055]
参照表2,本发明中提出的方法在音频模态与基线方法和最优方法的性能对比结果表明,本发明的方法性能最优,同时,在采用现有方法进行预测时,很容易在训练集过拟合时出现开发集性能较优而测试集性能较差的情况,而本发明的方法通过提取深度ser特征的来补充同一被试不同记录之间的差异信息,并通过对不同记录构建多个分类器结果导向的抑郁等级预测来避免过拟合现象,从而得到相近的开发集和测试集性能。
[0056]
表2:本发明方法与基线和目前最优方法在音频模态的抑郁等级预测性能对比(avec2014开发集和测试集)。lr表示线性回归,hd表示手工提取特征与深度特征的结合。
[0057][0058]
虽然,上文中已经用一般性说明及具体实施方案对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。