一种基于语调识别情绪的方法与流程
时间:2022-02-06 阅读: 作者:专利查询
1.本发明涉及情绪识别技术领域,具体为一种基于语调识别情绪的方法。
背景技术:
2.情绪是综合了人的感觉、思想和行为的一种状态,在人与人的交流中发挥着重要作用,它包括人对外界或自身刺激的心理反应,包括伴随这种心理反应的生理反应,在人们的日常工作和生活中,情绪的作用无处不在,在医疗护理中,如果能够知道患者、特别是有表达障碍的患者的情绪状态,就可以根据患者的情绪做出不同的护理措施,提高护理量,在产品开发过程中,如果能够识别出用户使用产品过程中的情绪状态,了解用户体验,就可以改善产品功能,设计出更适合用户需求的产品,在各种人机交互系统里,如果系统能识别出人的情绪状态,人与机器的交互就会变得更加友好和自然,对情绪进行分析和识别是神经科学、心理学、认知科学、计算机科学和人工智能等领域的一项重要的交叉学科研究课题。
3.然而,由于实际应用中,用于情绪识别的样本数据中的正面情绪样本和负面情绪样本极不均衡,导致得到的情绪识别准确率较低,不利于人们的使用。
技术实现要素:
4.本发明的目的在于提供一种基于语调识别情绪的方法,具备语调识别情绪的方法便于使用的优点,解决了情绪识别不方便的问题。
5.为实现上述目的,本发明提供如下技术方案:一种基于语调识别情绪的方法,包括以下步骤:
6.步骤a:在安静的环境下,采用录音的方式,由一名专业播音员分别用高兴、难过、生气、害怕四种语调朗读并录制测试句;
7.步骤b:通过不同试听者对录制的测试句进行听辨,并判断测试句所包含的情绪,然后计算试听者对各句子识别的正确率,从中挑选正确率高于95%的测试句作为声音数据;
8.步骤c:通过spss16.0软件对声音数据进行统计处理;
9.步骤d:对处理后的声音数据进行分帧处理,将音频分解为帧,对于每一帧,计算周期功率谱,将mel滤波器应用到功率谱中,计算每个滤波器的能量和,计算能量的对数值,对每个对数能量进行离散余弦变换,保留dct的2-13个系数,其余系数舍去;
10.步骤e:将分帧处理后的声音数据特征分类编入语音数据库;
11.步骤f:麦克风的采集输入的语音信息,对语音信息进行特征提取,然后对比语音数据库内声音数据,从而识别情绪。
12.优选的,所述步骤a测试句可以为易理解的动作关系句,描述关系句和事实关系句,句型为陈述句,句子内容带有情绪。
13.优选的,所述步骤b中试听者为不同年龄段健听的学生,且学生中男女比例相同。
14.优选的,所述步骤d信号每一帧的长度为25ms,帧移为10ms,每一帧的周期功率谱,
它随声音的大小而发生不同频率的振动,通过耳锅的不同位置上的振动,不同的神经元将会通知大脑现在听到的音频频率,通过mel滤波器确定不同频率存在的能量,滤波器通常有交叠,因此滤波器能量彼此相关,dct对能量进行去相关,协方差的对角矩阵可以用来对hmm分类器进行建模。
15.优选的,所述分帧处理的实施步骤为:(1)将信号每一帧的长度为25ms,帧移为10ms,信号为16khz,共有0.025*16000=400个样本,帧的间隔通常为10ms,即160个样本,即第一帧400个样本从样本0开始,第二帧400个样本从样本160开始,帧之间具有交叠部分,直到达到语音结尾为止,如果语音不能划分成偶数个帧,用0填满它;然后对每个单一帧进行提取12个mfcc系数,约定为时域信号,为第i帧的时域型号,n的取值为1-400,计算复数离散傅立叶变换,得到,i表示第i帧,是第i帧的功率谱;(2)为了计算每一帧的dft,执行下面的运算:其中,h(n)为样本分析的汉明窗,k是dft的长度,接下来每一帧的功率谱估计即是功率谱的周期图估计,进行512个点的fft,只保留开始的257个系数;(3)将26个三角形滤波器应用到功率谱上,滤波器有26个向量组成,每个向量元素个数为257,每个向量大部分为0,但是有一部分频率的值非零,为了计算滤波器的能量,把每一个滤波器与功率谱进行相乘,然后系数相加,得出26个数值,它们代表每一个滤波器上面的能量;(4)然后分别计算26个能量的对数值;(5)对26个对数能量进行dct,得到26个系数,取前12个系数,每一帧得到的12个数即梅尔频率倒谱系数。
16.优选的,所述步骤f麦克风采集的语音信息通过降噪处理后进行采集,所述采集输入的语音信息市场为2-6s。
17.与现有技术相比,本发明的有益效果如下:本发明在采用情绪识别之前,先采用不同语调测试句的语音数据库,然后对采集的语音特征进行提取,通过与语音数据库进行对比,提高了情绪识别准确率。
具体实施方式
18.下面将对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
19.一种基于语调识别情绪的方法,包括以下步骤:
20.步骤a:在安静的环境下,采用录音的方式,由一名专业播音员分别用高兴、难过、生气、害怕四种语调朗读并录制测试句;
21.步骤b:通过不同试听者对录制的测试句进行听辨,并判断测试句所包含的情绪,然后计算试听者对各句子识别的正确率,从中挑选正确率高于95%的测试句作为声音数据;
22.步骤c:通过spss16.0软件对声音数据进行统计处理;
23.步骤d:对处理后的声音数据进行分帧处理,将音频分解为帧,对于每一帧,计算周期功率谱,将mel滤波器应用到功率谱中,计算每个滤波器的能量和,计算能量的对数值,对每个对数能量进行离散余弦变换,保留dct的2-13个系数,其余系数舍去;
24.步骤e:将分帧处理后的声音数据特征分类编入语音数据库;
25.步骤f:麦克风的采集输入的语音信息,对语音信息进行特征提取,然后对比语音数据库内声音数据,从而识别情绪。
26.实施例1
27.一种基于语调识别情绪的方法,包括以下步骤:步骤a:在安静的环境下,采用录音的方式,由一名专业播音员分别用高兴、难过、生气、害怕四种语调朗读并录制测试句;步骤b:通过不同试听者对录制的测试句进行听辨,并判断测试句所包含的情绪,然后计算试听者对各句子识别的正确率,从中挑选正确率高于95%的测试句作为声音数据;步骤c:通过spss16.0软件对声音数据进行统计处理;步骤d:对处理后的声音数据进行分帧处理,将音频分解为帧,对于每一帧,计算周期功率谱,将mel滤波器应用到功率谱中,计算每个滤波器的能量和,计算能量的对数值,对每个对数能量进行离散余弦变换,保留dct的2-13个系数,其余系数舍去;步骤e:将分帧处理后的声音数据特征分类编入语音数据库;步骤f:麦克风的采集输入的语音信息,对语音信息进行特征提取,然后对比语音数据库内声音数据,从而识别情绪。
28.实施例2
29.在实施例1中,再加入以下步骤:
30.步骤a测试句可以为易理解的动作关系句,描述关系句和事实关系句,句型为陈述句,句子内容带有情绪。
31.一种基于语调识别情绪的方法,包括以下步骤:步骤a:在安静的环境下,采用录音的方式,由一名专业播音员分别用高兴、难过、生气、害怕四种语调朗读并录制测试句;步骤b:通过不同试听者对录制的测试句进行听辨,并判断测试句所包含的情绪,然后计算试听者对各句子识别的正确率,从中挑选正确率高于95%的测试句作为声音数据;步骤c:通过spss16.0软件对声音数据进行统计处理;步骤d:对处理后的声音数据进行分帧处理,将音频分解为帧,对于每一帧,计算周期功率谱,将mel滤波器应用到功率谱中,计算每个滤波器的能量和,计算能量的对数值,对每个对数能量进行离散余弦变换,保留dct的2-13个系数,其余系数舍去;步骤e:将分帧处理后的声音数据特征分类编入语音数据库;步骤f:麦克风的采集输入的语音信息,对语音信息进行特征提取,然后对比语音数据库内声音数据,从而识别情绪。
32.实施例3
33.在实施例2中,再加入以下步骤:
34.步骤b中试听者为不同年龄段健听的学生,且学生中男女比例相同。
35.一种基于语调识别情绪的方法,包括以下步骤:步骤a:在安静的环境下,采用录音的方式,由一名专业播音员分别用高兴、难过、生气、害怕四种语调朗读并录制测试句;步骤b:通过不同试听者对录制的测试句进行听辨,并判断测试句所包含的情绪,然后计算试听者对各句子识别的正确率,从中挑选正确率高于95%的测试句作为声音数据;步骤c:通过spss16.0软件对声音数据进行统计处理;步骤d:对处理后的声音数据进行分帧处理,将音频分解为帧,对于每一帧,计算周期功率谱,将mel滤波器应用到功率谱中,计算每个滤波器的能量和,计算能量的对数值,对每个对数能量进行离散余弦变换,保留dct的2-13个系数,其余系数舍去;步骤e:将分帧处理后的声音数据特征分类编入语音数据库;步骤f:麦克风的采集输入的语音信息,对语音信息进行特征提取,然后对比语音数据库内声音数据,从而
识别情绪。
36.实施例4
37.在实施例3中,再加入以下步骤:
38.步骤d信号每一帧的长度为25ms,帧移为10ms,每一帧的周期功率谱,它随声音的大小而发生不同频率的振动,通过耳锅的不同位置上的振动,不同的神经元将会通知大脑现在听到的音频频率,通过mel滤波器确定不同频率存在的能量,滤波器通常有交叠,因此滤波器能量彼此相关,dct对能量进行去相关,协方差的对角矩阵可以用来对hmm分类器进行建模。
39.一种基于语调识别情绪的方法,包括以下步骤:步骤a:在安静的环境下,采用录音的方式,由一名专业播音员分别用高兴、难过、生气、害怕四种语调朗读并录制测试句;步骤b:通过不同试听者对录制的测试句进行听辨,并判断测试句所包含的情绪,然后计算试听者对各句子识别的正确率,从中挑选正确率高于95%的测试句作为声音数据;步骤c:通过spss16.0软件对声音数据进行统计处理;步骤d:对处理后的声音数据进行分帧处理,将音频分解为帧,对于每一帧,计算周期功率谱,将mel滤波器应用到功率谱中,计算每个滤波器的能量和,计算能量的对数值,对每个对数能量进行离散余弦变换,保留dct的2-13个系数,其余系数舍去;步骤e:将分帧处理后的声音数据特征分类编入语音数据库;步骤f:麦克风的采集输入的语音信息,对语音信息进行特征提取,然后对比语音数据库内声音数据,从而识别情绪。
40.实施例5
41.在实施例4中,再加入以下步骤:
42.分帧处理的实施步骤为:(1)将信号每一帧的长度为25ms,帧移为10ms,信号为16khz,共有0.025*16000=400个样本,帧的间隔通常为10ms,即160个样本,即第一帧400个样本从样本0开始,第二帧400个样本从样本160开始,帧之间具有交叠部分,直到达到语音结尾为止,如果语音不能划分成偶数个帧,用0填满它;然后对每个单一帧进行提取12个mfcc系数,约定为时域信号,为第i帧的时域型号,n的取值为1-400,计算复数离散傅立叶变换,得到,i表示第i帧,是第i帧的功率谱;(2)为了计算每一帧的dft,执行下面的运算:其中,h(n)为样本分析的汉明窗,k是dft的长度,接下来每一帧的功率谱估计即是功率谱的周期图估计,进行512个点的fft,只保留开始的257个系数;(3)将26个三角形滤波器应用到功率谱上,滤波器有26个向量组成,每个向量元素个数为257,每个向量大部分为0,但是有一部分频率的值非零,为了计算滤波器的能量,把每一个滤波器与功率谱进行相乘,然后系数相加,得出26个数值,它们代表每一个滤波器上面的能量;(4)然后分别计算26个能量的对数值;(5)对26个对数能量进行dct,得到26个系数,取前12个系数,每一帧得到的12个数即梅尔频率倒谱系数。
43.实施例6
44.在实施例5中,再加入以下步骤:
45.步骤f麦克风采集的语音信息通过降噪处理后进行采集,采集输入的语音信息市场为2-6s。
46.一种基于语调识别情绪的方法,包括以下步骤:步骤a:在安静的环境下,采用录音的方式,由一名专业播音员分别用高兴、难过、生气、害怕四种语调朗读并录制测试句;步骤
b:通过不同试听者对录制的测试句进行听辨,并判断测试句所包含的情绪,然后计算试听者对各句子识别的正确率,从中挑选正确率高于95%的测试句作为声音数据;步骤c:通过spss16.0软件对声音数据进行统计处理;步骤d:对处理后的声音数据进行分帧处理,将音频分解为帧,对于每一帧,计算周期功率谱,将mel滤波器应用到功率谱中,计算每个滤波器的能量和,计算能量的对数值,对每个对数能量进行离散余弦变换,保留dct的2-13个系数,其余系数舍去;步骤e:将分帧处理后的声音数据特征分类编入语音数据库;步骤f:麦克风的采集输入的语音信息,对语音信息进行特征提取,然后对比语音数据库内声音数据,从而识别情绪。
47.一种基于语调识别情绪的方法,包括以下步骤:步骤a:在安静的环境下,采用录音的方式,由一名专业播音员分别用高兴、难过、生气、害怕四种语调朗读并录制测试句;步骤b:通过不同试听者对录制的测试句进行听辨,并判断测试句所包含的情绪,然后计算试听者对各句子识别的正确率,从中挑选正确率高于95%的测试句作为声音数据;步骤c:通过spss16.0软件对声音数据进行统计处理;步骤d:对处理后的声音数据进行分帧处理,将音频分解为帧,对于每一帧,计算周期功率谱,将mel滤波器应用到功率谱中,计算每个滤波器的能量和,计算能量的对数值,对每个对数能量进行离散余弦变换,保留dct的2-13个系数,其余系数舍去;步骤e:将分帧处理后的声音数据特征分类编入语音数据库;步骤f:麦克风的采集输入的语音信息,对语音信息进行特征提取,然后对比语音数据库内声音数据,从而识别情绪。
48.尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。