首页 > 乐器声学 专利正文
情绪特征的确定方法和装置、电子设备、存储介质与流程

时间:2022-02-20 阅读: 作者:专利查询

情绪特征的确定方法和装置、电子设备、存储介质与流程

1.本技术涉及语音处理领域,尤其涉及一种情绪特征的确定方法和装置、电子设备、存储介质。


背景技术:

2.智能家居(home automation)是以传统住宅为基础,并以物联网通信技术、自动控制技术和人工智能技术为辅助所形成的现代化居住体系。智能家居的日趋成熟为现代快节奏生活带来了诸多便利,能够为用户提供良好、舒适且智能的居住环境。在智能家居、ai对话系统、客服系统以及教育、医疗等领域,需要通过用户的语音对用户情绪进行识别,以便根据识别出的情绪采取对应的策略。在进行分类识别前,需要进行特征选择,特征选择的主要目的是从特征数据集中获得最佳分类的属性,这对于提高情绪识别的准确率而言十分重要。通过选择特征,可以从原始语音中提取有效的、与情绪密切相关的特征,减少特征数据集中的特征数量,从而提高分类性能和准确性。
3.目前,在相关技术中采用的特征选择方法主要是靠人为选择,受限于个人因素,不利于提高情绪识别的成功率,而且这些方法还增加了总工作量,无法从大量特征中选择出最能区分不同情绪类型的特征,导致通过语音进行情绪识别的方法识别准确率不高,计算复杂。


技术实现要素:

4.本技术提供了一种情绪特征的确定方法和装置、电子设备、存储介质,以至少解决相关技术中的特征选择方法无法从大量特征中选择出最能区分不同情绪类型的特征的技术问题。
5.根据本技术实施例的一个方面,提供了一种情绪特征的确定方法,包括:获取不同情绪类型的多段用户语音;提取每段用户语音在多个特征维度上的特征值;根据各段用户语音在多个特征维度上的特征值获取各特征维度在不同情绪类型之间的特征变化值以及特征阈值;根据特征变化值以及特征阈值从多个特征维度中选取用于语音情绪识别的特征维度,其中,用于语音情绪识别的特征维度的特征变化值不小于特征阈值。
6.根据本技术实施例的另一方面,还提供了一种情绪特征的确定装置,包括:语音获取模块,用于获取不同情绪类型的多段用户语音;特征提取模块,用于提取每段用户语音在多个特征维度上的特征值;参数获取模块,用于根据各段用户语音在多个特征维度上的特征值获取各特征维度在不同情绪类型之间的特征变化值以及特征阈值;特征选取模块,用于根据特征变化值以及特征阈值从多个特征维度中选取用于语音情绪识别的特征维度,其中,用于语音情绪识别的特征维度的特征变化值不小于特征阈值。
7.根据本技术实施例的另一方面,还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器通过计算机程序执行上述的方法。
8.根据本技术实施例的另一方面,还提供了一种存储介质,该存储介质包括存储的程序,程序运行时执行上述的方法。
9.根据本技术的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述方法中任一实施例的步骤。
10.在本技术实施例中,通过比较用户语音在不同特征维度下的特征变化值,从多个候选的特征维度中选取出特征变化值不小于特征阈值特征维度,从而选出了最能区分出不同情绪类型的特征维度,解决了相关技术中的特征选择方法无法从大量特征中选择出最能区分不同情绪类型的特征的技术问题,在语音情绪识别时利用上述情绪特征的确定方法选定的用于语音情绪识别的特征维度的特征数据集进行分类识别,进而达到提高语音情绪识别准确率的技术效果。
附图说明
11.此处所说明的附图用来提供对本技术的进一步理解,构成本技术的一部分,本技术的示意性实施例及其说明用于解释本技术,并不构成对本技术的不当限定。在附图中:
12.图1是根据本技术实施例的情绪特征的确定方法的硬件环境的示意图;
13.图2是根据本技术实施例的一种可选的情绪特征的确定方法的流程图;
14.图3是根据本技术实施例的一种可选的语音情绪识别方法总体框架的示意图;
15.图4是根据本技术实施例的一种可选的情绪特征的确定方法的处理流程的示意图;
16.图5是根据本技术实施例的一种可选的情绪特征的确定装置的示意图;以及,
17.图6是根据本技术实施例的一种终端的结构框图。
具体实施方式
18.为了使本技术领域的人员更好地理解本技术方案,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分的实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本技术保护的范围。
19.需要说明的是,本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
20.本方案可以但不限于应用于智能家居、智能客服、在线教育、智能医疗等领域中需要通过用户语音对用户情绪进行识别以采取对应策略的场景。
21.首先,在对本技术实施例进行描述的过程中出现的部分名词或者术语适用于如下解释:
22.特征选择:特征选择是指从已有的m个特征中选择n个特征使得系统的特定指标最优化,是从原始特征中选择出一些最有效特征以降低数据集维度的过程,也是模式识别中关键的数据预处理步骤。
23.预加重:预加重是一种在发送端对输入信号高频分量进行补偿的信号处理方式,语音信号的预加重,目的是为了对语音的高频部分进行加重,去除口唇辐射的影响,增加语音的高频分辨率。
24.分帧:分帧是指将语音信号分成较短的帧,语音信号是一个准稳态的信号,把它分成较短的帧后,可以将每帧看作稳态信号,用处理稳态信号的方法来处理,为了使一帧与另一帧之间的参数能够平稳过渡,应在相邻两帧之间互相有部分重叠。
25.加窗:将语音信号分帧后,需要对每一帧信号进行分析处理,窗函数一般具有低通特性,加窗函数的目的是减少频域中的泄漏,以实现对特征加强、对干扰信息去除的目的,在语音信号分析中常用的窗函数有矩形窗、汉明窗和汉宁窗,可根据不同的情况选择不同的窗函数。
26.根据本技术实施例的一方面,提供了一种情绪特征的确定方法实施例。
27.可选地,在本实施例中,上述情绪特征的确定方法可以应用于如图1所示的由终端101和服务器103所构成的硬件环境中。如图1所示,服务器103通过网络与终端101进行连接,可用于为终端或终端上安装的客户端提供情绪识别服务,可在服务器上或独立于服务器设置数据库105,用于为服务器103提供数据存储服务,上述网络包括但不限于:广域网、城域网或局域网,终端101并不限定于pc、手机、平板电脑等。本技术实施例的情绪特征的确定方法可以由服务器103来执行,也可以由终端101来执行,还可以是由服务器103和终端101共同执行。其中,终端101执行本技术实施例的情绪特征的确定方法也可以是由安装在其上的客户端来执行。后续以在服务器上执行本技术实施例的一种情绪特征的确定方法实施例方法为例进行说明。
28.图2是根据本技术实施例的一种可选的情绪特征的确定方法的流程图,如图2所示,该方法可以包括以下步骤:
29.步骤s202,服务器获取不同情绪类型的多段用户语音,每段用户语音携带有用于表示用户语音表达的一种情绪类型的情绪标签。
30.上述多段用户语音中的每段语音仅有一种情绪的情绪标签,这多段用户语音中的每个用户语音段可以是独立的一句用户语音;这多段用户语音也可以是对一句或者多句用户语音按照情绪类型拆分得到的(若一句用户语音中有多种情绪,则可以将其拆分成同等数量的用户语音段);当然,这多段用户语音还可以是这两种形式的结合,如其中一部分用户语音段中的每段是独立的一句用户语音,其中一部分用户语音段是从同一句用户语音中拆分得到的。
31.例如,情绪可以分为“生气”、“高兴”、“恐惧”、“悲伤”、“惊讶”和“中性”六种类型,每种情绪类型的情绪标签分别为:生气,标签是“01”;高兴,标签是“02”;恐惧,标签是“03”;悲伤,标签是“04”;惊讶,标签是“05”;中性,标签是“06”。
32.步骤s204,服务器提取每段用户语音在多个特征维度上的特征值,多个特征维度
为候选的用于表达声音特性的特征维度。多个特征维度可以为用户语音的短时能量、梅尔频率倒谱系数(mfcc)、短时过零率、基频、发声概率等多种类型的特征维度。
33.步骤s206,服务器根据各段用户语音在多个特征维度上的特征值获取各特征维度在不同情绪类型之间的特征变化值以及特征阈值。
34.步骤s208,服务器根据特征变化值以及特征阈值从多个特征维度中选取用于语音情绪识别的特征维度,用于语音情绪识别的特征维度的特征变化值不小于特征阈值。
35.每个特征变化值用于表示不同情绪的用户语音在一个特征维度上的区别,由于情绪之间肯定是不同的,那么特征变化值越大(即离散程度越大)越能表现情绪是不同的,选出的用于语音情绪识别的特征维度的特征变化值不小于特征阈值,所选的特征维度是更适合于用于区分情绪的特征维度。
36.通过上述步骤s202至步骤s208,本方案的特征变化值用于表征不同情绪类型的特征值在一个特征维度上的离散程度,特征变化值越大表明特征值的离散程度大,更能够区分不同的情绪类型,根据离散程度的大小判断这一特征维度是否有利于区分出不同的情绪类型,通过比较用户语音在不同特征维度下的特征变化值,从多个候选的特征维度中选取出特征变化值较大的特征维度,从而选出了最能区分出不同情绪类型的特征维度,解决了相关技术中的特征选择方法无法从大量特征中选择出最能区分不同情绪类型的特征的技术问题,在语音情绪识别时利用上述情绪特征的确定方法选定的用于语音情绪识别的特征维度的特征数据集进行分类识别,进而达到提高语音情绪识别准确率的技术效果。
37.在步骤s202提供的技术方案中,服务器获取不同情绪类型的多段用户语音,每段用户语音分别表达一种情绪,并携带有用于表示用户语音表达的一种情绪类型的情绪标签,为了提高语音情绪识别的准确度,用于进行特征选择的多段用户语音应当包含尽可能多的情绪类型。
38.可选地,在本实施例中,服务器可以通过如下多种方式获取符合上述条件的用户语音:(1)从情感语料库中的每一种情绪标签下选取一段用户语音;(2)获取经人工标注的用户语音数据,语音数据中包含多段用户语音及其情绪标签。
39.在步骤s204提供的技术方案中,服务器提取每段用户语音在多个特征维度上的特征值,多个特征维度为候选的特征维度。
40.作为一种可选的实施例,服务器提取每段用户语音在多个特征维度上的特征值,包括:服务器对多段用户语音进行预加重处理,得到第一用户语音,预加重处理用于对多段用户语音中的受损的信号进行补偿;服务器对第一用户语音进行分帧处理,得到以指定采样频率划分为多帧的第二用户语音;服务器对第二用户语音中的每一帧进行加窗处理,得到第三用户语音,加窗处理用于对第二用户语音进行截断,以减少频谱泄漏;服务器采用多个提取方案从第三用户语音中提取每段用户语音在多个特征维度上的特征值,每个提取方案用于提取第三用户语音在一个特征维度上的特征值。
41.可选地,在本实施例中,可以使用开源工具opensmil提取用户语音的特征,得到包含对多个低级函数符(llds)应用统计函数得到用户语音在多个特征维度上的特征值,即特征数据集,一个提取方案是指对一个低级函数符应用一个统计函数,所应用的统计函数可以为以下几种函数:(1)stddev:轮廓中的值的标准偏差;(2)skewness:偏度(3阶矩);(3)kurtosis:峰度(4阶矩);(4)quartile1:第一四分位数(25%百分位数);(5)quartile2:第
一四分位数(50%百分位数);(6)quartile3:第一四分位数(75%百分位数);(7)iqr1

2:四分位数间距:quartile2

quartile1;(8)iqr2

3:四分位数间距:quartile3

quartile2;(9)iqr1

3:四分位数间距:quartile3

quartile1;(10)percentile1.0:轮廓的离群值鲁棒最小值,按1%百分位数表示;(11)percentile99.0:轮廓的离群值鲁棒最大值,按99%百分位数表示;(12)pctlrange0

1:由1%和99%的百分点的范围表示的离群值鲁棒信号范围“max

min”;(13)upleveltime75:信号超过(75%*范围+min)的时间百分比;(14)upleveltime90:信号超过(90%*范围+min)的时间百分比。常用的特征集is09_emotion.conf包含384个特征维度,它是对32个低级描述符应用12个统计函数而得来的,is09_emotion.conf的llds包含短时能量、12阶mfcc、短时过零率、基频、发声概率共5类特征。
42.在步骤s206提供的技术方案中,服务器根据各段用户语音在多个特征维度上的特征值获取各特征维度在不同情绪类型之间的特征变化值以及特征阈值。
43.作为一种可选的实施例,服务器根据各段用户语音在多个特征维度上的特征值获取各特征维度在不同情绪类型之间的特征变化值以及特征阈值包括:根据各段用户语音在多个特征维度上的特征值获取各特征维度在不同情绪类型之间的特征变化值;根据各特征维度在不同情绪类型之间的特征变化值确定特征阈值。
44.可选地,在本实施例中,服务器根据各段用户语音在多个特征维度上的特征值获取各特征维度在不同情绪类型之间的特征变化值包括按照如下方式确定目标特征维度在多种情绪类型之间的特征变化值:其中,f
c

mean
(i)表示目标特征维度在多种情绪类型之间的特征变化值,n表示多段用户语音包含的情绪类型的数量,f
mean
(j,i)表示情绪标签为第j种情绪的用户语音在目标特征维度上的特征平均值,f
mean
(k,i)表示情绪标签为第k种情绪的用户语音在目标特征维度上的特征平均值,f
mean
(j,i)

f
mean
(k,i)表示在目标特征维度上不同情绪类型的特征平均值的差值,特征变化值相当于在目标特征维度上所有不同情绪类型的特征平均值的累计差值的平均值,用于表示不同情绪类型的特征平均值在目标特征维度上的离散程度,离散程度越大,越能够根据该特征维度区分出不同的情绪类型。
45.例如,若共有4种情绪类型,则目标特征维度的特征变化值为若f
mean
(1,i)=3,f
mean
(2,i)=2,f
mean
(3,i)=5,f
mean
(4,i)=6,则
46.特征变化值可以表示在一个特征维度上任意两个情绪的特征平均值的累积差值,公式中的阶乘可以消除,消除后为因为有两层累加,前面乘以统一量纲,方便计算。
47.可选地,在本实施例中,服务器根据各特征维度在不同情绪类型之间的特征变化值确定特征阈值,确定特征阈值包括:获取各特征维度在不同情绪类型之间的特征变化值
的平均值;将特征变化值的平均值作为特征阈值。
48.可选地,在本实施例中,服务器按照如下公式确定特征阈值:其中,th
mn
表示特征阈值,f
c

mean
(i)表示第i个特征维度的特征变化值,m表示多个特征维度的数量。
49.例如,若共有3个特征维度,第1个特征维度的特征变化值为2,第2个特征维度的特征变化值为4;第3个特征维度c的特征变化值为3,则特征阈值为特征变化值不小于特征阈值的是第2个特征维度和第3个特征维度。
50.可选地,在本实施例中,服务器还可以按照如下方式确定特征阈值:将多个特征维度按照特征值从大到小(或从小到大)排列,选取位于队首(或队尾)的第n个(或者按照比例选取)特征维度的特征值(特征平均值)作为特征阈值,n或者比例可以根据实际需求来确定,例如,实际至少需要5个特征,那么就可以将n的值设为5或者比5更大的数值。
51.例如,多个特征维度的特征值(特征平均值)从小到大排列为:1、2、3、4、5、6、7、8、9,将位于队首的第5个特征维度的特征值作为特征阈值,特征阈值为5。
52.在步骤s208提供的技术方案中,服务器根据特征变化值以及特征阈值从多个特征维度中选取用于语音情绪识别的特征维度,其中,用于语音情绪识别的特征维度的特征变化值不小于特征阈值,每个特征变化值用于表示不同情绪的用户语音在一个特征维度上的区别,特征变化值越大,说明该特征维度与情绪的关联性越大,越有利于准确识别出用户语音表达的情绪类型。一段语音序列中,经过特征提取能够提取出多个特征维度,其中有和情绪密切相关的,也有联系不大的,需要对这些特征进行再次处理,筛选出与情绪密切相关的特征维度,这种处理方式,一能够提高情绪识别的准确性;二能减少特征数据集,从而提高计算效率。
53.可选地,在本实施例中,选取用于语音情绪识别的特征维度的过程可以用公式表示为f(i)表示用户语音在一个特征维度上的特征值,表示如果一个特征维度中,计算得到的特征变化值f
c

mean
(i)大于设定的阈值th
mn
,则保留,反之舍弃。
54.可选地,在本实施例中,服务器获取多段用户语音中具有相同情绪类型的所有用户语音在一特征维度上的特征平均值,包括:根据情绪类型,从多段用户语音在该特征维度上的特征值中提取一情绪类型的用户语音在该特征维度上的特征值;根据该情绪类型的用户语音在该特征维度上的特征值,获取该情绪类型的用户语音在该特征维度上的特征平均值。
55.可选地,在本实施例中,服务器可以根据如下公式确定特征平均值:f
mean
(l,i)表示第l种情绪在第i个特征维度上的特征平均值,f(l,i)表示第l种情绪在第i个特征维度上的特征值,c表示特征值的数量。
56.例如,第1种情绪在第1个特征维度上的特征值(即情绪标签为“01”的用户语音在
第1个特征维度上的特征值)为:1,4,2,3;此时特征值的数量c为4,特征平均值为2.5。
57.本技术还提供了一种可选实施例,该可选实施例以与上述实施例相似的方式确定特征平均值、特征变化值、特征阈值,即用取中位数代替所有取平均值的操作。
58.本技术还提供了一种可选实施例,该可选实施例以与上述实施例相似的方式确定特征变化值,即用取方差、标准差、极差或平均差的操作代替取累计差值的平均值的操作。
59.本技术还提供了一种可选实施例,服务器在根据特征变化值以及特征阈值从多个特征维度中选取用于语音情绪识别的特征维度之后,按照如下方式进行语音情绪识别:服务器采集语音片段,语音片段为待识别情绪类型的语音片段;服务器在用于语音情绪识别的特征维度上对语音片段进行特征提取,得到语音片段在用于语音情绪识别的特征维度上的特征值;服务器利用语音片段在用于语音情绪识别的特征维度上的特征值进行情绪识别,得到识别结果,其中,识别结果用于表示语音片段表达的情绪类型。
60.本方案定义了特征变化值这一参数,特征变化值用于表征不同情绪类型的特征值在目标特征维度上的离散程度,根据离散程度的大小判断目标特征维度是否有利于区分出不同的情绪类型,从多个候选的特征维度中选取出特征变化值较大的用于语音情绪识别的特征维度,从而选出了最能区分出不同情绪类型的特征维度,保留了与情绪密切相关的特征值,减少了与情绪关联不大的特征值,解决了相关技术中的特征选择方法无法从大量特征中选择出最能区分不同情绪类型的特征的技术问题,在语音情绪识别时利用上述情绪特征的确定方法选定的用于语音情绪识别的特征维度的特征数据集进行分类识别,进而达到提高语音情绪识别准确率的技术效果,此外,由于对特征数据集做了筛选,能够减少特征数据集,减少了计算量,从而提高了计算效率。
61.作为一种可选的实施例,下文结合具体实施方式示意性的描述本技术的技术方案:
62.在智能语音客服领域,不仅需要对用户语音的内容进行识别,还需要识别用户的情绪,对用户的“生气”、“恐惧”等消极情绪及时采取安抚策略,提高用户对智能语音客服的整体满意度,以更好地对用户潜在的业务需求进行评价,从而有助于实现精准化营销。
63.在智能语音客服与用户的对话过程中,服务器对用户语音的情绪识别过程总体分为输入、预处理、特征提取、特征选择、分类识别五大部分。根据本技术实施例的一种可选的语音情绪识别方法总体框架的示意图如图3所示。
64.步骤1,输入:采集语音片段,将语音信号作为输入;
65.步骤2,预处理:通过预处理模块对输入的语音信号依次进行预加重、分帧和加窗操作;
66.步骤3,特征提取,利用特征提取工具包提取语音片段在多个特征维度上的特征值;
67.步骤4,特征选择,在特征选择部分,对特征提取部分提取出的各种特征进行筛选操作,从而选择出与情绪特征最相关的一些特征(选出本技术实施例中用于语音情绪识别的特征维度的特征数据集);
68.步骤5,分类识别,将筛选后的特征数据集输入到分类识别部分进行分类识别操作,得到识别结果。
69.如果用户语音表述的内容为:“为什么这个产品夜间无法使用?”,若不进行情绪识
别,智能语音客服会根据语音内容解答问题,回复:“因为没有打开夜间模式,希望能解答您的疑问”;若进行情绪识别后,识别到用户语音的情绪类型为“生气”,智能语音客服将采取安抚策略:“十分抱歉,给您带来了不好的体验,有什么问题我会尽我所能帮您解决的,可能是因为没有打开夜间模式,您可以先打开试试”。
70.采用本技术实施例中的情绪特征的确定方法选出的特征维度进行情绪识别,有利于提高语音情绪识别准确率,从而提升智能语音客服的服务质量。一段包含多种情绪的语音序列中,经过特征提取能够提取出多种特征,得到每种特征对应的特征值f(i),将第l种情绪在第i个特征维度上的特征值表示为f(l,i),根据本技术实施例的一种可选的情绪特征的确定方法的处理流程的示意图如图4所示,情绪特征的确定方法的处理流程为:
71.步骤1,计算情绪特征平均值:c表示第l种情绪在第i个特征维度上特征值的数量;
72.步骤2,计算一个特征序列中的情绪特征变化值:n表示语音序列中包含的情绪类型的数量,j表示第j种情绪,k表示第k种情绪;
73.步骤3,计算情绪特征阈值:m表示多个特征维度的数量;
74.步骤4,根据阈值对特征序列的所有特征值进行筛选:如果一个特征中,计算得到的情绪特征变化值大于设定的阈值,则保留,反之舍弃;
75.步骤5,得到筛选后的特征值。
76.需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本技术并不受所描述的动作顺序的限制,因为依据本技术,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本技术所必须的。
77.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本技术各个实施例所述的方法。
78.根据本技术实施例的另一个方面,还提供了一种用于实施上述情绪特征的确定方法的情绪特征的确定装置。图5是根据本技术实施例的一种可选的情绪特征的确定装置的示意图,如图5所示,该装置可以包括:语音获取模块52,用于获取不同情绪类型的多段用户语音;特征提取模块54,用于提取每段用户语音在多个特征维度上的特征值;参数获取模块
56,用于根据各段用户语音在多个特征维度上的特征值获取各特征维度在不同情绪类型之间的特征变化值以及特征阈值;特征选取模块58,用于根据特征变化值以及特征阈值从多个特征维度中选取用于语音情绪识别的特征维度,其中,用于语音情绪识别的特征维度的特征变化值不小于特征阈值。
79.需要说明的是,该实施例中的语音获取模块52可以用于执行本技术实施例中的步骤s202,该实施例中的特征提取模块54可以用于执行本技术实施例中的步骤s204,该实施例中的参数获取模块56可以用于执行本技术实施例中的步骤s206,该实施例中的特征选取模块58可以用于执行本技术实施例中的步骤s208。
80.此处需要说明的是,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在如图1所示的硬件环境中,可以通过软件实现,也可以通过硬件实现。
81.通过上述模块,可以解决了相关技术中的特征选择方法无法从大量特征中选择出最能区分不同情绪类型的特征的技术问题,在语音情绪识别时利用上述情绪特征的确定方法选定的用于语音情绪识别的特征维度的特征数据集进行分类识别,进而达到提高语音情绪识别准确率的技术效果。
82.作为一种可选的实施例,参数获取模块56包括:获取单元,用于根据各段用户语音在多个特征维度上的特征值获取各特征维度在不同情绪类型之间的特征变化值;确定单元,用于根据各特征维度在不同情绪类型之间的特征变化值确定特征阈值。
83.可选地,确定单元还用于:获取各特征维度在不同情绪类型之间的特征变化值的平均值;将特征变化值的平均值作为特征阈值。
84.可选地,获取单元还用于:获取多段用户语音中具有相同情绪类型的所有用户语音在一特征维度上的特征平均值;根据各情绪类型下的用户语音在特征维度上的特征平均值,获取特征维度在不同情绪类型之间的特征变化值。
85.可选地,获取单元还用于:按照如下方式确定特征维度在不同情绪类型之间的特征变化值:其中,f
c

mean
(i)表示特征维度在多种情绪类型之间的特征变化值,n表示多段用户语音包含的情绪类型的数量,f
mean
(j,i)表示情绪类型为第j种情绪的用户语音在特征维度上的特征平均值,f
mean
(k,i)表示情绪类型为第k种情绪的用户语音在特征维度上的特征平均值。
86.可选地,获取单元还用于:根据情绪类型,从多段用户语音在一特征维度上的特征值中提取一情绪类型的用户语音在该特征维度上的特征值;根据该情绪类型的用户语音在该特征维度上的特征值,获取该情绪类型的用户语音在该特征维度上的特征平均值。。
87.作为一种可选的实施例,特征提取模块54包括:预加重单元,用于对各用户语音进行预加重处理;分帧单元,用于对预加重后的用户语音进行分帧处理;加窗单元,用于对分帧后的每一帧进行加窗处理;提取单元,用于从加窗后的语音中提取用户语音在多个特征维度上的特征值。
88.作为一种可选的实施例,情绪特征的确定装置还包括识别单元,用于按照如下方式进行语音情绪识别:采集语音片段,其中,语音片段为待识别情绪类型的语音片段;提取语音片段在用于语音情绪识别的特征维度上的特征值;利用语音片段在用于语音情绪识别
的特征维度上的特征值进行情绪识别,得到识别结果,其中,识别结果用于表示语音片段表达的情绪类型。
89.此处需要说明的是,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在如图1所示的硬件环境中,可以通过软件实现,也可以通过硬件实现,其中,硬件环境包括网络环境。
90.根据本技术实施例的另一个方面,还提供了一种用于实施上述情绪特征的确定方法的服务器或终端。
91.图6是根据本技术实施例的一种终端的结构框图,如图6所示,该终端可以包括:一个或多个(图6中仅示出一个)处理器601、存储器603、以及传输装置605,如图6所示,该终端还可以包括输入输出设备607。
92.其中,存储器603可用于存储软件程序以及模块,如本技术实施例中的情绪特征的确定方法和装置对应的程序指令/模块,处理器601通过运行存储在存储器203内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的情绪特征的确定方法。存储器603可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器603可进一步包括相对于处理器601远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
93.上述的传输装置605用于经由一个网络接收或者发送数据,还可以用于处理器与存储器之间的数据传输。上述的网络具体实例可包括有线网络及无线网络。在一个实例中,传输装置605包括一个网络适配器(network interface controller,nic),其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中,传输装置605为射频(radio frequency,rf)模块,其用于通过无线方式与互联网进行通讯。
94.其中,具体地,存储器603用于存储应用程序。
95.处理器601可以通过传输装置605调用存储器603存储的应用程序,以执行下述步骤:获取不同情绪类型的多段用户语音;提取每段用户语音在多个特征维度上的特征值;根据各段用户语音在多个特征维度上的特征值获取各特征维度在不同情绪类型之间的特征变化值以及特征阈值;根据所述特征变化值以及所述特征阈值从多个特征维度中选取用于语音情绪识别的特征维度,其中,所述用于语音情绪识别的特征维度的特征变化值不小于所述特征阈值。
96.采用本技术实施例,提供了一种情绪特征的确定方案。通过比较用户语音在不同特征维度下的特征变化值,从多个候选的特征维度中选取出特征变化值较大的用于语音情绪识别的特征维度,从而选出了最能区分出不同情绪类型的特征维度,解决了相关技术中的特征选择方法无法从大量特征中选择出最能区分不同情绪类型的特征的技术问题,在语音情绪识别时利用上述情绪特征的确定方法选定的用于语音情绪识别的特征维度的特征数据集进行分类识别,进而达到提高语音情绪识别准确率的技术效果。
97.可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例在此不再赘述。
98.本领域普通技术人员可以理解,图6所示的结构仅为示意,终端可以是智能手机
(如android手机、ios手机等)、平板电脑、掌上电脑以及移动互联网设备(mobile internet devices,mid)、pad等终端设备。图6其并不对上述电子设备的结构造成限定。例如,终端还可包括比图6中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图6所示不同的配置。
99.本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(read

only memory,rom)、随机存取器(random access memory,ram)、磁盘或光盘等。
100.本技术的实施例还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以用于执行情绪特征的确定方法的程序代码。
101.可选地,在本实施例中,上述存储介质可以位于上述实施例所示的网络中的多个网络设备中的至少一个网络设备上。
102.可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:
103.获取不同情绪类型的多段用户语音;提取每段用户语音在多个特征维度上的特征值;根据各段用户语音在多个特征维度上的特征值获取各特征维度在不同情绪类型之间的特征变化值以及特征阈值;根据所述特征变化值以及所述特征阈值从多个特征维度中选取用于语音情绪识别的特征维度,其中,所述用于语音情绪识别的特征维度的特征变化值不小于所述特征阈值。
104.可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例在此不再赘述。
105.可选地,在本实施例中,上述存储介质可以包括但不限于:u盘、只读存储器(rom,read

only memory)、随机存取存储器(ram,random access memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
106.上述本技术实施例序号仅仅为了描述,不代表实施例的优劣。
107.上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。
108.在本技术的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
109.在本技术所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
110.所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显
示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
111.另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
112.以上所述仅是本技术的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本技术原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本技术的保护范围。