首页 > 乐器声学 专利正文
语音评价方法、装置、计算机设备及存储介质与流程

时间:2022-02-24 阅读: 作者:专利查询

语音评价方法、装置、计算机设备及存储介质与流程

1.本发明涉及人工智能领域,尤其涉及一种语音评价方法、装置、计算机设备及存储介质。


背景技术:

2.目前,市面上存在不少的语音交互工具,可以实现人机之间的语音交互。然而,此类工具要么是面向客户,要么是功能助手,无法提升专业服务人员的个人能力。对于一些专业的服务人员,如保险代理人等,在一些情况下,需要脱离语音交互工具与客户交流。
3.因而,需要寻找一种语音评价方法,可以分析出代理人的语音评价指标,使代理人实时了解自身说话状态,进而调节自我情绪,提高代理人的沟通能力。


技术实现要素:

4.基于此,有必要针对上述技术问题,提供一种语音评价方法、装置、计算机设备及存储介质。
5.一种语音评价方法,包括:
6.获取代理人的语音数据;
7.通过识别系统解析所述语音数据,生成话语文本;通过预设解析算法从所述语音数据提取所述代理人的语音特征;
8.通过预设语义分析模型处理所述话语文本,生成语义分析数据;根据所述语音特征计算所述语音数据的音子似然度;
9.根据所述语义分析数据和所述音子似然度生成所述代理人的语音评价指标。
10.一种语音评价装置,包括:
11.获取模块,用于获取代理人的语音数据;
12.特征解析模块,用于通过识别系统解析所述语音数据,生成话语文本;通过预设解析算法从所述语音数据提取所述代理人的语音特征;
13.获得解析结果模块,用于通过预设语义分析模型处理所述话语文本,生成语义分析数据;根据所述语音特征计算所述语音数据的音子似然度;
14.生成评价指标模块,用于根据所述语义分析数据和所述音子似然度生成所述代理人的语音评价指标。
15.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现上述语音评价方法。
16.一个或多个存储有计算机可读指令的可读存储介质,所述计算机可读指令被一个或多个处理器执行时,使得所述一个或多个处理器执行如上述语音评价方法。
17.上述语音评价方法、装置、计算机设备及存储介质,通过获取代理人的语音数据,以获得用于分析语音评价指标的语音数据。通过识别系统解析所述语音数据,生成话语文
本;通过预设解析算法从所述语音数据提取所述代理人的语音特征,在此处,一方面将语音数据转换为话语文本,以便于语义分析,另一方面,则从语音数据中提取语音特征,以便于分析语音。通过预设语义分析模型处理所述话语文本,生成语义分析数据;根据所述语音特征计算所述语音数据的音子似然度,在此处,通过语义分析和音子似然度的计算,可以快速获取代理人表达的语义,识别代理人的情绪、语速。根据所述语义分析数据和所述音子似然度生成所述代理人的语音评价指标,在此处,语音评价指标包括代理人说话的语速和代理人的情绪。本发明可以分析出代理人的语音评价指标,使代理人实时了解自身说话状态,进而代理人可以调节自我情绪,提高代理人的沟通能力。
附图说明
18.为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
19.图1是本发明一实施例中语音评价方法的一应用环境示意图;
20.图2是本发明一实施例中语音评价方法的一流程示意图;
21.图3是本发明一实施例中语音评价装置的一结构示意图;
22.图4是本发明一实施例中计算机设备的一示意图。
具体实施方式
23.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
24.本实施例提供的语音评价方法,可应用在如图1的应用环境中,其中,客户端与服务端进行通信。其中,客户端包括但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
25.本实施例提供的语音评价方法,可应用于“保险代理人智能陪练系统”(intelligent sessions system for insurance agents)。该系统借助本实施例提供的方法,可以了解代理人的语音表达能力,从而有针对性地对代理人进行专项训练。
26.在一实施例中,如图2所示,提供一种语音评价方法,以该方法应用在图1中的服务端为例进行说明,包括如下步骤s10

s40。
27.s10、获取代理人的语音数据。
28.可理解地,代理人可以指保险代理人或者其他服务行业的从业人员。在此处,其他服务行业包括但不限于金融行业、消费品行业、教育行业、物业管理行业。
29.语音数据可以指代理人自我训练或与客户交流产生的语音数据。在一些情况下,语音数据也可以指用于训练的语音数据。此时,语音数据的发音人并不一定是代理人,而是充当代理人的角色。
30.在一些示例中,语音数据可以是经预处理生成的数据。预处理的步骤包括但不限于筛选、去噪、增扩。
31.s20、通过识别系统解析所述语音数据,生成话语文本;通过预设解析算法从所述语音数据提取所述代理人的语音特征。
32.可理解地,识别系统可以用于将语音数据转化为文本数据,即话语文本。在识别系统中,预先设置了若干校对工具,可以减少文本数据的错别字。
33.预设解析算法可以根据实际需要进行设置。预设解析算法可以将语音数据转换为更容易处理的语音特征。在此处,语音特征包括但不限于mfcc(mel

frequency cepstral coefficients,梅尔倒频谱参数)特征。
34.s30、通过预设语义分析模型处理所述话语文本,生成语义分析数据;根据所述语音特征计算所述语音数据的音子似然度。
35.可理解地,预设语义分析模型可以根据实际需要进行设置。在一示例中,预设语义分析模型可以计算出话语文本中的若干语义信息,形成语义分析数据。在此处,语义分析数据包括但不限于预设关键词及其出现频次、业务场景、业务流程、词语或语句的褒贬。
36.音子似然度指的是若干语音片段的概率值的乘积。一般情况下,语音数据分割出大量的语音片段。若直接计算各个概率值的乘积,乘积越来越小,导致数字下溢。因而,因子似然度可以用对数和表示。
37.s40、根据所述语义分析数据和所述音子似然度生成所述代理人的语音评价指标。
38.可理解地,将音子似然度和语义分析数据相结合,可以得到代理人的语音评价指标。语音评价指标包括但不限于代理人说话的语速和代理人的情绪。可以将语音评价指标通过前端界面直观地展示给代理人,使代理人根据反馈结果(语音评价指标),实时了解自身说话状态,及时调节自我情绪。
39.在一些示例中,可以使用深度学习(dl,deep learning)神经网络对代理人的语音数据进行学习,学习语音数据的内在规律和表示层次。该神经网络支持语音数据的增加和修改。语音数据不光随着代理人在“保险代理人智能陪练系统”的不断闯关而增加。同时可以在语音数据中增加新的真实对话,极大幅度的提高语音数据的扩展性。只需对新增语音数据做简单的数据标注,就可以通过神经网络对新增语音数据进行训练,不断的提高“保险代理人智能陪练系统”的准确率。
40.除了通过增加语音数据提升系统的准确率之外,还可以在有新的性能需求时,通过增加语音数据的种类,增加新的数据类型,同时修改算法中的输出模型的类别,实现新的语音评价指标的输出。本实施例可以在不同环境、不同需求的情况下对系统进行修改,大大提升了系统算法的扩展性,使系统开发更加方便。
41.步骤s10

s40中,获取代理人的语音数据,以获得用于分析语音评价指标的语音数据。通过识别系统解析所述语音数据,生成话语文本;通过预设解析算法从所述语音数据提取所述代理人的语音特征,在此处,一方面将语音数据转换为话语文本,以便于语义分析,另一方面,则从语音数据中提取语音特征,以便于分析语音。通过预设语义分析模型处理所述话语文本,生成语义分析数据;根据所述语音特征计算所述语音数据的音子似然度,在此处,通过语义分析和音子似然度的计算,可以快速获取代理人表达的语义,识别代理人的情绪、语速。根据所述语义分析数据和所述音子似然度生成所述代理人的语音评价指标,在此
处,语音评价指标包括代理人说话的语速和代理人的情绪。本实施例可以分析出代理人的语音评价指标,使代理人实时了解自身说话状态,进而代理人可以调节自我情绪,提高代理人的沟通能力。
42.可选的,步骤s40之后,即所述根据所述语义分析数据和所述音子似然度生成所述代理人的语音评价指标之后,还包括:
43.s50、将所述语音评价指标发送给与所述代理人关联的输出设备,以使所述代理人通过所述输出设备接收所述语音评价指标;
44.s60、根据所述语音评价指标生成客户响应参数;
45.s70、根据所述客户响应参数生成用于与所述代理人进行交互的模拟客户语音。
46.可理解地,与代理人关联的输出设备可以指与个人计算机连接的显示屏,手机显示屏、或者是扬声器。通过输出设备,语音评价指标可以采用文本、图片或者语音的方式进行展示,进而被代理人接收。
47.可以根据代理人的语音评价指标生成客户响应参数。在此处,客户响应参数包括但不限于对话内容参数、对话语音参数。对话内容参数用于设置模拟客户语音的对话内容。对话语音参数用于设置模拟客户语音的语速、语调等语音参数。
48.可选的,步骤s20中,即所述通过预设解析算法从所述语音数据提取所述代理人的语音特征,包括:
49.s201、将所述语音数据处理为预设规格的语音片段;
50.s202、对所述语音片段进行预加重和加窗处理,获得加窗信号;计算所述语音片段的能量系数;
51.s203、对所述加窗信号进行离散傅里叶变换,获得变换结果;
52.s204、通过梅尔滤波器处理所述变换结果,获得梅尔声谱;
53.s205、对所述梅尔声谱进行逆向傅里叶变换,获得倒谱系数;
54.s206、根据所述倒谱系数计算所述语音数据的一阶差分倒谱系数和二阶差分倒谱系数;根据所述能量系数计算所述语音数据的一阶差分能量系数和二阶差分能量系数;
55.s207、根据所述倒谱系数、所述一阶差分倒谱系数、所述二阶差分倒谱系数、所述能量系数、所述一阶差分能量系数和所述二阶差分能量系数,生成所述语音特征。
56.可理解地,预设规格指的是语音片段的时间框架,通常是10ms、15ms或20ms。语音数据的声学波形按照语音片段的预设规格进行抽样,并生成相应的声谱特征(即语音特征)。每一个时间框架的窗口用矢量来表示,每一个矢量包括大约39个特征,用以表示声谱的信息以及能量大小和声谱变化的信息。
57.需要对语音片段进行预加重,即加重高频段的能量。由于声门脉冲的特性,导致声音中频率高的能量下降时出现声谱斜移现象。加重高频端的能量,可以使具有较高的共振峰的信息更加适合于声学模型,从而改善音子探测的精确性。在这里。用于预加重的滤波器可以是一阶高通滤波器。
58.然后对语音片段进行加窗处理。因语音数据是非平稳信号,在整段的话语或会话中,声谱的变化非常快,从整段的话语中抽取声谱特征相对较难。因而,可以采用加窗的方法抽取声谱特征。假定在这个窗口内的语音信号是平稳的。在mfcc抽取中,可以使用汉明窗。汉明窗在窗口的边界处把信号值收缩到零,从而避免了信号的不连续性。
59.假定窗口的长度为l帧,汉明窗公式如下:
[0060][0061]
其中,n为时间,w[n]为时间n的窗口值,l为窗口的长度。
[0062]
对加窗信号进行离散傅里叶变换,获得变换结果。具体的,将加窗信号x[n]

x[m],对于n个离散频带中的每一个频带,输出一个复杂的数x[k]。离散傅里叶变换的计算过程可参考现有文献,在此不再赘述。在傅里叶分析时使用欧拉公式进行计算。
[0063]
离散傅里叶变换的公式如下:
[0064][0065]
其中,x[k]为经过离散傅里叶变换后原信号中频率成分的振幅和相位;
[0066]
x[n]为时间n的加窗信号;
[0067]
k=0,1,2,...,n

1,x
n
为采样的模拟信号,j为一个虚数单位。
[0068]
欧拉公式如下:
[0069]
e

=cosθ+j sinθ
[0070]
其中,θ为任意实数,j为一个虚数单位。
[0071]
然后,可以通过梅尔滤波器处理变换结果,获得梅尔声谱。具体的,变换结果是关于每一个频带上的能量大小的信息。根据定义,如果一对语音在感知上的音高听起来是等距离的,那么,它们就可以用相同数目的梅尔标度(mel)分开。在低于1000hz时,用hz表示的频率与梅尔标度之间的映射是线性关系;在高于1000hz时,这种映射是对数关系。
[0072]
梅尔标度的频率可以根据粗糙的声学频率来计算:
[0073][0074]
其中,mel(f)表示梅尔标度的频率;
[0075]
f为每一个频带的能量。
[0076]
在计算时,可以建立一个滤波器组来实现这种映射。在这个滤波器组中,收集了来自每一个频带的能量,低于1000hz的频带的10个滤波器按照线性分布;其他的高于1000hz的频带滤波器,按照对数分布。最后,可以使用对数来表示梅尔标度的声谱值(即梅尔声谱)。
[0077]
可以对梅尔声谱进行逆向傅里叶变换,获得倒谱系数。倒谱系数为对数声谱的声谱之。为了减少计算复杂度,可以忽略梅尔声谱(mfcc)中的预加重和梅尔变形的部分,只取前12个倒谱系数。这些倒谱系数除了用于识别语音以外,还用于识别代理人的情绪。因此,可以使用较高的倒谱系数来探测音高的音子。
[0078]
对于语音数据的一个窗口帧x[n],其倒谱系数为:
[0079][0080]
其中,c[n]为窗口帧x[n]对数幅值谱的逆傅立叶变换,即为倒谱系数;
[0081]
k=0,1,2,...,n

1;
[0082]
x[n]为采样的模拟信号;
[0083]
j为一个虚数单位。
[0084]
在用逆向离散傅里叶变换抽取倒谱时,每一个帧有12个倒谱系数。可以加上一个用于表征帧能量的能量系数。能量系数与音子的识别是相关的。能量系数可用于探测代理人的情绪。
[0085]
能量系数指的是,某一帧在某一时段内的样本幂的总和,公式如下:
[0086][0087]
其中,x为信号,t为从时刻t1到t2的窗口。
[0088]
从一个帧到另一个帧,语音信号是不恒定的。共振峰在转换时的斜坡的变化,塞音从成阻到爆破的变化,这些都可能给语音的探测提供有用的线索。所以可以加上倒谱特征中与时间变化有联系的特征。
[0089]
对于13个特征的每一个特征都加上delta特征和双delta特征。计算delta特征的方法是计算帧与帧之间的差。在时间t特定的情况下公式如下:
[0090][0091]
其中,d(t)为t时刻的delta特征(也即是一阶差分倒谱系数);
[0092]
c(t+1)为t+1时刻的倒谱系数;
[0093]
c(t

1)为t

1时刻的倒谱系数。
[0094]
双delta特征即为二阶差分倒谱系数。
[0095]
在一示例中,生成的语音特征包括39个mfcc特征,分别为:12个倒谱系数、12个一阶差分倒谱系数(delta特征)、12个二阶差分能量系数(双delta特征)、1个能力系数、1个一阶差分能量系数(delta能量系数)、1个二阶差分能量系数(双delta能量系数)。
[0096]
在一些示例中,为了方便训练过程中的调试,可以在语音特征提取时,事先对整个数据集进行特征提取,然后将提取的语音特征存储在额外的硬盘空间上。训练模型时,直接读取已经提取完成的语音特征文件。这个方法使得训练过程时间得到了较大的提升。而且,在训练多个模型来比较效果时,就不用再次特征提取。在出现问题时,可以比较方便的查看是否是因为特征提取导致的。
[0097]
语音特征的正则化,可以先用小部分数据进行特征提取,然后从这些特征中计算出均值向量和标准差向量,将这两个向量保存起来;对完整数据进行特征提取时,再利用这两个向量对语音特征进行正则化。
[0098]
在另一些示例中,可以使用数据增强增加语音数据的样本量。数据增强包括但不
限于如下4种方法。1、改变语音信号的音量。这样可以让预设解析算法对不同音量的信号具备更好的鲁棒性。2、改变语音信号的采样率。考虑到传统的电话线路用8000hz的采样率老传输信号,通过改变训练数据的采样率,可以让模型在更多的场景下稳定工作。3、对语音信号的速度进行扰动,用以模拟不同的语速变化。4、对语音信号的基频进行扰动。
[0099]
可选的,步骤s30中,即所述根据所述语音特征计算所述语音数据的音子似然度包括:
[0100]
s301、通过音子似然度计算模型处理所述语音特征,生成所述音子似然度,所述音子似然度计算模型包括:
[0101][0102]
其中,logb
j
(o
t
)表示特征矢量o
t
在特定状态j下的概率值的对数;
[0103]
d代表计算声音的宽度,d为最大的声音宽度;
[0104]
表示在声音宽度d下特定状态j的方差;
[0105]
μ
jd
表示在声音宽度d下特定状态j的平均值。
[0106]
可理解地,为了计算一个完整句子的似然度,需要把很多很小的概率值相乘,把很多的概率值相乘会使得相乘的结果的数字越来越小,从而导致数字下溢。因而,需要采用对数进行计算音子似然度。而且在计算对数概率时,不是把概率相乘,而是把对数概率相加,这样可以加快计算速度。
[0107]
可选的,步骤s30中,即所述通过预设语义分析模型处理所述话语文本,生成语义分析数据包括:
[0108]
s302、识别出所述话语文本中的若干提示短语;
[0109]
s303、根据所述若干提示短语将所述话语文本划分为若干话语片段;
[0110]
s304、根据所述提示短语解析连续的话语片段之间的关联关系,并确定所述关联关系的类别;
[0111]
s305、根据所述关联关系和类别生成所述语义分析数据。
[0112]
可理解地,可以预设若干关键词,通过关键词匹配的方式识别出提示短语(提示短语属于关键词或者关键词的同义词)。可以根据提示短语在话语文本中的文本位置,将话语文本划分为若干话语片段。可以根据提示短语解析连续的话语片段之间的关联关系。在一些示例中,这些提示短语可以是逻辑连接词,如第一话语片段的提示短语包括“虽然”,第二话语片段的提示短语包括“但是”。第一话语片段和第二话语片段之间的关联关系为转折关系。关联关系的类别可以根据实际需要进行设置,如可以基于词语的褒贬含义进行划分,或者是基于业务场景进行划分。最终生成的语义分析数据包括上述关联关系和类别。
[0113]
可选的,步骤s10,即所述获取代理人的语音数据,包括:
[0114]
s101、获取代理人的原始语音数据;
[0115]
s102、通过人声检测模型对所述原始语音数据进行识别,获取所述原始语音数据的第一识别结果;
[0116]
s103、通过声纹识别模型对所述第一识别结果为包含人声的原始语音数据进行识
别,获取第二识别结果;
[0117]
s104、根据所述第二识别结果从所述原始语音数据筛选出所述语音数据。
[0118]
可理解地,原始语音数据指的是未经预处理的语音数据。原始语音数据的品质一般较差,存在较多错误数据,如空白音频、与代理人身份不匹配的音频。
[0119]
人声检测模型用于检查原始语音数据是否包含人声,并生成第一识别结果。在第一识别结果中,原始语音数据区分为“包含人声”和“不包含人声”。
[0120]
为了防止语音数据中出现错误标注数据,可以使用声纹识别模型对包含人声的原始语音数据进行筛选。在包含人声的原始语音数据集中,基于每一个说话人的所有音频计算出嵌入码,然后求取各个同一个人的音频的嵌入码中心。对于同一说话人,根据每一音频与嵌入码中心的差值,为差值超出预设嵌入码阈值的原始语音数据增加“非本人”的标签,为差值不超出预设嵌入码阈值的原始语音数据增加“本人”的标签,即为第二识别结果。从原始语音数据筛选出包含“本人”标签的数据,即为预处理后的语音数据。
[0121]
可选的,所述语音评价指标包括语速、情绪和语音准确度中的至少一种。
[0122]
可理解地,基于语义分析数据和音子似然度生成的语音评价指标,包括但不限于语速、情绪和语音准确度。通过这些语音评价指标,可以客观反映代理人的语音表达信息,使代理人实时了解自身说话状态,进而代理人可以调节自我情绪,提高代理人的沟通能力。
[0123]
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
[0124]
在一实施例中,提供一种语音评价装置,该语音评价装置与上述实施例中语音评价方法一一对应。如图3所示,该语音评价装置包括获取模块10、特征解析模块20、获得解析结果模块30和生成评价指标模块40。各功能模块详细说明如下:
[0125]
获取模块10,用于获取代理人的语音数据;
[0126]
特征解析模块20,用于通过识别系统解析所述语音数据,生成话语文本;通过预设解析算法从所述语音数据提取所述代理人的语音特征;
[0127]
获得解析结果模块30,用于通过预设语义分析模型处理所述话语文本,生成语义分析数据;根据所述语音特征计算所述语音数据的音子似然度;
[0128]
生成评价指标模块40,用于根据所述语义分析数据和所述音子似然度生成所述代理人的语音评价指标。
[0129]
可选的,语音评价装置还包括:
[0130]
输出指标模块,用于将所述语音评价指标发送给与所述代理人关联的输出设备,以使所述代理人通过所述输出设备接收所述语音评价指标;
[0131]
响应参数模块,用于根据所述语音评价指标生成客户响应参数;
[0132]
模拟语音模块,用于根据所述客户响应参数生成用于与所述代理人进行交互的模拟客户语音。
[0133]
可选的,特征解析模块20包括:
[0134]
片段切分单元,用于将所述语音数据处理为预设规格的语音片段;
[0135]
片段处理单元,用于对所述语音片段进行预加重和加窗处理,获得加窗信号;计算所述语音片段的能量系数;
[0136]
变换单元,用于对所述加窗信号进行离散傅里叶变换,获得变换结果;
[0137]
梅尔滤波单元,用于通过梅尔滤波器处理所述变换结果,获得梅尔声谱;
[0138]
逆变换单元,用于对所述梅尔声谱进行逆向傅里叶变换,获得倒谱系数;
[0139]
系数计算单元,用于根据所述倒谱系数计算所述语音数据的一阶差分倒谱系数和二阶差分倒谱系数;根据所述能量系数计算所述语音数据的一阶差分能量系数和二阶差分能量系数;
[0140]
生成语音特征单元,用于根据所述倒谱系数、所述一阶差分倒谱系数、所述二阶差分倒谱系数、所述能量系数、所述一阶差分能量系数和所述二阶差分能量系数,生成所述语音特征。
[0141]
可选的,生成评价指标模块40包括:
[0142]
似然度计算单元,用于通过音子似然度计算模型处理所述语音特征,生成所述音子似然度,所述音子似然度计算模型包括:
[0143][0144]
其中,log b
j
(o
t
)表示特征矢量o
t
在特定状态j下的概率值的对数;
[0145]
d代表计算声音的宽度,d为最大的声音宽度;
[0146]
表示在声音宽度d下特定状态j的方差;
[0147]
μ
jd
表示在声音宽度d下特定状态j的平均值。
[0148]
可选的,所生成评价指标模块40包括:
[0149]
短语识别单元,用于识别出所述话语文本中的若干提示短语;
[0150]
话语片段划分单元,用于根据所述若干提示短语将所述话语文本划分为若干话语片段;
[0151]
确定关系和类别单元,用于根据所述提示短语解析连续的话语片段之间的关联关系,并确定所述关联关系的类别;
[0152]
生成语义分析数据单元,用于根据所述关联关系和类别生成所述语义分析数据。
[0153]
可选的,获取模块10包括:
[0154]
获取原始数据单元,用于获取代理人的原始语音数据;
[0155]
第一识别单元,用于通过人声检测模型对所述原始语音数据进行识别,获取所述原始语音数据的第一识别结果;
[0156]
第二识别单元,用于通过声纹识别模型对所述第一识别结果为包含人声的原始语音数据进行识别,获取第二识别结果;
[0157]
筛选单元,用于根据所述第二识别结果从所述原始语音数据筛选出所述语音数据。
[0158]
可选的,所述语音评价指标包括语速、情绪和语音准确度中的至少一种。
[0159]
关于语音评价装置的具体限定可以参见上文中对于语音评价方法的限定,在此不再赘述。上述语音评价装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储
于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
[0160]
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括可读存储介质、内存储器。该可读存储介质存储有操作系统、计算机可读指令和数据库。该内存储器为可读存储介质中的操作系统和计算机可读指令的运行提供环境。该计算机设备的数据库用于存储语音评价方法所涉及的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机可读指令被处理器执行时以实现一种语音评价方法。本实施例所提供的可读存储介质包括非易失性可读存储介质和易失性可读存储介质。
[0161]
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可读指令,处理器执行计算机可读指令时实现以下步骤:
[0162]
获取代理人的语音数据;
[0163]
通过识别系统解析所述语音数据,生成话语文本;通过预设解析算法从所述语音数据提取所述代理人的语音特征;
[0164]
通过预设语义分析模型处理所述话语文本,生成语义分析数据;根据所述语音特征计算所述语音数据的音子似然度;
[0165]
根据所述语义分析数据和所述音子似然度生成所述代理人的语音评价指标。
[0166]
在一个实施例中,提供了一个或多个存储有计算机可读指令的计算机可读存储介质,本实施例所提供的可读存储介质包括非易失性可读存储介质和易失性可读存储介质。可读存储介质上存储有计算机可读指令,计算机可读指令被一个或多个处理器执行时实现以下步骤:
[0167]
获取代理人的语音数据;
[0168]
通过识别系统解析所述语音数据,生成话语文本;通过预设解析算法从所述语音数据提取所述代理人的语音特征;
[0169]
通过预设语义分析模型处理所述话语文本,生成语义分析数据;根据所述语音特征计算所述语音数据的音子似然度;
[0170]
根据所述语义分析数据和所述音子似然度生成所述代理人的语音评价指标。
[0171]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指令相关的硬件来完成,所述的计算机可读指令可存储于一非易失性可读取存储介质或易失性可读存储介质中,该计算机可读指令在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
[0172]
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功
能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
[0173]
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。