1.本发明涉及基于人工智能的电力调度领域,具体为一种应用于电力领域中声纹识别的身份认证方法。
背景技术:2.电力公司作为电力服务平台,为经济社会发展提供安全、经济、清洁、可持续的电力供应和服务。电力调度不仅需要完善各种设备,还要运用智能技术。在实际应用中,背景噪声对于语音识别应用是一个现实的挑战,即便说话人处于安静的办公室环境,在电话语音通话过程中也难以避免会有一定的噪声。语音识别系统具备高效的噪音消除能力,以适应用户在千差万别的环境中应用的要求。
3.鉴于此,为了克服现有技术缺点,提供一种应用于电力领域中声纹识别的身份认证方法成为本领域亟待解决的问题。
技术实现要素:4.本发明目的在于克服现有技术的缺点,提供一种应用于电力领域中声纹识别的身份认证方法,有效提升身份认证的准确率,提高了使用体验。
5.为解决以上技术问题,本发明提供了一种应用于电力领域中声纹识别的身份认证方法,其不同之处在于,包括以下步骤:
6.步骤1:采集语音内容形成语音信号,并对所述语音信号进行预处理;
7.步骤2:对预处理后的语音信号进行快速傅立叶变换,得到其在频谱上的能量分布;
8.步骤3:对步骤2得到的语音信号频谱做模平方处理,得到语音信号的功率谱;
9.步骤4:定义一个滤波器组并将功率谱通过滤波器组,对语音信号进行滤波;
10.步骤5:确定每个滤波器组输出的对数能量;
11.步骤6:将步骤5得到的对数能量求离散余弦变换,得到梅尔倒谱参数;
12.步骤7:通过在倒谱域减去估计的信道噪声均值,使得带噪语音特征尽可能接近于零,从而消除信道的不利影响;
13.步骤8:动态特征提取;
14.步骤9:利用相似度计算完成身份认证。
15.按以上技术方案,所述步骤1中的预处理包括端点检测处理,采样量化处理,分帧处理,加窗处理和预加重处理。
16.按以上技术方案,所述步骤5中的对数能量s(m)的计算公式为;
[0017][0018]
按以上技术方案,所述步骤6中的梅尔倒谱参数c(n)的计算公式为:
[0019]
其中l取值为16。
[0020]
按以上技术方案,所述步骤8中,将动态特征与静态特征共同构成语音信号的特征参数。
[0021]
按以上技术方案,所述步骤9中,需确定验证声纹码特征向量与注册声纹码特征向量之间的相似性。
[0022]
与现有技术相比,本发明提供的应用于电力领域中声纹识别的身份认证方法,可以有效提升身份认证的准确率,提高了使用体验。
附图说明
[0023]
图1为本发明实施例的整体流程示意图;
[0024]
图2为本发明实施例数据预处理的具体流程框图。
具体实施方式
[0025]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0026]
请参阅图1和图2,本发明公开了一种应用于电力领域中声纹识别的身份认证方法,其不同之处在于,包括以下步骤:
[0027]
步骤1,采集语音内容形成语音信号,并对所述语音信号进行预处理,包括端点检测处理,采样量化处理,分帧处理,加窗处理和预加重处理。
[0028]
首先端点检测消除静音信号。然后使用采样量化保证语音文件的精确性,其中采样频率和信道数影响语音文件的大小,由于是基于语音进行身份认证,所以使用高采样频率(即44100hz),并且使用单声道采集语音数据。
[0029]
分帧处理是将n个采样点集合成一个观测单位,称为帧。设分帧后的信号为s(n),其中n=0,1,...,n-1,n,设n的值为200,为帧的大小。
[0030]
加窗处理采用的窗函数为汉明窗,设窗函数为w(n),加窗后的信号为s'(n),则:
[0031]
其中0≤n≤n-1,a=0.55。
[0032]
s'(n)=s(n)
×
w(n)
[0033]
预加重处理是使用一阶预加重数字滤波器去实现,设预加重后的信号s1(n):
[0034]
s1(n)=s'(n)-μs'(n-1)
[0035]
其中μ为预加重系数,μ=0.93。通过预加重处理可以对高频部分进行增强,使信号的频谱变得平坦。
[0036]
步骤2:对预处理后的语音信号s1(n)进行快速傅立叶变换,通过信号在时域上的改变分析信号的特性比较困难,因此需要将信号转换到频域上观察其能量分布,能量分布的差异,表明不同的语音特性。
[0037]
对每一帧音频信号s1(n)作快速傅立叶变换,
[0038][0039]
得到其在频谱上的能量分布x(k),其中k=1,2,...,n-1,n。
[0040]
步骤3:对步骤二得到的语音信号频谱做模平方处理,得到语音信号的功率谱|x(k)|2,其中k=1,2,...,n-1,n。
[0041]
步骤4:定义一个滤波器组,该滤波器组有m个三角滤波器,其中心频率为f(m),其中k=1,2,...,m-1,m,取m=30。将步骤三得到的功率谱通过滤波器组,对语音信号进行滤波,其中三角滤波器的频率响应为h
m
(k)
[0042][0043]
可以得到m组参数h
m
,其中m=1,2,...,m-1,m。
[0044]
步骤5:计算每个滤波器组输出的对数能量s(m);
[0045][0046]
步骤6:将步骤五的对数能量s(m)求离散余弦变换,求出l阶的梅尔倒谱参数c(n)
[0047]
其中l取值为16。
[0048]
步骤7:通过倒谱均值减,得到信道噪声均值,使得带噪语音特征尽可能接近于零,从而消除信道的不利噪声影响。
[0049]
步骤8:动态特征提取。标准的倒谱参数只反映了语音参数的静态特性,语音的动态特性可以用这些静态特征的差分谱来描述。实验证明:把动、静态特征结合起来才能有效提高系统的识别性能。差分参数的计算可以采用下面的公式
[0050][0051]
其中,dt表示第t个一阶差分;ct表示第t个倒谱系数;q表示倒谱系数的阶数;k表示一阶导数的时间差,取2。将上式中结果再代入就可以得到二阶差分的参数。
[0052]
步骤9:利用相似度计算完成身份认证,在认证阶段,需要计算验证声纹码特征向量与注册声纹码特征向量之间的相似性。假设验证声纹码和注册声纹码分别用t和r表示,长度分别为n和m。则
[0053]
t=t1,t2,...,t
n
[0054]
r=r1,r2,...,r
m
[0055]
通过计算它们之间的距离d=[t,r],来比较声纹之间的相似度,距离越小则相似
度越高。设n和m分别是t和r中任意选择的帧号,则d(t(n),r(m))表示这两帧特征矢量之间的距离。则各帧间距离的累积和即为两序列的总体距离。
[0056]
d(n,m)=d(t(n),r(m))+min{d(n-1,m),d(n-1,m-1),d(n,m-1)}
[0057]
求解出来的累加距离d,即为需要计算验证声纹码特征向量与注册声纹码特征向量之间的相似性差值,距离越大,相似度越小。
[0058]
需要说明的是,在本文中,诸如术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0059]
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。