一种多特征融合的声纹识别方法与流程

1.本发明涉及语音信号处理、人工智能领域，特别涉及一种基于特征融合的声纹识别方法。

背景技术：

2.声纹识别又叫做说话人识别，是一种通过语音识别出说话人身份的技术，每个人的语音中所包含的特征信息有所不同，该特征信息就叫做声纹。声纹识别作为生物特征应用之一，与指纹识别、人脸识别有着同等重要的应用领域，且声纹识别具有采集方便、非接触性便利、造价低廉等优点。声纹识别可以应用在金融、智能锁、特定人唤醒等领域，随着应用范围的扩大，人们对声纹识别的要求也越来越高，提高声纹识别的性能也有着重要的意义。
3.声纹识别流程一般分为特征提取、模型构建、打分判决三个模块。特征提取是声纹识别的关键技术之一，目前常用的声纹特征有mfcc、fbank、lpc、plp等。当前主要选择单一特征参数，这样通常无法利用其它特征参数特有的信息，从而不能达到一个较好的效果。通过将不同特征进行融合，充分利用不同特征参数之间的信息，进而提升声纹识别的性能。

技术实现要素：

4.本发明的目的是解决现有技术中利用单一特征参数进行说话人识别准确率不高的问题，提供了一种特征融合的方法。
5.本发明所提出的方法，不同于传统的特征融合方法，传统上会基于两种特征参数进行融合。而本方法提出将mfcc、lpc、plp三种特征进行融合，并且选择带有主要信息的维度，尽管是三种特征参数，也没有导致维度过高的问题。本发明的融合特征参数具有多种类型语音特征参数各自的优势以及各自潜在的隐含信息，通过将不同的特征进行融合更能表现出说话人的个性特征，提高了声纹识别的准确率。
6.本发明公开一种基于mfcc、lpc、plp三种特征融合的声纹识别方法，具体包括以下步骤：
7.步骤一、准备语音数据并进行预处理；
8.步骤二、提取12维的mfcc特征；
9.步骤三、提取13维lpc特征；
10.步骤四、提取13维plp特征；
11.步骤五、特征融合；
12.通过步骤二得到12维的mfcc特征；通过步骤三得到13维lpc特征；通过步骤四得到13维plp特征；考虑到不同特征包含的独特信息，将三种特征进行融合可以更加全面且有效地表达声纹特征，因此本发明将三种特征在维度方向进行直接拼接，从而获得一种全面的特征参数。
13.作为优选，步骤一准备好语音数据，对语音数据集进行筛选、静音活动检测，具体
如下：
14.utterminlen＝(frame*hop*window)*sr
15.其中，frame代表帧长取180，hop代表帧移取0.01，window代表滑动窗口大小0.025，sr代表采样率取8000；最后得到语音时间序列的最小值，低于该值的语音序列直接舍去。
16.然后对语音信号进行非静音间隔检测，将语音信号中的静音段排除，得到一个完整的非静音的语音序列。本实验将低于20db的语音视为静音。
17.作为优选，步骤二提取mfcc特征。将语音帧序列经过快速傅里叶变换、取功率谱、取幅度平方、经过梅尔滤波器组、取对数再进行离散余弦变换即可得到mfcc特征。mfcc特征基于梅尔滤波器组，更能拟合人耳的接收特性，但鲁棒性不够好。
18.作为优选，步骤三提取lpc特征。将语音帧序列经过自相关分析，线性预测倒谱分析得到lpc特征。lpc特征利用语音样点之间的相关性，用过去的p个样本点进行预测。
19.作为优选，步骤四提取plp特征。将语音帧序列经过快速傅里叶变换、取功率谱、取幅度平方、经过bark滤波器组、等响预加重、求立方根、经过逆傅里叶变换以及线性预测得到plp特征。plp是一种基于听觉模型的特征参数，具有较好的抗噪性能。
20.与现有技术相比，本发明具有以下有益效果：
21.1、本发明采用bi
‑
lstm模型以及ge2e损失进行优化，相比单一的特征参数以及融合两种不同的特征参数，本发明提出的特征融合方法取得最优效果。
22.2、本发明将多个特征参数进行融合，包含了多种隐含信息，更能表现出说话人的个性特征。对说话人的声纹特征进行了更加充分的表达。
附图说明
23.图1为本发明所涉及的mfcc特征提取流程图；
24.图2为本发明所涉及的lpc特征提取流程图；
25.图3为本发明所涉及的plp特征提取流程图；
26.图4为本发明提出的特征融合方法示意图。
具体实施方式
27.下面结合附图详细说明本发明的具体实施步骤。
28.经过语音预处理得到适合的语音序列，分别经过图1、图2、图3三个流程可以得到mfcc、lpc、plp特征。具体如下：
29.图1描述了mfcc特征的提取流程。如图1所示，特征提取流程包括分帧、加窗、快速傅里叶变换、取功率谱、取幅度平方、经过梅尔滤波器组并取对数、离散余弦变换得到mfcc特征，维度选择为12。mfcc特征的主要信息集中在低频段，高频段信息较少，为了尽可能获取高频段信息，需要对语音信号进行预加重处理。
30.其具体细节为：采用采样率8khz、帧长25ms、帧移10ms、窗口为汉明窗，预加重系数为0.97。
31.图2描述了lpc特征的提取流程。通过分帧加窗得到语音帧序列，经过自相关分析以及线性预测倒谱分析得到lpc特征，维度选择为13。
32.其具体细节为：采用采样率8khz、帧长25ms、帧移10ms、窗口为汉宁窗、不采用预加重。
33.图3描述了plp特征的提取流程。通过分帧加窗得到语音帧序列，将语音帧序列经过快速傅里叶变换、取功率谱、取幅度平方、经过bark滤波器组、等响预加重、求立方根、经过逆傅里叶变换以及线性预测得到plp特征。维度选择为13。
34.其具体细节为：采用采样率8khz、帧长25ms、帧移10ms、窗口为汉明窗、不采用预加重。
35.图4描述了本发明的特征融合方法的具体过程。通过对同一段语音信号进行mfcc、lpc、plp特征提取，采用帧对帧对齐的方式得到38维的融合特征参数，本发明采用截取的方式保持所有特征帧长一致。融合特征包含了三种特征独特的声纹信息，相比单独的特征参数，信息更加丰富和全面，更有利于表达说话人的声纹信息。
36.本发明提出的特征融合方法在bi
‑
lstm模型上进行实验，采用ge2e进行优化，将三种常用的特征(mfcc、lpc、plp)进行融合，对比融合后和融合前的结果，本发明提出的方法提升了声纹识别的性能。具体实验结果如下：
37.特征(维度)eer(％)lpc(13)13.78plp(13)12.22mfcc(12)7.67mfcc&lpc(25)4.33mfcc&plp(25)5.89lpc&plp(26)12.22mfcc&lpc&plp(38)3.78
38.该实验对比了单独的特征参数(mfcc、lpc、plp)、两两融合的特征参数(mfcc&lpc、mfcc&plp、lpc&plp)以及本发明提出的特征融合参数。采用等错误率(equal error rate，eer)为评判指标，通过结果可以验证，本发明融合了三种具有不同特点的特征，将说话人的声纹信息更加全面地表达出来，比不全面的特征参数具有更好的结果，改善了声纹识别的性能。