一种声纹识别方法及相关装置与流程

1.本技术涉及声纹识别技术领域，尤其涉及一种声纹识别方法及相关装置。

背景技术：

2.声纹识别，生物识别技术的一种，也称为说话人识别，有两类，即说话人辨认和说话人确认。不同的任务和应用会使用不同的声纹识别技术，如缩小刑侦范围时可能需要辨认技术，而银行交易时则需要确认技术。声纹识别就是把声信号转换成电信号，再用计算机进行识别的过程。
3.目前的声纹识别方法中较为普遍的是基于神经网络模型的识别过程，通过获取到的特征向量与数据库向量之间的距离进行相似度识别，但是这种特征向量的特征表达能力还是太过单一，无法保证识别结果的准确性，导致实际的声纹识别效果欠佳。

技术实现要素：

4.本技术提供了一种声纹识别方法及相关装置，用于解决现有技术的声纹特征向量表达单一，无法确保识别结果的准确性的技术问题。
5.有鉴于此，本技术第一方面提供了一种声纹识别方法，包括：
6.获取不同人说话的音频信息、对应的年龄段信息和性别信息；
7.根据预置提取技术获取所述音频信息的基频、第一共振峰和第二共振峰；
8.采用预置神经网络模型提取所述音频信息的音频特征向量，所述音频特征向量为所述预置神经网络模型的池化层的输入量；
9.基于所述年龄段信息、所述性别信息、所述基频、所述第一共振峰、所述第二共振峰和所述音频特征向量构建综合特征向量；
10.将所述综合特征向量输入所述预置神经网络模型中进行训练，得到音频识别神经网络模型。
11.可选的，所述基于所述年龄段信息、所述性别信息、所述基频、所述第一共振峰、所述第二共振峰和所述音频特征向量构建综合特征向量，包括：
12.将所述年龄段信息和所述性别信息通过组合的方式转换成组合标注信息；
13.根据所述基频、所述第一共振峰和所述第二共振峰构建音频组合向量；
14.将所述组合标注信息、所述音频组合向量和所述音频特征向量进行拼接，得到综合特征向量。
15.可选的，所述根据所述基频、所述第一共振峰和所述第二共振峰构建音频组合向量，之后还包括：
16.对所述音频组合向量进行归一化处理。
17.可选的，所述将所述综合特征向量输入所述预置神经网络模型中进行训练，得到音频识别神经网络模型，之后还包括：
18.采用测试音频、对应的测试年龄段信息和测试性别信息对所述音频识别神经网络
模型进行测试，得到测试结果；
19.将测试结果满足预置模型条件的所述音频识别神经网络模型作为目标音频识别模型。
20.可选的，所述年龄段信息包括儿童、青年、中年和老年。
21.本技术第二方面提供了一种声纹识别装置，包括：
22.第一获取模块，用于获取不同人说话的音频信息、对应的年龄段信息和性别信息；
23.第二获取模块，用于根据预置提取技术获取所述音频信息的基频、第一共振峰和第二共振峰；
24.特征提取模块，用于采用预置神经网络模型提取所述音频信息的音频特征向量，所述音频特征向量为所述预置神经网络模型的池化层的输入量；
25.特征融合模块，用于基于所述年龄段信息、所述性别信息、所述基频、所述第一共振峰、所述第二共振峰和所述音频特征向量构建综合特征向量；
26.模型训练模块，用于将所述综合特征向量输入所述预置神经网络模型中进行训练，得到音频识别神经网络模型。
27.可选的，所述特征融合模块，具体用于：
28.将所述年龄段信息和所述性别信息通过组合的方式转换成组合标注信息；
29.根据所述基频、所述第一共振峰和所述第二共振峰构建音频组合向量；
30.将所述组合标注信息、所述音频组合向量和所述音频特征向量进行拼接，得到综合特征向量。
31.可选的，还包括：
32.归一化模块，用于对所述音频组合向量进行归一化处理。
33.可选的，还包括：
34.模型测试模块，用于采用测试音频、对应的测试年龄段信息和测试性别信息对所述音频识别神经网络模型进行测试，得到测试结果；
35.模型选取模块，用户将测试结果满足预置模型条件的所述音频识别神经网络模型作为目标音频识别模型。
36.本技术第三方面提供了一种声纹识别设备，所述设备包括处理器以及存储器；
37.所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；
38.所述处理器用于根据所述程序代码中的指令执行第一方面所述的声纹识别方法。
39.从以上技术方案可以看出，本技术实施例具有以下优点：
40.本技术中，提供了一种声纹识别方法，包括：获取不同人说话的音频信息、对应的年龄段信息和性别信息；根据预置提取技术获取音频信息的基频、第一共振峰和第二共振峰；采用预置神经网络模型提取音频信息的音频特征向量，音频特征向量为预置神经网络模型的池化层的输入量；基于年龄段信息、性别信息、基频、第一共振峰、第二共振峰和音频特征向量构建综合特征向量；将综合特征向量输入预置神经网络模型中进行训练，得到音频识别神经网络模型。
41.本技术提供的声纹识别方法，不仅获取了不同的人说话时的音频信息，还获取了对应的年龄段信息和性别信息，以及音频对应的基频和共振峰等信息，从不同层面和维度的对声纹所属人进行描述，多种信息构建的综合特征向量的表达能力更强，更有助于识别
模型的训练，进一步提高音频识别神经网络模型的识别准确率。因此，本技术能够解决现有技术的声纹特征向量表达单一，无法确保识别结果的准确性的技术问题。
附图说明
42.图1为本技术实施例提供的一种声纹识别方法的流程示意图；
43.图2为本技术实施例提供的一种声纹识别装置的结构示意图。
具体实施方式
44.为了使本技术领域的人员更好地理解本技术方案，下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
45.为了便于理解，请参阅图1，本技术提供的一种声纹识别方法的实施例，包括：
46.步骤101、获取不同人说话的音频信息、对应的年龄段信息和性别信息。
47.进一步地，年龄段信息包括儿童、青年、中年和老年。
48.由于不同性别的说话人的声音特征差距比较大，相同性别的说话人的声音特征差距比较小，如果网络模型能够更多地学习到相同性别说话人的声音特征差异，就能更好地进行说话人辨识。同时，由于不同年龄段的说话人不同的性别的声音特征差距不同，比如老年男性和女性在声音特征上差异很小，而青年男性和女性在声音特征上差异就很大，如果能高效的区别处理这些差异，能够提升网络模型的声纹辨识性能。
49.因此，本实施例中除了获取不同人说话的音频信息，还获取每个人对应的年龄段信息和性别信息；综合多种信息辅助声纹识别，提高识别准确率。
50.步骤102、根据预置提取技术获取音频信息的基频、第一共振峰和第二共振峰。
51.音频信息中的基频可以决定声音的音高(pitch)，而音高是声音的三大属性之一；而且，由有规律的振动发出的声音，一般都会有基频，这样的声音包括语音中的元音与浊辅音，以及能演奏旋律的乐器发出的声音；也有些声音没有基频，它们听起来就是噪声，这样的声音包括语音中的清辅音，以及打击乐器发出的声音。语音的基频一般在100hz～400hz之间，女声比男声的基频高，童声更高；歌声以及乐器发出的声音则会有更广的基频范围，低可以低到50hz甚至更低，高可以超过1000hz。人对于基频的感知遵循对数律，也就是说，人们会感觉100hz到200hz的差距，与200hz到400hz的差距相同。因此，音高常常用基频的对数来表示。
52.由于声音的基频往往随时间而变化，所以基频提取通常会先把信号分帧(帧长通常为几十毫秒)，再逐帧提取基频；提取一帧声音基频的方法，大致可以分为时域法和频域法。时域法以声音的波形为输入，其基本原理是寻找波形的最小正周期；当然，实际信号的周期性只能是近似的。频域法则会先对信号做傅里叶变换，得到频谱(仅取幅度谱，舍弃相位谱)；频谱上在基频的整数倍处会有尖峰，频域法的基本原理就是要求出这些尖峰频率的最大公约数。
53.当声门处准周期脉冲激励进入声道时会引起共振特性，产生一组共振频率，这一组共振频率称为共振峰频率或简称共振峰。共振峰参数包括共振峰频率和频带的宽度，它
是区别不同韵母的重要参数，由于共振峰包含在语音的频谱包络中，因此共振峰参数的提取关键是估计自然语音的频谱包络，并认为谱包括的极大值就是共振峰，通常认为共振峰数量不超过4个。利用线性预测系数法可以提取音频中的共振峰。
54.步骤103、采用预置神经网络模型提取音频信息的音频特征向量，音频特征向量为预置神经网络模型的池化层的输入量。
55.预置神经网络模型可以根据需要进行网络框架的选取，在此不作限定；可以明确的是，预置神经网络模型由输入层，隐藏层和输出层构成，通过卷积计算的方式获取音频中的抽象特征，采用音频特征向量表达声音的不同特点。本实施例中的音频识别并非直接通过模型得到结果，而是提取预置神经网络模型中池化层的输入量，也就是完成卷积计算后提取到的特征向量，用于后续的综合特征融合，从特征向量的角度提升模型的识别准确率。
56.步骤104、基于年龄段信息、性别信息、基频、第一共振峰、第二共振峰和音频特征向量构建综合特征向量。
57.进一步地，步骤104，包括：
58.将年龄段信息和性别信息通过组合的方式转换成组合标注信息；
59.根据基频、第一共振峰和第二共振峰构建音频组合向量；
60.将组合标注信息、音频组合向量和音频特征向量进行拼接，得到综合特征向量。
61.进一步地，根据基频、第一共振峰和第二共振峰构建音频组合向量，之后还包括：对音频组合向量进行归一化处理。
62.根据本实施例定义的年龄段信息为儿童、青年、中年和老年，根据不同年龄段两种性别的声音特征差异度，可以形成8种不同的年龄段性别类目，对不同的类目进行标注，即青年女性记作0，青年男性记作1；中年女性记作0.2，中年男性记作0.8；儿童女性记作0.4，儿童男性记作0.6；老年女性记作0.45，老年男性记作0.55；这样可以有效区分不同性别和年龄段之间的声音。
63.对于同性别或者同年龄段的声音，则需要进一步提取基频和共振峰信息，将这些信息组建成一个向量，然后进行归一化处理后，即可与组合标注信息、音频组合向量和音频特征向量进行拼接，得到综合特征向量。
64.步骤105、将综合特征向量输入预置神经网络模型中进行训练，得到音频识别神经网络模型。
65.综合特征向量并非是从预置神经网络模型中的第一层输入，而是从而上述音频特征向量的提取处，也就是池化层的输入端输入，继续完成预置神经网络模型的训练，融入了多种特征信息的综合特征向量能够提升神经网络模型的识别准确率，优化模型性能。
66.进一步地，步骤105，之后还包括：
67.采用测试音频、对应的测试年龄段信息和测试性别信息对音频识别神经网络模型进行测试，得到测试结果；
68.将测试结果满足预置模型条件的音频识别神经网络模型作为目标音频识别模型。
69.测试音频与对应的测试年龄段信息和测试性别信息均与训练模型中的音频信息以及其他信息的处理过程一致，主要测试训练完成的模型性能，对于测试结果较好的模型可以保留，用于实际场景的音频识别过程中。
70.预置模型条件可以是准确率、召回率和错误率等标准，具体可以根据实际情况选
择，在此不作限定。
71.本技术实施例提供的声纹识别方法，不仅获取了不同的人说话时的音频信息，还获取了对应的年龄段信息和性别信息，以及音频对应的基频和共振峰等信息，从不同层面和维度的对声纹所属人进行描述，多种信息构建的综合特征向量的表达能力更强，更有助于识别模型的训练，进一步提高音频识别神经网络模型的识别准确率。因此，本技术实施例能够解决现有技术的声纹特征向量表达单一，无法确保识别结果的准确性的技术问题。
72.为了便于理解，请参阅图2，本技术提供了一种声纹识别装置的实施例，包括：
73.第一获取模块201，用于获取不同人说话的音频信息、对应的年龄段信息和性别信息；
74.第二获取模块202，用于根据预置提取技术获取音频信息的基频、第一共振峰和第二共振峰；
75.特征提取模块203，用于采用预置神经网络模型提取音频信息的音频特征向量，音频特征向量为预置神经网络模型的池化层的输入量；
76.特征融合模块204，用于基于年龄段信息、性别信息、基频、第一共振峰、第二共振峰和音频特征向量构建综合特征向量；
77.模型训练模块205，用于将综合特征向量输入预置神经网络模型中进行训练，得到音频识别神经网络模型。
78.进一步地，特征融合模块204，具体用于：
79.将年龄段信息和性别信息通过组合的方式转换成组合标注信息；
80.根据基频、第一共振峰和第二共振峰构建音频组合向量；
81.将组合标注信息、音频组合向量和音频特征向量进行拼接，得到综合特征向量。
82.进一步地，还包括：
83.归一化模块206，用于对音频组合向量进行归一化处理。
84.进一步地，还包括：
85.模型测试模块207，用于采用测试音频、对应的测试年龄段信息和测试性别信息对音频识别神经网络模型进行测试，得到测试结果；
86.模型选取模块208，用户将测试结果满足预置模型条件的音频识别神经网络模型作为目标音频识别模型。
87.本技术还提供了一种声纹识别设备，设备包括处理器以及存储器；
88.存储器用于存储程序代码，并将程序代码传输给处理器；
89.处理器用于根据程序代码中的指令执行上述方法实施例中的声纹识别方法。
90.在本技术所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。
91.所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个
网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
92.另外，在本技术各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
93.所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以通过一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(英文全称：read
‑
only memory，英文缩写：rom)、随机存取存储器(英文全称：randomaccess memory，英文缩写：ram)、磁碟或者光盘等各种可以存储程序代码的介质。
94.以上所述，以上实施例仅用以说明本技术的技术方案，而非对其限制；尽管参照前述实施例对本技术进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围。