首页 > 乐器声学 专利正文
基于分组卷积注意力网络的录音设备识别方法及系统与流程

时间:2022-01-23 阅读: 作者:专利查询

基于分组卷积注意力网络的录音设备识别方法及系统与流程

1.本发明属于音频识别技术领域,尤其涉及基于分组卷积注意力网络的录音设备识别方法及系统。


背景技术:

2.本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
3.近年来,音频证据因其录制便捷、呈现直观等特点在证明案件事实的过程中起着越来越重要的作用。
4.音频取证包括录音地点识别、录音设备识别、音频篡改识别等。录音设备识别模型主要包括非话语段检测即语音端点检测、特征提取、模式识别与数据库构建等部分。非话语段检测的目的是检测该段音频是话语段还是非话语段,由于话语段的信号功率在整个音频信号中能量占比大,且对录音设备特征的影响较大,因此在录音设备识别中一般只对非话音帧进行处理。从而非话语段检测的准确率是录音设备识别准确率的基础。然而目前对录音设备识别的研究尚在起步阶段,主要问题为:
5.1)非话音段检测依然存在噪声干扰,未能克服非平稳噪声的影响;
6.2)在录音设备特征与其他特征分离以及针对录音设备的特征参数提取方面还无法做到精确实现;
7.3)识别精度较低,没有利用智能算法(例如深度学习模型)实现录音设备精确识别。


技术实现要素:

8.为克服上述现有技术的不足,本发明提供了基于分组卷积注意力网络的录音设备识别方法,将分组卷积注意力网络分别用于非话语段检测与录音设备识别,在降低整个录音设备识别模型复杂度的同时保证其高效性。
9.为实现上述目的,本发明的一个或多个实施例提供了如下技术方案:
10.第一方面,公开了基于分组卷积注意力网络的录音设备识别方法,包括:
11.利用第一分组卷积注意力网络对待测音频的非话语段进行检测,目的是去除语音段对录音设备特征的影响。完成非话语段检测后,将待测音频的非话语段筛选出来,拼接为一个完整的非话语段音频,作为新的待测音频;
12.在新的待测音频中提取用来作为待测录音设备的固有轨迹的随机谱特性特征,基于上述特征,利用第二分组卷积注意力网络进行录音设备识别。
13.进一步的技术方案,对待测音频的非话语段进行检测时,基于生成的局部相关声谱图进行。
14.进一步的技术方案,所述生成局部相关声谱图的步骤为:
15.将完整音频加窗、分帧,获取其声谱图;
16.利用自注意力局部敏感哈希算法对声谱图处理:按注意力分值大小选取对应的k个表示相似帧位置的索引,将k个位置对应的频谱沿时间维度堆叠生成局部相关声谱图。可以很好的拓展每帧的频谱信息。
17.进一步的技术方案,所述第一分组卷积注意力网络被配置为执行:
18.将局部相关声谱图进行下采样的前馈操作;
19.基于下采样操作结果进行上采样的反馈操作;
20.将上采样操作的结果作为分组注意力模块的载体,用于指导特征学习,使得网络学习更多声谱图的本质特征。
21.进一步的技术方案,所述第一分组卷积注意力网络还被配置为执行:
22.将上采样操作的结果按通道维度分为多组;
23.对于任意一组,分为三个分支,分别用于生成通道注意力特征图、频谱注意力特征图和时间注意力特征图;
24.将通道注意力特征图、频谱注意力特征图、时间注意力特征图沿通道维度执行拼接操作,生成一个完整的组特征图;
25.将多组的组特征图沿通道维度聚合,生成第一层的聚合注意力特征图;
26.将聚合注意力特征图进行通道洗牌,消除由于通道分组而造成的信息流失影响;
27.重复上述第一分组卷积注意力网络操作,共生成4个聚合注意力特征图;
28.最后通过平均池化操作,将第四层的聚合特征图尺寸缩减后,用于检测非话语段。
29.进一步的技术方案,所述生成通道注意力特征图的过程为:
30.将三分支中的第一通道分支进行全局平均池化操作,生成通道统计信息;
31.将通道统计信息通过全连接层,利用激活函数生成通道注意力权值分布,进而生成通道注意力特征图。
32.进一步的技术方案,所述生成频谱注意力特征图的过程为:利用三分支中的第二频谱分支生成频谱统计信息后,将频谱统计信息进行组标准化操作,通过全连接层后再利用激活函数生成频谱注意力权值分布,进而生成频谱注意力特征图。
33.进一步的技术方案,所述生成时间注意力特征图的过程为:利用三分支中的第三时间分支生成时间统计信息后,将时间统计信息进行组标准化操作,通过全连接层后再利用激活函数生成时间注意力权值分布,进而生成时间注意力特征图。
34.进一步的技术方案,所述提取非话语段的随机谱特性特征,包括:
35.首先对非话语段信号加窗、分帧,经过快速傅立叶变换得到频谱图;
36.计算非话语段段信号的短时功率谱,取功率谱图的对数并沿时间轴取平均值,获得平均功率谱,
37.采用正交随机高斯矩阵,通过矩阵乘法,将平均功率谱的维数降低,得到非话语段信号的随机谱特性参数;
38.基于随机谱特性参数生成二维随机谱特性图。
39.进一步的技术方案,利用第二分组卷积注意力网络进行录音设备识别,第二分组卷积注意力网络的输出层神经元个数为用于训练的录音设备种类的个数,再经过softmax层输出预测为每个种类的概率,取最大值的索引就是该帧最后的识别种类;
40.已知所有帧的识别结果,计算其中占比最大的种类,则该类别为该待测音频所属
的录音设备编号。
41.第二方面,公开了基于分组卷积注意力网络的录音设备识别系统,包括:
42.非话语段检测模块,被配置为:利用第一分组卷积注意力网络对待测音频的非话语段进行检测,完成非话语段检测后,将待测音频的非话语段或非话语段筛选出来,拼接为一个完整的非话语段音频,作为新的待测音频;
43.录音设备识别模块,被配置为:在非话语段中提取用来作为待测录音设备的固有轨迹的随机谱特性特征,基于上述特征,利用第二分组卷积注意力网络进行录音设备识别。
44.以上一个或多个技术方案存在以下有益效果:
45.本发明基于分组卷积注意力网络分别用于非话语段检测与录音设备识别,在降低整个录音设备识别模型复杂度的同时保证其高效性。
46.本发明在非话语段检测时,首先对于每一帧,利用自注意力局部敏感哈希算法生成局部相关声谱图,由若干相似帧组成以此作为该帧的拓展特征图,增加帧信息的同时拓宽了卷积层感受野。
47.本发明的第一分组卷积注意力网络用于非话语段检测:目的是去除语音段对录音设备特征的影响。首先在载体特征图模块通过局部下采样-上采样的模式去促进并指导分组卷积注意力模块的特征学习,而分组注意力模块沿通道维度将局部相关声谱图分为若干组,每组又分为通道分支、频谱分支和时间分支,实现对通道、频域、时域注意力并行、高效的建模,帮助网络将注意力集中在有助于非话语段检测的vad特征,抑制其他无关的特征。
48.本发明在录音设备识别时,首先提取代表录音设备功率轨迹的随机谱特性(rsfs)特征,并生成随机谱特性图。
49.本发明的第二分组卷积注意力网络用于录音设备识别:和第一分组卷积注意力网络的不同之处在于,分组注意力模块沿通道维度将随机谱特性图分为若干组,每组又分为通道分支、随机谱分支,随机谱分支用于捕捉录音设备的固有轨迹。因此能够帮助网络将注意力集中在录音设备相关的特征区域。
50.本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
51.构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
52.图1为本发明实施例录音设备识别流程图;
53.图2为本发明实施例分组卷积注意力网络流程框图;
54.图3为本发明实施例第一分组卷积注意力网络:载体特征图模块与分组注意力模块示意图;
55.图4为本发明实施例随机谱特性特征提取流程图;
56.图5为本发明实施例第二分组卷积注意力网络:分组注意力模块示意图。
具体实施方式
57.应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另
有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
58.需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。
59.在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
60.实施例一
61.本实施例公开了基于分组卷积注意力网络的录音设备识别方法,录音设备识别流程图如图1所示。
62.包括:
63.步骤s1.利用第一分组卷积注意力网络进行非话语段识别;
64.步骤s2.提取非话语段的随机谱特性(rsfs)作为录音设备识别的特征参数;
65.步骤s3.利用第二分组卷积注意力网络进行录音设备识别。
66.1.利用第一分组卷积注意力网络进行非话语段检测
67.步骤s1中,非话语段检测过程,包括:
68.步骤1.1生成局部相关声谱图;
69.具体的,所述生成局部相关声谱图,包括:
70.将完整音频加窗、分帧,获取其声谱图;所述声谱图的第0维表示频谱,第1维表示时间帧。假设生成的帧数为m,将这m帧数据依次作为查询点,则对于每一个查询点q,需要从m帧数据中找到与q最相似的k帧数据,即k个近邻帧。
71.利用自注意力局部敏感哈希算法搜索k个近邻帧;所述自注意力局部敏感哈希算法的含义为:对于每一个查询点q,其k个近邻帧可以通过获取k个表示相似帧位置的最大的注意力分值的索引来自然完成。其自注意力哈希函数定义为:
[0072][0073]
score(q,k)=dist-2*q
·kt
[0074]
其中,d表示每帧的频率点个数,q、k都为m帧频谱组成的数据空间。分别为q、k中第i帧各频率点的平方和,分别为q、k中第i帧各频率点的平方和,代表直和操作,中每一行表示所属查询点与m个帧的相关度分值,当两帧足够相似时,其对应的分值足够大,反之足够小。
[0075]
按注意力分值大小选取对应的k个索引,将这k个位置对应的频谱沿时间维度堆叠生成局部相关声谱图其中c、f

、t

分别表示通道维度、频谱维度、时间维度。局部相关声谱图很好的拓展了每帧的频谱信息,同时给网络提供了更大的特征学习空间。
[0076]
步骤1.2第一分组卷积注意力网络
[0077]
参见附图2所示,所述完整的分组卷积注意力网络,包括四层载体特征图模块与分组注意力模块。
[0078]
步骤1.2.1载体特征图模块
[0079]
首先将局部声谱图经过一个二维卷积层和最大池化层,输出大小为:
[0080]
所述载体特征图模块,包括:
[0081]
将x进行下采样操作,下采样过程表示为:
[0082][0083]
其中,f
c-b-r
(
·
)表示一个残差块操作,由二维卷积层、批量标准化层以及relu层组成。maxpool(
·
)表示最大池化,即下采样操作,)表示最大池化,即下采样操作,
[0084]
将m
down
进行上采样操作,上采样过程可以表示为:
[0085][0086]
其中,upsample(
·
)表示上采样操作,通过一个双线性插值上采样层实现,通过下采样-上采样的前馈-反馈过程,能够促使网络学习更多声谱图的本质特征,因此将m
up
作为分组注意力的载体,去更好的指导特征学习。
[0087]
步骤1.2.2关于分组注意力模块,包括:
[0088]
a.沿通道维度,将载体特征图模块输出m
up
分为g组:m
up
=[x1,

,xg],则每组
[0089]
b.对于任意一组xi,将xi分为三块:则j∈[c,f,t]。分别用于生成通道注意力特征图、频谱注意力特征图和时间注意力特征图;
[0090]
所述生成通道注意力特征图的过程为:将进行全局平均池化操作生成通道统计信息
[0091][0092]
其中,代表中的频率点。
[0093]
将通道统计信息sc通过全连接层利用sigmoid激活函数生成通道注意力权值分布,进而生成通道注意力特征图
[0094][0095]
其中,表示将通道注意力权值分布维度扩展至与相同后,再与其进行点乘操作。
[0096]
生成频谱注意力特征图的过程为:利用生成频谱统计信息后,将sf进行组标准化操作通过全连接层后再利用sigmoid激活函数生成通道注意力权值分布,进而生成频谱注意力特征图
[0097]
[0098]
生成时间注意力特征图的过程为:与频谱注意力类似,利用生成时间统计信息后,将s
t
进行组标准化操作通过全连接层后再利用sigmoid激活函数生成时间注意力权值分布,进而生成时间注意力特征图
[0099][0100]
c.将通道注意力特征图、频谱注意力特征图、时间注意力特征图沿通道维度执行拼接操作(concat[
·
]),生成一个完整的组特征图
[0101][0102]
最后,将g个组的特征图沿通道维度聚合,生成第一层的聚合注意力特征图且c=g*n,n为每个组的通道数量。
[0103]
d.上述每个注意力特征图的计算只需要利用一部分通道信息,尤其时频注意力的计算,更不需要全部的通道信息。但在多个分组卷积注意力模块叠加的情况下,某一组通道的输出仅和该组输入通道相关的那部分信息有关,此属性会削弱整个通道组之间的信息流表示。因此在此步骤加入通道洗牌操作,为后续的分组卷积注意力模块中每个组充分提供信息。
[0104]
所述通道洗牌操作为:将聚合注意力特征图y1的通道维度展开、转置为[n,g,f,t],再聚合为通道维度:[c,f,t],作为下一层的输入。载体特征图模块与分组注意力模块如图3所示。
[0105]
步骤1.2.3重复步骤1.2.1至1.2.2三次,接下来每一层的聚合特征图输出为:最后通过平均池化操作,将y4的特征图尺寸缩减为[c,1,1],用于最后的检测。
[0106]
步骤1.2.4非话语段检测
[0107]
所述检测操作,在非话语段检测中代表语音、非语音段检测,由一个全连接层和sigmoid层组成,输出层神经元数量为1。
[0108]
在完成非话语段检测后,将检测出的非话语段筛选出来,拼接成一个完整的非话语段音频,作为新的待测音频。
[0109]
步骤s2.提取非话语段的随机谱特性(rsfs)特征假设待测设备是线性时不变系统,录音设备对语音的影响可以通过原始语音和设备脉冲响应的卷积来建模。由于任何语音段的频谱是原始语音信号的频谱和设备频率响应的乘积,因此每个录音设备的身份特征被嵌入到语音中。基于此假设,随机谱特性(rsfs)特征就可以用来作为待测录音设备的固有轨迹。
[0110]
所述提取非话语段的随机谱特性(rsfs)特征,包括:
[0111]
首先对噪声段信号加窗、分帧,帧长64ms,帧移32ms,经过快速傅立叶变换得到每帧2048个点的频谱图,每帧记为x(t);
[0112]
计算非话语段信号的短时功率谱计算公式如下:
[0113][0114]
其中表示非话语段信号的平均功率在频域上的分布,即单位频带的功率随频率变化的情况;
[0115]
取功率谱图w的对数并沿时间轴取平均值,获得2048维的平均功率谱;
[0116]
采用大小为d
×
2048正交随机高斯矩阵,通过矩阵乘法,将平均功率谱的维数降低到d《2048,得到噪声信号的d维rsfs参数;
[0117]
生成二维随机谱特性图其中a代表振幅,则r的含义为平均功率随频率变化的情况。完整的提取过程如图4所示。
[0118]
步骤s 3.利用第二分组卷积注意力网络进行录音设备识别
[0119]
所述利用第二分组卷积注意力网络进行录音设备识别的过程,同步骤1.2.1至步骤1.2.4的操作过程,不同的是,在分组注意力模块中:
[0120]
将载体特征图模块输出m
up
分为g组后,对于任意一组xi,将xi分为两块:则j∈[c,r]。用于生成随机谱注意力特征图:
[0121]
利用生成随机谱的空间统计信息后,将sr进行组标准化操作通过全连接层增强sr的表示性,再利用sigmoid激活函数生成随机谱注意力权值分布,进而生成随机谱注意力特征图权值分布,进而生成随机谱注意力特征图
[0122][0123]
第二分组卷积注意力网络的分组注意力模块如图5所示。
[0124]
最后的录音设备检测环节中,输出层神经元个数变成用于训练的录音设备种类的个数,再经过softmax层输出预测为每个种类的概率,取最大值的索引就是该帧最后的识别种类。已知所有帧的识别结果,计算其中占比最大的种类,则该类别就是该待测音频所属的录音设备编号。
[0125]
实施例二
[0126]
本实施例的目的是提供一种计算装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法的步骤。
[0127]
实施例三
[0128]
本实施例的目的是提供一种计算机可读存储介质。
[0129]
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时执行上述方法的步骤。
[0130]
实施例四
[0131]
本实施例的目的是提供第二方面,公开了基于分组卷积注意力网络的录音设备识别系统,包括:
[0132]
非话语段检测模块,被配置为:利用第一分组卷积注意力网络对待测音频的非话语段进行检测,完成非话语段检测后,将待测音频的非话语段筛选出来,拼接为一个完整的非话语段音频,作为新的待测音频;
[0133]
录音设备识别模块,被配置为:在新的待测音频中提取用来作为待测录音设备的固有轨迹的随机谱特性特征,基于上述特征,利用第二分组卷积注意力网络进行录音设备识别。
[0134]
其中,第一分组卷积注意力网络包括四层载体特征图模块与分组注意力模块,具体模块的实现及功能见上述实施例一中,此处不再进行赘述。
[0135]
以上实施例二、三和四的装置中涉及的各步骤与方法实施例一相对应,具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质;还应当被理解为包括任何介质,所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本发明中的任一方法。
[0136]
本领域技术人员应该明白,上述本发明的各模块或各步骤可以用通用的计算机装置来实现,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。
[0137]
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。