一种基于VGGish迁移学习网络的电网危害鸟种鸣声识别方法与流程

一种基于vggish迁移学习网络的电网危害鸟种鸣声识别方法
技术领域
1.本发明涉及输电线路领域，具体涉及一种基于vggish迁移学习网络的电网危害鸟种鸣声识别方法。

背景技术：

2.电网周围经常活动的鸟类种类繁多，不同的鸟类有不同的习性，故造成的故障类型也不同，涉鸟故障主要包括鸟粪类、鸟巢类、鸟啄类和鸟体短接类四种类型。为确保有效防范和控制因鸟类活动引发的电网故障跳闸，需要根据鸟的不同种类以及涉鸟故障类型做出相应的防治措施，但因缺少必要的识鸟手段，而且电网运维人员对电网周围活动的鸟类知识又极度匮乏，导致涉鸟故障的精准化防治难以实现，因此有必要对电网涉鸟故障相关鸟种进行智能识别。
3.鸟种识别常用的方法有图像识别和鸟鸣识别。图像识别利用鸟类的形状、颜色和纹理等特征对鸟类进行识别，但存在对运动中的鸟类和夜晚活动的鸟类识别效果不理想的问题。鸟鸣识别以鸟鸣信号作为分析对象，利用不同鸟类鸣叫声的差异性进行分类。由于传统特征参数维数较低，对鸟鸣特征的表达能力不足，造成传统鸟鸣识别算法只能对较少种类的鸟种进行识别。随着计算机视觉技术的发展，通过把音频信号转化为时频谱图的方法，实现鸟鸣信号的可视化，并以时频谱图为特征结合卷积神经网络对鸟鸣信号进行识别，但训练鸟鸣识别的卷积神经网络模型需要大量鸟类声音样本，由于获取电网危害鸟种鸟鸣信号较为困难，导致识别效果不理想。

技术实现要素：

4.针对现有技术存在的问题，本发明的目的在于提供一种基于vggish迁移学习网络的电网危害鸟种鸣声识别方法，提高电网危害鸟种鸟鸣信号的识别准确率，可为电网运维人员进行涉鸟故障防治提供参考。
5.为达到此发明目的，本发明采用以下技术方案，包括如下步骤：
6.一种基于vggish迁移学习网络的电网危害鸟种鸣声识别方法，包括如下步骤：
7.s1：根据历史涉鸟故障的鸟种信息及电网周边鸟种调查结果建立电网危害鸟种音频样本库；
8.s2：对音频进行预处理，利用深度学习对鸟鸣音频进行降噪，深度学习降噪是使用含噪音鸟鸣信号和纯净鸟鸣信号对卷积神经网络进行训练，得到鸟鸣深度学习降噪模型，利用降噪模型对鸟鸣信号中的噪音进行滤除；
9.s3：计算鸟鸣信号语谱图并获取其mel频谱图，以mel频谱图作为网络的输入，对在audioset数据集上预训练的vggish模型进行重新训练，对网络权重进行微调，得到针对于鸟鸣的vggish特征提取网络，利用该网络提取出能够高度概括鸟鸣信息的鸟鸣vggish特征；
10.s4：通过主成分分析法对鸟鸣vggish特征进行降维，将高维特征映射到低维度，用
主成分对鸟鸣vggish特征重新描述，减少特征的相关性，降低冗余特征干扰；
11.s5：将特征降维后的鸟鸣vggish特征按照一定比例划分为训练集、测试集和验证集，利用训练集训练识别网络，利用验证集对网络参数进行调整，得到vggish特征识别模型，利用测试集对识别网络进行测试，输出识别结果。
12.进一步地，s2中包含归一化、分帧、加窗和快速傅里叶变换等预处理。
13.进一步地，s2中利用深度学习进行降噪处理，通过时频掩蔽、频谱映射和信号近似的方法得到降噪后的鸟鸣信号频谱特征，进一步对网络参数进行调整，得到降噪网络模型。
14.进一步地，s3中计算每帧信号能量谱密度，用横轴表示时间，纵轴表示频率，颜色深浅表示能量谱密度大小，生成鸟鸣语谱图，将语谱图映射到64阶mel滤波器组中，生成基于人耳听觉机理的mel频谱图；
15.进一步地，s5中vggish特征识别网络包含支持向量机、卷积神经网络和长短期记忆网络。
16.本发明的有益效果是：
17.本发明提供的一种基于vggish迁移学习网络的电网危害鸟种鸣声识别方法，克服了因样本数量不足而导致传统鸟鸣识别模型泛化能力弱的问题，基于迁移学习的思想，提取高度概括鸟鸣信息的128维vggish特征，结合分类网络能够取得优异的效果，可以有效的识别出不同的鸟种，有助于实现电网涉鸟故障的精准化防治。
附图说明
18.附图1是本发明中的一种基于vggish迁移学习网络的电网危害鸟种鸣声识别方法流程图；
19.附图2是本发明实施例中的鸟鸣信号深度学习算法降噪效果对比图；
20.附图3是本发明实施例中鸟鸣信号mel频谱图；
21.附图4是本发明实施例中vggish迁移学习网络结构图；
22.附图5是本发明实施例中鸟鸣信号vggish特征；
23.附图6是本发明实施例中鸟鸣信号特征降维后vggish特征；
24.附图7是本发明实施例中38种鸟鸣信号识别结果。
具体实施方式
25.下面结合实施例对本发明做进一步的描述，有必要在此指出的是以下实施例只是用于对本发明进行进一步的说明，不能理解为对本发明保护范围的限制，该领域的技术熟练人员根据上述发明内容所做出的一些非本质的改进和调整，仍属于本发明的保护范围。
26.以下通过对电网故障典型鸟种的鸣声信号预处理、vggish特征提取和分类识别进行详细阐述，其流程图如图1所示。包括以下步骤：
27.s1：首先根据历史涉鸟故障的鸟种信息及电网周边鸟种调查结果，挑选电网高危鸟种18种、微害鸟种18种和无危害鸟种2种，共计38种，收集相关鸟种音频，建立鸟鸣音频库，高危和微害鸟种名称及样本数如表1。
28.表1
[0029][0030][0031]
s2：利用大量与电网故障相关鸟种带噪鸟鸣信号和不含噪音鸟鸣信号训练卷积神经网络，得到鸟鸣降噪网络模型，利用该模型对38种鸟鸣信号进行降噪处理，典型鸟种音频信号降噪前后对比如图2，(a)
‑
(f)分别为鹗、喜鹊、红隼、凤头麦鸡、苍鹭、大杜鹃的音频信号降噪前后对比。
[0032]
s3：语谱图的绘制过程包括分帧、加窗、快速傅里叶变换、计算能量谱密度和语谱图绘制。鸟鸣信号以20ms时长进行分帧，使用连续hanning窗进行加窗处理，然后计算能量谱密度，计算方法为
[0033]
e
i
(k)＝[x
′
i
(k)]2ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0034]
其中，x
′
i
(k)表示降噪后鸟鸣频域信号。通过公式(1)计算每一帧鸟鸣信号的能量谱密度，根据计算数值大小进行着色，生成对应的语谱图，然后把每帧对应生成的语谱图以10ms帧移进行叠加，得到完整的鸟鸣信号语谱图。
[0035]
s4：mel频谱图是一种基于人耳听觉特性的频谱图像。由于语谱图计算过程中所用的是实际频率，导致语谱图在频域区分度不高，而且容易受到掩蔽效应的影响。为减少掩蔽效应并提高频域区分度，设置一组基于人耳听觉机理的滤波器组，把语谱图中的实际频率转化为基于人耳听觉的感知频率，这组滤波器称为mel滤波器组，mel滤波器组表达式为
[0036][0037]
式中，h
m
(k)为三角滤波器的频率响应，m表示第m个滤波器，f(m)为三角滤波器的中心频率，三角滤波器的中心频率定义为：
[0038][0039]
式中，f
l
为滤波器的最低频率；f
h
为滤波器的最高频率；n为快速傅里叶变换的长度；f
s
为音频采样频率；为f
mel
的逆函数，f
mel
和实际频率的关系为
[0040][0041]
设置一个由64个滤波器组成的mel滤波器组，将语谱图中实际频率映射到mel滤波器组上，生成mel频谱图。生成的mel频谱图以0.96s时长进行分割，以每帧时长10ms进行重新组帧，帧与帧之间无帧重叠，共计96帧，即生成的每张mel频谱图大小为96
×
64，典型鸟种mel频谱图如图3所示，(a)
‑
(f)分别为鹗、喜鹊、红隼、凤头麦鸡、苍鹭、大杜鹃的mel频谱图。
[0042]
s5：vggish迁移学习网络是在audioset数据集上训练的类vgg模型。网络的输入大小更改为96
×
64
×
1，而且删除了最后一组卷积和最大池化层，网络由4组卷积，4个池化层，8次relu，3个全连接层组成。卷积过程卷积核大小均为3
×
3，步长为1，经过卷积后输入和输出大小保持不变，通道数增大。池化过程池化核大小为2
×
2，步长为2，池化后输出变为输入大小1/2，深度不变。vggish的最后一个全连接层大小也由1000更改为128，充当嵌入层，最终输出128维的vggish特征，网络结构如图4所示。把鸟鸣信号生成的大小为96
×
64
×
1的mel频谱图作为vggish迁移学习网络的输入，训练网络参数并提取128维鸟鸣vggish特征，网络输出格式为[num，128]，其中，num表示为
[0043][0044]
其中，0.96表示每张mel频谱图时长，典型鸟种vggish特征如图5所示，(a)
‑
(f)分别为鹗、喜鹊、红隼、凤头麦鸡、苍鹭、大杜鹃的vggish特征。
[0045]
s6：由于鸟鸣信号生成的vggish特征存在许多零值的单个特征，并不包含有用信息，故可以利用主成分分析法对生成的特征进行特征降维，典型鸟种特征降维后vggish特征如图6所示，(a)
‑
(f)分别为鹗、喜鹊、红隼、凤头麦鸡、苍鹭、大杜鹃的特征降维后vggish特征。
[0046]
s7：提取鸟类音频vggish特征后，可以作为其他识别网络的输入特征，利用卷积神经网络、长短期记忆网络和支持向量机进行识别，也可以直接连接softmax层直接进行分
类。
[0047]
s8：按照训练集、验证集和测试集比例6:2:2划分数据集，利用鸟类音频数据库对vggish迁移学习网络重新训练，38种鸟种测试集音频总体识别正确率达94.43％，38种鸟鸣信号识别结果如图7所示。
[0048]
虽然以上结合附图描述了本发明的具体实施方式，但是本领域普通技术人员应当理解，这些仅是举例说明，可以对这些实施方式做出多种变形或修改，而不背离本发明的原理和实质。本发明的范围仅由所附权利要求书限定。