首页 > 乐器声学 专利正文
基于智能语音技术的闪电哨声波自动识别方法及系统与流程

时间:2022-02-18 阅读: 作者:专利查询

基于智能语音技术的闪电哨声波自动识别方法及系统与流程

1.本发明涉及遥感遥测技术领域,特别是涉及一种基于智能语音技术的闪电哨声波自动识别方法及系统。


背景技术:

2.闪电是高空频发的自然灾害,全球范围平均每秒发生约44次,全年累计约14亿次(christian and hugh,2003)。闪电产生宽频带的电磁脉冲,能够传播到电离层并激发起电磁哨声波。哨声波是由于电磁波在传播过程中高低频成分之间存在相速度差,通常情况下高频相速度快提前到达卫星高度,低频相速度慢后续到达,导致其在卫星记录的电磁场时频图中呈现频率随时间下降的“l”形态的色散状(barkhausen,1930;storey,1953;helliwell,1965)。我国首颗电磁监测试验卫星张衡一号卫星记录的典型闪电哨声波如图1所示。当闪电哨声波传播的路径较长、电子密度较高或磁场强度较强时,色散变大(carpenter and anderson,1992)。由于闪电哨声波的形态携带了大量的空间环境信息,被广泛用于空间环境监测中,是揭开圈层耦合机理的重要研究手段(chen et al.,2017;carpenter and anderson,1992;singh et al.,2018;oike et al.,2014;bayupati et al.,2012;clilverd and mark,2002;kishore et al.,2016;z
á
hlava et al.,2018;clilverd et al.,2002;parrot et al,2019;horne et al.,2013;罗旭东,2017)。
3.2018年2月,我国首颗电磁卫星张衡一号(zh

1)发射成功,具备了天基观测闪电哨声波的能力。zh

1卫星覆盖南北纬65度,在中国大陆及周边1000km区域及全球两个地震带(太平洋地震带和欧亚地震带)进行详查模式的观测,其它区域为巡查模式。zh

1卫星在轨飞行高度约507km,其位置接近电离层顶部和等离子层边界,这个区域有丰富的elf/vlf频段波动事件,如闪电哨声波、准周期辐射等(zhima et al.,2020)。zh

1轨道倾角97.4
°
,属于太阳同步轨道,降交点地方时为下午2:00;轨道回归周期为5天,即每5天星下点轨迹相同;在一个回归周期内能够实现全球约500km空间分辨率的观测(袁仕耿等,2018)。卫星绕地球飞行一圈约94分钟,大部分载荷在
±
65
°
纬度范围开机工作,观测数据按升轨(夜晚)和降轨(白天)分别存储,每半轨(升/降轨)观测约34分钟;在同一天内相邻的升轨(或降轨)空间分辨率约2000km。所搭载的感应磁力仪载荷(scm),通过法拉第电磁感应定律获得电离层的感应磁场数据,能够捕获全球闪电哨声波信号,其在巡查模式下仅获得功率谱数据。到目前为止,zh

1已经在轨观测3年多,采集了大量的全球电磁场的波形和功率谱数据,其中scm的3分量x/y/z包含3个频段ulf/elf/vlf,频点范围ulf:10hz

200hz,elf:200hz

2.2khz,vlf:12.5hz

20khz,原始数据的采样率为51.2khz,功率谱数据的频点间隔ulf:0.25hz,elf:2.5hz,vlf:12.5hz,详查模式vlf波形数据80ms包含4096个点(wangetal.,2018;苑艺,2018),每天产生大约10g的数据量。
4.当前,基于闪电哨声波的空间物理研究主要针对卫星记录的单个闪电哨声波事件进行深入分析并反演其空间物理环境的相关参数,然而通常闪电哨声波事件淹没在卫星观测的海量电磁场数据中,完全依赖人工识别效率低下,难度极高,导致了闪电哨声波全球时
空分布规律和相关参数的研究甚少。
5.2008年,国内外学者开始借助人工智能技术克服难点,初步发展了闪电哨声波图像自动识别算法。目前闪电哨声波识别算法的流程是首先对观测波形数据进行带通滤波,然后利用快速傅里叶变换将波形数据转化成时频图,最后借助机器学习或计算机视觉技术等自动识别时频图中的l色散形态。比如lichtenberger等(2008)在反演电子密度时提出依赖人工处理大量地面甚低频(very low frequency,vlf)观测数据将导致相关研究面临巨大的技术瓶颈,并提出了基于滑动模板匹配技术的闪电哨声波自动检测方法,其模板制作符合bernard提出的闪电哨声波的形态(bernard,1973)。该算法已经大规模应用于marion和sanae的vlf地面观测站数据处理,其存在的缺陷是需要事先从时频图中移除闪电脉冲、电力线谐波和人工发射源等引起的干扰现象,具有较高虚警率和漏检率(lichtenberger et al.2008)。zhou等(2020)针对武汉vlf地面观测数据中隐藏的闪电吱声(tweek)现象,通过设置能量谱阈值和时间宽度阈值的方式提出了简单快捷地自动识别算法。但该方法不适用于从张衡卫星数据中识别闪电哨声波,因为张衡一号卫星电磁场观测载荷具有高灵敏度的特点,导致时频图的背景噪声的能量谱强度与闪电哨声波轨迹的能量谱强度相差不大,难以通过设置能量谱阈值的方式对闪电哨声波进行粗定位。斯坦福大学的vlf电波研究小组stanfordvlfgroup(2009)最早对电磁卫星的闪电哨声波现象开展自动识别:截取固定时间窗的时频图,结合去噪处理、网格划分、计算平均幅度值等计算机视觉技术完成特征提取功能,最后采用模板匹配的分类策略实现闪电哨声波粗定位。dharma等(2014)认为该特征的性能受制于网格划分的数量,利用闪电哨声波区域的颜色变化较小且具有明显连通的特点,提出了基于连通域分析的闪电哨声波粗定位方法。其缺陷是特征鲁棒性不高,算法效果受背景噪声影响很大。oike等(2014)和fiser等(2010)以eckersley公式(eckersley,1935)为基础,借助观测数据分别制作了白天和夜间的闪电哨声波模板,再采用互相关熵的模板匹配策略完成闪电哨声波识别和粗定位。(ahmad et al.2008)认为上述闪电哨声波模板不符合实际情况,借助边缘提取等计算机视觉技术提出了表达多种色散形态的特征提取方法,最后利用基于决策树规则的分类算法完成识别。
6.鉴于深度神经网络在提取图像特征和拟合非线性函数等方面获得的巨大突破(lecun,et al.,2015;liu et al.,2018),konan等(2020)提出了两种基于深度神经网络的闪电哨声波粗定位算法:基于滑动深度卷积神经网络(sliding deep neural convolutional neural network,sdnn)算法和基于yolov3(you only look once version 3rd)神经网络算法。sdnn神经网络主要包含两部分:3个卷积层和2个分类层。该算法的实施过程:截取某固定时间宽度的时频图,利用卷积层提取图像特征,再利用分类层进行识别,从而实现闪电哨声波粗定位(konan et al.,2020)。该算法具有高鲁棒性特征的提取功能,泛化能力强的分类功能,但漏检率高,原因是基于固定时间宽度的定位策略容易漏检其他时间宽度的闪电哨声波(konan et al.,2020;袁静等,2021)。yolov3神经网络的闪电哨声波检测算法包含两个主要组成部分:yolov3主体网络和非极大值抑制(non

maximum suppression,nms)算法。yolov3主体网络主要由75个卷积层构成,无全连接层,适应任意大小的输入图像;无池化层,尺度不变特征能传送到下一层;采用残差结构极大地降低了学习鲁棒特征的难度;利用上下文图像信息构造目标定位的数学模型;通过上述过程主体网络将输出多个粗定位的预测框,最后再采用nms算法对主体网络输出的预测框进行过滤和优
化,从而实现闪电哨声波区域粗定位;以上优势使得yolov3深度神经网络较其他粗定位算法具有更高的精度、更快的速度和更高的效率(konan et al.,2020;袁静等,2021),但需要配置高性能的gpu设备,且消耗的内存资源高达233m。
7.总之,目前主流的闪电哨声波识别算法需要将原始波形数据转化为时频图,对算力和存储设备的要求较为苛刻,适合离线数据,因而无法直接应用于星载。


技术实现要素:

8.本发明要解决的技术问题是提供一种基于智能语音技术的闪电哨声波自动识别方法及系统,能够使得闪电哨声波的自动识别算法适合于星载应用。
9.为解决上述技术问题,本发明提供了一种基于智能语音技术的闪电哨声波自动识别方法,所述方法包括:从scm载荷vlf波段的原始波形数据中截取音频数据,组成音频数据集;对音频数据集提取闪电哨声波的mfccs音频特征;利用mfccs音频特征训练lstm神经网络分类器;利用训练好的lstm神经网络分类器识别闪电哨声波。
10.在一些实施方式中,还包括:在从scm载荷vlf波段的原始波形数据中截取音频数据,组成音频数据集之后,对音频数据集提取闪电哨声波的mfccs音频特征之前,对音频数据集进行去趋势处理,获得进行去趋势处理之后的音频数据集。
11.在一些实施方式中,从scm载荷vlf波段的原始波形数据中截取音频数据,组成音频数据集,包括:以0.16s的时间滑动窗从原始波形数据中截取数据,该数据含有8192个点,将其转化为音频片段;再对截取数据进行重复短时傅里叶变换得到其时频图;然后根据时频图是否存在l色散形态特征进行人工标注;最终获得10200段音频数据集。
12.在一些实施方式中,10200段音频数据集包括:闪电哨声波数据5100段,以及非闪电哨声波数据5100段。
13.在一些实施方式中,对音频数据集进行去趋势处理,获得进行去趋势处理之后的音频数据集,包括:根据如下公式进行去趋势处理:
[0014][0015]
其中,为原始信号,为去趋势后的信号。
[0016]
在一些实施方式中,对去趋势处理之后的音频数据集提取闪电哨声波的mfccs音频特征,包括:对去趋势处理后的音频数据集进行预加重、分帧、加窗和快速傅里叶变换,得到语音信号的功率谱;将能量谱通过一组mel尺度的三角形滤波器组,得到能量系数;计算能量系数的对数能量,将对数能量带入离散余弦变换,求出l阶的mfcc参数;对l阶的mfcc参数进行动态差分,得到二维张量表示的mfcc能量参数。
[0017]
在一些实施方式中,利用mfccs音频特征训练lstm神经网络分类器,包括:利用原数据、原数据去趋势、原数据及mfccs特征、或者原数据去趋势及mfccs特征作为mfccs音频特征训练lstm神经网络分类器。
[0018]
此外,本发明还提供了一种基于智能语音技术的闪电哨声波自动识别系统,所述系统包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现根据前文所述的基于智能语音技术的闪电哨声波自动识别方法。
[0019]
采用这样的设计后,本发明至少具有以下优点:
[0020]
本项研究首次将梅尔频率倒谱系数(mfccs)和长短时神经网络(lstm)应用于闪电哨声波自动识别。mfccs考虑到了人类的听觉特征,先将线性频谱映射到基于听觉感知的mel非线性频谱中,然后转换到倒谱上,更符合人耳的听觉特性(davis et al,1980)。由于闪电哨声波能够通过播放器被人耳听到,意味着mfccs在提取闪电哨声波的听觉特征方面具有明显优势;lstm神经网络引入了时间维信息,适合处理和预测波形序列中的重要事件(hochreiter and schmidhuber,1997)。
附图说明
[0021]
上述仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,以下结合附图与具体实施方式对本发明作进一步的详细说明。
[0022]
图1是自动识别zh

1卫星记录闪电哨声波的数据处理流程图;
[0023]
图2是vlf磁场的原始波形和去趋势处理的示意图;
[0024]
图3是mfccs特征参数提取流程示意图;
[0025]
图4是频率与线性频率的关系图;
[0026]
图5是lstm单元结构示意图;
[0027]
图6a是正确识别的闪电哨声波;
[0028]
图6b是未识别的闪电哨声波;
[0029]
图6c是对图6b进行去趋势处理后的闪电哨声波;
[0030]
图7a是正确识别的非闪电哨声波;
[0031]
图7b是未识别的非闪电哨声波;
[0032]
图7c是对图7b进行去趋势处理后的非闪电哨声波;
[0033]
图8是lstm分类器结果箱型图;
[0034]
图9是波形数据特征的时间轨迹;
[0035]
图10是不同分类器的抽象特征;
[0036]
图11是不同lstm网络隐藏特征的时间序列。
具体实施方式
[0037]
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
[0038]
本文以张衡一号卫星感应式磁力仪)search coil magnetometer,scm)观测的磁场波形数据为研究对象,提出了基于智能语音技术的闪电哨声波自动识别算法,主要创新点体现在以下2个方面:
[0039]
打破以视觉分析为主的闪电哨声波研究惯例,开启以听觉分析闪电哨声波的先例。首次从智能语音的角度对原始观测数据进行分析,并创建了闪电哨声波语音数据集。以原始时序波形数据为研究对象,将scm探测到的闪电哨声波形数据以语音方式播放出来后能够非常清晰地听到类似口哨的声音,意味着其频率正好在人耳可听到的范围之内(wicks et al,2016),说明从智能语音的角度分析闪电哨声波是合理可行的。
[0040]
本项研究首次将梅尔频率倒谱系数(mfccs)和长短时神经网络(lstm)应用于闪电
哨声波自动识别。mfccs考虑到了人类的听觉特征,先将线性频谱映射到基于听觉感知的mel非线性频谱中,然后转换到倒谱上,更符合人耳的听觉特性(davis et al,1980)。由于闪电哨声波能够通过播放器被人耳听到,意味着mfccs在提取闪电哨声波的听觉特征方面具有明显优势;lstm神经网络引入了时间维信息,适合处理和预测波形序列中的重要事件(hochreiter and schmidhuber,1997)。
[0041]
zh

1号卫星是我国首颗地震电磁监测试验卫星,重访周期是5天,每天约15个轨道的观测(shen et al.,2018a,b]。该卫星搭载的感应式磁力计scm用于变化磁场观测((cao et al.,2018;wang et al.,2018),通过法拉第电磁感应定律获得电离层的感应磁场数据,该载荷有两种工作模型:巡查模式和详查模式,日产数据大约10g。详查模式下vlf波形数据80ms包含4096个点(wang et al.,2018;fan et al.,2018;)。面对海量数据的挑战,亟需实现基于原始波形的闪电哨声波自动识别。
[0042]
基于原始波形的闪电哨声波识别方案主要由三部分组成,如图1所示:数据整理、数据预处理和基于智能语音的闪电哨声波自动识别算法。
[0043]
(1)数据整理
[0044]
本文的数据收集主要来自zh

1卫星2018年8月scm载荷vlf波段的详查数据。首先,以0.16s的时间滑动窗从原始波形数据中截取数据,该数据含有8192个点,将其转化为音频片段;再对截取数据进行重复短时傅里叶变换得到其时频图;然后根据时频图是否存在l色散形态特征进行人工标注;最终获得10200段音频数据集(闪电哨声波数据5100段,非闪电哨声波数据5100段)。请注意本文中的时频图仅仅是为了查看是否存在闪电哨声波,并不参与识别算法的计算。
[0045]
(2)数据预处理
[0046]
为了有效避免由于噪声和信号的不稳定导致的干扰,增强闪电哨声波的波形特征,首先对原波形数据进行去趋势处理,如式(1)所示:
[0047][0048]
其中,s(n)为原始信号,s(k)为去趋势后的信号。结果如图2所示:图2(a)是含有闪电哨声波的原波形;对其进行趋势处理后的结果如图2(b)所示;图2(c)是不含闪电哨声波的波形数据,对其进行去趋势处理的结果如图2(d)所示。
[0049]
(3)闪电哨声波mfccs音频特征提取
[0050]
由于人耳能明显地听到闪电哨声波的嘶嘶声,依据人耳的听觉机理所设计的mfccs能够提取闪电哨声波的声音特征,将在第二节详细介绍其提取过程。
[0051]
(4)lstm神经网络分类器。
[0052]
该环节主要包含训练神经网络和应用神经网络两个过程。其中,训练神经网络指的是在训练样本集上提取mfccs特征,利用该特征训练lstm神经网络;应用神经网络指的是在测试集上提取mfccs,将其输入训练好的lstm网络,得到最终的识别结果,将在第三节详细介绍其实现过程。
[0053]
1闪电哨声波mfccs音频特征提取算法
[0054]
mfccs特征提取过程见图3所示,主要包括预加权重,分帧加窗,快速傅里叶变换,mel滤波组,对数运算,离散余弦变换(dct)和动态差分。
[0055]
1.1预加重、分帧、加窗和快速傅里叶变换
[0056]
预加重处理:目的是对语音的高频部分进行加重,增加高频部分的分辨率。
[0057]
s(n)=s
n

μs
n
‑1ꢀꢀꢀ
(2)
[0058]
式中s
n
是原始信号,s(n)为处理后的信号,参数μ的值介于0.9

1.0之间,由于scm采样率是51.2khz,则本文选取μ=0.97。
[0059]
分帧处理:先将n个采样点集合成一个观测单位,称为帧。这里的n为512。为了避免相邻两帧的变化过大,设置两相邻帧之间存在重叠区域,此重叠区域包含了m个取样点,通常m的值约为n的1/2或1/3。对应的时间长度是:
[0060]
512/51200
×
1000=10ms
ꢀꢀꢀ
(3)
[0061]
加窗处理:窗长40ms,窗移8ms,对信号加窗以避免短时语音段边缘的影响(jibbs效应)。加窗的定义如下:
[0062]
s
ω
(n)=s(n)
×
ω(n)
ꢀꢀꢀ
(4)
[0063]
式中ω(n)为窗函数,s
ω
(n)为加窗后的信号,本文选用hamming窗来进行加窗处理,ω定义如式(5)所示:
[0064][0065]
不同的值会产生不同的汉明窗,默认选取0.46。
[0066]
快速傅里叶变换:由于信号在时域上的变换通常很难看出信号的特性,所以通常将它转换为频域上的能量分布来观察,不同的能量分布代表不同语音的特性。对分帧,加窗后的各帧信号进行快速傅里叶变换得到各帧的频谱,并对语音信号的频谱取模平方得到语音信号的功率谱,如式(6)所示:
[0067][0068]
其中,s
ω
(n)为加窗后的信号,x(k)为快速傅里叶变换后得到的信号,n表示傅里叶变换的点数。
[0069]
1.2mel滤波器组
[0070]
将能量谱通过一组mel尺度的三角形滤波器组,采用一个有m个滤波器的三角滤波器,中心频率为f(m)。m为滤波器个数,本文m选默认值26,h
m
(k)表示能量谱权重。其中h
m
(k):
[0071][0072]
其中f(m)满足:
[0073]
2mel(f(m))=mel(f(m

1))+mel(f(m+1))
ꢀꢀꢀ
(8)
[0074]
标度频率域提取出来的倒谱参数与频率成非线性对应关系,见图4所示,可用式(9)近似表示:
[0075][0076]
其中,f为频率。
[0077]
1.3对数运算、离散余弦变换dct
[0078]
对数运算:将fft得到的频谱系数x(k)用顺序三角滤波器进行滤波处理得到一组能量系数m1,m2,m3
……
。滤波器组中每三个滤波器的跨度在mel刻度上是相等的。所有的滤波器总体上覆盖的范围从0hz到采样频率的二分之一,计算能量系数s(m)的公式如下:
[0079][0080]
其中,x(k)为快速傅里叶变换后得到的信号,h
m
(k)表示能量谱权重,m为滤波器的个数。
[0081]
计算滤波器组输出能量系数的对数能量,其公式为:
[0082]
s

(m)=lns(m),0≤m≤m
ꢀꢀꢀ
(11)
[0083]
其中,s(m)为能量系数,s

(m)为对数能量系数。
[0084]
离散余弦变换:目的是去除各维信号之间的相关性,将信号映射到低维空间。将上述的对数能量带入离散余弦变换,求出l阶的mel

scale cepstrum参数。
[0085][0086]
其中,c(n)为倒谱系数,l为阶数在mfcc中通常选取8

13,本文l选取13。
[0087]
1.4动态差分
[0088]
标准的倒谱参数mfcc只反映了语音参数的静态特性,语音的动态特性可以用这些静态特征的差分谱来描述。于此,把语音的动、静态特征结合起来能有效提高系统的识别性能。其差分参数的计算公式为:
[0089][0090]
其中,d
t
表示第t个一阶差分,c
t
表示第t个倒谱系数,l表示倒谱系数的阶数,k表示一阶导数的时间差,可取1或2。
[0091]
最后将c(n)、d
t
(k=1)和d
t
(k=2)拼接得到一个16
×
39的二维张量,其每行表示一帧的能量值。帧能量的组成是由39维mfcc参数(13维mfcc倒谱系数+13维一阶差分参数+13维二阶差分参数)。按照上述方法分别提取图2中各子图的mfccs特征,将其绘制成帧能量图。横坐标表示mfcc倒谱的个数,纵坐标代表时间。由帧能量图观察发现:闪电哨声波和非闪电哨声波在mfccs特征上具有较强的鉴别性,比如mfccs特征图的第三列(虚线矩形框区域)存在明显差异。
[0092]
2lstm神经网络分类器算法
[0093]
该方法使用数据是每秒51200个数据点采样组成,每个数据点之间存在以时间先后所构成的序列,当出现闪电哨声波的时候,序列的信息会由平缓突然变得剧烈,最后再逐渐趋于平缓。考虑到lstm网络对于时间序列信息建模的能力,本文采用lstm网络对闪电哨声波的mfccs特征进行分类建模。lstm单元的基本结构见图7所示,lstm单元包括:遗忘门f、输入门i和输出门o三种门控单元(hochreiter and schmidhuber,1997)。
[0094]
遗忘门:能决定前一个lstm单元输出的信息中应该丢弃或保留哪些信息,遗忘门定义如下:
[0095]
f
t
=δ(w
t
·
[h
t
‑1,x
t
]+b
f
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(14)
[0096]
其中,σ表示取sigmoid函数值,w
t
表示权重矩阵,h
t
‑1表示上一层lstm神经网络的输出,x
t
表示输入,b
f
表示偏置量。f
t
的元素取值范围是0到1,表示遗忘的程度,0表示全忘,1表示全记住。
[0097]
输入门:用来更新单元状态,输入门的定义如下:
[0098]
i
t
=δ(w
i
·
[h
t
‑1,x
t
]+b
i
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(15)
[0099]
c
t
=tanh(w
c
·
[h
t
‑1,x
t
]+b
c
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(16)
[0100]
其中i
t
表示输入状态量,c
t
表示对i
t
的筛选。遗忘门和输入门决定了当前神经网络层的状态信息,即:
[0101]
c
t
=f
i
×
c
t
‑1+i
t
×
c
t
ꢀꢀꢀ
(17)
[0102]
输出门:输出到下一个lstm单元的信息,输出门的定义如下:
[0103]
o
t
=δ(w
o
·
[h
t
‑1,x
t
]+b
i
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(18)
[0104]
h
t
=o
t
×
tanh(c
t
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(19)
[0105]
其中,o
t
是将隐藏状态信息h
t
‑1和当前输入的信息x
t
输入到sigmoid函数得到的;把当前时刻的单元状态c
t
输入到tanh函数得到tanh(c
t
),然后把tanh(c
t
)和o
t
相乘,得到隐藏状态应携带的信息h
t

[0106]
通过遗忘门可以减弱闪电哨声波中的一些噪声干扰,输入门可以选择历史信号中起重要作用的部分,最终结合当前信息与历史信息输出影响分类的关键信息。
[0107]
3.实验和分析
[0108]
3.1实验流程及lstm神经网络模型参数设置
[0109]
实验流程包括数据整理、mfccs特征提取、lstm模型训练和评估指标值,并进行1000次重复实验。具体详细步骤如下:
[0110]
(1)数据集:含有5100个闪电哨声波波形样本集wd和5100个非闪电哨声波的样本集nwd。
[0111]
(2)训练集:分别从样本集wd和nwd中各随机选取50%作为训练样本,构建训练集。
[0112]
(3)测试集:将样本集wd和nwd剩下的样本组建成测试集。
[0113]
(4)特征提取:用四种不同的特征提取方法提取训练集的音频特征,四种特征分别是:原始波形数据特征,用original表示;对原始波形数据进行去趋势处理后的特征,用original_detrend表示;对原始波形数据采用mfccs处理后的特征,用original_mfcc表示;先对原始波形数据进行去趋势处理,再采用mfccs处理后的特征,用original_detrend_mfcc表示。
[0114]
(5)训练过程:用(4)中提及的四种特征分别训练lstm分类模型,得到四种不同的lstm分类器。
[0115]
(6)测试过程:在测试集上先采用(4)中四种不同的特征提取方式提取特征,再将四种特征分别输入到四种不同的lstm分类模型中进行识别,输出识别结果。
[0116]
(7)评估:对识别效果采用四种指标进行评估:精确度(precision)、召回率(recall)、f1值和roc面积(auc

roc)(袁静等,2021)。
[0117]
采用不同的输入特征训练lstm神经网络所需的超参数也不尽相同,本文对每一种特征分类器,均采用十折交叉的方式获得lstm神经网络模型的超参数,见表1所示:
[0118]
表1基于四种不同特征的lstm神经网络的参数
[0119][0120][0121]
表2基于四种不同特征的lstm神经网络在训练集和测试集上的表现
[0122][0123]
在每一次实验的训练集和测试集上,均使用四种不同的特征提取方法提取图像特征,并以此训练得到四个不同的分类器,最后采用精度、召回率、f1和auc

roc评估每一个分类器的性能,四种指标的详细定义请参考袁静等(2021)的文献资料。由于每次的训练集和测试集不同,单次的四个评估指标难以充分评价本文提出的闪电哨声波识别算法的效果,因此,开展实验1000次,并在四个评估指标的基础上制定了如下的评价策略:
[0124]
(1)部分识别结果展示
[0125]
(2)总体识别精度评价:对1000次实验的评价指标进行求平均值的评价策略。
[0126]
(3)稳定性评价和差异性评价:对1000次实验的评价指标采用盒形图评估分类的稳定性。为了评价不同的特征分类器之间是否具有明显差异,采用t检验进行差异性评价。阈值p=0.05,即小于0.05为具有明显差异,若大于0.05表明不具有明显差异。
[0127]
3.2部分识别结果展示
[0128]
部分识别结果的波形图和相应的时频图绘制如图6和图7所示,其中波形图是识别结果,此处的时频图仅仅是为了可视化波形中是否存在闪电哨声波。图6是闪电哨声波的识别结果,图6a是正确识别出的闪电哨声波,图6b是未识别出的闪电哨声波,识别不成功的原因是:闪电哨声波的能量较弱且背景干扰强,导致闪电哨声波的趋势特征不明显,采用去趋势处里后哨声波趋势被干扰淹没,造成了不存在闪电哨声波的假象,如图6(c)所示。图7是非闪电哨声波的部分识别结果,图7(a)是正确识别出的非闪电哨声波,图7(b)是误识别的非闪电哨声波,误识别的原因是:原始波形数据中存在强烈的干扰信号且出现近似闪电哨声波的趋势特征,如图7(b)的时频图的黑框处,对相应的波形进行去趋势处理后的结果如图7(c)所示。
[0129]
3.3总体识别精度评价
[0130]
1000次实验后分别获得1000个精确度(precision)、召回率(recall)、f1值(f1socre)、roc面积(auc

roc)值、时间消耗(cost time)和内存消耗(cost memory),分别对其进行均值计算以评估基于智能语音技术的哨声波识别效果,如表3所示。
[0131]
表3 1000次实验后平均效果
[0132][0133]
表3中original+lstm表示用原始波形训练lstm分类器,original_detrend+lstm表示对原始波形进行去趋势处理后再训练lstm分类器,original_mfcc+lstm表示对原始波形提取mfccs特征,original_detrend_mfcc+lstm表示对原始波形进行去趋势处理后再提取其mfccs特征,最后用该特征训练lstm分类器。通过观察表3发现:直接用原始波形数据训练lstm分类器的识别算法(original+lstm),具有最少的时间消耗和内存消耗,分别是2.08s和82.790mb,但该算法在分类精度、召回率、f1值和auc

roc四个指标上的表现最差。本文提出识别算法(original_detrend_mfcc+lstm)在四个指标上的表现效果最佳,分别达到0.967,0.842,0.900和0.907,且由于采用了mfccs特征,将每段0.16s的音频数据量从8192减少到684(16
×
39),使得其时间消耗和内存消耗与original+lstm相近,达到2.24s和83.026mb。而original_detrend+lstm算法为了得到较好的分类结果使用了双层lstm网络,导致该算法损失了更多的时间和和内存。值得注意的是目前最佳的基于时频图的闪电哨声波识别算法采用的是yolov3深度卷积神经网络(袁静等,2021),其在cpu上消耗的时间成本是6.71s,消耗的内存资源是233mb。
[0134]
总之,在基于原始波形的闪电哨声波识别中,联合mfccs音频特征提取和lstm神经
网络技术的闪电哨声波识别算法的分类效果最优。与基于时频图的识别算法比较,其消耗的时间成本和内存资源最小。
[0135]
3.4稳定性和差异性评价
[0136]
本小节将针对不同的lstm分类器的分类效果进行稳定性和差异性评价。
[0137]
(1)稳定性评价:对每种指标的1000个数据,绘制其箱型图,如图8所示。闪电哨声波的识别精度(precision)的1000组数据分布图如图8的precision图所示:其横轴是不同的特征分类器,纵轴是精度。可发现采用original_detrend_mfcc特征分类器的precision箱体的高度低于original、original_detrend和original_mfcc特征分类器,说明该特征分类器在precision指标上的表现更稳定;该箱体的位置高于original、original_detrend和original_mfcc特征分类器,说明该特征分类器在precision指标上的表现更优。用上述方法观察图8的recall、f1score和auc

roc的箱体,均能得出上述同样结论。总之,本文提出的分类器在四个评价指标上均最优且最稳定性。
[0138]
(2)差异性评价:为检验不同分类器的性能是否存在明显的差异,采用两两独立样本的t检验方法对显著性差异进行定量评价,其显著性p值越高,表明差异性越小,通常采用的阈值是0.05,其含义是若差异性小于0.05则认为存在明显差异;若大于0.05则认为两组实验不存在明显差异。结果见表4所示。
[0139]
表4 t检验
[0140][0141][0142]
观察表4的precision的t值检验表中的第一行第二列的值是0,说明:采用original特征分类器与original_detrend特征分类器在精度指标上存在明显差异;继续观察发现,original_detrend_mfccs特征分类器的精度与其他两个特征分类器的精度也存在明显的差异;但相同特征分类器在精度指标上的t检验值是1,说明相同特征分类器在精度指标上未表现出显著性差异,比如第三行第三列的值是1。用上述方法观察表4的recall的t值检验表、f1score的t值检验表和auc

roc的t值检验表,可以得到同等结论。总之,本文提出的识别算法与其他识别算法在精度、召回率、f1值和auc

roc四个评价指标均表现出了明显差异,说明本文提出的算法显著地改善了识别效果。
[0143]
4讨论
[0144]
上述实验表明本文提出的闪电哨声波自动识别算法具有一定的效果。算法方案中的原始波形特征提取和lstm神经网络对闪电哨声波自动识别结果有非常重要的影响,本章将对其产生的影响进行较深入的讨论和分析。
[0145]
4.1提取波形特征
[0146]
为了分析四种特征的时间轨迹,本小节随机选用10个闪电哨声波样本和10个非闪电哨声波样本的音频数据,绘制四种波形特征的时间轨迹如图9所示。
[0147]
图9(a)是原始波形数据的时间序列;图9(b)是对原始波形数据进行去趋势处理后的时间序列;图9(c)是对原始波形数据进行mfccs特征提取后的时间序列;对图9(b)进行mfccs特征提取,得到1639维的特征图,将该特征图的第三列特征按照时间顺序展开,得到如图9(d)所示的结果;其中w表示闪电哨声波波形样本,nonw表示非闪电哨声波波形样本。观察图9(a)发现:含有闪电哨声波原始波形的时间轨迹和非闪电哨声波的轨迹杂糅在一起,增加了分类的难度;对原始波形数据进行去趋势处理后,含有闪电哨声波的样本轨迹的类内差变小,如图9(b)所示,但分类难度依然较大;对原始波形数据提取mfccs特征后,含有闪电哨声波的样本轨迹具有可分性,但有部分杂糅在一起且内类差较大,如图9(c)所示;对原始波形进行去趋势处理并提取mfccs特征,绘制其时间轨迹如图9(c)所示,发现:含有闪电哨声波的时间轨迹和非闪电哨声波的轨迹具有明显的可分性。
[0148]
4.2lstm神经网络的抽象映射
[0149]
lstm神经网络的输出门的最后时刻的隐藏信息特征含有时间序列的抽象特征,该抽象特征包括该时间序列的历史信息和趋势信息等,对最终的分类结果产生关键影响。本小节在测试集中随机选择200个闪电哨声波波形样本(wd)和200个非闪电哨声波波形样本(nwd),将这些样本通过四种不同特征的lstm分类器的抽象特征绘制成图10,其中w表示闪电哨声波波形样本,nonw表示非闪电哨声波波形样本。
[0150]
根据这些样本数据,计算不同的lstm网络的抽象特征的类内差异度和类间差异度,得到见表5所示的结果。
[0151]
表5四种分类器抽象特征差异
[0152][0153]
通过观察图10和表5可以发现:基于mfccs的lstm分类器的抽象特征,其闪电哨声波类内差是0.06609,非闪电哨声波的类内差是0.00024,这说明同类样本的聚集性强;同时,闪电哨声波和非闪电哨声波的类间差是0.26357,说明不同类间的差异性强。总之,本文提出的算法具有类内差小、类间差大的特点,意味着该算法更容易实现准确分类。
[0154]
4.3网络结构对lstm分类结果的影响
[0155]
从实验结果发现不同的网络结构对lstm神经网络的分类效果产生不同的影响,接下来将从lstm网络的性能和抽象特征可分性两个方面进行讨论。
[0156]
(1)性能评估
[0157]
本小节对不同网络结构的lstm网络进行十折交叉验证并计算交叉验证得分和训
练所需的时间消耗,结果见表6所示。
[0158]
表6不同超参数的lstm网络
[0159][0160]
通过观察表6发现,使用加入dropout的单层lstm网络(lstm网络c)比另外两个lstm网络在十折交叉验证中得分高,达到0.947,其分类器的平均时间消耗也是最少,为43.673s。由于神经网络会发生过拟合现象,加入dropout能起到一种vote的作用和减少神经元之间的共适应性,能提升了网络的精度和泛化能力。
[0161]
(2)特征可分角度分析
[0162]
为了定性的比较不同超参数下的lstm网络的抽象特征是否具有可分性,本小节将60个闪电哨声波和60个非闪电哨声波分别输入到不同超参数的lstm网络中提取隐藏信息特征,并将其随着时间变化的轨迹绘制如图11所示。其中w表示闪电哨声波波形样本数据,nonw表示非闪电哨声波波形样本数据。
[0163]
图11(a)的时间轨迹是来自加入失活层的双层lstm网络;图11(b)的时间轨迹来自加入失活层的单层lstm网络;图11(c)的时间轨迹来自去掉失活层的单层lstm网络。观察图11发现,lstm网络

a的w和nonw的特征存在重叠,总体区分度不是很高;lstm网络

b的w和nonw的特征区分度相对较高,仍然存在不同类别的特征交错的情况;相比之下,lstm网络

c的w和nonw的特征主要分布在两个不同区域,特征交错较少。该现象说明lstm网络

c能够提高闪电哨声波和非闪电哨声波的区分度,具有较强的闪电哨声波识别能力。
[0164]
在zh

1卫星运行过程中,其搭载的scm每天产生大约10gb的数据量,其中绝大部分是不存在闪电哨声波的空白数据。如何实现星载实时识别闪电哨声波、传回更有意义的数据、减少存储压力变得尤为重要。鉴于闪电哨声波的频率范围在人耳听觉范围之内,基于语音识别技术的闪电哨声波自动识别已经成为可能。
[0165]
本文在zh

1号卫星的scm数据上开展星载闪电哨声波自动识别算法的探索和研究。根据闪电哨声波能被人耳听到的特性,采用了mfccs特征提取方式增强闪电哨声波的听觉特征,并采用浅层长短期记忆(lstm)回归神经网络对特征进行分类,其分类结果在精度,f1socre以及auc值指标上均高于90%,同时将此方法与基于yolov3神经网络的闪电哨声波检测算法进行对比发现:每处理0.16s的原始数据,可以节省150.11mb的存储空间以及4430ms的时间消耗,增加了星载识别闪电哨声波的可能性,但由于存储空间以及时间消耗的降低,其准确率与yolov3相比仅下降3.24%。mfccs是模拟人耳听觉特性所设计的,但由于hz

mel频率非线性的对应关系,使得在低频区域使用的滤波器数量较多,分布密集,而中高区域使用的滤波器较少,分布稀疏。使得mfccs随着频率的提高其计算的精度就随之下降。而闪电会产生强烈的宽带无线电波,尤其是在300hz至20khz的甚低频(vlf)频带中,因此后续将通过增加中高频的滤波器的方式进一步改善mfccs特征,从而提高其高频部分的
计算精度。
[0166]
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,本领域技术人员利用上述揭示的技术内容做出些许简单修改、等同变化或修饰,均落在本发明的保护范围内。