首页 > 乐器声学 专利正文
一种基于声音分类模型的空调内机异常声音检测方法与流程

时间:2022-02-18 阅读: 作者:专利查询

一种基于声音分类模型的空调内机异常声音检测方法与流程

1.本发明涉及一种基于声音分类模型的空调内机异常声音检测方法,属于声音信号处理、人工智能应用和空调质量检测领域。


背景技术:

2.在制造业领域,产品质量控制是一个必不可少的环节。在出厂前对空调进行故障预诊断有助于降低产品不良率,提高制造商口碑。在大数据时代需要依靠人工智能技术进行质量检测,常见的方式包括外观检测和声音分析。外观检测依靠成熟的计算机视觉技术可以发现装配过程中的缺漏,从而帮助完善生产过程。但是外观检测浮于表面而无法深入内里。声音分析可以识别机器运转时的异常响动,从而对产品内部质量做出诊断,因此声音分析可以弥补外观检测的不足。
3.在实际生产中,空调内机出厂前的最后一道工序为异常声音检测,只有检测合格的产品才能进行封装配送。而对于存在异常声响的产品,则需要进行返工,由技术人员进一步处理。其中磨响振动声音和外膜声音是两种常见的异常声音,磨响震动声音是轴承或贯流在运转时受到摩擦而产生的声音,外膜声音是空调外膜在风力作用下抖动产生的声音。这两种异常声音与正常的空调风声在听觉上有一定区别。基于此,在生产车间设置了专门的噪声检测单元,由工人师傅通过听觉对空调质量进行诊断。噪声单元由隔音室和操作台两大部分构成,测试全程由人工操作,具体流程为:
4.1)将空调内机通过传送带运送进隔音室并确认其处于合适位置。
5.2)关闭隔音门,对空调上电。工人师傅带上耳机进行声音辨别。
6.3)测试完成,打开隔音门将空调运出。根据检测结果对其进行下一步处理。
7.4)重复以上步骤对下一台空调进行测试。
8.原有的人工检测方法已经不能满足实际需求。首先,由于订单量提升,人工检测的速度远低于产线运转的速度,空调内机在噪声检测单元堆积,这严重制约了产能提升。其次,人工方法依靠工人师傅的经验进行判别,而没有形成技术标准,判定结果不够客观和稳定。而且车间的背景噪声严重干扰工人师傅判断,进而影响结果的客观准确。最后,在大数据和5g时代,尤其是随着人工神经网络的应用,智能制造和数字化生产逐渐成为企业发展的目标,传统生产模式和人工手段必将被智能方法所取代。
9.目前,由于缺乏可用的数据集,有关空调异常声音智能检测的研究相对较少。不过空调的异常声音检测基于声音分类模型,而声音分类在许多领域得到了广泛的应用,如场景分类、说话人识别、水下目标识别、声音事件识别等。声音分类依赖于不同类别声音之间的差异,通过可视化发现不同类别的空调声音信号在时域上难以区分,但是在频域上它们有着明显的差别,这使得空调声音分类得以实现。这些频域差别大多处于中低频带,而梅尔频谱可以突出中低频带而掩蔽高频带,因此使用梅尔频谱可以改进分类效果。在梅尔频谱基础上进一步提取有用特征能够减少冗余和噪声干扰、实现数据降维,从而得到更高的效率和准确率。对梅尔频谱进行倒谱变换可以得到梅尔倒谱系数(mfccs),mfccs已经被广泛
用作音频特征,但是其较为成功的应用主要是语音识别和乐器识别等,因此mfccs在智能制造领域的应用很有意义。此外,mfccs仅包含频谱的包络信息,为了更充分地描述频谱特性,有必要联合一些其他特征。
10.在大数据时代,人工神经网络凭借其强大的分析能力逐渐成为特征分析的主要手段,目前神经网络已经被广泛应用于声音的分类和识别任务。卷积神经网络(cnn)具有强大的图像分析能力,将声音特征序列以图像形式输入cnn可以实现声音分类,但是图像形式会浪费声音信号的时序依赖信息,而这些时序信息具有提高分类准确率的潜能。此外,图像的分辨率也可能会影响分类准确率。递归神经网络(rnn)能够有效利用声音信号的时序依赖信息,因而适用于时序数据的分析,但是rnn在处理较长序列时容易出现梯度消失和梯度爆炸的问题。长短时记忆(lstm)网络是rnn的重要变种,其内部神经元能够通过减少记忆负担来缓解梯度问题。尽管lstm可以分析较长的时间序列,但是它只能对数据进行单向分析。而双向长短时记忆(bilstm)网络凭借其双向记忆能力可以对序列进行双向分析,它能够发现异常声音发生和结束之间的对称性,并利用这种对称性提高识别效率,所以bilstm适用于空调声音分类任务。


技术实现要素:

11.针对现有技术的不足,本发明提供了一种基于声音分类模型的空调内机异常声音检测方法。
12.本方法首先将空调声音信号切片处理;然后基于每个声音片段提取声音信号的梅尔频谱特征和mfccs,并将频谱特征和倒谱系数组成联合特征;其次通过分类网络对联合特征进行分类;最后用曲线可视化整条声音信号所有片段的分类结果,并给出该空调是否合格的判别结果。其中,分类网络需要使用特征集进行预先训练和测试。
13.本发明还提供了一种计算机设备及存储介质。
14.术语解释:
15.1、快速傅立叶变换(fft),matlab函数fft。
16.2、梅尔频谱:1937年stevens,volkmann和newmann提出了梅尔音阶,在梅尔音阶中相同的音高距离具有相同的听觉差异,基于这个原理发展出了梅尔频谱。在数学上,梅尔频谱相当于将傅里叶频谱沿频率轴进行对数压缩,它可以突出中低频分量而折叠高频分量。现实中梅尔频谱通过短时傅里叶变换和梅尔滤波得到。
17.3、频谱能量,即matlab函数spectral energy。
18.4、频谱质心,即matlab函数spectral centroid。
19.5、频谱熵,即matlab函数spectral entropy。
20.6、频谱峰值,即matlab函数spectral crest。
21.7、频谱衰减,即matlab函数spectral decrease。
22.8、频谱通量,即matlab函数spectral flux。
23.9、频谱峰度,即matlab函数spectral kurtosis。
24.10、频谱衰减点,即matlab函数spectral roll

off point。
25.11、频谱偏度,即matlab函数spectral skewness。
26.12、频谱斜度,即matlab函数spectral slope。
27.13、频谱分布,即matlab函数spectral spread。
28.14、对数压缩,指进行梅尔映射,公式为:mel(f)=2595*log10(1+f/700);其中mel(f)为压缩后的梅尔频率,f为压缩前的傅里叶频率。
29.15、快速傅立叶逆变换(ifft),matlab函数ifft。
30.16、分类网络:分类网络是一个完整的网络模型,共有五层架构,依次为:序列输入层、bilstm网络层、全连接层、分类输出层。
31.17、梅尔倒谱系数(mel frequency cepstral coefficients,mfccs):1980年由davis和mermelstein提出,在声学领域,mfccs用于表征共振峰,即频谱的包络。梅尔倒谱系数被广泛用作音频特征,目前已经在语音识别和乐器识别等方面取得成功应用。
32.本发明的技术方案为:
33.一种基于声音分类模型的空调内机异常声音检测方法,该检测方法包括:
34.(1)采集记录空调内机的运转声音信号;
35.(2)截取步骤(1)得到的声音信号中的异常部分,对截取的异常部分进行切片,根据异常类型对每个片段进行标注;
36.(3)截取步骤(1)得到的声音信号中的正常部分,对截取的正常部分进行切片,并把每个片段标注为正常声音;
37.(4)对步骤(2)和步骤(3)中所有的片段进行快速傅立叶变换得到能量谱,并通过梅尔滤波得到梅尔频谱,基于梅尔频谱提取梅尔频谱特征;
38.(5)对梅尔频谱的幅值进行对数压缩,再对其进行快速傅立叶逆变换或离散余弦变换得到mfccs;
39.(6)将梅尔频谱特征和mfccs组成梅尔联合特征即特征集,并将特征集划分为训练集和测试集;
40.(7)将训练集输入分类网络进行声音分类模型训练,并经过测试集测试,选择分类效果最佳的声音分类模型;
41.(8)采集记录新的待检测空调内机的运转声音信号,将其进行切片;
42.(9)对步骤(8)得到的每个片段进行依次进行步骤(4)、步骤(5)、步骤(6)的操作,得到梅尔联合特征;
43.(10)将梅尔联合特征输入(7)中训练好的声音分类模型进行分类,得到整条声音数据的分类结果序列;
44.(11)将分类结果序列可视化,同时给出空调质量的总体判别结果;
45.(12)将判定为质量不合格的空调序号进行记录,同时给出提示信号。
46.根据本发明优选的,步骤(1)和步骤(8)中,采集记录空调内机的运转声音信号时,采样率为48000赫兹,并采用单声道32位存储格式。
47.根据本发明优选的,步骤(2)、步骤(3)和步骤(8)中的切片具体是指:将声音信号以0.75为重叠率进一步切分成0.5秒时长的片段。
48.根据本发明优选的,步骤(2)中,选取异常声音占比不少于0.5的片段作为异常样本,进行标注时,磨响振动声音的标签为b,外膜声音的标签为c;步骤(3)中,将n作为正常声音的标签。
49.根据本发明优选的,步骤(4)中,短时傅里叶变换,具体包括:
50.首先,对信号进行分帧,帧长为512,重叠率为0.5;
51.然后,逐帧地进行快速傅立叶变换得到频谱,将频谱平方得到能量谱;fft长度为512,快速傅里叶变换前需要对每帧乘以汉明窗,其公式为:0≤n≤n

1,n为窗长,n为时域变量,w[n]为汉明窗幅值。
[0052]
根据本发明优选的,步骤(4)中,通过梅尔滤波得到梅尔频谱,具体是指:
[0053]
梅尔滤波是将能量谱与梅尔滤波器进行频域相乘,得到梅尔频谱,具体计算公式为:melspectrum=power_spectrum(f)
·
melfilter(f),melspectrum为梅尔频谱,power_spectrum为能量谱,melfilter为梅尔滤波器,f为频率变量;
[0054]
梅尔滤波器包括40个重叠率为0.5的三角滤波器,频率范围为1500

24000赫兹;
[0055]
基于带宽对三角滤波器的幅值进行归一化,带宽由相邻的三角滤波器的中心频率所决定;
[0056]
三角滤波器的中心频率通过以下方法求取:将频率范围等分为40个频段,每个频段的中心频率就是梅尔中心频率,根据梅尔映射公式对梅尔中心频率进行映射,所得到的结果就是三角滤波器的中心频率;
[0057]
三角滤波器的幅值通过以下方法求取:三角滤波器的下截止频率为前一个三角滤波器的中心频率,三角滤波器的上截止频率为后一个三角滤波器的中心频率,由此确定三角滤波器的带宽;计算每个三角滤波器带宽倒数在全部三角滤波器带宽倒数和中的占比,将其作为该三角滤波器的幅值;具体计算公式为:δ(i)为第i个三角滤波器的幅值,b(i)为第i个三角滤波器的带宽,b(j)为第j个三角滤波器的带宽,j为三角滤波器总数。
[0058]
根据本发明优选的,步骤(4)中,梅尔频谱特征包括频谱能量、频谱质心、频谱熵、频谱峰值、频谱衰减、频谱通量、频谱峰度、频谱衰减点、频谱偏度、频谱斜度、频谱分布;
[0059]
根据本发明优选的,步骤(5)中,离散余弦变换(dct)公式如式(ⅰ)所示:
[0060][0061]
式(ⅰ)中,m为频域变量,k为变换域变量,m为时域点数,x[m]为时域幅值,x[k]为变换域幅值。
[0062]
根据本发明优选的,步骤(6)中,将mfccs和梅尔频谱特征组成24维梅尔联合特征。
[0063]
根据本发明优选的,分类网络包括五层架构,依次为序列输入层、bilstm网络层、全连接层、softmax层、分类输出层;
[0064]
序列输入层是具有24维度的序列层;bilstm网络层具有100个神经元,即将输入数据映射至100维的特征空间;将bilstm网络层的结果输入全连接层,全连接层的神经元个数等于分类数,全连接层将bilstm网络层的结果映射至2或3维分类空间,每个维度表示一个类别,通过softmax层对取值进行指数映射,将每个类别中的权重视为其概率,依据概率进行类别判断;分类输出层用以计算分类的交叉熵损失。
[0065]
根据本发明优选的,步骤(7)中,选择分类效果最佳的声音分类模型时,对于每组分类网络的参数都进行5次重复训练和测试。
[0066]
根据本发明优选的,步骤(10)中,整条声音数据的分类结果序列由b、c和n组成。
[0067]
根据本发明优选的,步骤(11)中,对分类结果序列可视化时,类型b对应数值

1,类型c对应数值+1,类型n对应数值0,将结果序列转化为数字序列。
[0068]
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现基于声音分类模型的空调内机异常声音检测方法的步骤。
[0069]
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现基于声音分类模型的空调内机异常声音检测方法的步骤。
[0070]
本发明的有益效果为:
[0071]
1、本发明提供的基于声音分类模型的空调内机异常声音检测方法,将待检测的空调声音切片后输入检测模型,然后提取声音片段的梅尔频谱特征和mfccs,并将其作为联合特征输入以bilstm网络为核心的分类网络进行分类,得到整条数据的分类检测结果,从而根据异常程度判定该空调是否合格。本发明提供的方法可以快速准确地进行空调异常声音检测,实现了质检环节的自动化和智能化,从而提高生产效率、减小生产成本。
[0072]
2、本发明提供的基于声音分类模型的空调内机异常声音检测方法,通过考虑人耳对空调内机异常声音的反应力和忍耐度,选择较小的时长进行异常检测,从而可以改善空调产品的用户体验,提高制造商口碑;基于较小的声音片段进行异常分析,可以实现较为具体的异常时刻定位,同时基于较小片段将整条声音的异常情况可视化,方便检修人员对不合格空调的故障进行研判和维修。
[0073]
3、本发明提供的基于声音分类模型的空调内机异常声音检测方法,选择基于梅尔频谱进行特征提取,通过梅尔频谱的非线性映射功能(即突出中低频带而掩蔽高频带),使得不同类别声音信号的差异更加均衡,从而得到了更好的分类效果,提高了异常检测准确率。
[0074]
4、本发明提供的基于声音分类模型的空调内机异常声音检测方法,在梅尔频谱的基础上进行特征提取,减少了冗余和干扰,实现了数据降维,降低了计算力要求、提高了检测效率。
[0075]
5、本发明提供的基于声音分类模型的空调内机异常声音检测方法,使用bilstm网络作为分类网络的核心,充分利用了声音信号的时序依赖信息,并且bilstm网络可以对序列进行双向分析,它能够发现异常声音发生和结束之间的对称性,并利用这种对称性提高识别效率。
附图说明
[0076]
图1为本发明步骤(1)和步骤(8)中得到的原始声音信号时域图示例;
[0077]
图2为本发明步骤(4)中通过变换得到的声音信号一般(傅里叶)频谱和梅尔频谱图;
[0078]
图3为本发明步骤(4)中梅尔滤波使用的梅尔滤波器示意图。
[0079]
图4为本发明采用的分类网络的架构示意图;
[0080]
图5为整条声音数据的分类结果序列可视化示例图;
[0081]
图6为本发明基于声音分类模型的空调内机异常声音检测方法的流程示意图。
具体实施方式
[0082]
下面结合实施例和说明书附图对本发明做进一步说明,但不限于此。
[0083]
实施例1
[0084]
一种基于声音分类模型的空调内机异常声音检测方法,如图6所示,该检测方法包括:
[0085]
(1)通过隔音室采集记录空调内机的运转声音信号;
[0086]
(2)截取步骤(1)得到的声音信号中的异常部分,对截取的异常部分进行切片,根据异常类型对每个片段进行标注;
[0087]
(3)截取步骤(1)得到的声音信号中的正常部分,对截取的正常部分进行切片,并把每个片段标注为正常声音;
[0088]
(4)对步骤(2)和步骤(3)中所有的片段进行快速傅立叶变换(fft),并平方得到能量谱,并通过梅尔滤波得到梅尔频谱,基于梅尔频谱提取梅尔频谱特征;
[0089]
(5)对梅尔频谱的幅值进行对数压缩,再对其进行快速傅立叶逆变换(ifft)或离散余弦变换(dct)得到mfccs;
[0090]
(6)将梅尔频谱特征和mfccs组成梅尔联合特征即特征集,并将特征集划分为训练集和测试集;
[0091]
(7)将训练集输入分类网络进行声音分类模型训练,并经过测试集测试,选择分类效果最佳的声音分类模型;
[0092]
(8)采集记录新的待检测空调内机的运转声音信号,将其进行切片;
[0093]
(9)对步骤(8)得到的每个片段进行依次进行步骤(4)、步骤(5)、步骤(6)的操作,得到梅尔联合特征;
[0094]
(10)将梅尔联合特征输入(7)中训练好的声音分类模型进行分类,得到整条声音数据的分类结果序列;
[0095]
(11)将分类结果序列可视化,同时给出空调质量的总体判别结果;
[0096]
(12)将判定为质量不合格的空调序号进行记录,同时给出提示信号。以便及时进行下一步处理。
[0097]
实施例2
[0098]
根据实施例1所述的一种基于声音分类模型的空调内机异常声音检测方法,其区别在于:
[0099]
步骤(1)和步骤(8)中,采集记录空调内机的运转声音信号时,采样率为48000赫兹,并采用单声道32位存储格式。按照设定,空调要先后经历低风速模式和高风速模式两个阶段,两个阶段的时长是固定的。由于空调处于高风速模式时的声音有更高的响度和频率,使得异常声音被掩盖,因此只采用低风速模式的声音数据进行质量检测。步骤(1)和步骤(8)采集的空调声音信号在时域上很难加以区别,如图1所示。因此本发明采用步骤(4)所述的方法,通过频域差异来进行声音分类。
[0100]
步骤(2)、步骤(3)和步骤(8)中的切片具体是指:将声音信号以0.75为重叠率进一步切分成0.5秒时长的片段。
[0101]
选择0.5秒为研究时长是由于异常声音的单个周期持续时间很短,0.5秒的时长能够囊括单个异常声音从产生到结束的全过程;时长选择过小则无法囊括单个异常,而且容
易受偶发因素影响;时长选择过大则会包含较多冗余信息,影响异常声音识别。此外,空调的异常声音最终会影响用户,所以综合考虑异常声音持续时间和人耳反应,0.5秒为最佳研究时长。而选择0.75为重叠率可以避免遗失和破坏位于片段边缘的异常,同时还可以扩充数据量、丰富数据集。
[0102]
步骤(2)中,选取异常声音占比不少于0.5的片段作为异常样本,进行标注时,磨响振动声音的标签为b,外膜声音的标签为c;步骤(3)中,将n作为正常声音的标签。得到如表1所示数据集。
[0103]
表1
[0104][0105]
步骤(4)中,短时傅里叶变换,具体包括:
[0106]
首先,对信号进行分帧,帧长为512,重叠率为0.5;
[0107]
然后,逐帧地进行快速傅立叶变换(fft)得到频谱,进一步平方得到能量谱;fft长度为512,分帧会引起频谱泄漏,因此,快速傅里叶变换前需要对每帧乘以汉明窗,其公式为:为:0≤n≤n

1,n为窗长,n为时域变量,w[n]为汉明窗幅值。
[0108]
尽管声音数据在隔音室进行采集,但是声音信号2000赫兹以下的频段只包含很少的有效信息,而集中了主要的车间噪声。因此实验中将1500赫兹以下的频段信息摒弃,而将1500

2000赫兹的频段信息保留并作为所有声音信号的统一标度。
[0109]
步骤(4)之所以要将傅里叶频谱变换得到梅尔频谱是因为:c类声音在整个频域都存在分量,而n类声音和b类声音都只在中低频段存在分量,如图2中的(a)所示。三种声音之间的差异分布不均衡会制约分类准确率。而梅尔频谱相当于将傅里叶频谱沿频率轴进行对数压缩,它可以突出中低频分量而折叠高频分量。从如图2中的(b)可以看出,梅尔频谱增大了b

n两类之间的差异,而减小了b

c两类之间的差异,这使得b

c

n三类之间的频谱差异更加均衡,从而能够得到更好的分类效果。
[0110]
步骤(4)中,通过梅尔滤波得到梅尔频谱,具体是指:
[0111]
梅尔滤波是将能量谱与梅尔滤波器进行频域相乘,如图3所示,横坐标为频率,纵坐标为幅值,得到梅尔频谱,具体计算公式为:melspectrum=power_spectrum(f)
·
mel0ilter(f),melspectrum为梅尔频谱,power_spectrum为能量谱,melfilter为梅尔滤波器,f为频率变量;
[0112]
梅尔滤波器包括40个重叠率为0.5的三角滤波器,频率范围为1500

24000赫兹;
[0113]
基于带宽对三角滤波器的幅值进行归一化,带宽由相邻的三角滤波器的中心频率所决定;
[0114]
为了确定三角滤波器的中心频率,三角滤波器的中心频率通过以下方法求取:将
频率范围等分为40个频段,每个频段的中心频率就是梅尔中心频率,根据梅尔映射公式mel(f)=2595*log10(1+f/700)对梅尔中心频率进行映射,所得到的结果就是三角滤波器的中心频率;
[0115]
三角滤波器的幅值通过以下方法求取:三角滤波器的下截止频率为前一个三角滤波器的中心频率,三角滤波器的上截止频率为后一个三角滤波器的中心频率,由此确定三角滤波器的带宽;计算每个三角滤波器带宽倒数在全部三角滤波器带宽倒数和中的占比,将其作为该三角滤波器的幅值;具体计算公式为:δ(i)为第i个三角滤波器的幅值,b(i)为第i个三角滤波器的带宽,b(j)为第j个三角滤波器的带宽,j为三角滤波器总数。
[0116]
步骤(4)中,梅尔频谱特征包括频谱能量、频谱质心、频谱熵、频谱峰值、频谱衰减、频谱通量、频谱峰度、频谱衰减点、频谱偏度、频谱斜度、频谱分布;
[0117]
提取的梅尔频谱特征要能够充分描述原数据的特性,同时要对不同类别有足够的区分度。本发明基于三种声音的样本测试了音频领域常用的频谱特征,并通过比较它们对三种声音的区分效果筛选出11个有效特征,它们是频谱能量、频谱质心、频谱熵、频谱峰值、频谱衰减、频谱通量、频谱峰度、频谱衰减点、频谱偏度、频谱斜度、频谱分布。这些特征从多个维度描述频谱特性,其中包含对频谱细节的描述,从而弥补了mfccs的不足。这些特征的数学表达可以通过多种渠道获取,不再赘述。
[0118]
步骤(5)中mfccs通过梅尔倒谱变换得到,先将梅尔频谱的幅值进行对数压缩,然后对压缩后的梅尔频谱ifft即可得到mfccs。由于前述fft得到的频谱具有实偶性质,因此ifft可以用离散余弦变换(dct)替代,)其公式如式(ⅰ)所示:
[0119][0120]
式(ⅰ)中,m为频域变量,k为变换域变量,m为时域点数,x[m]为时域幅值,x[k]为变换域幅值。
[0121]
mfccs特征一般由mfccs及其差分组成,实践中一般使用前13个mfccs即可。在声学领域,mfccs用于表征共振峰,即频谱的包络。
[0122]
步骤(6)中,将mfccs和梅尔频谱特征组成24维梅尔联合特征。梅尔联合特征包括频谱的细节信息和包络信息,可以充分描述频谱特性。此外,初始声音片段的每一帧包含512个时间抽样点,而特征提取之后以24个特征值表示原声音信号,因此使用联合特征能够带来极大的效率提升。
[0123]
步骤(7)中梅尔联合特征是24*92的时间序列,每个声音片段经过特征提取之后都对应一个特征序列。
[0124]
分类网络包括五层架构,如图4所示,依次为序列输入层(输入层)、bilstm网络层(bilstm层)、全连接层、softmax层、分类输出层(分类层);
[0125]
序列输入层是具有24维度的序列层;bilstm网络层具有100个神经元,即将输入数据映射至100维的特征空间;将bilstm网络层的结果输入全连接层,全连接层的神经元个数等于分类数,全连接层将bilstm网络层的结果映射至2或3维分类空间,每个维度表示一个类别,数据在某一维度的取值越大意味着它属于该类别的可能性越大。而如果数据在两个维度的取值相近则会难以判断它的所属类别,因此通过softmax层对取值进行指数映射,从
而增加其区分度。然后将每个类别中的权重视为其概率,依据概率进行类别判断;分类输出层用以计算分类的交叉熵损失。
[0126]
步骤(7)中的分类网络的核心部分为bilstm网络,这是由于:每个0.5秒的声音片段都对应一个24维的特征序列,而rnn是专门用来处理序列的神经网络。但是rnn的记忆能力较短,使得它只能处理较短的序列。lstm在rnn的结构基础上增加了门控单元,利用门控单元对冗余信息进行丢弃,从而延伸其序列处理能力。bilstm由前向lstm和后向lstm构成,可以处理更长的时序数据,而且可以同时分析序列的顺序规律和逆序规律。在声音片段集中,有些片段记录了异常声音开始的过程,有些片段记录了异常声音结束的过程,这两种声音数据具有对称性。bilstm能利用这种对称性,从而取得较好的识别效果。
[0127]
步骤(7)中,选择分类效果最佳的声音分类模型时,为了避免网络参数带来的偶然性,对于每组分类网络的参数都进行5次重复训练和测试。实验分类结果如表2所示。
[0128]
表2
[0129][0130]
步骤(10)中,整条声音数据的分类结果序列由b、c和n组成。
[0131]
步骤(11)中,对分类结果序列可视化时,类型b对应数值

1,类型c对应数值+1,类型n对应数值0,将结果序列转化为数字序列。方便进行可视化,如图5所示。