1.本发明涉及基于人工智能的电力领域,具体为一种电力语音中多音字检测方法。
背景技术:2.多音字就是一个字有多种读音,这是现代汉语的重要特点之一。电力公司为经济社会发展提供安全、经济、清洁、可持续的电力供应和服务,作为电力服务平台,电力调度中会遇到各种多音字问题,形成理解歧义。在端点检测信号处理的过程中,端点检测是一项特别重要的语音处理技术。短时能量、短时过零率、熵谱和倒谱等都是端点检测经常使用的方法。但是这些特征方法仅仅用于参数的优化和提取,忽视了语音增强的辅助性,这会对电力语音检测的结果有一定的影响。比如在高信噪比的环境下,在电力领域可以取得较好的效果。但是,由于电力业务的特殊性,在自然带噪的语音环境中,因信噪比较低,多音字检测效果就会有所降低。
3.鉴于此,为了克服现有技术缺点,提供一种电力语音中多音字检测方法成为本领域亟待解决的问题。
技术实现要素:4.本发明目的在于克服现有技术的缺点,提供一种电力语音中多音字检测方法,有效提升电力领域用户在自然环境中多音字识别准确率。
5.为解决以上技术问题,本发明提供了一种电力语音中多音字检测方法,其不同之处在于,包括以下步骤:
6.步骤1:采集电力领域自然场景下语音内容形成语音信号,并对所述语音信号进行预处理;
7.步骤2:对每一帧语音信号进行快速傅立叶变换,确定其幅度谱和相位谱,同时确定平均幅度谱输入步骤五;
8.步骤3:对步骤1加窗分帧处理后的语音信号进行多窗谱估计,确定多窗谱功率谱密度;然后做相邻帧的平滑处理,并且确定其平滑功率谱密度;
9.步骤4:根据静音段估计噪声,根据步骤3确定平均功率谱密度值,通过谱减关系来确定增益因子;
10.步骤5:通过步骤4和步骤2得到的增益因子和平均幅度谱,得到谱减后的幅度谱;
11.步骤6:根据步骤5的谱减后的幅度谱和相位谱进行快速傅立叶逆变换,将频域还原到时域,然后求出减噪后的语音信号;
12.步骤7:通过步骤6确定减噪后的语音信号的对数能量和每个电力语音帧的短时谱熵,然后确定对数能量与谱熵的比值即能熵比;
13.步骤8:根据步骤7得到的能熵比进行判断,设置高阈值,如果当前电力语音帧的能熵比高于阈值时确定为电力语音段的起始点;如果当前电力语音帧的能熵比不高于阈值时,则取下一段电力语音帧的能熵比与阈值比较,重复步骤8,直到检测到电力语音起始点;
14.步骤9:根据步骤8检测到电力语音的起始点后,设置低阈值,如果当前电力语音帧的能熵比低于阈值时确定为电力语音段的终止点;如果当前电力语音帧的能熵比不低于阈值时,则取下一段电力语音帧的能熵比与阈值比较,重复步骤9,直到检测到语音终止点;
15.步骤10:重复步骤8和步骤9直至电力语音段结束。
16.按以上技术方案,所述步骤1中的预处理包括分帧处理和加窗处理。
17.按以上技术方案,预处理后的语音信号的相邻帧之间有重叠。
18.按以上技术方案,所述步骤3中,多窗谱功率谱密度的计算公式为:
19.p(k,i)=pmtm[x
i
(m)]
[0020]
其中i表示第i帧,k表示第k条谱线,pmtm表示进行多窗谱功率谱密度估计。
[0021]
按以上技术方案,所述步骤3中,平滑功率谱密度的计算公式为:
[0022][0023]
其中,以i帧为中心前后各取m帧,共有2m+1帧进行平均。
[0024]
按以上技术方案,所述步骤4中,根据步骤3得到的平滑功率谱密度确定平均功率谱密度值,其计算公式为:
[0025][0026]
按以上技术方案,所述步骤4中,增益因子的计算公式为:
[0027][0028]
其中,α为过减因子,β为补偿增益因子。
[0029]
按以上技术方案,所述过减因子α的取值范围为α>1,所述补偿增益因子β的取值范围为0<β<1。
[0030]
与现有技术相比,本发明提供的电力语音中多音字检测方法,有效提升电力领域用户在自然环境中多音字识别准确率。
附图说明
[0031]
图1为本发明实施例的整体流程示意图。
具体实施方式
[0032]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0033]
请参阅图1,本发明公开了一种电力语音中多音字检测方法,其不同之处在于,包括以下步骤:
[0034]
步骤一:采集电力领域自然场景下语音内容形成语音信号,并对所述语音信号进行预处理,其中预处理包括分帧和加窗处理。
[0035]
分帧处理是将n个采样点集合成一个观测单位,称为帧。设分帧后的信号为s(n),其中n=0,1,...,n-1,n,设n的值为200,为帧的大小。
[0036]
加窗处理采用的窗函数为多窗谱,设窗函数为s
mt
(n),
[0037]
其中,l为数据窗个数,s
mt
(n)为第k个数据窗的谱,加窗后的信号为:
[0038][0039]
其中,x(n)为数据序列,n为序列长度,a
k
(n)为第k个数据窗,它满足多个数据窗之间的相互正交:
[0040][0041]
数据窗是一组相互正交的离散椭球序列。
[0042]
在语音信号进行进行加窗和分帧处理之后,第i帧电力语音信号为x
i
(m),并且相邻帧之间有重叠。
[0043]
步骤二:对每一帧电力语音信号x
i
(m)进行快速傅立叶变换,将信号转换到频域上观察其能量分布,
[0044][0045]
计算其幅度谱|x
i
(k)|和相位谱θ
i
(k),同时,在相邻帧做平滑处理,同时计算平均幅度谱
[0046][0047]
其中以i帧为中心前后各取m帧,共有2m+1帧进行平均。输入步骤五。
[0048]
步骤三:对步骤一加窗分帧处理后电力语音信号x
i
(m)进行多窗谱估计,计算出多窗谱功率谱密度p(k,i)
[0049]
p(k,i)=pmtm[x
i
(m)]
[0050]
其中i表示第i帧,k表示第k条谱线,pmtm表示进行多窗谱功率谱密度估计。然后对p(k,i)做相邻帧的平滑处理,并且计算其平滑功率谱密度p
y
(k,i)
[0051][0052]
其中,以i帧为中心前后各取m帧,共有2m+1帧进行平均。
[0053]
步骤四:根据静音段估计噪声,假设前面噪声段时长为is,对应的帧数为nis,根据步骤三可以计算平均功率谱密度值p
n
(k)
[0054]
[0055]
通过谱减关系来计算出增益因子g(k,i)
[0056][0057]
其中,α为过减因子,β为补偿增益因子。过减因子取值范围α>1,并且α的值越大,剩余的自然噪声衰减越大,电力语音的失真也会越大。补偿增益因子取值范围0<β<1,并且β的值越大,剩余的噪声越小,电力语音的自然背景噪声也变得越大。
[0058]
步骤五:通过步骤四和步骤二计算出来的增益因子g(k,i)和平均幅度谱之后,可计算得到谱减后的幅度谱:
[0059][0060]
步骤六:根据步骤五的谱减后的幅度谱|(x
i
)(k)|和相位谱θ
i
(k)进行快速傅立叶逆变换,将频域|(x
i
)(k)|还原到时域,然后求出减噪后的语音信号(x
i
)(m):
[0061]
(x
i
)(m)=idft[|(x
i
)(k)|exp[jθ(k)]]
[0062]
步骤七:通过六计算出减噪后的语音信号(x
i
)(m)的对数能量le
i
和每个电力语音帧的短时谱熵h
i
,然后计算对数能量与谱熵的比值即能熵比eef
i
,再进行平滑处理。
[0063]
其中第i帧电力语音帧长为n,计算出的每帧短时线性能量,a是常系数。
[0064]
步骤二中能量谱x
i
(k)的k条谱线频率分量f
k
的能量谱为y
i
(k),
[0065]
其中是为第i帧第k个频率分量f
k
对应的概率密度。n为快速傅立叶变换长度。
[0066]
能熵比
[0067]
步骤八:根据步骤七能熵比eef
i
进行判断,设置高阈值t2,如果当前电力语音帧的能熵比高于t2时确定为电力语音段的起始点。如果当前电力语音帧的能熵比不高于t2时,则取下一电力语音帧的能熵比与t2比较,重复步骤八,直到检测到电力语音起始点。
[0068]
步骤九:根据步骤八检测到电力语音的起始点后,设置低阈值t1,如果当前电力语音帧的能熵比低于t1时确定是为电力语音段的终止点。如果当前电力语音帧的能熵比不低于t1时,则取下一电力语音帧的能熵比与t1比较,重复步骤九,直到检测到语音终止点。
[0069]
步骤十:重复步骤八和步骤九直至电力语音段结束。
[0070]
测试:
[0071]
在windows10操作系统,cpu为intel-i7,内存为32gb,运行软件为matalab2019。实验数据实验选用300个电力语音多音字音频文件进行测试。选取由8位不同说话人进行测试,从测试结果看,本发明方法对不同性别说话人的语音识别准确率均达到百分之九十以
上,相比传统方法百分之八十的准确率有了很大的提升,表明该方法实例能很好的运行在拥有复杂工作环境的电力行业中。准确率如表1所示:
[0072]
表1电力语音多音字检测准确率
[0073] 检测正确个数检测错误个数准确率/%4位男性发音141994%4位女性发音1371391.3%
[0074]
需要说明的是,在本文中,诸如术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0075]
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。