首页 > 乐器声学 专利正文
一种巡检场景下的电力设备语音识别方法及系统与流程

时间:2022-02-15 阅读: 作者:专利查询

一种巡检场景下的电力设备语音识别方法及系统与流程

1.本发明属于电力巡检语音识别技术领域,尤其涉及一种巡检场景下的电力设备语音识别方法及系统。


背景技术:

2.本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
3.近几年来,随着人工智能的飞速发展,语音识别相关技术在各个领域被采用,为各个场景下的智能、便利、快捷提供了技术的支撑。通用场景下语音识别的蓬勃发展与广泛应用主要是基于大量的标注的语音数据。而特定场景下语音数据采集困难、数量缺失是特定场景下语音识别最大的困难。在电力设备线路巡检时,需要记录巡检线路名称,线路状态等巡检信息,通用的语音识别对电力专用术语识别效果不佳,电力设备线路、变电站等巡检场景下语音数据量不足,巡检人员在将语音转文字过程中,存在无法准确辨识语音的准确语义等问题。


技术实现要素:

4.为了解决上述背景技术中存在的技术问题,本发明提供一种巡检场景下的电力设备语音识别方法及系统,其克服了电力移动巡检场景下语音数据不全的缺点,并产生了精度更高的语音识别模型。
5.为了实现上述目的,本发明采用如下技术方案:
6.本发明的第一个方面提供一种巡检场景下的电力设备语音识别方法。
7.一种巡检场景下的电力设备语音识别方法,包括:
8.获取通用语音数据集和电力移动巡检语音数据集,并进行预处理;
9.采用通用语音数据集,基于las模型,进行语音识别训练,得到训练好的语音识别模型;
10.对所述电力移动巡检语音数据集在训练好的语音识别模型上进行训练,对训练好的语音识别模型参数进行微调,得到电力移动巡检语音识别模型;其中,微调是对训练模型识别出错的地方重点训练,基于训练结果调整模型参数;
11.基于待测的电力移动巡检语音数据,采用电力移动巡检语音识别模型,识别得到电力移动巡检的文本。
12.进一步的,所述预处理包括对所述通用语音数据集和电力移动巡检语音数据集进行标注。
13.进一步的,所述标注包括:
14.规则一:针对数字进行中文标注;
15.规则二:针对英文字母进行大写字母标注;
16.规则三:针对英文单词标注进行小写英文单词标注;
17.规则四:针对特定标志有中文对应的,进行中文标注。
18.进一步的,所述预处理包括:
19.获取通用语音数据集和电力移动巡检语音数据集,并导入peak.js的音频可视化工具中;
20.截取音频中有效声音对应的片段,并不长于特定时长;
21.对指定的片段,进行语音转写。
22.进一步的,采用的语音辨识的输出为汉字本身。
23.进一步的,所述采用通用语音数据集,基于las模型,进行语音识别训练包括:采用语音数据集中的声学特征对las模型进行训练,所述声学特征采用filter(过滤)bank(堆)output(滤波组件),所述得到filter(过滤)bank(堆)output(滤波组件)的过程包括:
24.利用一个一阶有限激励响应高通滤波器对通用语音数据进行预加重;
25.对所述通用语音数据集中的音频进行分帧处理;
26.采用汉明窗对一帧语音加窗;
27.将时域信号变换成为信号的功率谱;
28.用一组mel频标上线性分布的三角窗滤波器,对信号的功率谱滤波;
29.三角窗滤波器组的输出求取对数,从而产生filter bank output。
30.进一步的,所述las模型包括:listen、attend、spell;
31.基于cnn+rnn的模型框架,搭建listen模型结构;
32.采用attention,attention的输出做为decoder的输出,并为每一个token匹配一个几率值,从而得到新的权重;
33.构建基于束搜索机制。
34.其中,束搜索(beam search)是对贪婪搜索的一个改进算法。它有一个束宽(beam size)超参数。我们将它设为k。在时间步1时,选取当前时间步条件概率最大的k个词,分别组成k个候选输出序列的首词。在之后的每个时间步,基于上个时间步的k个候选输出序列,从kleft|mathcal{y}right|个可能的输出序列中选取条件概率最大的k个,作为该时间步的候选输出序列。最终,从各个时间步的候选输出序列中筛选出包含特殊符号的序列,并将它们中所有特殊符号后面的子序列舍弃,得到最终候选输出序列的集合。
35.本发明的第二个方面提供一种巡检场景下的电力设备语音识别系统。
36.一种巡检场景下的电力设备语音识别系统,包括:
37.获取模块,其被配置为:获取通用语音数据集和电力移动巡检语音数据集,并进行预处理;
38.第一训练模块,其被配置为:采用通用语音数据集,基于las模型,进行语音识别训练,得到训练好的语音识别模型;
39.第二训练模块,其被配置为:对所述电力移动巡检语音数据集在训练好的语音识别模型上进行训练,对训练好的语音识别模型参数进行微调,得到电力移动巡检语音识别模型;
40.语音识别模块,其被配置为:基于待测的电力移动巡检语音数据,采用电力移动巡检语音识别模型,识别得到电力移动巡检的文本。
41.本发明的第三个方面提供一种计算机可读存储介质。
42.一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一个方面所述的巡检场景下的电力设备语音识别方法中的步骤。
43.本发明的第四个方面提供一种计算机设备。
44.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述第一个方面所述的巡检场景下的电力设备语音识别方法中的步骤。
45.与现有技术相比,本发明的有益效果是:
46.1、本发明提出了巡检场景下的电力设备语音识别方法,结合通用场景语料信息训练的语音识别模型与电力移动巡检语音数据,利用迁移学习技术构建了电力设备语音识别模型,解决了电力巡检专业语音数据不足,通用语音识别服务中电力巡检专业术语识别不佳的问题,实现电力巡检专业术语的精准识别,有效提升了巡检过程中线路名称、设备名称、缺陷类型等关键信息的录入效率。
47.2、本发明提出了融合多神经网络的语音特征提取方法,结合神经网络提取语音信号特征,有效降低了背景噪声的干扰,增强了声音信号,实现细精度的语音特征提取,为语音识别模型训练奠定特征基础。
48.本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
49.构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
50.图1是本发明示出的巡检场景下的电力设备语音识别方法流程图;
51.图2是本发明示出的las模型框架图;
52.图3是本发明示出的attention结构图。
具体实施方式
53.下面结合附图与实施例对本发明作进一步说明。
54.应该指出,以下详细说明都是例示性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
55.需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
56.需要注意的是,附图中的流程图和框图示出了根据本公开的各种实施例的方法和系统的可能实现的体系架构、功能和操作。应当注意,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,所述模块、程序段、或代码的一部分可以包括一个或多个用于实现各个实施例中所规定的逻辑功能的可执行指令。也应当注意,在有些作为备选的实现中,方框中所标注的功能也可以按照不同于附图中所标注的顺序发生。例如,两个接
连地表示的方框实际上可以基本并行地执行,或者它们有时也可以按照相反的顺序执行,这取决于所涉及的功能。同样应当注意的是,流程图和/或框图中的每个方框、以及流程图和/或框图中的方框的组合,可以使用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以使用专用硬件与计算机指令的组合来实现。
57.实施例一
58.如图1所示,本实施例提供了一种巡检场景下的电力设备语音识别方法,本实施例以该方法应用于服务器进行举例说明,可以理解的是,该方法也可以应用于终端,还可以应用于包括终端和服务器和系统,并通过终端和服务器的交互实现。服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务器、云通信、中间件服务、域名服务、安全服务cdn、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本技术在此不做限制。本实施例中,以电力移动巡检为例,该方法包括以下步骤:
59.获取通用语音数据集和电力移动巡检语音数据集,并进行预处理;
60.采用通用语音数据集,基于las模型,进行语音识别训练,得到训练好的语音识别模型;
61.对所述电力移动巡检语音数据集在训练好的语音识别模型上进行训练,对训练好的语音识别模型参数进行微调,得到电力移动巡检语音识别模型;
62.基于待测的电力移动巡检语音数据,采用电力移动巡检语音识别模型,识别得到电力移动巡检的文本。
63.为了使本发明的目的、技术方案和有点更加清楚明白,以下结合附图及实施例对本发明进行进一步的详细说明。
64.首先,用电脑麦克风进行语音采集,先找500个普通话证书的人说普通话,500个青岛人说青岛方言,500个济南人说济南方言,分别获取音频数据集,并导入peak.js的音频可视化工具中,用音频截取工具剪取音频中有效声音片段,并不长于7秒,对指定的部分,进行语音标注。我们分别针对数字进行中文标注,针对英文字母进行大写字母标注,针对英文单词标注进行小写英文单词标注,针对特定标志有中文对应的,进行中文标注,共标注了15000条语音数据。
65.其次,会搭建一个las模型,las模型包含:listen(编码阶段)、attend、spell。用cnn+rnn的模型框架,搭建listen模型结构,采用additive attention,attention的输出做为decoder的输出,并为每一个token匹配一个几率值,从而得到新的权重。构建一个基于beam的spell机制。声学特征采用filter bank output,利用一个一阶有限激励响应高通滤波器进行预加重,选取的语音帧长为32ms,帧移为16ms,进而进行分帧,采用汉明窗对一帧语音加窗,将时域信号变换成为信号的功率谱(频域信号),用一组mel频标上线性分布的三角窗滤波器(共24个三角窗滤波器),对信号的功率谱滤波,每一个三角窗滤波器覆盖的范围都近似于人耳的一个临界带宽,用来模拟人耳的掩蔽效应,40个三角滤波器,获取对数后即40维fbank,求取三角窗滤波器组的输出对数。如图2、3所示。
66.最后训练模型时,分别训练普通话、青岛方言、济南方言、南京方言各5轮,每轮训
练10万次,产生四个不同的模型,分别对四个模型进行测试,普通话测试错字率为2%,精准度在百分之95以上。青岛方言测试错字率3%,精准度在百分之95以上。济南方言测试错字率为3%,精准度在百分之95以上。南京方言测试错字率为3.5%,精准度在百分之95以上。利用提供的基于迁移学习的方法,在四个不同模型的基础上加入电力移动巡检语料进行进一步训练,产生四个新的模型,克服了电力移动巡检场景下语音数据不全的缺点,并产生了精度更高的语音识别模型。采用的grapheme做为语音识别的token,解决了特定场景下语言模型不匹配的部分问题。采用的cnn+rnn的特征提取方式,更加细精度的实现了特征的提取,并一定程度降低了噪音。分别对加入电力移动巡检语料四个模型进行测试,训练5轮,每轮训练10万次,测试结果为普通话电力移动巡检测试字错率为2.5%,精准度在百分之95以上。青岛方言电力移动巡检测试错字率3%,精准度在百分之95以上。济南方言电力移动巡检测试错字率为3%,精准度在百分之95以上。南京方言电力移动巡检测试错字率为3.5%,精准度在百分之95以上。
67.本实施例主要是对电力设备的名字及缺陷进行语音识别,如输电线路巡检的线路名称,缺陷类型,变电巡检场景变电站场景的设备名称、缺陷类型。
68.本实施例通过以下过程:
69.一:采集并标注通用场景下语音数据集和电力移动巡检场景下语音数据集;
70.二:初始化神经网络,采用las模型做为声学训练模型;使用通用场景下语音数据集进行语音识别训练,得到通用场景下的声学模型并做为预训练模型;利用电力移动巡检语音,对las的预训练模型参数进行微调,得到电力移动巡检语音模型;
71.三:获取电力移动训练语料,并训练语言模型。
72.将迁移学习的方法有效利用在了电力移动巡检场景下,克服了特定场景下语音数据有限的缺点,并显著提高了电力移动巡检的语音识别精度。
73.实施例二
74.本实施例提供了一种巡检场景下的电力设备语音识别系统。
75.一种巡检场景下的电力设备语音识别系统,包括:
76.获取模块,其被配置为:获取通用语音数据集和电力移动巡检语音数据集,并进行预处理;
77.第一训练模块,其被配置为:采用通用语音数据集,基于las模型,进行语音识别训练,得到训练好的语音识别模型;
78.第二训练模块,其被配置为:对所述电力移动巡检语音数据集在训练好的语音识别模型上进行训练,对训练好的语音识别模型参数进行微调,得到电力移动巡检语音识别模型;
79.语音识别模块,其被配置为:基于待测的电力移动巡检语音数据,采用电力移动巡检语音识别模型,识别得到电力移动巡检的文本。
80.此处需要说明的是,上述获取模块、第一训练模块、第二训练模块和语音识别模块与实施例一中对应的步骤所实现的示例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
81.实施例三
82.本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述实施例一所述的巡检场景下的电力设备语音识别方法中的步骤。
83.实施例四
84.本实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述实施例一所述的巡检场景下的电力设备语音识别方法中的步骤。
85.本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
86.本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
87.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
88.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
89.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(read

only memory,rom)或随机存储记忆体(random accessmemory,ram)等。
90.以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。