基于公共播音喇叭的播音监控系统、方法、装置和介质与流程

基于公共播音喇叭的播音监控系统、方法、装置和介质
1.技术领域
2.本发明涉及公共播音喇叭的控制技术领域，尤其涉及一种基于公共播音喇叭的播音监控系统、方法、装置和存储介质。
3.

背景技术：

4.公共播音喇叭是在乡镇乃至县市中常见的公共通知设备。现有技术一般是在一个县级或镇级等行政区设置一套公共播音系统，例如，在镇级行政区下属的多个村级单位各设置有公共播音喇叭，在村级或镇级设置有如麦克风等拾音设备，通过该拾音设备将通知广播至全村或全镇。
5.而发明人在长期实践中发现，现有技术中缺乏对播音内容的有效监控手段，难以对播音内容进行识别，导致现有的公共播音控制系统至少存在以下问题：1、容易误播出敏感人名或错误使用的地名等敏感词，造成信息误导，影响播音内容的可信度；2、由于现有的公共播音控制系统一般为行政区域内独立成网，例如县级统一管理或镇级统一管理，系统较为分散，控制系统接入互联网的改造成本较高，并且需要配置网络维护的专业人员等，也将导致维护成本高昂，不符合公共播音系统的使用实际。
6.

技术实现要素：

7.本发明的一个目的在于提出一种基于公共播音喇叭的播音监控系统、方法、装置和存储介质，可以在较低维护难度的基础上，实现对公共播音喇叭的播音内容进行监控和敏感词处理，从而实现公共播音喇叭的高效使用和维护。
8.基于公共播音喇叭的播音监控系统，包括至少一个监控端和若干受控端；每一所述受控端包括公共播音喇叭和拾音模块；其中，所述拾音模块用于采集原始声音信息，在所述监控端处理之后通过所述公共播音喇叭播出；所述监控端包括至少一个主处理模块和多个辅助处理模块；所述主处理模块，用于计算待处理声音信息的梅尔频率倒谱参数，并向每个所述辅助处理模块发送所述梅尔频率倒谱参数；每个所述辅助处理模块，用于根据所述梅尔频率倒谱参数进行dtw模式匹配，并向所述主处理模块返回匹配距离；其中，不同的所述辅助处理模块搭载的dtw算法参考模式不同；所述主处理模块还用于，根据接收到的多个所述匹配距离，判断是否存在小于预设距离阈值的所述匹配距离；并且在任一所述匹配距离小于所述预设距离阈值的情况下，对所述待处理声音信息进行屏蔽处理。
9.进一步地，每个所述辅助处理模块搭载的dtw算法参考模式，包括：根据预先确定的一个敏感词，获取对应的敏感词声音信息；计算所述敏感词声音信息的梅尔频率倒谱参数，得到所述参考模式。
10.进一步地，所述获取对应的敏感词声音信息，包括获取所述敏感词的男声声音信息和女声声音信息。
11.进一步地，所述每个所述辅助处理模块搭载的dtw算法，配置有一个或多个参考模式。
12.进一步地，对于所述主处理模块，在计算待处理声音信息的梅尔频率倒谱参数之前，还包括：接收所述受控端发送的原始声音信息；确定所述原始声音信息中短时能量或短时平均过零率高于预设的起点阈值的首个语音帧，作为所述待处理声音信息的起始帧；在所述起始帧之后的预设语音长度内，判断是否存在短时能量和短时平均过零率均低于预设的末点阈值的语音帧；若不存在，以所述预设语音长度的最后一帧作为所述待处理声音信息的末尾帧；若存在，确定所述起始帧之后的、短时能量和短时平均过零率均低于预设的末点阈值的首个语音帧，作为所述待处理声音信息的末尾帧。
13.进一步地，以所述待处理声音信息或所述敏感词声音信息作为目标音频，梅尔频率倒谱参数计算包括步骤：对所述目标音频进行预处理，得到预处理后的目标音频；所述预处理包括预加重、分帧和加汉明窗；对所述预处理后的目标音频进行短时傅里叶变换，得到变换后的音频信号；所述变换后的音频信号满足如下关系：其中，表示所述变换后的音频信号，表示频域上的自变量，表示预处理后的目标音频，；根据所述变换后的音频信号计算功率谱；所述功率谱满足如下关系：其中，表示所述功率谱；设置梅尔滤波器组包括的滤波器数量为40，计算每个梅尔滤波器组的能量输出；所述能量输出满足如下关系：
其中，表示第个梅尔滤波器的能量输出，表示第个梅尔滤波器的频率响应，表示第个梅尔滤波器的中心频率；相邻梅尔滤波器中心频率的间隔随值的增大而增宽；根据所述能量输出，计算所述目标音频的梅尔频率倒谱参数；所述目标音频的梅尔频率倒谱参数满足如下关系：尔频率倒谱参数满足如下关系：其中，为向量，表示所述目标音频的梅尔频率倒谱参数，表示梅尔滤波器的数量，表示梅尔频率倒谱参数的阶数。
14.进一步地，所述对所述目标音频进行预处理，得到预处理后的目标音频，包括：对所述目标音频进行预加重处理，得到预加重后的目标音频；所述预加重的目标音频满足如下关系：其中，表示所述目标音频的原始音频，表示所述预加重后的目标音频，表示滤波器系数；对所述预加重后的目标音频进行分帧处理，得到分帧后的目标音频；对所述分帧后的目标音频进行加汉明窗处理，得到加窗后的目标音频；所述加窗后的目标音频满足如下关系：后的目标音频满足如下关系：其中，表示一帧数据，，为窗口长度，且。
15.本发明的另一个目的在于提出一种基于公共播音喇叭的播音监控方法，运行于如上任一项所述的播音监控系统的监控端；包括步骤：由主处理模块计算待处理声音信息的梅尔频率倒谱参数，并向每个所述辅助处理
模块发送所述梅尔频率倒谱参数；由每个辅助处理模块分别根据所述梅尔频率倒谱参数进行dtw模式匹配，并向所述主处理模块返回匹配距离；其中，不同的所述辅助处理模块搭载的dtw算法参考模式不同；由所述主处理模块根据接收到的多个所述匹配距离，判断是否存在小于预设距离阈值的所述匹配距离；在任一所述匹配距离小于所述预设距离阈值的情况下，由所述主处理模块对所述待处理声音信息进行屏蔽处理本发明的另一个目的在于提出一种基于公共播音喇叭的播音监控装置，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上任一项所述的方法。
16.本发明的另一个目的在于提出一种可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现如上任一项所述的方法。
17.本发明的有益效果是：通过监控端对受控端进行敏感词监控和处理，从而避免敏感词的相关内容通过公共播音喇叭进行播放，提高了公共播音喇叭内容的可信度和使用效率。同时在监控端通过若干个辅助处理模块分别进行不同参考模块的dtw模式匹配，一方面可以通过多线并行处理的方式，采用多个处理能力较低的设备即可实现多个模式的快速匹配运算，从而降低在现有公共播音系统上进行改造的难度和成本；另一方面由于每个辅助处理模块相互独立并且负责不同敏感词的识别，通过直接增加或更换新的辅助处理模块，即可实现对敏感词的识别系统的更新，极大地降低了维护的难度，使监控系统可以更适用于下级行政区等使用环境。
18.本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。
19.附图说明
20.本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：图1为本发明实施例1提供的基于公共播音喇叭的播音监控系统的结构示意图；图2为本发明实施例2提供的基于公共播音喇叭的播音监控方法的流程示意图；图3为本发明实施例3提供的基于公共播音喇叭的播音监控装置的结构示意图。
21.具体实施方式
22.为使本发明的目的、特征和优点能够更加明显易懂，下面结合附图对本发明的具体实施方式做详细的说明。附图中给出了本发明的若干实施例。但是，本发明可以以许多不同的形式来实现，并不限于本文所描述的实施例。相反地，提供这些实施例的目的是使对本发明的公开内容更加透彻全面。
23.本发明实施例1提供了一种基于公共播音喇叭的播音监控系统。参见图1，基于公
共播音喇叭的播音监控系统100包括至少一个监控端110和若干个受控端120，例如，具体可以是两个、三个或更多的所述受控端120。其中，所述监控端110和每一所述受控端120通信连接，具体可以是有线通信或是无线通信等通信方式。具体地，以县级行政区的播音监控系统为例，所述监控端110可以设于县级单位，若干个受控端分别设置下级单位，例如镇级或村级单位。
24.每一所述受控端120包括公共播音喇叭121和拾音模块122。
25.所述拾音模块122用于采集原始声音信息，在所述监控端110处理之后通过所述公共播音喇叭121播出。具体地，可以是在所述拾音模块122采集到所述原始声音信息之后，所述受控端120通过与所述监控端110之间的通信连接，将所述原始声音信息发送至所述监控端110，并通过通信连接接收所述监控端110处理后的声音信息，再由所述公共播音喇叭121进行播放。
26.所述监控端110包括至少一个主处理模块111和多个辅助处理模块112。其中，所述多个辅助处理模块112均具备独立的数据处理能力，例如每个所述辅助处理模块112可以是基于stm32或是fpga等构建的单片机系统，所述主处理模块111通过配置多路并行接口的方式，连接所述多个辅助处理模块112。
27.优选地，可以对每个所述辅助处理模块112分别配置针对不同敏感词的匹配算法，参见步骤s112a至步骤s112b。
28.s112a、根据预先确定的一个敏感词，获取对应的敏感词声音信息。
29.具体地，可以是根据预先确定的敏感词库，选择一个敏感词作为当前辅助处理模块112针对的敏感词。而为获取敏感词声音信息，可以通过获取所述敏感词的男声声音信息和女声声音信息，将男声声音信息和女声声音信息均作为参考模式，以进行dtw模式匹配。
30.s112b、计算所述敏感词声音信息的梅尔频率倒谱参数，得到所述参考模式。
31.更具体地，每个所述辅助处理模块112搭载的dtw算法，配置有一个或多个参考模式。而对于配置由多个参考模块的所述辅助处理模块112，其向所述主处理模块111返回的匹配距离具体为，所述待处理声音信息的梅尔频率倒谱参数与多个参考模块进行模式匹配得到的最小匹配距离。
32.在所述主处理模块111接收到所述原始声音信息之后、进行梅尔频率倒谱参数计算之前，还可以包括对所述原始声音信息的切分过程，以将切分后的片段分别作为所述待处理声音信息进行后续处理。具体参见步骤s111a1至步骤s111a4。
33.s111a1、接收所述受控端120发送的原始声音信息。
34.通过与所述受控端120之间的通信连接，接收所述受控端120发送的所述原始声音信息。
35.s111a2、确定所述原始声音信息中短时能量或短时平均过零率高于预设的起点阈值的首个语音帧，作为所述待处理声音信息的起始帧。
36.预先设置短时能量和短时平均过零率的起点阈值，对所述原始声音信息进行短时能量计算和短时平均过零率计算，确定出其中短时能量或短时平均过零率高于所述起点阈值的首个语音帧，将该语音帧作为所述待处理声音信息的起始帧。
37.s111a3、在所述起始帧之后的预设语音长度内，判断是否存在短时能量和短时平均过零率均低于预设的末点阈值的语音帧；若不存在，以所述预设语音长度的最后一帧作
为所述待处理声音信息的末尾帧。
38.s111a4、若存在，确定所述起始帧之后的、短时能量和短时平均过零率均低于预设的末点阈值的首个语音帧，作为所述待处理声音信息的末尾帧。
39.由于公共播音系统一般需要实时播放，在对所述原始声音信息进行切分时还需要避免每个片段过长，导致处理时间过长而影响播音的实时性。因此，除了设置短时能量和短时平均过零率的末点阈值，还需要对每个所述待处理声音信息的语音长度进行限制。例如，可以预先设置语音长度为1.5秒，从而将所述原始声音信息切分为一个或多个最长不超过1.5秒的语音片段，分别作为所述待处理声音信息，进行后续的梅尔频率倒谱参数计算和dtw模式匹配。
40.针对梅尔频率倒谱参数的计算，以所述待处理声音信息或所述敏感词声音信息作为目标音频，梅尔频率倒谱参数计算过程可以包括步骤s110a至s110e。
41.s110a、对所述目标音频进行预处理，得到预处理后的目标音频。所述预处理包括预加重、分帧和加汉明窗。
42.更具体地，对所述目标音频进行预处理的过程可以包括步骤s110a1至s110a3。
43.s110a1、对所述目标音频进行预加重处理，得到预加重后的目标音频。所述预加重的目标音频满足如下关系：其中，表示所述目标音频的原始音频，表示所述预加重后的目标音频，表示滤波器系数。
44.s110a2、对所述预加重后的目标音频进行分帧处理，得到分帧后的目标音频。
45.s110a3、对所述分帧后的目标音频进行加汉明窗处理，得到加窗后的目标音频。所述加窗后的目标音频满足如下关系：述加窗后的目标音频满足如下关系：其中，表示一帧数据，，为窗口长度，且。
46.s110b、对所述预处理后的目标音频进行短时傅里叶变换，得到变换后的音频信号。所述变换后的音频信号满足如下关系：其中，表示所述变换后的音频信号，表示频域上的自变量，表示预处理后的目标音频，。
47.s110c、根据所述变换后的音频信号计算功率谱。所述功率谱满足如下关系：
其中，表示所述功率谱。
48.s110d、设置梅尔滤波器组包括的滤波器数量为40，计算每个梅尔滤波器组的能量输出。所述能量输出满足如下关系：输出。所述能量输出满足如下关系：其中，表示第个梅尔滤波器的能量输出，表示第个梅尔滤波器的频率响应，表示第个梅尔滤波器的中心频率。相邻梅尔滤波器中心频率的间隔随值的增大而增宽。
49.s110e、根据所述能量输出，计算所述目标音频的梅尔频率倒谱参数。所述目标音频的梅尔频率倒谱参数满足如下关系：频的梅尔频率倒谱参数满足如下关系：其中，为向量，表示所述目标音频的梅尔频率倒谱参数，表示梅尔滤波器的数量，表示梅尔频率倒谱参数的阶数。更具体地，考虑到运算效率，梅尔频率倒谱参数的阶数取值可以为16，可以理解地，该取值也可以为其他数值，不影响本发明可取得的有益效果。
50.本发明实施例1提供的一种基于公共播音喇叭的播音监控系统，通过监控端对受控端进行敏感词监控和处理，从而避免敏感词的相关内容通过公共播音喇叭进行播放，提高了公共播音喇叭内容的可信度和使用效率。同时在监控端通过若干个辅助处理模块分别进行不同参考模块的dtw模式匹配，一方面可以通过多线并行处理的方式，采用多个处理能力较低的设备即可实现多个模式的快速匹配运算，从而降低在现有公共播音系统上进行改造的难度和成本；另一方面由于每个辅助处理模块相互独立并且负责不同敏感词的识别，通过直接增加或更换新的辅助处理模块，即可实现对敏感词的识别系统的更新，极大地降低了维护的难度，使监控系统可以更适用于下级行政区等使用环境。
51.本发明实施例2提供了一种基于公共播音喇叭的播音监控方法，应用于如实施例1所述的基于公共播音喇叭的播音监控系统，由播音监控系统中的监控端执行。参见图2，基于公共播音喇叭的播音监控方法可以包括步骤s210至s240。
52.s210、由主处理模块计算待处理声音信息的梅尔频率倒谱参数，并向每个所述辅
助处理模块发送所述梅尔频率倒谱参数。
53.s220、由每个辅助处理模块分别根据所述梅尔频率倒谱参数进行dtw模式匹配，并向所述主处理模块返回匹配距离；其中，不同的所述辅助处理模块搭载的dtw算法参考模式不同。
54.s230、由所述主处理模块根据接收到的多个所述匹配距离，判断是否存在小于预设距离阈值的所述匹配距离。
55.s240、在任一所述匹配距离小于所述预设距离阈值的情况下，由所述主处理模块对所述待处理声音信息进行屏蔽处理。
56.所述基于公共播音喇叭的播音监控方法的具体工作过程如实施例1的基于公共播音喇叭的播音监控系统所述，在此不作赘述。
57.本发明实施例2提供的一种基于公共播音喇叭的播音监控方法，通过监控端对受控端进行敏感词监控和处理，从而避免敏感词的相关内容通过公共播音喇叭进行播放，提高了公共播音喇叭内容的可信度和使用效率。同时在监控端通过若干个辅助处理模块分别进行不同参考模块的dtw模式匹配，一方面可以通过多线并行处理的方式，采用多个处理能力较低的设备即可实现多个模式的快速匹配运算，从而降低在现有公共播音系统上进行改造的难度和成本；另一方面由于每个辅助处理模块相互独立并且负责不同敏感词的识别，通过直接增加或更换新的辅助处理模块，即可实现对敏感词的识别系统的更新，极大地降低了维护的难度，使监控系统可以更适用于下级行政区等使用环境。
58.参见图3，是本发明实施例3提供的基于公共播音喇叭的播音监控装置30的示意图。所述基于公共播音喇叭的播音监控装置30包括：处理器31、存储器32以及存储在所述存储器32中并可在所述处理器31上运行的计算机程序，例如公共播音喇叭的远程控制程序。所述处理器31执行所述计算机程序时实现上述基于公共播音喇叭的播音监控方法实施例中的步骤，例如图2所示的基于公共播音喇叭的播音监控方法的步骤，从而实现如实施例1所述的基于公共播音喇叭的播音监控系统的功能。
59.示例性的，所述计算机程序可以被分割成一个或多个模块，所述一个或者多个模块被存储在所述存储器32中，并由所述处理器31执行，以完成本发明。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序在所述基于公共播音喇叭的播音监控装置中的执行过程。例如，所述计算机程序可以实现如实施例2所述的基于公共播音喇叭的播音监控方法。所述公共播音喇叭的播音监控方法包括步骤：由主处理模块计算待处理声音信息的梅尔频率倒谱参数，并向每个所述辅助处理模块发送所述梅尔频率倒谱参数；由每个辅助处理模块分别根据所述梅尔频率倒谱参数进行dtw模式匹配，并向所述主处理模块返回匹配距离；其中，不同的所述辅助处理模块搭载的dtw算法参考模式不同；由所述主处理模块根据接收到的多个所述匹配距离，判断是否存在小于预设距离阈值的所述匹配距离；在任一所述匹配距离小于所述预设距离阈值的情况下，由所述主处理模块对所述待处理声音信息进行屏蔽处理。
60.所述基于公共播音喇叭的播音监控装置30可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述基于公共播音喇叭的播音监控装置30可包括，但不仅限于，处理器、存储器。本领域技术人员可以理解，所述示意图仅仅是基于公共播音喇叭的播音监控装置30的示例，并不构成对基于公共播音喇叭的播音监控装置30的限定，可以包括
比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述基于公共播音喇叭的播音监控装置30还可以包括输入输出设备、网络接入设备、总线等。
61.所称处理器可以是中央处理单元(central processing unit，cpu)，还可以是其他通用处理器、数字信号处理器 (digital signal processor，dsp)、专用集成电路 (application specific integrated circuit，asic)、现成可编程门阵列 (field
‑
programmable gate array，fpga) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器31是所述基于公共播音喇叭的播音监控装置30的控制中心，利用各种接口和线路连接整个基于公共播音喇叭的播音监控装置30的各个部分。
62.所述存储器32可用于存储所述计算机程序或模块，所述处理器31通过运行或执行存储在所述存储器32内的计算机程序或模块，以及调用存储在存储器内的数据，实现所述基于公共播音喇叭的播音监控装置30的各种功能。所述存储器32可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序（比如声音播放功能、图像播放功能等）等；存储数据区可存储根据手机的使用所创建的数据（比如音频数据、电话本等）等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡（smart media card, smc），安全数字（secure digital, sd）卡，闪存卡（flash card）、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
63.其中，所述基于公共播音喇叭的播音监控装置30集成的模块或单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（rom，read
‑
only memory）、随机存取存储器（ram，random access memory）、电载波信号、电信信号以及软件分发介质等。
64.需说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本发明提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。
65.本发明实施例3提供的一种基于公共播音喇叭的播音监控装置和可读存储介质，通过监控端对受控端进行敏感词监控和处理，从而避免敏感词的相关内容通过公共播音喇叭进行播放，提高了公共播音喇叭内容的可信度和使用效率。同时在监控端通过若干个辅助处理模块分别进行不同参考模块的dtw模式匹配，一方面可以通过多线并行处理的方式，
采用多个处理能力较低的设备即可实现多个模式的快速匹配运算，从而降低在现有公共播音系统上进行改造的难度和成本；另一方面由于每个辅助处理模块相互独立并且负责不同敏感词的识别，通过直接增加或更换新的辅助处理模块，即可实现对敏感词的识别系统的更新，极大地降低了维护的难度，使监控系统可以更适用于下级行政区等使用环境。
66.在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、
ꢀ“
示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
67.以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。