首页 > 乐器声学 专利正文
机车司机室监控信息与LKJ监控信息的时间同步方法及系统与流程

时间:2022-02-18 阅读: 作者:专利查询

机车司机室监控信息与LKJ监控信息的时间同步方法及系统与流程
机车司机室监控信息与lkj监控信息的时间同步方法及系统
技术领域
1.本发明涉及语音信号处理技术领域,具体涉及一种机车司机室监控信息与lkj监控信息的时间同步方法、系统、装置、介质及设备。


背景技术:

2.机车司机规范性作业条例要求机车司机在某些驾驶时刻(如在机车出站,入站时)做出规定的手势并喊出对应的口令。为了监督机车司机的规范化驾驶作业,部分机车上安装了用于监控机车司机驾驶作业的视频和音频采集设备。最后收集到的视频或音频需要手工地与机车lkj监控信息(监控记录)进行时间上的同步,从而判断机车司机是否在规定时刻做出了规范的操作,其中lkj是我国铁路研制的以保证列车行车安全为主要目的的列车运行监控装置,在特定运行情况下lkj装置会向驾驶员发送声音播报信号,比如“红黄灯”等,lkj声音信号泛指这些由lkj装置发送出来的播报声音。然而,由于采集到的视频或音频一般长达数小时或更久,手工地与lkj信号同步,费时费力、效率低。


技术实现要素:

3.本发明要解决的技术问题就在于:针对现有技术存在的技术问题,本发明提供一种同步效率高的机车司机室监控信息与lkj监控信息的时间同步方法、系统、装置、介质及设备。
4.为了解决上述技术问题,本发明采用的技术方案为:
5.一种机车司机室监控信息与lkj监控信息的时间同步方法,包括步骤:
6.1)获取机车司机室监控信息,所述司机室监控信息包括监控音频或包含监控音频的监控视频;
7.2)提取机车司机室监控信息中的声音信号特征,输入至预先构建并训练好的声音事件检测模型中,输出lkj声音信号标签序列;其中声音事件检测模型中预先设有声音信号特征与lkj声音信号标签序列之间的映射关系;
8.3)对lkj声音信号标签序列进行归纳整合,得到lkj声音信号;
9.4)定位lkj声音信号在司机室监控信息中的位置,将司机室监控信息与lkj监控信息进行时间同步。
10.作为上述技术方案的进一步改进:
11.在步骤3)中,所述归纳整合的方法为:
12.从头开始一帧一帧地遍历lkj声音信号标签序列;假设遍历到第k个标签,如果此标签为0则跳过继续遍历第k+1个标签,其中标签0表示此帧非lkj声音;如果此标签非0,则统计从此标签开始后面连续l个标签是否有超过p个与此标签相同,并进行判断:若有超过p个相同标签,则判定该连续l帧标签组成一个lkj声音信号,遍历跳至第k+l+1个标签;若没有超过p个相同标签则跳过此标签,遍历跳至第k+1个标签;
13.其中l的数值由lkj声音信号的类型决定;p的数值由声音事件检测模型而定。
14.在步骤4)中,定位lkj声音信号在司机室监控信息中的位置的过程为:
15.经过对lkj声音信号标签序列归纳整合后,找到司机室监控信息中所有lkj声音信号的类型和所在时刻,即根据司机室监控信息的起始绝对时间,根据第一帧到当前帧的位置偏移推算出各lkj声音信号的绝对时间;
16.根据输入的lkj监控信息,通过lkj监控信息中lkj声音信号的绝对时间信息匹配到其在司机室监控信息中的对应时间位置,从而完成机车司机室监控信息与lkj监控信息的时间同步。
17.在步骤4)之后,还包括输出并存储同步文件:采用csv文件格式来记录同步信息,该csv文件的每一行按序对应lkj监控信息中的每一个lkj声音信号,每行的第一列为lkj声音信号类型,第二列为lkj声音信号出现的绝对时间,第三列为lkj声音信号在司机室监控信息中出现的相对时间偏移。
18.在步骤2)中,所述声音事件检测模型的构建以及训练过程为:
19.2.1)获取lkj声音训练数据;
20.2.2)对lkj声音训练数据进行声音信号特征提取以及标注;
21.2.3)采用深度学习模型构建声音事件检测模型,并基于声音信号特征对声音事件检测模型进行训练。
22.在步骤2.1)中,lkj声音训练数据均采集自日常行驶的机车驾驶室中,对应的采集设备为用来规范机车司机标准作业的监控设备。
23.训练用的所有lkj声音训练数据均由人工从原始采集到的音频流中截取,截取原则为包含该lkj声音信号的全部波形且尽可能少的包含首位两端的其他无关声音波形。
24.在步骤2.2)中,采用梅尔倒谱系数mfcc作为每帧音频的特征表示,并以帧为单位对lkj声音进行类别标注。
25.在步骤2.3)中,深度学习模型包含多个串联的时延神经网络和一个人工神经网路分类器,同时还加入了tanh和relu激活函数作为非线性成分,以及dropout单元防止过拟合;串联的时延神经网络将输入的mfcc特征向量序列转换为深度表示向量序列,人工神经网络分类器则基于该深度表示向量序列预测每一帧mfcc特征向量对应的lkj声音信号类型或非lkj声音信号。
26.本发明还公开了一种机车司机室监控信息与lkj监控信息的时间同步系统,包括:
27.获取模块,用于获取机车司机室监控信息,所述司机室监控信息包括监控音频或包含监控音频的监控视频;
28.输出模块,用于提取机车司机室监控信息中的声音信号特征,输入至预先构建并训练好的声音事件检测模型中,输出lkj声音信号标签序列;其中声音事件检测模型中预先设有声音信号特征与lkj声音信号标签序列之间的映射关系;
29.归纳模块,用于对lkj声音信号标签序列进行归纳整合,得到lkj声音信号;
30.同步模块,用于定位lkj声音信号在司机室监控信息中的位置,并与lkj监控信息进行时间同步。
31.本发明进一步公开了一种机车司机室监控信息与lkj监控信息的时间同步装置,包括用于采集所述机车司机室监控信息的采集模块和如上所述的机车司机室监控信息与lkj监控信息的时间同步系统,所述采集模块为机车司机室的监控装置。
32.本发明还公开了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序在被处理器运行时执行如上所述的机车司机室监控信息与lkj监控信息的时间同步方法的步骤。
33.本发明进一步公开了一种计算机设备,包括存储器和处理器,所述存储器上存储有计算机程序,所述计算机程序在被处理器运行时执行如上所述的机车司机室监控信息与lkj监控信息的时间同步方法的步骤。
34.与现有技术相比,本发明的优点在于:
35.本发明通过预先构建并训练好声音事件检测模型,再对司机室监控信息中提取的声音信号特征进行检测及分类,实现司机室监控信息与lkj监控信息的时间同步;由于采用了基于深度学习的声音事件检测技术,相比于语音识别技术更适用于去检测和分类lkj声音信号;另外,上述同步方法基于预先构建并训练好的声音事件检测模型来实现,仅只需要司机室监控信息这一路数据(音频),工作时直接对采集到的音频进行检测分类,不需要其他额外音频输入,处理数据少,进一步提高同步效率;整体同步方法较人工方式,同步效率高。
36.本发明通过对预测出的帧标签序列进行进一步的归纳整合,以避免噪声、训练误差等不确定性因素的影响。本发明采用机车司机室现有的用于规范司机标准作业的监控装置来采集司机室监控信息,而不需要再配置其它声音端点检测模块等,从而降低整体成本。
附图说明
37.图1为本发明的方法在实施例的流程图。
38.图2为本发明中模型构建及训练流程图。
具体实施方式
39.以下结合说明书附图和具体实施例对本发明作进一步描述。
40.如图1所示,本实施例的机车司机室监控信息与lkj监控信息的时间同步方法,包括步骤:
41.1)获取机车司机室监控信息,司机室监控信息包括监控音频或包含监控音频的监控视频;
42.2)提取机车司机室监控信息中的声音信号特征,输入至预先构建并训练好的声音事件检测模型中,输出lkj声音信号标签序列;其中声音事件检测模型中预先设有声音信号特征与lkj声音信号标签序列之间的映射关系;
43.3)对lkj声音信号标签序列进行归纳整合,得到lkj声音信号;
44.4)定位lkj声音信号在司机室监控信息中的位置,将司机室监控信息与lkj监控信息进行时间同步。
45.本发明通过预先构建并训练好声音事件检测模型,再对司机室监控信息中提取的声音信号特征进行检测及分类,实现司机室监控信息与lkj监控信息的时间同步;由于采用了基于深度学习的声音事件检测技术,相比于语音识别技术更适用于去检测和分类lkj声音信号;另外,上述同步方法基于预先构建并训练好的声音事件检测模型来实现,仅只需要司机室监控信息这一路数据(音频)即可完成同步,而不需要同时对司机室监控信息和lkj
监控信息进行采集及分析,所需要的处理数据少,处理速度快,进一步提高了同步效率。
46.本实施例中,在步骤2)中,声音事件检测模型输出为预测的lkj声音信号标签序列,每一个标签对应输入音频的每一帧;其中标签序列是一个数字序列,0表示非lkj声音信号帧,数字1~m分别代表第m种类型的lkj声音信号,数字与声音类型存在相对应关系。
47.本实施例中,在步骤3)中,由于声音事件检测模型输出的结果是基于帧级别的标签序列,有噪声、训练误差等不确定性因素的存在,还需要对预测出的帧标签序列进行进一步的归纳整合,确定哪些帧能组成lkj声音信号,对应的归纳整合的方法为:从头开始一帧一帧地遍历lkj声音信号标签序列;假设遍历到第k个标签,如果此标签为0则跳过继续遍历第k+1个标签,其中标签0表示此帧非lkj声音;如果此标签非0,则统计从此标签开始后面连续l个标签是否有超过p个与此标签相同,并进行判断:若有超过p个相同标签,则判定该连续l帧标签组成一个lkj声音信号,遍历跳至第k+l+1个标签;若没有超过p个相同标签则跳过此标签,遍历跳至第k+1个标签;其中l的数值由lkj声音信号的类型决定,不同类型的lkj声音信号持续时间不同;p的数值视训练模块中的模型训练而定,训练的模型准确度越高p越高,在实践中采用p=0.85*l(四舍五入)。
48.本实施例中,在步骤4)中,定位lkj声音信号在司机室监控信息中的位置的过程为:经过对lkj声音信号标签序列归纳整合后,找到司机室监控信息中所有lkj声音信号的类型和所在时刻,即根据司机室监控信息的起始绝对时间,根据第一帧到当前帧的位置偏移推算出各lkj声音信号的绝对时间;根据输入的lkj监控信息,通过lkj监控信息中lkj声音信号的绝对时间信息匹配到其在司机室监控信息中的对应时间位置,从而完成机车司机室监控信息与lkj监控信息的时间同步。
49.本实施例中,在步骤4)之后,还包括输出并存储同步文件:采用csv文件格式来记录同步信息,该csv文件的每一行按序对应lkj监控信息中的每一个lkj声音信号,每行的第一列为lkj声音信号类型,第二列为lkj声音信号出现的绝对时间,第三列为lkj声音信号在司机室监控信息中出现的相对时间偏移。
50.如图2所示,本实施例中,在步骤2)中,声音事件检测模型的构建以及训练过程为:
51.2.1)获取lkj声音训练数据;
52.2.2)对lkj声音训练数据进行声音信号特征提取以及标注;
53.2.3)采用深度学习模型构建声音事件检测模型,并基于声音信号特征对声音事件检测模型进行训练。
54.本实施例中,在步骤2.1)中,lkj声音训练数据均采集自日常行驶的机车驾驶室中,对应的采集设备为用来规范机车司机标准作业的监控设备,不需要额外配置声音检测设备,成本低;训练用的所有lkj声音训练数据均由人工从原始采集到的音频流中截取,截取原则为包含该lkj声音信号的全部波形且尽可能少的包含首位两端的其他无关声音波形。
55.本实施例中,在步骤2.2)中,采用梅尔倒谱系数mfcc作为每帧音频的特征表示,并以帧为单位对lkj声音进行类别标注。其中原始的声音信号需要通过特征提取转为低维度的特征向量表示形式,常用的声音特征有梅尔倒谱系数(mfcc),线性预测参数(lpcc)。本实施例采用mfcc作为每帧音频的特征表示,并以帧为单位对lkj声音进行类别标注。比如,一个类型为“红黄灯”的lkj声音信号通过mfcc特征提取后将被表示为n个有序的mfcc特征向
量,每一个mfcc特征向量对应该“红黄灯”声音信号的一帧,标注的方法为将这n帧的mfcc特征向量都标注为同一类别,即n个连续的“红黄灯”标签。
56.本实施例中,在步骤2.3)中,深度学习模型包含多个串联的时延神经网络和一个人工神经网路分类器,同时还加入了tanh和relu激活函数作为非线性成分,以及dropout单元防止过拟合;串联的时延神经网络将输入的mfcc特征向量序列转换为深度表示向量序列,人工神经网络分类器则基于该深度表示向量序列预测每一帧mfcc特征向量对应的lkj声音信号类型或非lkj声音信号。
57.本实施例中,在步骤2.3)之后,还包括存储训练好的声音事件检测模型,以备调用。存储的模型格式视不同的深度学习框架而定,本实施例采用了tensorflow作为模型搭建和训练框架。
58.本发明还公开了一种机车司机室监控信息与lkj监控信息的时间同步系统,包括:
59.获取模块,用于获取机车司机室监控信息,司机室监控信息包括监控音频或包含监控音频的监控视频;
60.输出模块,用于提取机车司机室监控信息中的声音信号特征,输入至预先构建并训练好的声音事件检测模型中,输出lkj声音信号标签序列;其中声音事件检测模型中预先设有声音信号特征与lkj声音信号标签序列之间的映射关系;
61.归纳模块,用于对lkj声音信号标签序列进行归纳整合,得到lkj声音信号;
62.同步模块,用于定位lkj声音信号在司机室监控信息中的位置,将司机室监控信息与lkj监控信息进行时间同步。
63.本发明的机车司机室监控信息与lkj监控信息的时间同步系统,用于执行如上同步方法,同样具有如上方法所述的优点。
64.当然,在其它实施例中,也可以将上述同步系统划分为训练模块和同步模块,其中训练模块负载基于已有lkj声音信号数据库训练并生成声音事件检测模型(或声音事件检测深度学习模型);同步模块则用于利用训练模块中训练并存储好的声音事件检测模型对机车司机室采集到的监控音频进行lkj声音信号的检测与分类,输出lkj监控信息中的lkj声音信号在监控音频中出现的时间,实现时间同步。
65.本发明还公开了一种机车司机室监控信息与lkj监控信息的时间同步装置,包括用于采集机车司机室监控信息的采集模块和如上所述的机车司机室监控信息与lkj监控信息的时间同步系统,其中采集模块为机车司机室现有的lkj列车运行监控装置。此同步装置同样具有如上同步系统所述的优点,而且采集模块采用机车司机室现有的用于规范司机标准作业的监控装置,而不需要再配置其它声音端点检测模块等,从而降低整体成本。
66.本发明进一步公开了一种计算机可读存储介质,其上存储有计算机程序,计算机程序在被处理器运行时执行如上所述的机车司机室监控信息与lkj监控信息的时间同步方法的步骤。
67.本发明还公开了一种计算机设备,包括存储器和处理器,存储器上存储有计算机程序,计算机程序在被处理器运行时执行如上所述的机车司机室监控信息与lkj监控信息的时间同步方法的步骤。
68.本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一个计算机可读存储介质中,该计算机程序在被
处理器执行时,可实现上述各个方法实施例的步骤。其中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、电载波信号、电信信号以及软件分发介质等。存储器可用于存储计算机程序和/或模块,处理器通过运行或执行存储在存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现各种功能。存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(smart media card,smc),安全数字(secure digital,sd)卡,闪存卡(flash card)、至少一个磁盘存储器件、闪存器件、或其它易失性固态存储器件等。
69.以上仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,应视为本发明的保护范围。