← 返回列表

基于双路模型融合的视频分割方法、装置、设备及介质

申请号: CN202110314627.4
申请人: 北京影谱科技股份有限公司
申请日期: 2018年5月10日

摘要文本

本申请公开了一种基于双路模型融合的视频分割方法、装置、设备及介质。该方法包括:基于视频中相邻的视频帧之间的相关系数,将所述视频分割成片段;对于所述片段中的视频帧,识别该视频帧的场景,得到场景特征向量;对于所述片段中的视频帧,识别该视频帧的局部行为特征,得到局部行为特征向量;基于所述场景特征向量和所述局部行为特征向量,识别所述视频帧的行为类别和与该行为类别对应的置信度;基于所述片段的视频帧的行为类别和置信度,确定该片段的行为类别;和将相邻的行为类别相同的片段合并,得到所述视频的分割结果。该方法能够同时对双路模型进行融合,综合利用场景和局部行为两个维度,对整体行为信息进行提取,从而快速地对视频进行分割。

专利详细信息

项目 内容
专利名称 基于双路模型融合的视频分割方法、装置、设备及介质
专利类型 发明授权
申请号 CN202110314627.4
申请日 2018年5月10日
公告号 CN112966646B
公开日 2024年1月9日
IPC主分类号 G06V20/40
权利人 北京影谱科技股份有限公司
发明人 宋波
地址 北京市朝阳区朝阳公园南路3号楼6层601内702室

专利主权项内容

1.一种视频分割方法,包括:片段分割步骤:基于视频中相邻的视频帧之间的相关系数,将所述视频分割成片段,所述片段分割步骤包括:直方图计算步骤:计算所述视频的每一个视频帧的YCbCr直方图,相关系数计算步骤:计算该视频帧的YCbCr直方图与前一个视频帧的YCbCr直方图的相关系数,阈值比较步骤:在所述相关系数小于预定的第一阈值时,将该视频帧作为新的片段的起始帧;场景识别步骤:对于所述片段中的视频帧,将所述视频帧的RGB通道分别转化为固定尺寸的分辨率,将经过分辨率转化后的视频帧输入到第一网络模型中,得到该视频帧的场景特征向量,其中,所述第一网络模型为:去掉最后一层全连接层和Softmax分类器的VGG16网络模型;局部行为特征识别步骤:将所述视频帧的RGB通道分别转化为最短边长固定的分辨率,将最短边长固定的视频帧输入到第一网络模型中,将所述第一网络模型的输出结果输入到基于区域的卷积神经网络模型中,利用所述基于区域的卷积神经网络的输出结果计算最优检测类别结果,将所述最优检测类别结果经过感兴趣区域池化层得到局部行为特征向量;视频帧行为类别判断步骤:基于所述场景特征向量和所述局部行为特征向量,识别所述视频帧的行为类别和与该行为类别对应的置信度,所述视频帧行为类别判断步骤包括:视频帧特征向量合并步骤:将所述场景特征向量和所述局部行为特征向量合并为视频帧特征向量,和行为类别和置信度计算步骤:将所述视频帧特征向量输入到第三网络,得到所述视频帧的行为类别和与该行为类别对应的置信度,其中,所述第三网络由4个全连接层与Softmax分类器依次连接形成;片段行为类别确定步骤:基于所述片段的视频帧的行为类别和置信度,确定该片段的行为类别;片段合并步骤:将相邻的行为类别相同的片段合并,得到所述视频的分割结果。