一种基于动态时空图的视频理解方法

申请号: CN202410090714.X

申请人: 中国科学技术大学; 深圳市腾讯计算机系统有限公司

申请日期: 2024/1/23

摘要文本

本发明公开了一种基于动态时空图的视频理解方法，将视频数据输送到已训练好的网络模型中，以输出视频理解结果；所述网络模型为层依次连接的特征提取层构成的主干网络，在主干网络中，上一层特征提取层的输出作为下一层特征提取层的输入，每层特征提取层包括依次连接的多头注意力层、空域融合模块、第一适配器、时域交互模块、第二适配器和前馈网络层；该视频理解方法通过动态时空图对视频中复杂动态和结构信息的准确捕捉，提高对整体时空信息的全局理解和综合捕捉，以及利用基于适配器的预训练模型迁移，提升视频理解的准确性和效率。。来自：www.macrodatas.cn

申请人信息

申请人:中国科学技术大学; 深圳市腾讯计算机系统有限公司
申请人地址:230026 安徽省合肥市包河区金寨路96号
发明人: 中国科学技术大学; 深圳市腾讯计算机系统有限公司

专利详细信息

项目	内容
专利名称	一种基于动态时空图的视频理解方法
专利类型	发明申请
申请号	CN202410090714.X
申请日	2024/1/23
公告号	CN117612072A
公开日	2024/2/27
IPC主分类号	G06V20/40
权利人	中国科学技术大学; 深圳市腾讯计算机系统有限公司
发明人	张信明; 张文宇; 陈思宏
地址	安徽省合肥市包河区金寨路96号; 广东省深圳市南山区高新区科技中一路腾讯大厦35层

专利主权项内容

1.一种基于动态时空图的视频理解方法，其特征在于，将视频数据输送到已训练好的网络模型中，以输出视频理解结果；所述网络模型为层依次连接的特征提取层构成的主干网络，在主干网络中，上一层特征提取层的输出作为下一层特征提取层的输入，每层特征提取层包括依次连接的多头注意力层、空域融合模块、第一适配器、时域交互模块、第二适配器和前馈网络层；所述网络模型的训练过程如下：S1：构建训练集，提取训练集中视频数据的每帧图像，将每帧图像转化为多个令牌，基于每帧图像的多个令牌建立令牌间的空域关系，将相邻帧图像中的令牌连接以建立令牌间的时空关系，基于令牌间的空域关系和时空关系构建每帧图像的动态时空图，将动态时空图输入到主干网络；S2：基于空域融合模块计算每帧图像中令牌间的相似度，按照相似度降序排列，选择每帧图像的前对相似的令牌进行融合，得到空域融合后的令牌集合，并将空域融合后的令牌集合送入可训练的第一适配器中进行特征交互；S3：基于时域交互模块中的自注意力机制计算空域融合后的令牌集合中每个令牌与其时空邻居的注意力权重，对每个令牌自身特征和其时空邻居特征进行加权得到每个令牌的新时空特征，并将每个令牌的新时空特征输入到可训练的第二适配器中进行特征交互；S4：将主干网络输出的新时空特征输入到分类器中以输出类别，每层中训练完成的第一适配器和第二适配器实现网络模型从图像任务到视频理解任务的迁移。微信公众号马克数据网

一种基于动态时空图的视频理解方法

摘要文本

申请人信息

专利详细信息

专利主权项内容

热门技术领域

快速入口

专利技术资料

一种基于动态时空图的视频理解方法

摘要文本

申请人信息

专利详细信息

专利主权项内容

相关专利推荐

一种粉煤灰砖块运输装置

一种桥梁支座调节机构

天然气管道安装辅助装置

一种自卸式半挂车

一种双红一紫火灾爆炸二合一火焰探测器

含气量自动解吸装置

热门技术领域

快速入口

专利技术资料