一种基于动态时空图的视频理解方法
摘要文本
本发明公开了一种基于动态时空图的视频理解方法,将视频数据输送到已训练好的网络模型中,以输出视频理解结果;所述网络模型为层依次连接的特征提取层构成的主干网络,在主干网络中,上一层特征提取层的输出作为下一层特征提取层的输入,每层特征提取层包括依次连接的多头注意力层、空域融合模块、第一适配器、时域交互模块、第二适配器和前馈网络层;该视频理解方法通过动态时空图对视频中复杂动态和结构信息的准确捕捉,提高对整体时空信息的全局理解和综合捕捉,以及利用基于适配器的预训练模型迁移,提升视频理解的准确性和效率。。来自:www.macrodatas.cn
申请人信息
- 申请人:中国科学技术大学; 深圳市腾讯计算机系统有限公司
- 申请人地址:230026 安徽省合肥市包河区金寨路96号
- 发明人: 中国科学技术大学; 深圳市腾讯计算机系统有限公司
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种基于动态时空图的视频理解方法 |
| 专利类型 | 发明申请 |
| 申请号 | CN202410090714.X |
| 申请日 | 2024/1/23 |
| 公告号 | CN117612072A |
| 公开日 | 2024/2/27 |
| IPC主分类号 | G06V20/40 |
| 权利人 | 中国科学技术大学; 深圳市腾讯计算机系统有限公司 |
| 发明人 | 张信明; 张文宇; 陈思宏 |
| 地址 | 安徽省合肥市包河区金寨路96号; 广东省深圳市南山区高新区科技中一路腾讯大厦35层 |
专利主权项内容
1.一种基于动态时空图的视频理解方法,其特征在于,将视频数据输送到已训练好的网络模型中,以输出视频理解结果;所述网络模型为层依次连接的特征提取层构成的主干网络,在主干网络中,上一层特征提取层的输出作为下一层特征提取层的输入,每层特征提取层包括依次连接的多头注意力层、空域融合模块、第一适配器、时域交互模块、第二适配器和前馈网络层;所述网络模型的训练过程如下:S1:构建训练集,提取训练集中视频数据的每帧图像,将每帧图像转化为多个令牌,基于每帧图像的多个令牌建立令牌间的空域关系,将相邻帧图像中的令牌连接以建立令牌间的时空关系,基于令牌间的空域关系和时空关系构建每帧图像的动态时空图,将动态时空图输入到主干网络;S2:基于空域融合模块计算每帧图像中令牌间的相似度,按照相似度降序排列,选择每帧图像的前对相似的令牌进行融合,得到空域融合后的令牌集合,并将空域融合后的令牌集合送入可训练的第一适配器中进行特征交互;S3:基于时域交互模块中的自注意力机制计算空域融合后的令牌集合中每个令牌与其时空邻居的注意力权重,对每个令牌自身特征和其时空邻居特征进行加权得到每个令牌的新时空特征,并将每个令牌的新时空特征输入到可训练的第二适配器中进行特征交互;S4:将主干网络输出的新时空特征输入到分类器中以输出类别,每层中训练完成的第一适配器和第二适配器实现网络模型从图像任务到视频理解任务的迁移。 微信公众号马克 数据网