← 返回列表
一种视频语言理解方法、装置、设备及可读存储介质
摘要文本
本发明涉及计算机视觉技术领域,具体公开了一种视频语言理解方法、装置、设备及可读存储介质,除视频样本自带的注释文本外,还通过获取如搜索关键词或视频分段信息等视频样本的关联信息,以利用注释文本和关联信息来构建视频样本对应的文本样本,从而弥补视觉模态与文本模态弱相关的问题,在进行视频语言模型的训练时可以为模型提供更为丰富的上下文信息以帮助模型更好地理解视频内容;在视频语言模型的训练中基于该文本样本与视频样本进行视觉文本跨模态编码,解决了传统视频语言模型泛化能力差的问题,提升了计算机视觉的视频理解能力,进而可以精确响应视频语言相关问题。
申请人信息
- 申请人:浪潮电子信息产业股份有限公司
- 申请人地址:250000 山东省济南市高新区草山岭南路801号9层东侧
- 发明人: 浪潮电子信息产业股份有限公司
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种视频语言理解方法、装置、设备及可读存储介质 |
| 专利类型 | 发明申请 |
| 申请号 | CN202410186667.9 |
| 申请日 | 2024/2/20 |
| 公告号 | CN117765450A |
| 公开日 | 2024/3/26 |
| IPC主分类号 | G06V20/40 |
| 权利人 | 浪潮电子信息产业股份有限公司 |
| 发明人 | 赵雅倩; 金良; 贾麒; 范宝余; 郭振华; 尹云峰 |
| 地址 | 山东省济南市高新区草山岭南路801号9层东侧 |
专利主权项内容
1.一种视频语言理解方法,其特征在于,包括:获取初始视频语言模型和视频样本;利用所述视频样本对应的注释文本和所述视频样本的关联信息构建所述视频样本对应的文本样本;根据待处理视频理解任务的任务目标对所述初始视频语言模型进行损失优化训练,并在训练中基于所述视频样本和所述文本样本进行视觉文本跨模态编码,直至达到迭代结束条件后,输出视频语言模型;响应于所述待处理视频理解任务,调用所述视频语言模型对输入的视频信息进行处理,得到视频处理结果;其中,所述视频样本的关联信息包括获取所述视频样本时的搜索关键词、所述视频样本携带的视频分段信息中的至少一个。