再升级!视频理解大模型 CogVLM2 开源

ops/2024/10/22 15:27:45/

节前,我们组织了一场算法岗技术&面试讨论会,邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。

针对大模型技术趋势、算法项目落地经验分享、新手如何入门算法岗、该如何准备面试攻略、面试常考点等热门话题进行了深入的讨论。

总结链接如下:

大模型面试宝典》(2024版) 发布!
彻底火了!《AIGC 面试宝典》圈粉无数!


随着大型语言模型和多模态对齐技术的发展,视频理解模型在一般开放领域也取得了显著进展。

然而,大多数当前的视频理解模型使用帧平均和视频标记压缩方法,导致时间信息的丢失,无法准确回答与时间相关的问题。

另一方面,一些专注于时间问答数据集的模型过于局限于特定格式和适用领域,使得模型失去了更广泛的问答能力。

我们提出了一种基于视觉模型的自动时间定位数据构建方法,生成了3万条与时间相关的视频问答数据。然后,基于这个新数据集和现有的开放领域问答数据,我们引入了多帧视频图像和时间戳作为编码器输入,训练了一种新的视频理解模型—CogVLM2-Video。

CogVLM2-Video 不仅在公共视频理解基准上达到了最新的性能,还在视频字幕生成和时间定位方面表现出色,为视频生成和视频摘要等后续任务提供了强有力的工具。

图片

代码:https://github.com/THUDM/CogVLM2

项目网站:https://cogvlm2-video.github.io

在线试用:http://36.103.203.44:7868/

模型介绍

目前,视频理解的主流方法涉及使用图像编码器从视频中提取帧,对其进行编码,然后设计编码压缩模块(如时间池化或Q-Former模块)来压缩视频编码信息,再将其输入大型语言模型(LLM)以便与文本输入进行联合理解。

尽管这种方法有效地压缩了视频信息,但它使模型失去了时间感知能力,无法准确地将视频帧与精确的时间戳关联起来。因此,模型缺乏时间定位、时间戳检测和总结关键时刻的能力。

为了解决这些问题,我们提出了CogVLM2-Video,这是基于CogVLM2图像理解模型的扩展视频模型。该模型不仅在开放域问答中实现了最先进的性能,还能感知视频中的时间戳信息,从而实现时间定位和相关问答。

具体来说,我们从输入视频片段中提取帧,并为其注释时间戳信息,使后续的语言模型能够准确知道每一帧在原视频中对应的确切时间。

图1展示了CogVLM2-Video的模型结构。

图片

图1 CogVLM2-Video模型结构

数据集

此外,使用现有的时间定位标注数据训练的视频理解模型受到数据范围和问答固定格式的限制,缺乏开放域问答和处理能力。相比于用于训练LLM的纯文本数据和用于训练VLM的图像理解数据,高质量视频问答和时间定位数据的标注成本极高。仅靠手工标注无法满足大规模训练的需求。

为了准备适合大规模训练的时间定位数据,我们开发了一个完全自动化的视频问答数据生成过程。我们利用最新的图像理解模型从视频数据中提取帧级理解,然后使用大型语言模型进行数据过滤和生成。通过这种自动化数据处理工作流和大规模训练,CogVLM2-Video不仅在公共基准上表现出色,还具备了大多数以往视频模型所缺乏的时间敏感问答能力。

通过图2展示的构造流程,我们最终构造了3万条Temporal Grounding Question and Answer (TQA)数据。

图片

图2 TQA数据构造流程

评测

CogVLM2-Video在多个公开评测集上达到最好的性能,下面是一些评测结果。

  • 量化评估指标(VideoChatGPT-Bench + Zero-shot QA)

图片

  • 量化评估指标(MVBench)

图片

用通俗易懂的方式讲解系列

  • 重磅来袭!《大模型面试宝典》(2024版) 发布!

  • 重磅来袭!《大模型实战宝典》(2024版) 发布!

  • 用通俗易懂的方式讲解:不用再找了,这是大模型最全的面试题库

  • 用通俗易懂的方式讲解:这是我见过的最适合大模型小白的 PyTorch 中文课程

  • 用通俗易懂的方式讲解:一文讲透最热的大模型开发框架 LangChain

  • 用通俗易懂的方式讲解:基于 LangChain + ChatGLM搭建知识本地库

  • 用通俗易懂的方式讲解:基于大模型的知识问答系统全面总结

  • 用通俗易懂的方式讲解:ChatGLM3 基础模型多轮对话微调

  • 用通俗易懂的方式讲解:最火的大模型训练框架 DeepSpeed 详解来了

  • 用通俗易懂的方式讲解:这应该是最全的大模型训练与微调关键技术梳理

  • 用通俗易懂的方式讲解:Stable Diffusion 微调及推理优化实践指南

  • 用通俗易懂的方式讲解:大模型训练过程概述

  • 用通俗易懂的方式讲解:专补大模型短板的RAG

  • 用通俗易懂的方式讲解:大模型LLM Agent在 Text2SQL 应用上的实践

  • 用通俗易懂的方式讲解:大模型 LLM RAG在 Text2SQL 上的应用实践

  • 用通俗易懂的方式讲解:大模型微调方法总结

  • 用通俗易懂的方式讲解:涨知识了,这篇大模型 LangChain 框架与使用示例太棒了

  • 用通俗易懂的方式讲解:掌握大模型这些优化技术,优雅地进行大模型的训练和推理!

  • 用通俗易懂的方式讲解:九大最热门的开源大模型 Agent 框架来了


http://www.ppmy.cn/ops/57032.html

相关文章

npm证书过期问题

更新npm 确保你安装了最新版本的npm npm install -g npm清除npm缓存 有时候,缓存中可能包含过期的证书。 npm cache clean --force使用不同的注册表 切换到不同的注册表可能有帮助 npm config set registry https://registry.npmjs.org/检查系统日期和时间 确…

win10 docker-compose搭建ELK日志收集

elk的威名大家都知道,以前前司有专门的人维护,现在换了环境,实在不想上服务器看,所以就摸索下自己搭建,由于现场服务器是需要类似向日葵那样连接,我还是把日志弄回来,自己本地filebeat上传到es中…

【数据结构】手写堆 HEAP

heap【堆】掌握 手写上浮、下沉、建堆函数 对一组数进行堆排序 直接使用接口函数heapq 什么是堆???堆是一个二叉树。也就是有两个叉。下面是一个大根堆: 大根堆的每一个根节点比他的子节点都大 有大根堆就有小根堆&#xff1…

Prometheus 云原生 - 微服务监控报警系统 (Promethus、Grafana、Node_Exporter)部署、简单使用

目录 开始 Prometheus 介绍 基本原理 组件介绍 下文部署组件的工作方式 Prometheus 生态安装(Mac) 安装 prometheus 安装 grafana 安装 node_exporter Prometheus 生态安装(Docker) 安装 prometheus 安装 Grafana 安装…

redis消息队列

redis 的list类型实现消息队列: list结构实现的优缺点: 2、pubsub模式(消息发布订阅)实现消息队列 pubsub的优缺点: 命令行实现: pub:第一次发送有两个接收,第二个只有一个接收 sub接收&#x…

LabVIEW心电信号自动测试系统

开发了一种基于LabVIEW的心电信号自动测试系统,通过LabVIEW开发的上位机软件,实现对心电信号的实时采集、分析和自动化测试。系统包括心电信号采集模块、信号处理模块和自动化测试模块,能够高效、准确地完成心电信号的测量与分析。 硬件系统…

第一关:Linux基础知识

Linux基础知识目录 前言LinuxInternStudio 关卡1. InternStudio开发机介绍2. SSH及端口映射2.1 什么是SSH?2.2 如何使用SSH远程连接开发机?2.2.1 使用密码进行SSH远程连接2.2.2 配置SSH密钥进行SSH远程连接2.2.3 使用VScode进行SSH远程连接 2.3. 端口映射…

什么是天使投资

天使投资的概念和由来 天使投资,英文为 Angel Investment,是指个人投资者将自己的资金投入到初创公司或小型企业中,以换取公司的股权。天使投资者通常是有高净值的个人,他们愿意承担高风险,希望通过投资早期企业获得高…