【大语言模型】ACL2024论文-17 VIDEO-CSR:面向视觉-语言模型的复杂视频摘要创建

news/2024/11/24 21:07:10/

【大语言模型】ACL2024论文-17 VIDEO-CSR:面向视觉-语言模型的复杂视频摘要创建

VIDEO-CSR:面向视觉-语言模型的复杂视频摘要创建
在这里插入图片描述


目录

文章目录

  • 【大语言模型】ACL2024论文-17 VIDEO-CSR:面向视觉-语言模型的复杂视频摘要创建
    • 目录
      • 摘要
      • 研究背景
      • 问题与挑战
      • 如何解决
      • 创新点
      • 算法模型
      • 实验效果(包含重要数据与结论)
      • 推荐阅读指数和推荐理由
    • 后记


摘要

本文介绍了一个新的任务和人类标注的数据集Video-CSR(Captioning, Summarization and Retrieval,即标题生成、摘要和检索),旨在评估视觉-语言模型生成真实世界视频剪辑的字幕和摘要的能力。数据集包含4.8K个YouTube视频剪辑,每个视频剪辑时长在20-60秒之间,覆盖广泛的主题和兴趣点。每个视频剪辑对应5个独立标注的字幕(1句话)和摘要(3-10句话)。给定数据集中的任何视频及其对应的自动语音识别(ASR)信息,评估视觉-语言模型在视频的视觉和听觉内容基础上的标题或摘要生成能力。此外,模型还根据标题和摘要进行检索任务的评估,其中基于摘要的检索任务需要在给定摘要的摘录下识别目标视频。鉴于段落长度视频摘要任务的新颖性,我们对不同的现有评估指标及其与人类偏好的一致性进行了广泛的比较分析。最后,我们提出了一个基础模型,具有竞争性的生成和检索能力,作为Video-CSR任务的基线。我们希望Video-CSR能成为大型语言模型时代和复杂多模态任务中的一个有用的评估集。

研究背景

随着YouTube和TikTok等视频内容平台上数十亿活跃用户的需求不断增长,自动化复杂视频理解变得前所未有地重要。传统的视频理解主要集中在对短视频进行标题和/或检索任务上,这些视频和标签都是简短的句子。这种简洁性部分是由于模型限制,即详细的、多句子的视频描述在轻量级文本解码器下无法实现。然而,随着大型语言模型(LLMs)的飞速发展,视觉-语言模型(VLMs)现在有机会利用LLaMA和ChatGPT等模型的庞大自然语言能力。这些LLMs拥有数十亿到数百亿的参数,能够以前所未有的程度模仿人类的细节和优雅的写作。随着视频对话模型如Video-LLaMA、Video-ChatGPT和VideoChat声称能够生成详细和细粒度的视频输入描述,我们认为现在是时候为现代由LLMs驱动的VLMs的能力匹配一个评估基准了。
在这里插入图片描述

问题与挑战

当前工作集中在包含多个信息流(如对话、背景音乐和复杂视觉序列)的多镜头组成视频上。研究者们开发了Video-CSR,这是一个新颖的任务和数据集,用于长形式的视频标题生成、摘要和检索。这个新的多模态数据集包含了4.8K个视频剪辑,这些视频剪辑精心选自先前发布的基于YouTube的视频数据集,并整合了视觉和听觉信息。在几个月的时间里,一个由24名人类标注者(大学生和研究生)组成的团队为每个视频剪辑创建了5个简短的标题(每个1句话)和5个长摘要(3-10句话),形成了一个丰富和全面的人类标注数据集,作为后续模型训练和评估的强大真实基础。

如何解决

为了解决长形式视频摘要任务的评估问题,研究者们进行了广泛的比较分析,比较了基于N-gram的指标和基于模型的指标(例如BLEURT和BERTScore)与人类偏好的一致性。研究发现,基于模型的指标更适合长形式的摘要任务。最后,研究者们评估了不同类型的VLM架构在测试集上的表现,旨在提供当前可行和有效的全面概况。

创新点

  • 提出了一个新的数据集,包含人类标注的视频标题(1句话)和摘要(3-10句话),以衡量VLMs执行长形式视频内容摘要的能力。据研究者们所知,Video-CSR是第一个全面的人类标注评估数据集,用于长形式视频摘要。
  • 比较了长形式视频摘要任务的不同评估指标,并发现基于模型的指标更符合人类偏好。
  • 开发了一个基础模型(SimCSR),它整合了视觉、听觉和文本模态,用于生成和检索任务。

算法模型

SimCSR模型是基于VideoCoCa架构开发的,包括视觉编码器和ASR编码器。该模型是端到端可训练的,没有冻结的模块。SimCSR模型的训练目标是生成损失和对比损失的组合。所有参数都是从OpenCLIP实现的CoCa初始化的,除了ASR编码器是从BERT-base初始化的。

实验效果(包含重要数据与结论)

在Video-CSR评估数据集上,SimCSR模型在视频到文本生成和文本到视频检索任务上的表现如下:

  • 视频摘要:Video-LLaMA的BLEURT得分为39.3,而SimCSR的得分为31.4。
  • 视频标题:SimCSR在不同指标下的表现均优于没有ASR的SimCSR模型。
  • 文本到视频检索:SimCSR在不同指标下的表现均优于没有ASR的SimCSR模型。

研究者们还对模型生成的视频标题和摘要的幻觉程度进行了评估。结果显示,Video-LLaMA的幻觉程度显著高于SimCSR。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

推荐阅读指数和推荐理由

推荐阅读指数:★★★★☆


后记

如果您对我的博客内容感兴趣,欢迎三连击 (***点赞、收藏和关注 ***)和留下您的评论,我将持续为您带来计算机人工智能前沿技术(尤其是AI相关的大语言模型深度学习和计算机视觉相关方向)最新学术论文及工程实践方面的内容分享,助力您更快更准更系统地了解 AI前沿技术


http://www.ppmy.cn/news/1549629.html

相关文章

界面控件DevExpress WinForms v24.2新功能预览 - 人工智能(AI)

DevExpress WinForms 拥有180组件和UI库,能为Windows Forms平台创建具有影响力的业务解决方案。DevExpress WinForms能完美构建流畅、美观且易于使用的应用程序,无论是Office风格的界面,还是分析处理大批量的业务数据,它都能轻松胜…

Linux的开发工具(二)

1.vim的基本操作 正常模式到插入模式 输入a 输入i 输入o 示例 输入iao下面的就会变成INSERT模式 插入模式到正常模式 按Esc键 正常模式到低行模式 shift; :w保存当前文件 :wq保存并退出 :q!强制退出 2.vi…

mfc140u.dll是什么文件,mfc140u.dll怎么解决【最新方法】

mfc140u.dll 是 Microsoft Foundation Classes (MFC) 库的一部分,它是 Visual Studio 2015 中的一个重要组件。MFC 提供了一组预定义的类和函数,用于简化 Windows 应用程序的开发过程。mfc140u.dll 文件包含了这些类和函数的实现,许多基于 MF…

STM32 蜂鸣器报警

蜂鸣器 分有源蜂鸣器 和 无源蜂鸣器 低电平触发 高电平触发 这里的“源”不是指电源,而是指震荡源。也就是说,有源蜂鸣器内部带震荡源,所以只要一通电就会叫;而无源内部不带震荡源,所以如果用直流信号无法令其鸣叫…

Qt 实现网络数据报文大小端数据的收发

1.大小端数据简介 大小端(Endianness)是计算机体系结构的一个术语,它描述了多字节数据在内存中的存储顺序。以下是大小端的定义和它们的特点: 大端(Big-Endian) 在大端模式中,一个字的最高有效…

使用Kotlin写一个将字符串加密成short数组,然后可以解密还原成原始的字符串的功能

文章目录 一、运行效果1.1 单个字符串加解密1.2 多个字符串数组加解密二、源代码2.1 控制流图2.2 实现的源代码一、运行效果 1.1 单个字符串加解密 待加密的单个字符串: 测试字符串转化成short数组-----字节卷动 单个字符串加密后的数据: [19914, -21676, 31702, 23463, 2833…

IP转发流程

IP 转发是网络通信中通过中间设备(如路由器或启用了转发功能的主机)将接收到的 IP 数据包根据路由表的指引发送到目标网络的过程。以下是 IP 转发的详细流程及转发过程中各个环节的说明: IP 转发的流程详解 数据包到达路由器或主机&#xff…

通过机器学习找关键因素

目录 1 什么是机器学习2 监督学习2.1 什么是监督学习2.2 监督学习的类别2.3 常见的监督学习算法2.3 监督学习应用场景 3 无监督学习3.1 无监督学习类别3.2 无监督学习算法3.3 无监督学习应用场景 4 强化学习5 环境安装5.1 python环境配置5.1.1 python下载和安装5.1.2 软件源配置…