TemporalBench:一个专注于细粒度时间理解的多模态视频理解的新基准。

server/2024/10/19 6:49:54/

2024-10-15,由威斯康星大学麦迪逊分校、微软研究院雷德蒙德等机构联合创建了TemporalBench,它通过大约10K个视频问答对,提供了一个独特的测试平台,用以评估各种时间理解和推理能力,如动作频率、运动幅度、事件顺序等。

一、研究背景:

在多模态视频理解和生成领域,细粒度的时间动态理解至关重要。然而,由于缺乏细粒度的时间标注,现有的视频基准测试大多类似于静态图像基准测试,无法有效评估模型对时间理解的能力。

目前遇到困难和挑战:

1、现有的视频理解基准测试偏向语言先验偏见,忽略了视频内容真正的时间动态。

2、当前的视频基准测试存在单一帧偏见,倾向于空间推理,未能测试模型对时间序列的理解。

3、现有的多模态视频模型(VLMs)在流行的视频问答基准测试中表现优于视频对应模型,但这种优势并不是建立在对视频时间事件真正理解的基础上。

数据集地址:TemporalBench|视频理解数据集|时间理解数据集

二、让我们一起看一下 TemporalBench

TemporalBench是一个基准测试(benchmark),它专门设计来评估多模态视频模型在理解视频中细粒度时间动态方面的能力。这个基准测试包含了大约10K个视频问题-答案对,这些问题-答案对是基于大约2K个高质量人类标注的视频剪辑衍生而来的。通过这些详细的时间动态描述,TemporalBench 提供了一个独特的测试平台,用于评估各种时间理解和推理能力,例如动作频率、运动幅度、事件顺序等。

TemporalBench支持多种视频理解任务,包括视频问答、视频字幕生成、长视频理解等。它提供了详细的视频描述,可以用于评估视频-语言嵌入模型和生成模型。

基准测试:

测试显示,即使是最先进的模型,如GPT-4o,在TemporalBench上的问答准确率仅为38.5%,而人类为67.9%,表明AI模型在时间理解上与人类存在显著差距。

TemporalBench 的任务。TemporalBench 从细粒度的视频描述开始,支持包括视频 QA、视频字幕、长视频理解等多样化的视频理解任务。它与现有基准的不同之处在于每个视频的平均字数(中上)、字密度(中)和各种时间方面的覆盖率(中下)。

在第 1 步中,我们使用合格的 AMT 注释者为视频收集高质量的字幕,然后对其进行优化。

在第 2 步中,我们利用现有的 LLMs 来生成负面字幕,方法是替换选定的单词并重新排序操作序列,然后再自行过滤它们。

从 TemporalBench 中的原始字幕和我们的详细字幕生成的负面字幕的比较。对于细粒度的细节,底片更加困难且以时间为中心。

TemporalBench 中 (a) 短视频剪辑和 (b) 长视频的视频长度分布。

多选 QA 的插图,其中包含 (a) 原始字幕和 (b) 启发式指导的否定字幕。橙色块表示从正选项(绿色框)更改的内容。

在不同帧的 TemporalBench 上建模性能。

三、让我们一起展望TemporalBench的应用:

比如,我是一名足球教练,正在分析上周的重要比赛,特别是那个决定比赛胜负的关键时刻——一个精彩的进球。我想知道这个进球是怎么发生的,球员们的动作是如何配合的,以及防守方是在哪里出现了失误。

这个进球发生在比赛的第75分钟。当时,我的球队在对方半场获得了一个角球机会。

动作分析:

  1. 角球开出:首先,我看到底角球是由7号球员开出的。他站在角旗区,抬头观察了一下禁区内的情况,然后起脚将球传向了禁区中央。

  2. 空中争顶:球飞向禁区中央时,我的球队的中锋9号球员和对方两名中卫同时起跳争顶。这个动作非常关键,因为9号球员的起跳时机和高度都把握得非常好,他成功地将球顶向了球门的方向。

  3. 射门:这时,我的球队的前锋11号球员出现在了正确的位置。他观察到9号球员的头球后,迅速调整自己的位置,用一脚凌空抽射将球打进了对方球门。

现在,我使用一个通过了TemporalBench基准测试的系统

就可以分析这个进球过程,它能够提供详细的时间线和动作描述。

这个系统能够识别和记录以下关键信息:

1、7号球员在第75分钟30秒时开出角球。

2、9号球员在第75分钟32秒时成功争顶,将球顶向了球门方向。

3、11号球员在第75分钟33秒时完成射门,球进了。

这些信息不仅能帮我理解进球的整个过程,还能分析出球员们的动作是如何精确配合的。比如,7号球员的传球时机,9号球员的头球力度和方向,以及11号球员的射门时机。

它不仅能帮我理解比赛的关键时刻,还能分析球员们的动作是如何精确配合的。这种细粒度的时间动态理解,对于教练来说,绝对是分析比赛、提高球队表现的有力工具。

来吧,让我们走进TemporalBench|视频理解数据集|时间理解数据集


http://www.ppmy.cn/server/132975.html

相关文章

jmeter 从多个固定字符串中随机取一个值的方法

1、先新增用户参数,将固定值设置为不同的变量 2、使用下面的函数,调用这写变量 ${__RandomFromMultipleVars(noticeType1|noticeType2|noticeType3|noticeType4|noticeType5)} 3、每次请求就是随机取的值了

安卓冻屏bug案例作业分享-千里马学员wms+input实战作业

背景: 近期有学员反馈在aosp14高版本上有了一个新窗口TaskBar,这个但是有需求就是对这个TaskBar进行隐藏,所以有一个需要对这个TaskBar进行进行隐藏需求 隐藏TaskBar需求做了之后发现有如下bug: 问题复现步骤: 因…

Error BackPropagation(误差逆传播)

误差逆传播(反向传播,BP算法) 引言E 误差逆传播算法(Error BackPropagation,BP)是神经网络中常用的传播算法(又叫做反向传播)。BP算法可以应用于多层前馈神经网络(FFN)以及其他类型的网络,如训练递归神经…

Scala的sortedWith

sortedWith:基于函数的排序,通过一个comparator函数,实现自定义排序的逻辑。 sortWith方法: 它使用传入的比较函数对集合进行排序。 在排序过程中,根据比较函数的返回值来决定元素的顺序。 如果比较函数返回true&…

如何通过Chrome设置保护你的在线隐私

在当今数字时代,保护个人隐私和在线安全变得尤为重要。谷歌浏览器作为全球最受欢迎的网络浏览器之一,提供了多种功能来帮助用户保护自己的在线隐私。本教程将指导你如何通过谷歌浏览器设置来提高你的在线隐私保护水平。(本文由https://www.li…

穿越沙漠问题

题目:一辆吉普车穿越1000km的沙漠。吉普车的总装油量为500L,耗油率为1L/km。由于沙漠中没有油库,必须先用这辆车在沙漠中建立临时油库。若吉普车用最少的耗油量穿越沙漠,应在哪些地方建立油库,以及各处存储的油量是多少…

PyQt入门指南二十二 QSlider滑块组件应用实例

在PyQt中,QSlider 是一个非常实用的组件,它允许用户通过拖动滑块来选择一个值的范围内的特定值。下面是一个简单的实例,展示了如何使用 QSlider 组件。 首先,确保你已经安装了 PyQt5。如果没有安装,可以使用 pip 进行…

基于深度学习的进化神经网络设计

基于深度学习的进化神经网络设计(Evolutionary Neural Networks, ENNs)结合了进化算法(EA)和神经网络(NN)的优点,用于自动化神经网络架构的设计和优化。通过模拟自然进化的选择、变异、交叉等过…