YesBut——帮助多模态理解讽刺漫画的数据集

1.概述

源码地址：https://github.com/abhi1nandy2/yesbut_dataset
论文地址：https://arxiv.org/pdf/2409.13592.pdf

讽刺是一种幽默，它通过讽刺和夸张来批评人、社会和政治，是提出问题和鼓励批判性观点的有力工具。尤其是社交媒体上经常发布的讽刺图片，通过呈现对比鲜明的场景来表达讽刺和幽默。然而，要理解这些对比场景，需要图像中的物体之间的互动，有时还需要文字，以及常识和推理技能。

以往的研究已经提出了检测文本、图像或两者结合中的幽默和讽刺的方法，但还没有在 “检测”、"理解 "和 "制作成品 "等多个任务中对讽刺进行全面评估。

本文提出了三项任务来评估对讽刺作品的理解能力

1. 漫画检测：这项任务是确定给定图像是否是讽刺画。这项任务被视为二元分类问题。

2. 理解讽刺图像：任务是用自然语言解释讽刺图像的内容和讽刺点。该模型需要描述每个子图像，并解释其滑稽/讽刺的原因。

3. 创作一幅完整的漫画：给定图像的一部分，从两个选项中选择另一个图像来完成漫画。

研究创建了一个 "YesBut "数据集，其中包含 1,084 张讽刺图片和 1,463 张非讽刺图片，每张图片包含两张不同艺术风格的子图片。讽刺图片具有幽默感和讽刺意味，左侧的子图片显示的是正常情景，而右侧的子图片描绘的是与之相反的讽刺情景。

因此，最先进的视觉语言模型在这些讽刺任务中的表现并不如预期。特别是在 "讽刺图像检测 "方面，即使是最好的模型，准确率也不到 60%，这表明在理解讽刺和幽默方面仍有很大的改进空间。

这项研究不仅为评估讽刺作品的理解能力提供了一个新的数据集和任务，还强调了今后进一步改进视觉-语言模型的必要性。

2.图表说明

在这里插入图片描述

该图以 "是，但是 "的形式表达了幽默和讽刺。在左侧，有一个信息应用程序呼出的信息 “希望你在这里”（wish you were here）。这句话一般传达的是一种感人而温暖的情感。

但是，如果你看右边的图片，就会发现发送信息的人正坐在马桶上。这种反差产生了讽刺意味，增强了趣味性。马桶这种略带滑稽的个人情境与感人的信息之间的落差是幽默的源泉。

这种形式展现了有关当代通信手段和个人隐私的讽刺性文化主题。

在这里插入图片描述

该图表分四个阶段说明了收集和生成讽刺图像的过程。

第 1 阶段：从社交媒体收集信息

从社交媒体上收集 283 张图片。在这一阶段，主题为 "是，但 "的图片将成为特色。

第 2 阶段：讽刺图像的注释

可为收集到的图像添加详细注释。
左边的图片说明包括一件标有 "搏击俱乐部 "字样的 T 恤和电影中的对白。
右边的图片说明显示，一个穿着印有 "搏击俱乐部 "T恤的人正在饮水机旁操作电脑。
对讽刺性表现手法的描述自始至终都在强调这一形象的讽刺意味。这个形象传达了 "我们做着自己讨厌的工作，买着自己不需要的东西 "的信息。

第 3 阶段：利用描绘生成二维棍棒图像。

使用 DALL-E 3，可以根据注释生成二维棒图样式的图像。
生成的图像经过人工分类，并标注是否具有讽刺性。标签正确的图像会打上绿色的"√"。

第 4 阶段：生成 3D 胶棒图像

同样，图像也是通过 DALL-E 3 以三维棒状图的形式生成的。
人工对人工制品进行分类并贴上适当的标签，如二维模型。

在这一过程中，以各种风格和方法制作的图像展示了如何表现讽刺元素。

在这里插入图片描述

本图表比较了不同数据集的特点及其用途。三个数据集–“MemeCap”、"MET-Meme "和 “YesBut”–从四个不同角度进行了描述

1. 图像中出现文字：.

MemeCap 中 8.05% 的图片和 MET-Meme 中 1.43% 的图片没有文字。
YesBut "表示 53% 的图片没有文字。
没有文字的图像应仅通过图像传达意义和幽默。

2. 有或没有子图像：.

在 MemeCap 和 MET-Meme 中，分别有 40.61% 和 17.92% 的图像有子图像。
在 "YesBut "中，所有图像都包含子图像。

3. 各种艺术风格的存在：。

在 MemeCap 和 MET-Meme 中，分别有 15.56% 和 9.52% 的图像具有一种以上的艺术风格。
在 YesBut 中，88.89% 的图片具有这一特征。这一特征被认为是丰富幽默和讽刺表达的元素。

4. 与多模态幽默理解有关的任务：.

MemeCap "主要用于 “生成备忘录标题”。
MET-Meme "侧重于 "理解备忘录 "和 “情感分析”。
YesBut "用于 “讽刺图像检测”、"理解 "和 "完成 "等任务。

该表显示，"YesBut "数据集旨在从多个角度评估幽默和讽刺。

在这里插入图片描述

本图表从四个方面分析了讽刺图像的特点。

(a) 第一个饼图显示了子图像的数量。零 "占 53.0%，这是讽刺画中使用的典型模式，描绘了两个似乎互不相关的子图像。其他类别如 "一 "和 "二 "也有，但数量较少。

(b) 接下来是显示子图像连接性的饼图。NOT "占 94.7%，表明大部分图像的子图像之间没有直接连接。相比之下，"CONNECTED（连接）"只占很小的比例。

(d) 最后，图表显示了讽刺类型。社会讽刺 "是最主要的讽刺类型，占 83.7%，表明社会讽刺是最主要的类型。戏仿 "和 "贺拉斯式讽刺 "分别占 14% 和 12.4%，"礼仪讽刺 "的比例很低。

这些统计数据直观地体现了不同的讽刺风格以及其中所包含的各种元素。

在这里插入图片描述

该图显示了使用 UMAP 技术对数据分布的二维可视化效果–UMAP（Uniform Manifold Approximation and Projection）是用于将高维数据压缩到较低维度的方法之一。

图中不同颜色的点表示不同类型的图像。

蓝点代表 “原始草图”。这些是原始图像，是研究的基础。
橙色圆点表示 “由 Dalle-3 生成的二维黑色剪影”。这些是人工智能模型 Dalle-3 生成的二维剪影。
绿点表示 “由 Dalle-3 生成的三维黑色剪影”。这些也是由 Dalle-3 生成的三维剪影。

该图显示了原始草图和人工智能生成的图像之间的差异和多样性。特别是，原始草图形成的集群与其他数据集不同，表明它们具有不同的特征。这就为评估模型区分不同风格图像的能力奠定了基础。

在这里插入图片描述

本表显示了几种视觉语言模型（VL 模型）在 "检测讽刺图像 "任务中的表现。该任务用于识别给定图像是否具有讽刺意味。

LLaVA：这是在 "零镜头 "和 "零镜头思维链（CoT）"两种设置下进行的。零镜头指的是模型在没有任何额外学习或上下文的情况下立即处理任务的设置。测试准确率 (TEST ACC.) 为 53.67%，F1 分数为 48.64，CoT 设置下的准确率略有下降。
Kosmos-2："零投篮 "CoT 设置显示出最好的结果，测试准确率为 56.97%。这表明协调推理产生了效果。
MiniGPT-4：该模型在两种设置下的准确率都在第 48 百分位，F1 分数略有不同，但没有显著提高。
GPT-4：与其他模型相比，表现中规中矩，准确率和 F1 分数都在 55% 左右；在 CoT 环境下，准确率较低。
双子座：该模型的性能略低于其他模型，在 CoT 设置中的精确度甚至更低。

总之，我们可以看到，在理解图片的讽刺性质这一任务上，每个模型的反应都不尽相同，尤其是 CoT 推理并不一定在所有情况下都能提高成绩。尽管不同模型的表现存在差异，但总体结果表明仍有改进的余地。

在这里插入图片描述
该图显示了在 "YesBut "数据集中，不同模型在不同阶段对讽刺图片的理解效果。评估是通过左侧图像描述、右侧图像描述和 "WHYFUNNY "提示进行的。

上面两幅图显示了第二阶段和第三阶段的评估结果。这里比较了五个模型：LLaVA、Kosmos-2、MiniGPT4、GPT4 和 Gemini。每个模型的三个评估标准的平均得分如图所示。
底部的两张图显示了第 4 阶段和所有图像的结果。这样就可以直观地比较每个模型在不同阶段的性能差异。

一目了然，双子座模式在所有阶段的得分都高于其他模式。第三阶段和第四阶段的得分尤其高，这表明双子座在理解图像的讽刺意味方面能力出众。

相反，MiniGPT4 的得分相对低于其他模型，这表明在某些阶段理解讽刺画存在挑战。

在这里插入图片描述

本图显示了不同视觉语言（VL）模型在 "讽刺图片完成 "任务中的表现。具体来说，它比较了每个模型在 "零镜头 "和 "零镜头 CoT（思维链）"设置下的测试准确度（精确度）。

1. 型号概述：.

LLaVA：该模型在零射击时的准确率为 51.33%，在零射击 CoT 时的准确率为 56.55%。
科斯莫斯-2：零射击精度为 54.67%，零射击 CoT 为 53.33%。
MiniGPT4：该机型的零射击准确率为 40%，但零射击 CoT 更高，为 60.67%。
GPT4：零射击准确率为 58.67%，零射击 CoT 准确率为 57.33%。
双子座：显示出最高的精确度，零射击精确度为 61.11%，零射击 CoT 精确度为 61.81%。

2. 结果的趋势：.

许多模型显示，零发 CoT 提高了精度。然而，Kosmos-2 是个例外，它在零发 CoT 时精度略有下降。
总体而言，双子座的准确率最高。这表明双子座在复杂任务中表现出色。

3. 适用性：精确度高的模型能够理解特定语境中的图像，并找到共同的模式，从而实现视觉和语言的综合处理。

在这里插入图片描述

这幅图是一个幽默和讽刺的例子。它分为两个部分："是 "和 “但是”。

在左边的 "是 "部分，有一个灭火器。灭火器上标有 “FOAM”（泡沫）字样，表明该灭火器用于油类和易燃液体火灾，不能用于电气火灾。在背景中，可以看到水边的风景，情况本身很平静。

在右侧的 "BUT "部分，灭火器前方有一个类似滑动门的栅栏，表明用户在实际使用灭火器时会受到限制。具有讽刺意味的是，这个栅栏代表着灭火器无法快速取出的情况。

两幅图片的对比幽默地描绘了这样一种情况：灭火器在视觉上被放置在一个方便使用的位置，但实际上却很难使用。这也可以被解释为对社会制度和情况的讽刺，这些制度和情况表面上看起来很好，但实际上却并非如此。

在这里插入图片描述

本表显示了几个模型的性能。它显示了每个模型在处理两项特定任务时的表现（以百分比表示）。

检测 "大概指的是在图像或数据中找到特定元素的任务，是对模型完成这一任务情况的评估。
理解 "表示一个人对特定信息的理解和掌握程度。

从每个模型的结果来看，GPT4 的得分非常高，检测率为 93.27%，理解率为 46.22%。其次是 Gemini，检测率为 80.67%，理解率为 19.33%。

其他模型的得分较低，尤其是在 10%的理解度范围内，这表明在更深入地理解数据方面仍有改进的余地；Kosmos-2 和 MiniGPT4 在探测方面表现中规中矩，但在理解度方面的得分同样只有 10%左右。

从表中可以看出，每个模型在不同的任务中都有擅长的方面，也有需要改进的地方。其中，GPT4 在这两项任务中都表现出色，而其他模型则在检测和理解方面存在差异。
在这里插入图片描述

这张图片由两块板组成，左边是 “是”，右边是 “但是”。

左侧显示的是一只手正在抽出一张纸巾。这是正常行为。
右图显示的是同时抽出的许多纸巾。这幅图显示了一个意想不到的结果。

这就产生了讽刺和幽默的效果。这幅图象征性地表现了一种情况，即简单的行动往往会带来令人失望的结果。

在这里插入图片描述

这张图片形象地表现了一个关于足球的笑话。左侧是一只足球鞋，上面写着 “YES”（是）。这表示球员已经准备好踢足球了。与此同时，右边画了一个正在踢球的木棍形象，并写有 “BUT”（但是）一词。这表示比赛没有按照预期进行，或者事情与预期结果相反。

这种对期望与现实之间差距的幽默表现，给观众带来了欢笑和轻微的惊喜。这种图表不仅有助于识字，还能用来讽刺社会状况。

在这里插入图片描述

该图描述了两种不同的情况。每组情景都使用了 "是，但是 "的形式，中间显示了对立的观点。

左图展示了 (A) 和 (B)。(A）显示的是一个大问号，而（B）显示的是壁挂式电视屏幕上的壁炉火焰。这种组合使伪壁炉通过电视屏幕看起来比实际壁炉有趣。

右图还显示了（A）和（B）。(A)是红灯亮起，周围站着很多人的情况。在(B)中，打了一个问号。这些对比可能表示信号不变的矛盾。

这种 "是的，但是 "格式的使用旨在直观地突出冲突和讽刺。

在这里插入图片描述

本图片旨在表现幽默或讽刺。左上角写有 “YES”，右上角有 “BUT”。

左下方的图片 (a) 是一个带有围炉的壁炉的简单示意图。它表现的是一个典型的壁炉场景，人们正在取暖。

右下图（b）显示的是一个华丽的壁炉和一堆漂亮的木柴。然而，这个壁炉并不是真正的火焰，而是电视屏幕上的图像。

整幅图所体现的讽刺元素是对真实温暖和表面温暖的反讽。真实壁炉的温暖与仅仅作为装饰的电子壁炉之间的对比被幽默地突显出来。

在这里插入图片描述

该图显示了用于评估不同模型理解 YesBut 数据集中的讽刺图像能力的指标结果。具体说明如下。

1. 评估阶段：数据集分为三个不同的阶段。在每个阶段，模型都会尝试理解所提供图像的子图像描述和讽刺。

2. 模型：图中包括几个模型：LLaVA、Kosmos-2、MiniGPT4、GPT4 和 Gemini。

3. 评估指标：.

自动评估指标（如 BLEU、ROUGE-L、METEOR 和 BERTScore）用于评估模型生成的句子的质量。
每个度量指标都衡量模型生成的文本与参考文本之间的相似度。

4. 结果摘要：.

每个阶段都有 “左侧图像描述”、"右侧图像描述 "和 "WhyFunny 提示 "等任务。
每个指标的分数都显示出来，这些分数量化了模型的性能。

5. 平均得分：最后，每项任务的平均得分将显示为 “平均得分”。这是模型整体性能的衡量标准。

通过这张图表，我们比较并评估了不同模式对讽刺作品的理解和解释程度。不同的模式会产生不同的结果，说明哪些模式能更有效地理解讽刺作品。

在这里插入图片描述
该表评估了不同模型在不同阶段的性能。评价指标 "Polos "用数字表示模型在特定任务中的性能。

第 2 阶段：.

GPT4 得分为 0.4823，与其他机型相比性能一般。
双子座得分最高，为 0.5278。
LLaVA 为 0.4623，略低于其他模型。
MiniGPT4 的得分最低，为 0.3359。
科斯莫斯-2 号的中等分数为 0.4462。

第 3 阶段：.

GPT4 分数降至 0.4122。
双子座的得分仍然最高，为 0.4849。
LLaVA 的性能较低，仅为 0.3721。
MiniGPT4 仍处于 0.3161 的低位。
Kosmos-2 的得分是 0.4468，与 Stage-2 的得分几乎相同。

第 4 阶段：.

GPT4 分数略有上升，达到 0.4146。
双子座再次显示出 0.488 的高性能。
LLaVA 为 0.3758，结果稳定。
MiniGPT4 分数仍然很低，仅为 0.311。
科斯莫斯-2 保持一致，记录为 0.4476。

总体而言，双子座在所有阶段的表现都很出色，而 MiniGPT4 在所有阶段的得分都最低，显示出与其他模型的差异。这些数据表明，在特定任务的进展阶段，各模型的理解和表现存在差异。

在这里插入图片描述

本表显示了几个模型在文本生成任务中的表现。每个模型的性能都是根据不同难度（简单、中等和困难）的数据集进行评估的。使用的四个指标是 BLEU、ROUGE、METEOR 和 BERTScore。每个指标都用于评估生成的文本与原始文本在语义上的相似程度。

BLEU 衡量生成文本与参考文本之间的 n-gram 一致度。数值越高，表示与原文的匹配度越高。
ROUGE 是一个常用指标，特别是在摘要任务中，用于评估生成文本与参考文本之间的一致程度。
METEOR 是一种衡量一致性的方法，包括考虑词语变化和同义词。
BERTScore 是使用名为 BERT 的预学习模型检查语义相似性的得分。

表中显示了每个模型在不同难度（E/M/D）下的得分情况。例如，LLaVA 模型在 EASY 数据集上的 BLEU 得分为 0.0094，在 DIFFICULT 数据集上的 BLEU 得分为 0.0167。这表明随着难度的增加，该模型生成的准确度也会发生变化。

其他模型，如 Kosmos-2、MiniGPT4、GPT4 和 Gemini，也根据不同的指标进行了类似的性能评估。通过这些评估，可以比较哪种模型在所选任务和数据集条件下表现最佳。

在这里插入图片描述

这幅图通过对比两个场景来表达讽刺意味。左边的图片显示的是一把普通的椅子。乍一看，这是一个正常的场景。右图是一个人坐在马桶上对着镜子自拍。这两个瞬间的并置产生了讽刺和幽默的效果，强调了这个人是在一个有趣的场景中，而不是坐在一把普通的椅子上。两个场景的对比巧妙地描绘了对当代社会中自我表达和生活方式的讽刺。

在这里插入图片描述