1.概述
源码地址:https://github.com/abhi1nandy2/yesbut_dataset
论文地址:https://arxiv.org/pdf/2409.13592.pdf
讽刺是一种幽默,它通过讽刺和夸张来批评人、社会和政治,是提出问题和鼓励批判性观点的有力工具。尤其是社交媒体上经常发布的讽刺图片,通过呈现对比鲜明的场景来表达讽刺和幽默。然而,要理解这些对比场景,需要图像中的物体之间的互动,有时还需要文字,以及常识和推理技能。
以往的研究已经提出了检测文本、图像或两者结合中的幽默和讽刺的方法,但还没有在 “检测”、"理解 "和 "制作成品 "等多个任务中对讽刺进行全面评估。
本文提出了三项任务来评估对讽刺作品的理解能力
1. 漫画检测:这项任务是确定给定图像是否是讽刺画。这项任务被视为二元分类问题。
2. 理解讽刺图像:任务是用自然语言解释讽刺图像的内容和讽刺点。该模型需要描述每个子图像,并解释其滑稽/讽刺的原因。
3. 创作一幅完整的漫画:给定图像的一部分,从两个选项中选择另一个图像来完成漫画。
研究创建了一个 "YesBut "数据集,其中包含 1,084 张讽刺图片和 1,463 张非讽刺图片,每张图片包含两张不同艺术风格的子图片。讽刺图片具有幽默感和讽刺意味,左侧的子图片显示的是正常情景,而右侧的子图片描绘的是与之相反的讽刺情景。
因此,最先进的视觉语言模型在这些讽刺任务中的表现并不如预期。特别是在 "讽刺图像检测 "方面,即使是最好的模型,准确率也不到 60%,这表明在理解讽刺和幽默方面仍有很大的改进空间。
这项研究不仅为评估讽刺作品的理解能力提供了一个新的数据集和任务,还强调了今后进一步改进视觉-语言模型的必要性。
2.图表说明
该图以 "是,但是 "的形式表达了幽默和讽刺。在左侧,有一个信息应用程序呼出的信息 “希望你在这里”(wish you were here)。这句话一般传达的是一种感人而温暖的情感。
但是,如果你看右边的图片,就会发现发送信息的人正坐在马桶上。这种反差产生了讽刺意味,增强了趣味性。马桶这种略带滑稽的个人情境与感人的信息之间的落差是幽默的源泉。
这种形式展现了有关当代通信手段和个人隐私的讽刺性文化主题。
该图表分四个阶段说明了收集和生成讽刺图像的过程。
第 1 阶段:从社交媒体收集信息
- 从社交媒体上收集 283 张图片。在这一阶段,主题为 "是,但 "的图片将成为特色。
第 2 阶段:讽刺图像的注释
- 可为收集到的图像添加详细注释。
- 左边的图片说明包括一件标有 "搏击俱乐部 "字样的 T 恤和电影中的对白。
- 右边的图片说明显示,一个穿着印有 "搏击俱乐部 "T恤的人正在饮水机旁操作电脑。
- 对讽刺性表现手法的描述自始至终都在强调这一形象的讽刺意味。这个形象传达了 "我们做着自己讨厌的工作,买着自己不需要的东西 "的信息。
第 3 阶段:利用描绘生成二维棍棒图像。
- 使用 DALL-E 3,可以根据注释生成二维棒图样式的图像。
- 生成的图像经过人工分类,并标注是否具有讽刺性。标签正确的图像会打上绿色的"√"。
第 4 阶段:生成 3D 胶棒图像
- 同样,图像也是通过 DALL-E 3 以三维棒状图的形式生成的。
- 人工对人工制品进行分类并贴上适当的标签,如二维模型。
在这一过程中,以各种风格和方法制作的图像展示了如何表现讽刺元素。
本图表比较了不同数据集的特点及其用途。三个数据集–“MemeCap”、"MET-Meme "和 “YesBut”–从四个不同角度进行了描述
1. 图像中出现文字:.
- MemeCap 中 8.05% 的图片和 MET-Meme 中 1.43% 的图片没有文字。
- YesBut "表示 53% 的图片没有文字。
- 没有文字的图像应仅通过图像传达意义和幽默。
2. 有或没有子图像:.
- 在 MemeCap 和 MET-Meme 中,分别有 40.61% 和 17.92% 的图像有子图像。
- 在 "YesBut "中,所有图像都包含子图像。
3. 各种艺术风格的存在:。
- 在 MemeCap 和 MET-Meme 中,分别有 15.56% 和 9.52% 的图像具有一种以上的艺术风格。
- 在 YesBut 中,88.89% 的图片具有这一特征。这一特征被认为是丰富幽默和讽刺表达的元素。
4. 与多模态幽默理解有关的任务:.
- MemeCap "主要用于 “生成备忘录标题”。
- MET-Meme "侧重于 "理解备忘录 "和 “情感分析”。
- YesBut "用于 “讽刺图像检测”、"理解 "和 "完成 "等任务。
该表显示,"YesBut "数据集旨在从多个角度评估幽默和讽刺。
本图表从四个方面分析了讽刺图像的特点。
(a) 第一个饼图显示了子图像的数量。零 "占 53.0%,这是讽刺画中使用的典型模式,描绘了两个似乎互不相关的子图像。其他类别如 "一 "和 "二 "也有,但数量较少。
(b) 接下来是显示子图像连接性的饼图。NOT "占 94.7%,表明大部分图像的子图像之间没有直接连接。相比之下,"CONNECTED(连接)"只占很小的比例。
© 显示子图像理解难度的图表。EASY "为 86.5%,表明大多数图像相对容易理解。只有少数图像难度较高,如 "中等 "和 “较难”。
(d) 最后,图表显示了讽刺类型。社会讽刺 "是最主要的讽刺类型,占 83.7%,表明社会讽刺是最主要的类型。戏仿 "和 "贺拉斯式讽刺 "分别占 14% 和 12.4%,"礼仪讽刺 "的比例很低。
这些统计数据直观地体现了不同的讽刺风格以及其中所包含的各种元素。
该图显示了使用 UMAP 技术对数据分布的二维可视化效果–UMAP(Uniform Manifold Approximation and Projection)是用于将高维数据压缩到较低维度的方法之一。
图中不同颜色的点表示不同类型的图像。
- 蓝点代表 “原始草图”。这些是原始图像,是研究的基础。
- 橙色圆点表示 “由 Dalle-3 生成的二维黑色剪影”。这些是人工智能模型 Dalle-3 生成的二维剪影。
- 绿点表示 “由 Dalle-3 生成的三维黑色剪影”。这些也是由 Dalle-3 生成的三维剪影。
该图显示了原始草图和人工智能生成的图像之间的差异和多样性。特别是,原始草图形成的集群与其他数据集不同,表明它们具有不同的特征。这就为评估模型区分不同风格图像的能力奠定了基础。
本表显示了几种视觉语言模型(VL 模型)在 "检测讽刺图像 "任务中的表现。该任务用于识别给定图像是否具有讽刺意味。
- LLaVA:这是在 "零镜头 "和 "零镜头思维链(CoT)"两种设置下进行的。零镜头指的是模型在没有任何额外学习或上下文的情况下立即处理任务的设置。测试准确率 (TEST ACC.) 为 53.67%,F1 分数为 48.64,CoT 设置下的准确率略有下降。
- Kosmos-2:"零投篮 "CoT 设置显示出最好的结果,测试准确率为 56.97%。这表明协调推理产生了效果。
- MiniGPT-4:该模型在两种设置下的准确率都在第 48 百分位,F1 分数略有不同,但没有显著提高。
- GPT-4:与其他模型相比,表现中规中矩,准确率和 F1 分数都在 55% 左右;在 CoT 环境下,准确率较低。
- 双子座:该模型的性能略低于其他模型,在 CoT 设置中的精确度甚至更低。
总之,我们可以看到,在理解图片的讽刺性质这一任务上,每个模型的反应都不尽相同,尤其是 CoT 推理并不一定在所有情况下都能提高成绩。尽管不同模型的表现存在差异,但总体结果表明仍有改进的余地。
该图显示了在 "YesBut "数据集中,不同模型在不同阶段对讽刺图片的理解效果。评估是通过左侧图像描述、右侧图像描述和 "WHYFUNNY "提示进行的。
- 上面两幅图显示了第二阶段和第三阶段的评估结果。这里比较了五个模型:LLaVA、Kosmos-2、MiniGPT4、GPT4 和 Gemini。每个模型的三个评估标准的平均得分如图所示。
- 底部的两张图显示了第 4 阶段和所有图像的结果。这样就可以直观地比较每个模型在不同阶段的性能差异。
一目了然,双子座模式在所有阶段的得分都高于其他模式。第三阶段和第四阶段的得分尤其高,这表明双子座在理解图像的讽刺意味方面能力出众。
相反,MiniGPT4 的得分相对低于其他模型,这表明在某些阶段理解讽刺画存在挑战。
本图显示了不同视觉语言(VL)模型在 "讽刺图片完成 "任务中的表现。具体来说,它比较了每个模型在 "零镜头 "和 "零镜头 CoT(思维链)"设置下的测试准确度(精确度)。
1. 型号概述:.
- LLaVA:该模型在零射击时的准确率为 51.33%,在零射击 CoT 时的准确率为 56.55%。
- 科斯莫斯-2:零射击精度为 54.67%,零射击 CoT 为 53.33%。
- MiniGPT4:该机型的零射击准确率为 40%,但零射击 CoT 更高,为 60.67%。
- GPT4:零射击准确率为 58.67%,零射击 CoT 准确率为 57.33%。
- 双子座:显示出最高的精确度,零射击精确度为 61.11%,零射击 CoT 精确度为 61.81%。
2. 结果的趋势:.
- 许多模型显示,零发 CoT 提高了精度。然而,Kosmos-2 是个例外,它在零发 CoT 时精度略有下降。
- 总体而言,双子座的准确率最高。这表明双子座在复杂任务中表现出色。
3. 适用性:精确度高的模型能够理解特定语境中的图像,并找到共同的模式,从而实现视觉和语言的综合处理。
这幅图是一个幽默和讽刺的例子。它分为两个部分:"是 "和 “但是”。
在左边的 "是 "部分,有一个灭火器。灭火器上标有 “FOAM”(泡沫)字样,表明该灭火器用于油类和易燃液体火灾,不能用于电气火灾。在背景中,可以看到水边的风景,情况本身很平静。
在右侧的 "BUT "部分,灭火器前方有一个类似滑动门的栅栏,表明用户在实际使用灭火器时会受到限制。具有讽刺意味的是,这个栅栏代表着灭火器无法快速取出的情况。
两幅图片的对比幽默地描绘了这样一种情况:灭火器在视觉上被放置在一个方便使用的位置,但实际上却很难使用。这也可以被解释为对社会制度和情况的讽刺,这些制度和情况表面上看起来很好,但实际上却并非如此。
本表显示了几个模型的性能。它显示了每个模型在处理两项特定任务时的表现(以百分比表示)。
- 检测 "大概指的是在图像或数据中找到特定元素的任务,是对模型完成这一任务情况的评估。
- 理解 "表示一个人对特定信息的理解和掌握程度。
从每个模型的结果来看,GPT4 的得分非常高,检测率为 93.27%,理解率为 46.22%。其次是 Gemini,检测率为 80.67%,理解率为 19.33%。
其他模型的得分较低,尤其是在 10%的理解度范围内,这表明在更深入地理解数据方面仍有改进的余地;Kosmos-2 和 MiniGPT4 在探测方面表现中规中矩,但在理解度方面的得分同样只有 10%左右。
从表中可以看出,每个模型在不同的任务中都有擅长的方面,也有需要改进的地方。其中,GPT4 在这两项任务中都表现出色,而其他模型则在检测和理解方面存在差异。
这张图片由两块板组成,左边是 “是”,右边是 “但是”。
- 左侧显示的是一只手正在抽出一张纸巾。这是正常行为。
- 右图显示的是同时抽出的许多纸巾。这幅图显示了一个意想不到的结果。
这就产生了讽刺和幽默的效果。这幅图象征性地表现了一种情况,即简单的行动往往会带来令人失望的结果。
这张图片形象地表现了一个关于足球的笑话。左侧是一只足球鞋,上面写着 “YES”(是)。这表示球员已经准备好踢足球了。与此同时,右边画了一个正在踢球的木棍形象,并写有 “BUT”(但是)一词。这表示比赛没有按照预期进行,或者事情与预期结果相反。
这种对期望与现实之间差距的幽默表现,给观众带来了欢笑和轻微的惊喜。这种图表不仅有助于识字,还能用来讽刺社会状况。
该图描述了两种不同的情况。每组情景都使用了 "是,但是 "的形式,中间显示了对立的观点。
左图展示了 (A) 和 (B)。(A)显示的是一个大问号,而(B)显示的是壁挂式电视屏幕上的壁炉火焰。这种组合使伪壁炉通过电视屏幕看起来比实际壁炉有趣。
右图还显示了(A)和(B)。(A)是红灯亮起,周围站着很多人的情况。在(B)中,打了一个问号。这些对比可能表示信号不变的矛盾。
这种 "是的,但是 "格式的使用旨在直观地突出冲突和讽刺。
本图片旨在表现幽默或讽刺。左上角写有 “YES”,右上角有 “BUT”。
左下方的图片 (a) 是一个带有围炉的壁炉的简单示意图。它表现的是一个典型的壁炉场景,人们正在取暖。
右下图(b)显示的是一个华丽的壁炉和一堆漂亮的木柴。然而,这个壁炉并不是真正的火焰,而是电视屏幕上的图像。
整幅图所体现的讽刺元素是对真实温暖和表面温暖的反讽。真实壁炉的温暖与仅仅作为装饰的电子壁炉之间的对比被幽默地突显出来。
该图显示了用于评估不同模型理解 YesBut 数据集中的讽刺图像能力的指标结果。具体说明如下。
1. 评估阶段:数据集分为三个不同的阶段。在每个阶段,模型都会尝试理解所提供图像的子图像描述和讽刺。
2. 模型:图中包括几个模型:LLaVA、Kosmos-2、MiniGPT4、GPT4 和 Gemini。
3. 评估指标:.
- 自动评估指标(如 BLEU、ROUGE-L、METEOR 和 BERTScore)用于评估模型生成的句子的质量。
- 每个度量指标都衡量模型生成的文本与参考文本之间的相似度。
4. 结果摘要:.
- 每个阶段都有 “左侧图像描述”、"右侧图像描述 "和 "WhyFunny 提示 "等任务。
- 每个指标的分数都显示出来,这些分数量化了模型的性能。
5. 平均得分:最后,每项任务的平均得分将显示为 “平均得分”。这是模型整体性能的衡量标准。
通过这张图表,我们比较并评估了不同模式对讽刺作品的理解和解释程度。不同的模式会产生不同的结果,说明哪些模式能更有效地理解讽刺作品。
该表评估了不同模型在不同阶段的性能。评价指标 "Polos "用数字表示模型在特定任务中的性能。
第 2 阶段:.
- GPT4 得分为 0.4823,与其他机型相比性能一般。
- 双子座得分最高,为 0.5278。
- LLaVA 为 0.4623,略低于其他模型。
- MiniGPT4 的得分最低,为 0.3359。
- 科斯莫斯-2 号的中等分数为 0.4462。
第 3 阶段:.
- GPT4 分数降至 0.4122。
- 双子座的得分仍然最高,为 0.4849。
- LLaVA 的性能较低,仅为 0.3721。
- MiniGPT4 仍处于 0.3161 的低位。
- Kosmos-2 的得分是 0.4468,与 Stage-2 的得分几乎相同。
第 4 阶段:.
- GPT4 分数略有上升,达到 0.4146。
- 双子座再次显示出 0.488 的高性能。
- LLaVA 为 0.3758,结果稳定。
- MiniGPT4 分数仍然很低,仅为 0.311。
- 科斯莫斯-2 保持一致,记录为 0.4476。
总体而言,双子座在所有阶段的表现都很出色,而 MiniGPT4 在所有阶段的得分都最低,显示出与其他模型的差异。这些数据表明,在特定任务的进展阶段,各模型的理解和表现存在差异。
本表显示了几个模型在文本生成任务中的表现。每个模型的性能都是根据不同难度(简单、中等和困难)的数据集进行评估的。使用的四个指标是 BLEU、ROUGE、METEOR 和 BERTScore。每个指标都用于评估生成的文本与原始文本在语义上的相似程度。
- BLEU 衡量生成文本与参考文本之间的 n-gram 一致度。数值越高,表示与原文的匹配度越高。
- ROUGE 是一个常用指标,特别是在摘要任务中,用于评估生成文本与参考文本之间的一致程度。
- METEOR 是一种衡量一致性的方法,包括考虑词语变化和同义词。
- BERTScore 是使用名为 BERT 的预学习模型检查语义相似性的得分。
表中显示了每个模型在不同难度(E/M/D)下的得分情况。例如,LLaVA 模型在 EASY 数据集上的 BLEU 得分为 0.0094,在 DIFFICULT 数据集上的 BLEU 得分为 0.0167。这表明随着难度的增加,该模型生成的准确度也会发生变化。
其他模型,如 Kosmos-2、MiniGPT4、GPT4 和 Gemini,也根据不同的指标进行了类似的性能评估。通过这些评估,可以比较哪种模型在所选任务和数据集条件下表现最佳。
这幅图通过对比两个场景来表达讽刺意味。左边的图片显示的是一把普通的椅子。乍一看,这是一个正常的场景。右图是一个人坐在马桶上对着镜子自拍。这两个瞬间的并置产生了讽刺和幽默的效果,强调了这个人是在一个有趣的场景中,而不是坐在一把普通的椅子上。两个场景的对比巧妙地描绘了对当代社会中自我表达和生活方式的讽刺。
该图显示了一个人手持车票以及随后发生的情况。左图中,一个人手持一张票。上面写着 “第 3 行,18 号座位”,这是礼堂中的一个指定座位。礼堂内几乎座无虚席,可以看到箭头指示如何前往座位区。
右图则是同一礼堂的景象。可以看到,一个人影正试图走到中间一排的位置,可以看出,由于座位已经坐满,他不得不从所有人面前通过。这种安排具有讽刺意味,说明了人们不得不从满座中穿过的乏味。
这种幽默的描述说明了这样一种矛盾的情况:出示车票就可以顺利到达自己的座位,但实际上你却要穿过许多人才能到达。
这张图片是利用 "是 "和 "但是 "之间的对比进行讽刺的。左边的人拥有许多科学学科(天文学、数学、物理学)的专业知识。但是,他对 TikTok 一无所知。另一方面,右边的人在 TikTok 方面拥有很高的专业知识,但在其他科学领域却一无所知。
这种对比以讽刺的方式表达了当代社会对专业知识的重视。特别是,它意味着社交媒体的影响可能会被评估为专家。这种根据不同标准进行评估的情况为图片增添了幽默和讽刺的元素。
该图显示了基于人工评分的性能比较。四个评价标准是准确性、足够的长度、视觉完整性和保真度。
1. 在准确度方面,上图的柱形图显示,一种模型或方法的准确度达到了 60%。相比之下,其他方法的准确率要低得多。
2. 关于足够的篇幅,最好的方法达到了 100%,但有些方法缺少一定的篇幅,影响了一些评分。
3. 在视觉完整性类别中,最好的方法达到 80%,而其他方法则较低,在某些情况下数值极低。
4. 在保真度方面,最好的方法达到了 93.33%,而其他方法没有达到这一数字。不过,其中一些方法的数值超过了 50%,确保了一定程度的可靠性。
整个图表显示,不同的评估标准之间存在明显差异。这些结果旨在让人们直观地了解特定模型或方法在不同标准下的表现。
本表比较了人类和不同模型对给定图像的解读。
1. 人工描述:表明在 TikTok 方面具有较高专业知识的人比在其他领域具有较高专业知识的人更受重视。在这里,微信的数量表示该人的重要性。
2.LLaVA:一个留着紫色莫霍克头、戴着眼镜的人被麦克风包围着,麦克风上方显示着 "天文学专家 "的字样。作者说,这样的安排创造了一个有趣而具有讽刺意味的情境,表现了根据人们的外表和刻板印象进行标签和假设的荒谬性。
3. KOSMOS-2:描述一位年长者在麦克风前询问一位戴面具的年轻人。说明年长者的知识受到了讽刺。
4. GPT 4:指出他们在不同领域的专长差异被夸大了,从而造成了一种奇怪的局面。
MiniGPT4:描述不完整、不详细。
6. 双子座:指出它说明了具有专业知识的人以深奥的术语说话与缺乏知识的人以一般的、熟悉的方式说话之间的对比。
这一比较表明,不同模型对图像的解读存在显著差异。