NLP论文速读(MPO)|通过混合偏好优化提高多模态大型语言模型的推理能力

ops/2024/11/26 23:38:15/

论文速读|Dynamic Rewarding with Prompt Optimization Enables Tuning-free Self-Alignment of Language Models

论文信息:

图片

简介:

      本文探讨的背景是多模态大型语言模型(MLLMs)在多模态推理能力上的局限性,尤其是在链式推理(Chain-of-Thought,CoT)性能方面。现有的开源MLLMs通常采用预训练和监督式微调(Supervised Fine-Tuning,SFT)的训练过程,但这些模型在推理时受到分布偏移的影响,限制了它们的多模态推理能力。特别是在CoT任务中,模型的表现往往不如直接回答任务。本文动机在于提升MLLMs的多模态推理能力,使其能够更好地处理多模态数据并提高CoT任务的性能。作者希望通过引入偏好优化(Preference Optimization,PO)技术,使模型的输出更符合期望的推理模式,从而增强模型的推理能力,并减少幻觉(hallucinations)现象。

论文方法:

图片

      本文提出了一种名为混合偏好优化(Mixed Preference Optimization,MPO)的方法,它结合了偏好优化和监督式微调。具体来说,本文的方法包括两个主要部分:数据层面和模型层面。  

      数据层面:作者设计了一个自动化的偏好数据构建流程,创建了一个大规模的多模态推理偏好数据集(MMPR)。这个数据集包含了约300万个样本,通过自动化流程高效生成高质量的偏好对。         

      模型层面:在模型层面,作者探索了将PO与MLLMs集成的方法,提出了MPO方法。MPO通过结合偏好损失(Lp)、质量损失(Lq)和生成损失(Lg)来训练模型,使模型能够学习响应之间的相对偏好、单个响应的绝对质量以及生成偏好响应的过程。具体来说:   

      偏好损失(Lp):使用直接偏好优化(DPO)作为偏好损失,使模型能够学习选择响应和拒绝响应之间的相对偏好。   

      质量损失(Lq):使用二分类优化(BCO)作为质量损失,帮助模型理解单个响应的绝对质量。 

      生成损失(Lg):使用SFT损失作为生成损失,帮助模型学习生成偏好响应的过程。  

      此外,本文还提出了Dropout Next Token Prediction(DropoutNTP)方法来生成没有明确真值的样本的拒绝响应,以及基于正确性的流程来生成有明确真值的样本的偏好对。通过这些方法,模型在多模态推理任务中表现出了显著的性能提升。


论文实验:

图片

      根据Table 2,论文的实验部分主要评估了作者提出的InternVL2-8B-MPO模型在多个多模态基准测试中的表现,并与其他领先的多模态大型语言模型(MLLMs)进行了比较。实验涉及了多个不同的基准测试,包括多模态推理、复杂视觉问答(VQA)和幻觉评估任务。

      作者的模型InternVL2-8B-MPO在所有基准测试中都展现出了优越的性能,特别是在多模态推理任务上。在M3CoT(多领域多步多模态链式推理)基准测试中,InternVL2-8B-MPO的得分为79.2,远高于InternVL2-8B的59.3,显示出MPO方法在增强推理能力方面的有效性。在MathVista(多模态数学推理)基准测试中,InternVL2-8B-MPO的准确率达到了67.0%,比InternVL2-8B的58.3%高出8.7个百分点,并且与比InternVL2-8B大10倍的InternVL2-76B的性能相当。InternVL2-8B-MPO在8个多模态基准测试中的整体得分均优于InternVL2-8B,这表明通过MPO方法,模型在多模态推理、VQA和幻觉评估方面的能力都得到了显著提升。

论文链接:

https://arxiv.org/pdf/2411.10442


http://www.ppmy.cn/ops/135722.html

相关文章

ROM修改进阶教程------安卓14去除修改系统应用后导致的卡logo验证步骤 适用安卓13 14 安卓15可借鉴参考

上期的博文解析了安卓14 安卓15去除系统应用签名验证的步骤解析。我们要明白。修改系统应用后有那些验证。其中签名验证 去卡logo验证 与可降级安装应用验证等等的区别。有些要相互结合使用。今天的博文将对修改系统应用后卡logo验证做个步骤解析。 通过博文了解💝💝�…

「Mac玩转仓颉内测版24」基础篇4 - 浮点类型详解

本篇将详细介绍 Cangjie 中的浮点类型,包括浮点数的表示方法、精度、舍入与溢出处理、科学计数法表示、字面量的进制表示、常用运算、类型转换及应用场景,帮助开发者掌握浮点数的使用方法。 关键词 浮点类型表示精度与舍入溢出与下溢科学计数法类型转换…

查询Mysql中被锁住的表以及如何解锁

当MySQL中的表被锁住时,可能会导致查询变慢或完全无法访问该表。处理这种情况的方法取决于锁的原因以及你想要达到的目标。以下是一些常见的步骤和技巧,可以帮助你解决被锁住的表的问题: 1. 识别锁的情况 首先,你需要确定哪些表…

java游戏账号交易系统.v1

摘 要 随着科学技术的飞速发展,社会的方方面面、各行各业都在努力与现代的先进技术接轨,通过科技手段来提高自身的优势,游戏售卖网站当然也不能排除在外。游戏售卖网站是以实际运用为开发背景,运用软件工程原理和开发方法&#x…

ArcMap 设置处理属性字段相关操作

ArcMap 设置处理属性字段相关操作今天开始分享 一、设置字段别名 1、打开属性表 2、修改列别名 点击进入 把type修改成类型后,点击应用 3、数据持久化到gdb数据库 1)新建数据库 编写数据库名称 2)导入数据 填内容 确定后 3)修改…

跟李笑来学美式俚语(Most Common American Idioms): Part 27

Most Common American Idioms: Part 27 前言 本文是学习李笑来的Most Common American Idioms这本书的学习笔记,自用。 Github仓库链接:https://github.com/xiaolai/most-common-american-idioms 使用方法: 直接下载下来(或者clone到本地…

Android开发实战班 -网络编程 - Retrofit 网络请求 + OkHttp 使用详解

在现代 Android 应用开发中,网络编程是必不可少的一部分。Retrofit 是 Square 公司推出的一款类型安全的 HTTP 客户端库,简化了与 RESTful API 的交互。Retrofit 基于 OkHttp,并提供了简洁的接口定义和强大的功能,如异步请求、请求…

Dockerhub镜像加速

一、背景 dockerhub由于被封锁和站点处于国外的原因,docker pull拉取镜像非常慢,有时候直接都无法拉取。严重妨碍了我们的学习进度以及日常使用。 总结了一些proxy代理的镜像站点,配置之后速度会有明显提升,大家可以参考使用。 二…