Molmo和PixMo:为最先进的多模态模型提供开放权重和开放数据

embedded/2024/10/23 21:45:37/

摘要

https://arxiv.org/pdf/2409.17146
当今最先进的多模态模型仍然是专有的。性能最强的开源模型严重依赖专有视觉语言模型(Vision-Language Model,简称VLM)的合成数据来获得良好性能,有效地将这些封闭模型提炼为开放模型。因此,业界仍然缺少关于如何从零开始构建高性能VLM的基础知识。我们提出了Molmo,这是一个在其开放性类别中处于最前沿的新VLM系列。我们的关键创新在于一个全新且高度详细的图像字幕数据集,该数据集完全基于人类注释者使用语音描述收集而成。为了实现广泛的用户交互,我们还引入了一个用于微调的多样化数据集组合,其中包括野外问答(Q&A)和创新性的二维指向数据。我们方法的成功取决于模型架构细节的精心选择、经过良好调整的训练管道,以及最关键的是我们新收集的数据集的质量,所有这些都将被公开。Molmo系列中性能最佳的720亿参数模型不仅在开源权重和数据模型类别中优于其他模型,而且在学术基准测试和人工评估方面与GPT-4o、Claude 3.5和Gemini 1.5等专有系统相比也毫不逊色。

我们将在不久的将来发布我们的所有模型权重、字幕和微调数据以及源代码。部分模型权重、推理代码和演示可在https://molmo.allenai.org上获取。

1. 引言

除了处理文本外,还能处理图像的大型语言模型(Large Language Model&


http://www.ppmy.cn/embedded/129916.html

相关文章

wordpress 子比主题美化 四宫格 多宫格 布局插件

wordpress 主题美化 四宫格 多宫格 布局插件(只在子比主题上测试过,其它主题没测试) A5资源网四宫格布局插件是一个功能丰富的WordPress插件,专为创建自适应的四宫格布局而设计。这个插件具有以下主要特点: 灵活的布局: 支持1到8个宫格的自定…

Golang | Leetcode Golang题解之第485题最大连续1的个数

题目: 题解: func findMaxConsecutiveOnes(nums []int) (maxCnt int) {cnt : 0for _, v : range nums {if v 1 {cnt} else {maxCnt max(maxCnt, cnt)cnt 0}}maxCnt max(maxCnt, cnt)return }func max(a, b int) int {if a > b {return a}return …

【进程调度模拟】Linux “操作系统进程调度算法模拟:时间片轮转、优先级调度与先来先服务“

文章目录 1. 基于时间片轮转(Round Robin, RR)调度算法模拟2. 最高优先级优先(Priority Scheduling)调度算法模拟3. 先来先服务(FCFS)调度算法模拟 1. 基于时间片轮转(Round Robin, RR&#xff…

数据处理利器:图片识别转Excel表格让数据录入变简单

在现代职场中,手动录入数据是一个耗时且容易出错的过程。无论是纸质文件、照片还是截图,繁琐的输入常常让人感到头疼。如何高效地将这些信息转化为电子表格,是许多职场人士面临的挑战。 为了解决这一问题,我们推出了图片识别转Exc…

探索桂林:使用SpringBoot构建的旅游平台

1系统概述 1.1 研究背景 随着计算机技术的发展以及计算机网络的逐渐普及,互联网成为人们查找信息的重要场所,二十一世纪是信息的时代,所以信息的管理显得特别重要。因此,使用计算机来管理桂林旅游景点导游平台的相关信息成为必然。…

RISC-V笔记——Pipeline依赖

1. 前言 RISC-V的RVWMO模型主要包含了preserved program order、load value axiom、atomicity axiom、progress axiom和I/O Ordering。今天主要记录下preserved program order(保留程序顺序)中的Pipeline Dependencies(Pipeline依赖)。 2. Pipeline依赖 Pipeline依赖指的是&a…

三大智能体平台深度对比:字节Coze、百度AppBuilder、智谱智能体优劣解析

字节Coze智能体是一个多功能平台,具备丰富的功能和技能扩展能力。以下是它的一些核心功能和特性: 功能与技能 1. 插件功能 Coze智能体可以通过插件调用外部API,扩展智能体的能力。例如,它可以执行以下操作: 搜索信…

C++ 抛异常

目录 一.抛异常与运行崩溃的区别 1.运行崩溃 2.抛异常 二.抛异常机制存在的意义 1.清晰的处理错误 2.结构化的错误管理 3.跨函数传递错误信息 4.异常对象多态性 三.抛异常的使用方法 1.抛出异常 (throw) 2.捕获异常 (catch) 3.标准异常类 四.抛异常的处理机制 1.抛…