[240926] Pixtral 12B: 开源多模态模型,兼顾推理与文本能力 | OpenAPI 入门指南

embedded/2024/10/20 12:30:23/
aidu_pl">

目录

    • Pixtral 12B: aiYuan.html" title=开源>开源aiMoXing.html" title=多模态模型>多模态模型,兼顾推理与文本能力
      • 性能
        • 评估方案
        • 指令遵循
      • 架构
    • OpenAPI 入门指南
      • 一、什么是 OpenAPI?
      • 二、OpenAPI 的概念
      • 三、OpenAPI 的结构
      • 四、OpenAPI 的格式
      • 五、OpenAPI 的优势

Pixtral 12B: aiYuan.html" title=开源>开源aiMoXing.html" title=多模态模型>多模态模型,兼顾推理与文本能力

Mistral AI 发布首个aiMoXing.html" title=多模态模型>多模态模型 Pixtral 12B,采用 Apache 2.0 协议aiYuan.html" title=开源>开源。

Pixtral 12B 主要特点:

  • 原生多模态,使用交错的图像和文本数据进行训练
  • 在多模态任务上表现出色,尤其擅长指令遵循
  • 在纯文本基准测试中保持了最先进的性能
  • 架构:
    • 全新训练的 4 亿参数视觉编码器
    • 基于 Mistral Nemo 的 120 亿参数多模态解码器
    • 支持可变图像大小和纵横比
    • 在 12.8 万个词元的长上下文窗口中支持多张图像
  • 使用方式:
    • 许可证:Apache 2.0
    • 在 La Plateforme 或 Le Chat 上试用

Pixtral 旨在理解自然图像和文档,在 MMMU 推理基准测试中达到了 52.5% 的成绩,超过了许多更大的模型。 该模型在图表和图形理解、文档问答、多模态推理和指令遵循等任务中表现出色。Pixtral 能够以 自然分辨率和纵横比摄取图像,使用户可以灵活地选择用于处理图像的词元数量。Pixtral 还能够在其 12.8 万个词元的长上下文窗口中处理任意数量的图像。与之前的aiYuan.html" title=开源>开源模型不同,Pixtral 并没有为了在多模态任务中表现出色而牺牲文本基准性能。

性能

Pixtral 被训练成 Mistral Nemo 12B 的直接替代品。与现有aiYuan.html" title=开源>开源模型相比,它的主要区别在于提供了最佳的多模态推理能力,同时又不影响关键文本能力,如指令遵循、编码和数学。

评估方案

我们通过相同的评估工具重新评估了一系列开放和封闭模型。对于每个数据集,我们都选择了能够复现领先aiMoXing.html" title=多模态模型>多模态模型(GPT-4o 和 Claude-3.5-Sonnet)结果的提示词。然后,我们使用相同的提示词评估所有 模型。总的来说,Pixtral 的性能大大优于所有与其规模相当的开放模型,并且在许多情况下优于 Claude 3 Haiku 等封闭模型。Pixtral 甚至在多模态基准测试中超越或匹敌了 LLaVa OneVision 72B 等更大模 型的性能。 所有提示词都将aiYuan.html" title=开源>开源。

模型MMMU (CoT)Mathvista (CoT)ChartQA (CoT)DocVQA (ANLS)VQAv2 (VQA Match)
Pixtral 12B52.558.081.890.778.6
Claude-3 Haiku50.444.869.674.668.4
Gemini-1.5 Flash 8B (0827)50.756.978.079.565.5
LLaVA-OV 72B54.457.266.991.683.8
GPT-4o68.664.685.188.977.8
Claude-3.5 Sonnet68.064.487.690.370.7
Qwen2-VL 7B47.654.438.694.575.9
LLaVA-OV 7B45.136.167.190.578.3
Phi-3 Vision40.336.472.084.942.4
Phi-3.5 Vision38.339.367.774.456.1

上表展示了 Pixtral 与其他封闭和更大规模的aiMoXing.html" title=多模态模型>多模态模型的性能比较。

指令遵循

与其他开放aiMoXing.html" title=多模态模型>多模态模型相比,Pixtral 在多模态和纯文本指令遵循方面表现尤为出色。**它在指令遵循方面大大优于 Qwen2-VL 7B、LLaVa-OneVision 7B 和 Phi-3.5 Vision,在文本 IF-Eval 和 MT-Bench 上比最 接近的aiYuan.html" title=开源>开源模型提高了 20%。**为了进一步评估其在多模态用例中的能力,我们创建了这些基准测试的多模态版本:MM-IF-Eval 和 MM-MT-Bench。Pixtral 在多模态指令遵循基准测试中也优于aiYuan.html" title=开源>开源替代方案。我们 将向社区aiYuan.html" title=开源>开源 MM-MT-Bench。

架构

可变图像大小: Pixtral 的设计旨在优化速度和性能。官方训练了一个新的视觉编码器,它原生支持可变图像大小:

  • 用户只需将图像以其原生分辨率和纵横比传递给视觉编码器,将其转换为图像中每个 16x16 块的图像词元。
  • 然后将这些词元展平以创建一个序列,并在行之间和图像末尾添加 [IMG BREAK][IMG END] 词元。
  • [IMG BREAK] 词元可以让模型区分具有相同词元数量但纵横比不同的图像。

通过这种方式,Pixtral 可以用于准确理解高分辨率的复杂图表、图形和文档,同时在图标、剪贴画和公式等小图像上提供快速的推理速度。

最终架构:

  • Pixtral 有两个组件:
    • 视觉编码器(用于对图像进行词元化)
    • 多模态 Transformer 解码器(用于在给定文本和图像序列的情况下预测下一个文本词元)

该模型经过训练,可以根据交错的图像和文本数据预测下一个文本词元。这种架构允许 Pixtral 在其 12.8 万个词元的长上下文窗口中处理任意数量的任意大小的图像。

Pixtral 12B 是一个强大的aiYuan.html" title=开源>开源aiMoXing.html" title=多模态模型>多模态模型,在推理和文本能力方面都表现出色。其灵活的架构和强大的性能使其成为各种多模态应用的理想选择。

来源:

https://mistral.ai/news/pixtral-12b/


x-cmd 用户可通过交互模式设置 Pixtral-12b-2409 为默认模型。

在这里插入图片描述

进一步探索:

OpenAPI 入门指南

一、什么是 OpenAPI?

  • OpenAPI 是一种用于描述 API(应用程序编程接口)的规范。
  • OpenAPI 规范 (OAS) 为 HTTP API 服务定义了一种开放且独立的描述格式,允许人和计算机在无需查看源代码的情况下发现和理解 API 的工作原理以及如何与之交互。
  • OpenAPI 提供了一种机器可读的结构化数据格式,人们也可以读取和编写这种格式,允许工具帮助 API 开发人员、API 产品经理、技术文档编写人员和治理团队完成整个 API 生命周期。

二、OpenAPI 的概念

  • OpenAPI 规范(OAS): 由 OpenAPI 倡议组织维护的技术文档,定义了 OpenAPI 的工作方式。
  • OpenAPI 文档: 遵循 OpenAPI 规范编写的文件,描述了 API 的具体功能,例如 openapi.yamlopenapi.json
  • OpenAPI 文档化: 根据 OpenAPI 文档自动生成的 API 参考文档,以人类可读的方式展示 API 的详细信息。

三、OpenAPI 的结构

OpenAPI 文档允许您描述 REST API:

  • 定义有关 API 的常规信息:描述、使用条款、许可证、联系人等。
  • 身份验证方法:HTTPAPI 密钥OAuth 2OpenID 等。
  • 可用端点:/users 等。
  • 从 OpenAPI 3.1 开始,可用 Webhook。
  • 每个端点上的可用操作:GETPOSTPUTPATCHDELETE 等。
  • 每个操作的输入和输出参数。

四、OpenAPI 的格式

  • OpenAPI 文档可以使用 YAMLJSON 格式编写。
  • YAML 更易于阅读,因为它减少了标记标签的使用,并且被广泛用于编写各种软件配置。

示例:

/previews:post:summary: Create a previewdescription: |Create a preview for a given documentation file. The preview will have a uniquetemporary URL, and will be active for 30 minutes.security: []requestBody:$ref: "#/components/requestBodies/Preview"responses:"201":description: "Success"content:"application/json":schema:$ref: "#/components/schemas/Preview"

五、OpenAPI 的优势

  • 语言无关性: OpenAPI 描述与编程语言无关,可以使用任何语言或框架实现 API。
  • 工具支持: 许多工具支持 OpenAPI,例如 Swagger UI、Postman 和 Insomnia,可以自动生成文档、客户端库和服务器存根。
  • 改进的协作: OpenAPI 提供了一个中央位置来记录 API,从而改善了团队内部和团队之间的协作。
  • 更快的开发: OpenAPI 可以通过自动生成代码和文档来加快 API 开发过程。

OpenAPI 是一种强大的规范,可以帮助您设计、构建、记录和使用 API。它提供了许多优势,可以改善开发过程并提高 API 的质量。

来源:

https://docs.bump.sh/guides/openapi/specification/v3.1/introduction/what-is-openapi/

更多内容请查阅 : blog-240926


关注微信官方公众号 : oh my x

获取aiYuan.html" title=开源>开源软件和 x-cmd 最新用法


http://www.ppmy.cn/embedded/118123.html

相关文章

51单片机和ARM单片机的区别

在嵌入式系统设计与应用中,单片机作为核心控制单元,扮演着至关重要的角色。其中,51单片机和ARM单片机作为两种常见的单片机类型,各自具有独特的特点和优势。本文将从多个维度深入探讨这两种单片机的区别,以便读者更好地…

前端文件上传全过程

特别说明:ui框架使用的是蚂蚁的antd 这里主要是学习前端上传接口的传递参数包括前端上传之前对于代码的整理 一、第一步将前端页面画出来 源代码: /** 费用管理 - IT费用管理 - 费用数据上传 */ import { useState } from "react"; import {…

pytorch学习笔记二:用pytorch神经网络模型做气温预测、分类任务构建和分类网络构建、卷积神经网络原理介绍

文章目录 一、搭建pytorch神经网络进行气温预测1)基础搭建2)实际操作标识特征和标签3)构建成标准化的预处理数据(做标准化收敛速度更快) 二、按照建模顺序构建完成网络架构1)np.array格式的标签(y)和特征(x…

C语言线程编程深度解析

文章目录 前言一、线程基础概念1. 什么是线程?2. 线程与进程的区别 二、POSIX线程库(pthread)1. pthread简介2. 编译与链接3. 创建线程示例代码: 4. 线程同步互斥锁(Mutex)示例代码: 条件变量&a…

【Roblox/Lua】Roblox抽奖游戏设计概述

文章目录 Roll功能RollPanelUIRollAnimRollManagerPlayerBackpackBagUI 物品检视功能(检视,锁定,装备,删除)ItemUIInfoUI 自动抽奖快速抽奖快速移动 部分实现细节新增删除背包面板玩家初始化 代码总览数据存储部分服务…

nlp大语言模型原理

NLP(自然语言处理)的主要任务可以分为以下几个方面‌: ‌词法分析(Lexical Analysis)‌:这是NLP的基础,包括分词(Tokenization)、词性标注(Part-of-Speech Ta…

利用低代码快速搭建电商小程序之商品列表页

目标: 搭建商城的一个商品列表页面(先做静态页) 开发环境: 访问白码低代码平台:https://www.bnocode.com/ 白码的新自定义页功能(使用vue框架) 前期准备: 需要先准备商品数据表…

数据结构 ——— 常见的时间复杂度计算例题(中篇)

目录 例题1: 例题2: 例题1: 代码演示: void BubbleSort(int* a, int n) {// 断言assert(a);// 循环1for (size_t end n; end > 0; end--){int flag 0;// 循环2(循环1的内部循环)for (size_t i 1;…