微软推出全新多语言高质量Phi-3.5语言模型

news/2024/9/18 12:37:09/ 标签: 人工智能, 语言模型, 自然语言处理

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

微软发布了三款全新的Phi 3.5模型,分别是Phi-3.5-mini-instruct(38亿参数)、Phi-3.5-MoE-instruct(419亿参数)和Phi-3.5-vision-instruct(41.5亿参数)。这三款模型分别针对基本/快速推理、更强大的推理以及视觉(图像和视频分析)任务进行了优化。https://huggingface.co/microsoft

这些模型已在Hugging Face平台上发布,开发者可以免费下载、使用,并根据需要进行微调。值得注意的是,所有模型都采用微软品牌的MIT许可,这意味着开发者可以自由进行商业用途和修改,无需受到任何限制。

令人惊叹的是,这三款模型在多个第三方基准测试中表现出接近最先进水平,甚至在某些情况下超越了谷歌的Gemini 1.5 Flash、Meta的Llama 3.1,甚至是OpenAI的GPT-4o。结合其开放的许可条款,微软因此在社交媒体平台X上获得了广泛赞誉。

接下来,让我们简要回顾一下这些新模型,根据它们在Hugging Face上的发布说明进行分析。

Phi-3.5 Mini Instruct:优化计算资源受限环境

Phi-3.5 Mini Instruct模型是一款轻量级的AI模型,拥有38亿参数,专为遵循指令和支持128k上下文长度的任务而设计。这款模型非常适合那些需要强大推理能力但受限于内存或计算资源的场景,包括代码生成、数学问题解决和逻辑推理任务。

尽管模型体积小巧,但Phi-3.5 Mini Instruct在多语言和多轮对话任务中的表现仍然相当出色,相较于其前代产品有显著提升。在多项基准测试中表现接近最先进水平,并在长上下文代码理解的RepoQA基准测试中超过了其他类似规模的模型,如Llama-3.1-8B-instruct和Mistral-7B-instruct。

Phi-3.5 MoE:微软的“专家混合”模型

Phi-3.5 MoE模型代表微软首次推出的“专家混合”(Mixture of Experts)模型类别,结合了多种不同模型类型,每个子模型专门处理不同任务。该模型拥有42亿激活参数,支持128k上下文长度,为高需求应用提供可扩展的AI性能。

值得注意的是,Phi-3.5 MoE在各种推理任务中表现出色,尤其是在代码、数学和多语言理解方面,经常在特定基准测试中超越更大规模的模型。它在5次测试的MMLU(大规模多任务语言理解)基准测试中也表现出色,在STEM、人文、社会科学等多个学科领域都超过了GPT-4o mini。

MoE模型的独特架构使其在处理多语言的复杂AI任务时保持高效。

Phi-3.5 Vision Instruct:先进的多模态推理

这三款模型的最后一款是Phi-3.5 Vision Instruct模型,它将文本和图像处理能力结合在一起,特别适合执行图像理解、光学字符识别、图表和表格理解以及视频摘要等任务。与其他Phi-3.5系列模型一样,Vision Instruct支持128k上下文长度,使其能够处理复杂的多帧视觉任务。

微软指出,该模型是使用合成和过滤过的公开数据集训练的,重点放在高质量、推理密集型数据上。

新Phi三人组的训练

Phi-3.5 Mini Instruct模型使用512个H100-80G GPU在10天内处理了3.4万亿个token进行训练,而Vision Instruct模型则使用256个A100-80G GPU在6天内处理了5000亿个token。

至于Phi-3.5 MoE模型,由于其专家混合架构,它使用了512个H100-80G GPU,在23天内处理了4.9万亿个token。

开源MIT许可

所有三款Phi-3.5模型都以MIT许可发布,展现了微软对开源社区的支持。该许可允许开发者自由使用、修改、合并、发布、分发、再授权或销售该软件副本。

许可还包含免责声明,指出该软件“按原样”提供,不附带任何形式的保证。微软和其他版权持有者不对因使用该软件而产生的任何索赔、损害或其他责任负责。

微软发布Phi-3.5系列标志着多语言和多模态AI开发的一个重大进展。通过在开源许可下提供这些模型,微软赋予开发者将最先进的AI功能集成到其应用中的能力,促进了商业和研究领域的创新。


http://www.ppmy.cn/news/1515532.html

相关文章

即时通讯IM软件推荐:五款适合企业内部使用的IM即时通讯软件

随着企业的不断发展,内部沟通和协作变得尤为重要。为了提高沟通效率、加强团队协作以及促进信息共享,企业需要选择适合自身需求的即时通讯IM软件。本文将为大家推荐五款适合企业内部使用的IM即时通讯软件,其中包括了备受赞誉的WorkPlus。 Wor…

C++ TinyWebServer项目总结(10. 信号)

信号是由用户、系统、进程发送给目标进程的信息,以通知目标进程某个状态的改变或系统异常。Linux信号可由以下条件产生: 对于前台进程,用户可通过输入特殊终端字符来给它发送信号,如输入CtrlC通常会给进程发送一个中断信号。系统…

OW-VISCap——开放世界视频实例分割方法研究

概述 论文地址:https://arxiv.org/pdf/2404.03657 本文提出了一种名为 OW-VISCap(开放世界视频实例分割和字幕)的方法。其三大贡献是 开放世界对象查询:除了已知对象查询外,还引入了开放世界对象查询,以发…

解锁未来:Swift 中 Core NFC 的全方位应用指南

标题:解锁未来:Swift 中 Core NFC 的全方位应用指南 在当今数字化时代,NFC(近场通信)技术已成为智能手机不可或缺的一部分。它使得设备能够与各种NFC标签和卡片进行交互,从而实现快速支付、数据传输和身份…

混合动力汽车救援充电器 Midtronics XRC-3363

Midtronics新一代新能源电池救援充电器,使测试人员能够快速和安全地启动混合动力汽车的电池。 应急救援设备 纯电动汽车/混合动力汽车道路救援,或对长期闲置无法启动的混动车辆进行充电,使电量达到能够启动的水平。 数据化电池管理信息系统…

【PostgreSQL教程】PostgreSQL 高级篇之索引

博主介绍:✌全网粉丝20W+,CSDN博客专家、Java领域优质创作者,掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域✌ 技术范围:SpringBoot、SpringCloud、Vue、SSM、HTML、Nodejs、Python、MySQL、PostgreSQL、大数据、物联网、机器学习等设计与开发。 感兴趣的可…

想提升网站排名?试试轮换IP

在竞争激烈的互联网环境中,提高网站排名是每个中小型网站主的共同目标。其中,轮换IP是一种不容忽视的优化工具。虽然听起来可能有些陌生,但轮换IP却能在提升网站排名方面发挥关键作用。本文将深入探讨轮换IP如何帮助中小型网站提升搜索引擎排…

JetBrains Rider 2024.2 (macOS, Linux, Windows) - 快速且强大的跨平台 .NET IDE

JetBrains Rider 2024.2 (macOS, Linux, Windows) - 快速且强大的跨平台 .NET IDE JetBrains 跨平台开发者工具 请访问原文链接:https://sysin.org/blog/jetbrains-rider/,查看最新版。原创作品,转载请保留出处。 作者主页:sys…

Django后端架构开发:从匿名用户API节流到REST自定义认证

🎯Django后端架构开发:从匿名用户API节流到REST自定义认证 在现代Web应用中,后端架构的开发至关重要。无论是用户的认证与权限管理,还是API的节流与数据序列化,都需要一个高效且安全的实现方案。本文将带领大家深入探…

社区维修平台

TOC springboot0751社区维修平台 第一章 绪 论 1.1背景及意义 系统管理也都将通过计算机进行整体智能化操作,对于社区维修平台所牵扯的管理及数据保存都是非常多的,例如住户管理、社区公告管理、维修工管理、维修订单管理、接单信息管理、订单信息管…

Markdown 美化 Github 个人主页

注:本文参考这篇博客 http://t.csdnimg.cn/KXhSw 目录 1 效果展示2 创建仓库3 编写 Markdown3.1 动态波浪图3.2 打字机动图3.3 技术栈图标3.4 项目贡献统计3.5 连续贡献统计3.6 贡献统计图3.7 代码时长统计3.8 仓库代码占比 1 效果展示 先来看看效果: 动…

Apache Doris 跨集群数据同步 CCR 全面介绍

CCR 概述 CCR(Cross Cluster Replication)也就是跨集群数据复制,能够在库/表级别将源集群的数据变更同步到目标集群,可用于提升在线服务的数据可用性、隔离在离线负载、建设两地三中心等。 CCR 通常被用于容灾备份、读写分离、集…

【面试】jvm栈的大小通过什么参数设置?

目录 1. -Xss2. -XX:ThreadStackSize3. 说明 1. -Xss 1.这是最常用的参数,用于直接设置每个线程的堆栈大小。2. -Xss1m表示设置每个线程的堆栈大小为1MB。3.这个参数在JVM启动时通过命令行传递,或者在Java程序中通过System.setProperty()方法设置&#…

maven 从特定module(项目)重新开始编译

前言 一般情况下,多module的项目数量过少,可能不需要使用到这个功能,但是当项目过多就很有必要,例如有20个module 编译到最后一个报错了,那重新构建的话 就会从第一个项目再来一遍,是不是很烦躁。 实践 …

大模型日报 2024-08-21

大模型日报 2024-08-22 大模型资讯 大模型产品 Coldreach:AI助力精准获客 摘要: Coldreach利用AI从招聘信息、新闻、LinkedIn等公共资源中发现购买信号,推荐相关信息,帮助您无需增加SDR即可预订3倍会议。 Hamming AI:语音代理自动…

【Midjourney】Midjourney全面开放网站版,所有用户每天可免费生成25次

Midjourney一直作为AI文生图领域的龙头老大,最近对面对市场上日益增长的竞争压力,尤其是来自 Flux 的挑战,终于向所有用户开放官方网站。尽管还处于早期阶段,但为了吸引更多用户体验,它暂时是完全免费的。 下面是Midj…

电脑硬盘坏了怎么恢复数据?

在数字化时代,电脑硬盘作为存储核心,承载着我们的工作文档、学习资料、家庭照片以及无数珍贵的回忆。然而,硬盘作为机械设备,也有其寿命和脆弱性,一旦出现故障,数据恢复便成为了一个紧迫而棘手的问题。本文…

请你谈谈:async与await是如何控制异步操作的执行顺序

async/await 是 JavaScript 中用于处理异步操作的一种语法糖,它使得异步代码的编写、阅读和维护变得更加容易和直观。async 和 await 关键字是在 ES2017(ES8)中引入的,旨在简化基于 Promise 的异步操作。 1 async async 是一个函…

【机器学习】数据预处理、特征缩放以及有偏分布的基本概念

引言 数据预处理是机器学习过程中的一个关键步骤,它涉及对原始数据进行清洗、转换和重塑,以提高模型的性能和准确性 文章目录 引言一、数据预处理1.1 定义1.2 步骤1.2.1 数据清洗1.2.2 数据转换1.2.3 数据重塑1.2.4 数据分割1.2.5 数据增强1.2.6 处理不平…

[Linux#47][网络] 网络协议 | TCP/IP模型 | 以太网通信

目录 1.网络协议 2.协议分层 2.1 OSI七层模型 2.2TCP/IP五层(四层)模型 2.3 以太网通信 1.网络协议 "协议"本质就是一种约定 计算机之间的传输媒介是光信号和电信号. 通过 "频率" 和 "强弱" 来表示 0 和 1 这样的 信息. 要想传递各种不同…