智源大模型通用算子库FlagGems四大能力升级 持续赋能AI系统开源生态

news/2024/12/21 20:25:50/

FlagGems是由智源研究院于2024年6月推出的面向多种AI芯片的开源大模型通用算子库。FlagGems使用Triton语言开发,在Triton生态开源开放的基础上,为多种AI芯片提供开源、统一、高效的算子层生态接入方案。FlagGems沿着统一的中间语言、统一的算子接口和统一的开源算子库方向进行了深入探索与实践。经过半年的研发迭代,FlagGems 取得了诸多新进展。

四大能力升级

  • 提供大模型算子总数超过120个,是目前提供算子数量最多、覆盖广度最大的Triton算子库。

  • 提供多后端支持,目前已有7家厂商的不同 AI 芯片接入 FlagGems,为大模型提供更多算力选择。

  • 实现代码生成技术、运行时优化技术,在开发效率和运行性能等重要指标上都优于同类开源项目。

  • 持续优化多种 AI 芯片性能,加速比显著提升,多数超越原生算子。算子在 Nvidia GPU上整体性能优越,实现平均性能90%以上超越Pytorch CUDA版本。

  • 详细数据如下所示:

    • 平台:A100

    • 实验时间:11月27日

    • 代码版本:commit 41ab8017b4ed93db54358e3cb563eadf1a98f43d

    • 采集方法:benchmark数据按算子取加速比均值,全局排序

    • 数据意义:加速比为1表示FlagGems与Pytorch aten CUDA性能相当,超过1表示FlagGems性能更优,低于1表示FlagGems性能劣势;黄色条左侧的加速比均大于1,黄色条至红色条之间的加速比约等于1,红色条右侧的加速比小于1。

赋能大模型训练

FlagGems已与智源大模型并行训练及推理框架FlagScale(https://github.com/FlagOpen/FlagScale.git)进行集成使用,该框架能实现不同代际、不同架构芯片之间的异构混合训练,已支持智源内外10多个模型的端到端训练与推理,涵盖稠密与稀疏模型,涉及语言与多模态领域,参数规模到千亿量级,并实现多款芯片的适配。

首次实现FlagGems+FlagScale端到端训练的模型如下:

  • 语言模型 Aquila-135M

    • 模型概述

      • Aquila-135M是尺寸最小的中英双语语言大模型。

      • 基于1.66TB的预训练数据和优选的100B Token的退火数据,采用预训练和退火二阶段训练得到。

      • 整个训练过程基于智源Triton算子库FlagGems以及并行训练框架FlagScale实现。

    • 模型效果

      • 英文指标接近同类型小模型SOTA水平(SmolLM2-135M),中文评测显著胜出。

      • 采用Triton算子的模型效果与CUDA算子基本一致,证明了Triton算子的正确性。

  • 多模态模型 Aquila-VL-2B

    • 模型概述

      • Aquila-VL-2B基于LLaVA-OneVision框架构建,采用Qwen-2.5-1.5B作为语言塔,Siglip400m作为视觉塔,并使用了智源开源千万级多模态指令数据集Infinity-MM进行多阶段训练。这一创新设计和高质量数据的结合,使得Aquila-VL-2B在同规模模型中取得了领先的性能。

      • 训练过程基于智源Triton算子库FlagGems以及并行训练框架FlagScale实现,分别在 Nvidia GPU 和 某款非英伟达的全功能GPU训练,证明了 FlagGems 支持多元化AI芯片能力。

    • 模型效果

      • 其中 Aquila-VL-2B-Triton 在某款全功能 GPU 千卡规模高效训练,效果与Nvidia A800基本一致。

构建开发者生态

智源致力于构建FlagGems开发者生态,支持多元化AI芯片的合作体系,通过深化核心合作、强化社区建设、提供技术与框架支持、丰富生态建设活动等多维度策略,全面促进AI技术的创新与发展。目前,智源与蚂蚁、腾讯、商汤、火山等大模型应用厂商,以及浪潮、新华三、联想等系统厂商建立合作伙伴关系,并携手百度飞桨、中科加禾、硅基流动等厂商,共同为开发者提供算子及框架支持,此外,智源还联合上海实验室、信通院、电子四院等机构,积极推动制定相关标准,为生态健康发展提供技术的规范性和统一性。这些合作伙伴不仅为生态提供了丰富的资源和技术支持,也为生态的多样性和活力注入了新的血液。

在社区平台建设方面,FlagGems与CSDN深度合作,建立了Triton中文社区门户,汇聚了超过110名社区算子贡献者,通过Github Project看板协作完成项目贡献,并已对外发放25+个开发任务,激励社区开发者的参与和贡献。得到上海人工智能实验室、CSDN、中国互联网协会人工智能工作委员会的共同支持,首次活动线下满员,线上参与5000+人次。智源大会期间举办了Triton算子开发培训,并举办Triton生态活动专场,Triton中国生态Meetup系列活动,展现了生态的广泛影响力。

教育是生态建设的未来。智源积极参与北京市属高校人工智能通识课程案例征集,打造《AI高性能计算软件编程》课程,为高校学生提供了宝贵的学习资源。这不仅为学生提供了实践机会,也为生态培养了未来的人才。


http://www.ppmy.cn/news/1557007.html

相关文章

条款24:若所有参数皆需类型转换,请为此采用非成员函数

条款24:若所有参数皆需类型转换,请为此采用非成员函数 设计一个表示有理数的类时,允许从整数隐式转换为有理数是有用的: class Rational { public:Rational(int numerator 0, // 该构造函数没有explicit限制;int denominator …

linux下操作es及kibana的操作记录

背景:工作中后面开始用es和kibana了,为了方便后面的操作,特记录一下,好多命令实在是记不住了,😄 kibana的操作 1.查看所有的索引的命令 GET /_cat/indices2.创建索引的命令 PUT /es_dsj_6c_jky_yunzhe_…

【机器学习】机器学习的基本分类-强化学习-REINFORCE 算法

REINFORCE 算法 REINFORCE 是一种基于策略梯度的强化学习算法,直接通过采样环境中的轨迹来优化策略。它是策略梯度方法的基础实现,具有简单直观的优点。 核心思想 目标函数 最大化策略的期望回报: ​​​​​​​ …

SSL Version 2 and 3 Protocol Detection漏洞修复

使用 IIS Crypto 工具 IIS Crypto 是一个免费工具,使管理员能够在 Windows Server 2008,2012,2016 和 2019 上启用或禁用协议,密码,哈希和密钥交换算法。它还允许您重新排序 IIS 提供的 SSL / TLS 密码套件&#xff0c…

基于GRU门控循环神经网络的多分类预测【MATLAB】

随着深度学习的不断发展,循环神经网络(RNN)在处理时间序列和自然语言处理等领域表现出了强大的能力。然而,传统RNN存在梯度消失和梯度爆炸问题,导致其在长序列任务中的表现受限。为了应对这些问题,门控循环…

【开发】回归 Web 应用的基础

文章目录 回归 Web 应用的基础CSSJavaScriptAjaxjQueryAngularJSReactVue.js其他框架打包工具渐进增强过犹不及回归本源回归 Web 应用的基础 最初,只有 HTML。第一个正式的 HTML 规范专注于语义标记,其中仅包含少量样式标签和属性。HTML 文档的渲染完全由浏览器决定。 这个…

<javascript><css><nodejs>使用express构建一个本地服务器,使用http获取服务器图片和视频,网页端grid布局显示

前言 本文是一个前端示例,是基于nodejs使用express构建一个简单的服务器,并扫描本地资源文件夹,获取视频和图片,网页端通过http来向服务器请求,并将返回的资源在网页端程序,布局为grid。 环境配置 系统&am…

跨越平台界限:探索Native AOT的交叉编译技术

在当今多元化的技术生态中,软件开发者们经常面临一个挑战:如何使应用程序能够在不同的操作系统和硬件平台上无缝运行。传统的解决方案通常依赖于解释型语言或虚拟机技术,但这些方法在某些高性能要求或资源受限的场景中可能并不理想。Native A…