TII 使用 Falcon Mamba 7B 发布首个 SSLM

ops/2024/9/24 13:18:02/

在这里插入图片描述
这款新型 Falcon Mamba 7B 模型是阿布扎比在人工智能研发领域的又一创举。

Falcon Mamba 7B 是全球性能第一的开源状态空间模型语言(SSLM)。经 Hugging Face 独立验证,Falcon Mamba 7B 是全球性能第一的开源状态空间模型语言 (SSLM)。它优于传统的变压器架构模型,如 Meta 的 Llama 3.1 8B 和 Mistral 的 7B。

最新功能

Falcon Mamba 7B 是我们的第一款 SSLM。我们对这种可以处理较大文本块的新模式感到非常兴奋。SSLM 的内存成本低,无需额外内存即可生成任意长序列。

如何使用 Falcon Mamba 7B?
您可以在 Hugging Face 上找到该模型:
https://huggingface.co/tiiuae/falcon-mamba-7b

我们还提供了一个互动游乐场,供大家试用该模型:
https://huggingface.co/spaces/tiiuae/falcon-mamba-playground

猎鹰曼巴 7B 的性能如何?

在这里插入图片描述
在变压器架构型号方面,Falcon Mamba 7B 优于 Meta 的 Llama 3.1 8B 和 Mistral 的 7B。同时,在其他 SSLM 方面,Falcon Mamba 7B 在旧基准测试中击败了所有其他开源型号,并将成为 Hugging Face 新的更严苛基准测试排行榜上的第一个型号。

在这里插入图片描述
我们测试的是单个 24 GB A10 GPU 所能容纳的最大序列长度。批量大小固定为 1,精度为 float32。基于转换器的模型使用经过调整的词汇量大小,以匹配 Falcon Mamba 模型。可以看出,如果逐个标记处理整个上下文,或以适合 GPU 的大小处理标记块(表示为顺序并行),我们可以适应比 SoTA 变换器模型更大的序列,同时理论上可以适应无限长的上下文。

在这里插入图片描述
在这里插入图片描述
我们使用批量大小为 1 和 H100 GPU,在提示长度为 1 和最多生成 130k 标记的情况下测量了生成吞吐量。我们将其与基于滑动窗口注意力的 Mistral 架构进行了比较,因为后者在大规模时内存效率更高。我们观察到,Falcon Mamba 能以恒定的吞吐量生成所有令牌,且不会增加 CUDA 的峰值内存。而对于变压器模型,随着生成令牌数量的增加,峰值内存会增加,生成速度也会减慢。

训练数据

Falcon-Mamba 的训练数据约为 5,500 GT,主要来自 Refined-Web,这是一个经过过滤和重复的大容量纯网络数据集。与其他 Falcon 套件模型类似,Falcon-Mamba 也采用了多阶段训练策略,将上下文长度从 2,048 增加到 8,192。此外,受 “课程学习”(Curriculum Learning)概念的启发,我们在整个训练阶段都精心选择了数据混合物,同时考虑了数据的多样性和复杂性。需要注意的是,在推理时,上下文长度并不重要,因为 Mamba 架构对长距离依赖性没有限制。在最后的训练阶段,我们使用了一小部分高质量的策划数据来进一步提高性能。

总体而言,数据源包括 RefinedWeb-English、高质量技术数据、代码数据和从公共资源中提取的数学数据。在最后的训练阶段,我们特别使用了来自 Fineweb-edu 的样本。

我们使用 Falcon-7B/11B 标记器对数据进行了标记。

经过预训练后,我们在指令数据上对模型进行了进一步微调。

训练程序

Falcon-Mamba-7B 的大部分训练都是在 256 个 H100 80GB GPU 上进行的,使用的是三维并行策略(TP=1、PP=1、DP=256)和 ZeRO。

Benchmark

model nameIFEvalBBHMATH LvL5GPQAMUSRMMLU-PROAverage
Pure SSM models
FalconMamba-7B33.3619.883.638.0510.8614.4715.04
TRI-ML/mamba-7b-rw*22.466.710.451.125.511.696.25
Hybrid SSM-attention models
recurrentgemma-9b30.7614.804.834.706.6017.8813.20
Zyphra/Zamba-7B-v1*24.0621.123.323.037.7416.0212.55
Transformer models
Falcon2-11B32.6121.942.342.807.5315.4413.78
Meta-Llama-3-8B14.5524.503.257.386.2424.5513.41
Meta-Llama-3.1-8B12.7025.294.616.158.9824.9513.78
Mistral-7B-v0.123.8622.022.495.5910.6822.3614.50
Mistral-Nemo-Base-2407 (12B)16.8329.374.985.826.5227.4615.08
gemma-7B26.5921.126.424.9210.9821.6415.28
model nameARCHellaSwagMMLUWinograndeTruthfulQAGSM8KAverage
Pure SSM models
FalconMamba-7B*62.0380.8262.1173.6453.4252.5464.09
TRI-ML/mamba-7b-rw*51.2580.8533.4171.1132.084.7045.52
Hybrid SSM-attention models
recurrentgemma-9b**52.0080.4060.5073.6038.6042.6057.95
Zyphra/Zamba-7B-v1*56.1482.2358.1179.8752.8830.7860.00
Transformer models
Falcon2-11B59.7382.9158.3778.3052.5653.8364.28
Meta-Llama-3-8B60.2482.2366.7078.4542.9345.1962.62
Meta-Llama-3.1-8B58.5382.1366.4374.3544.2947.9262.28
Mistral-7B-v0.159.9883.3164.1678.3742.1537.8360.97
gemma-7B61.0982.2064.5679.0144.7950.8763.75

我们主要从两个排行榜上获取评估结果。对于标有星级的模型,我们在内部对任务进行了评估,而对于标有两颗星的模型,我们则从纸张或模型卡中获取评估结果。


http://www.ppmy.cn/ops/93655.html

相关文章

网络安全(黑客)—自学手册

前言 一、什么是网络安全 网络安全可以基于攻击和防御视角来分类,我们经常听到的 “红队”、“渗透测试” 等就是研究攻击技术,而“蓝队”、“安全运营”、“安全运维”则研究防御技术。 无论网络、Web、移动、桌面、云等哪个领域,都有攻与防…

思科默认路由配置2

#路由协议实现# #任务二默认路由配置2# #1配置计算机的IP地址、子网掩码和网关 #2配置Router-A的名称及其接口IP地址 Router(config)#hostname Router-A Router-A(config)#int g0/0 Router-A(config-if)#ip add 192.168.1.1 255.255.255.0 Router-A(config-if)#no shutdow…

书生浦语大模型全链路开源开放体系学习

书生浦语大模型的开源体系经过一年努力,已实现从数据收集到模型部署的全链路打通。课程介绍了书生浦语的最新进展,包括7B和20B模型的开源及其性能提升。新版本模型在推理能力和上下文处理上表现优异,支持超长上下文和复杂任务解决。开源工具涵…

2024 Google 开发者大会(Google I/O Connect China):Google 把 AI 模型装进 Chrome 浏览器

简简单单 Online zuozuo: 简简单单 Online zuozuo 简简单单 Online zuozuo 简简单单 Online zuozuo 简简单单 Online zuozuo :本心、输入输出、结果 简简单单 Online zuozuo :联系我们:VX :tja6288 / EMAIL: 347969164@qq.com 文章目录 2024 Google 开发者大会(Google I…

思科路由器的基本配置1

#路由技术基础# #路由器的基本配置1# #1调整超级终端的参数 #2退出配置向导,输入“NO”即可进入正常配置方式 #3路由器的模式切换 Router> !进入用户模式 Router>enable !进入特权模…

python crawler web page

npm install or pip install 插件 import json import time from openpyxl import load_workbook from pip._vendor import requests from bs4 import BeautifulSoup import pandas as pd import re import xlsxwriter 設置request header header {user-agent: Mozilla/5.0…

[cvpr 2024 目标检测 前沿研究 热点] cpvr 2024中与目标检测主题有关的论文

3D 目标检测 UniMODE:统一的单目 3D 对象检测 实现包括室内和室外场景的统一单目 3D 对象检测在机器人导航等应用中具有重要意义。然而,涉及数据的各种场景来训练模型会带来挑战,因为它们具有显著不同的特性,例如不同的几何特性…

Asymmetric Loss For Multi-Label Classification

从b站视频区看到的一篇论文,来自阿里。据他所说,他的多标签分类数据长尾最大到100:1,再做增广也没用,用了这篇论文的loss直接起飞。 链接在此 首先,常规的loss 既然是多标签分类,那么最基础的方法肯定是…