这款新型 Falcon Mamba 7B 模型是阿布扎比在人工智能研发领域的又一创举。
Falcon Mamba 7B 是全球性能第一的开源状态空间模型语言(SSLM)。经 Hugging Face 独立验证,Falcon Mamba 7B 是全球性能第一的开源状态空间模型语言 (SSLM)。它优于传统的变压器架构模型,如 Meta 的 Llama 3.1 8B 和 Mistral 的 7B。
最新功能
Falcon Mamba 7B 是我们的第一款 SSLM。我们对这种可以处理较大文本块的新模式感到非常兴奋。SSLM 的内存成本低,无需额外内存即可生成任意长序列。
如何使用 Falcon Mamba 7B?
您可以在 Hugging Face 上找到该模型:
https://huggingface.co/tiiuae/falcon-mamba-7b
我们还提供了一个互动游乐场,供大家试用该模型:
https://huggingface.co/spaces/tiiuae/falcon-mamba-playground
猎鹰曼巴 7B 的性能如何?
在变压器架构型号方面,Falcon Mamba 7B 优于 Meta 的 Llama 3.1 8B 和 Mistral 的 7B。同时,在其他 SSLM 方面,Falcon Mamba 7B 在旧基准测试中击败了所有其他开源型号,并将成为 Hugging Face 新的更严苛基准测试排行榜上的第一个型号。
我们测试的是单个 24 GB A10 GPU 所能容纳的最大序列长度。批量大小固定为 1,精度为 float32。基于转换器的模型使用经过调整的词汇量大小,以匹配 Falcon Mamba 模型。可以看出,如果逐个标记处理整个上下文,或以适合 GPU 的大小处理标记块(表示为顺序并行),我们可以适应比 SoTA 变换器模型更大的序列,同时理论上可以适应无限长的上下文。
我们使用批量大小为 1 和 H100 GPU,在提示长度为 1 和最多生成 130k 标记的情况下测量了生成吞吐量。我们将其与基于滑动窗口注意力的 Mistral 架构进行了比较,因为后者在大规模时内存效率更高。我们观察到,Falcon Mamba 能以恒定的吞吐量生成所有令牌,且不会增加 CUDA 的峰值内存。而对于变压器模型,随着生成令牌数量的增加,峰值内存会增加,生成速度也会减慢。
训练数据
Falcon-Mamba 的训练数据约为 5,500 GT,主要来自 Refined-Web,这是一个经过过滤和重复的大容量纯网络数据集。与其他 Falcon 套件模型类似,Falcon-Mamba 也采用了多阶段训练策略,将上下文长度从 2,048 增加到 8,192。此外,受 “课程学习”(Curriculum Learning)概念的启发,我们在整个训练阶段都精心选择了数据混合物,同时考虑了数据的多样性和复杂性。需要注意的是,在推理时,上下文长度并不重要,因为 Mamba 架构对长距离依赖性没有限制。在最后的训练阶段,我们使用了一小部分高质量的策划数据来进一步提高性能。
总体而言,数据源包括 RefinedWeb-English、高质量技术数据、代码数据和从公共资源中提取的数学数据。在最后的训练阶段,我们特别使用了来自 Fineweb-edu 的样本。
我们使用 Falcon-7B/11B 标记器对数据进行了标记。
经过预训练后,我们在指令数据上对模型进行了进一步微调。
训练程序
Falcon-Mamba-7B 的大部分训练都是在 256 个 H100 80GB GPU 上进行的,使用的是三维并行策略(TP=1、PP=1、DP=256)和 ZeRO。
Benchmark
model name | IFEval | BBH | MATH LvL5 | GPQA | MUSR | MMLU-PRO | Average |
---|---|---|---|---|---|---|---|
Pure SSM models | |||||||
FalconMamba-7B | 33.36 | 19.88 | 3.63 | 8.05 | 10.86 | 14.47 | 15.04 |
TRI-ML/mamba-7b-rw * | 22.46 | 6.71 | 0.45 | 1.12 | 5.51 | 1.69 | 6.25 |
Hybrid SSM-attention models | |||||||
recurrentgemma-9b | 30.76 | 14.80 | 4.83 | 4.70 | 6.60 | 17.88 | 13.20 |
Zyphra/Zamba-7B-v1 * | 24.06 | 21.12 | 3.32 | 3.03 | 7.74 | 16.02 | 12.55 |
Transformer models | |||||||
Falcon2-11B | 32.61 | 21.94 | 2.34 | 2.80 | 7.53 | 15.44 | 13.78 |
Meta-Llama-3-8B | 14.55 | 24.50 | 3.25 | 7.38 | 6.24 | 24.55 | 13.41 |
Meta-Llama-3.1-8B | 12.70 | 25.29 | 4.61 | 6.15 | 8.98 | 24.95 | 13.78 |
Mistral-7B-v0.1 | 23.86 | 22.02 | 2.49 | 5.59 | 10.68 | 22.36 | 14.50 |
Mistral-Nemo-Base-2407 (12B) | 16.83 | 29.37 | 4.98 | 5.82 | 6.52 | 27.46 | 15.08 |
gemma-7B | 26.59 | 21.12 | 6.42 | 4.92 | 10.98 | 21.64 | 15.28 |
model name | ARC | HellaSwag | MMLU | Winogrande | TruthfulQA | GSM8K | Average |
---|---|---|---|---|---|---|---|
Pure SSM models | |||||||
FalconMamba-7B * | 62.03 | 80.82 | 62.11 | 73.64 | 53.42 | 52.54 | 64.09 |
TRI-ML/mamba-7b-rw * | 51.25 | 80.85 | 33.41 | 71.11 | 32.08 | 4.70 | 45.52 |
Hybrid SSM-attention models | |||||||
recurrentgemma-9b ** | 52.00 | 80.40 | 60.50 | 73.60 | 38.60 | 42.60 | 57.95 |
Zyphra/Zamba-7B-v1 * | 56.14 | 82.23 | 58.11 | 79.87 | 52.88 | 30.78 | 60.00 |
Transformer models | |||||||
Falcon2-11B | 59.73 | 82.91 | 58.37 | 78.30 | 52.56 | 53.83 | 64.28 |
Meta-Llama-3-8B | 60.24 | 82.23 | 66.70 | 78.45 | 42.93 | 45.19 | 62.62 |
Meta-Llama-3.1-8B | 58.53 | 82.13 | 66.43 | 74.35 | 44.29 | 47.92 | 62.28 |
Mistral-7B-v0.1 | 59.98 | 83.31 | 64.16 | 78.37 | 42.15 | 37.83 | 60.97 |
gemma-7B | 61.09 | 82.20 | 64.56 | 79.01 | 44.79 | 50.87 | 63.75 |
我们主要从两个排行榜上获取评估结果。对于标有星级的模型,我们在内部对任务进行了评估,而对于标有两颗星的模型,我们则从纸张或模型卡中获取评估结果。