TII 使用 Falcon Mamba 7B 发布首个 SSLM

在这里插入图片描述
这款新型 Falcon Mamba 7B 模型是阿布扎比在人工智能研发领域的又一创举。

Falcon Mamba 7B 是全球性能第一的开源状态空间模型语言（SSLM）。经 Hugging Face 独立验证，Falcon Mamba 7B 是全球性能第一的开源状态空间模型语言 (SSLM)。它优于传统的变压器架构模型，如 Meta 的 Llama 3.1 8B 和 Mistral 的 7B。

猎鹰曼巴 7B 的性能如何？

在这里插入图片描述
在变压器架构型号方面，Falcon Mamba 7B 优于 Meta 的 Llama 3.1 8B 和 Mistral 的 7B。同时，在其他 SSLM 方面，Falcon Mamba 7B 在旧基准测试中击败了所有其他开源型号，并将成为 Hugging Face 新的更严苛基准测试排行榜上的第一个型号。

在这里插入图片描述
我们测试的是单个 24 GB A10 GPU 所能容纳的最大序列长度。批量大小固定为 1，精度为 float32。基于转换器的模型使用经过调整的词汇量大小，以匹配 Falcon Mamba 模型。可以看出，如果逐个标记处理整个上下文，或以适合 GPU 的大小处理标记块（表示为顺序并行），我们可以适应比 SoTA 变换器模型更大的序列，同时理论上可以适应无限长的上下文。

在这里插入图片描述

我们使用批量大小为 1 和 H100 GPU，在提示长度为 1 和最多生成 130k 标记的情况下测量了生成吞吐量。我们将其与基于滑动窗口注意力的 Mistral 架构进行了比较，因为后者在大规模时内存效率更高。我们观察到，Falcon Mamba 能以恒定的吞吐量生成所有令牌，且不会增加 CUDA 的峰值内存。而对于变压器模型，随着生成令牌数量的增加，峰值内存会增加，生成速度也会减慢。

训练数据

Falcon-Mamba 的训练数据约为 5,500 GT，主要来自 Refined-Web，这是一个经过过滤和重复的大容量纯网络数据集。与其他 Falcon 套件模型类似，Falcon-Mamba 也采用了多阶段训练策略，将上下文长度从 2,048 增加到 8,192。此外，受 “课程学习”（Curriculum Learning）概念的启发，我们在整个训练阶段都精心选择了数据混合物，同时考虑了数据的多样性和复杂性。需要注意的是，在推理时，上下文长度并不重要，因为 Mamba 架构对长距离依赖性没有限制。在最后的训练阶段，我们使用了一小部分高质量的策划数据来进一步提高性能。

总体而言，数据源包括 RefinedWeb-English、高质量技术数据、代码数据和从公共资源中提取的数学数据。在最后的训练阶段，我们特别使用了来自 Fineweb-edu 的样本。

我们使用 Falcon-7B/11B 标记器对数据进行了标记。

经过预训练后，我们在指令数据上对模型进行了进一步微调。

训练程序

Falcon-Mamba-7B 的大部分训练都是在 256 个 H100 80GB GPU 上进行的，使用的是三维并行策略（TP=1、PP=1、DP=256）和 ZeRO。

Benchmark

`model name`	`IFEval`	`BBH`	`MATH LvL5`	`GPQA`	`MUSR`	`MMLU-PRO`	`Average`
Pure SSM models
`FalconMamba-7B`	33.36	19.88	3.63	8.05	10.86	14.47	15.04
`TRI-ML/mamba-7b-rw`^*	22.46	6.71	0.45	1.12	5.51	1.69	6.25
Hybrid SSM-attention models
`recurrentgemma-9b`	30.76	14.80	4.83	4.70	6.60	17.88	13.20
`Zyphra/Zamba-7B-v1`^*	24.06	21.12	3.32	3.03	7.74	16.02	12.55
Transformer models
`Falcon2-11B`	32.61	21.94	2.34	2.80	7.53	15.44	13.78
`Meta-Llama-3-8B`	14.55	24.50	3.25	7.38	6.24	24.55	13.41
`Meta-Llama-3.1-8B`	12.70	25.29	4.61	6.15	8.98	24.95	13.78
`Mistral-7B-v0.1`	23.86	22.02	2.49	5.59	10.68	22.36	14.50
`Mistral-Nemo-Base-2407 (12B)`	16.83	29.37	4.98	5.82	6.52	27.46	15.08
`gemma-7B`	26.59	21.12	6.42	4.92	10.98	21.64	15.28

`model name`	`ARC`	`HellaSwag`	`MMLU`	`Winogrande`	`TruthfulQA`	`GSM8K`	`Average`
Pure SSM models
`FalconMamba-7B`^*	62.03	80.82	62.11	73.64	53.42	52.54	64.09
`TRI-ML/mamba-7b-rw`^*	51.25	80.85	33.41	71.11	32.08	4.70	45.52
Hybrid SSM-attention models
`recurrentgemma-9b`^**	52.00	80.40	60.50	73.60	38.60	42.60	57.95
`Zyphra/Zamba-7B-v1`^*	56.14	82.23	58.11	79.87	52.88	30.78	60.00
Transformer models
`Falcon2-11B`	59.73	82.91	58.37	78.30	52.56	53.83	64.28
`Meta-Llama-3-8B`	60.24	82.23	66.70	78.45	42.93	45.19	62.62
`Meta-Llama-3.1-8B`	58.53	82.13	66.43	74.35	44.29	47.92	62.28
`Mistral-7B-v0.1`	59.98	83.31	64.16	78.37	42.15	37.83	60.97
`gemma-7B`	61.09	82.20	64.56	79.01	44.79	50.87	63.75