InfiMM-WebMath-40B——利用由 24 亿数学文档组成的数据集提高 LLM 的数学性能

1. 前言

论文地址：https://arxiv.org/abs/2409.12568
本文提出了一个新的大规模多模态预训练数据集 InfiMM-WebMath-40B，以提高数学推理能力。该数据集包含 24 亿个科学和数学相关的网络文档、85 亿个图片 URL 和约 400 亿个文本标记。该数据集支持多模态大语言模型（MLLMs）的训练，MLLMs 能够将文本和图像结合起来，提高推理能力，尤其是数学问题的推理能力。

具体来说，该数据集取自大型网络抓取资源库 CommonCrawl。创建该数据集的方法是，首先从数十亿个网页中只选择与科学和数学相关的网页，然后用链接的图像和文本对数据进行进一步过滤。这一过程使用了特定的基于规则的过滤和基于模型的过滤技术。最终产生了 2400 万份高质量的网络文档，并针对数学推理训练进行了优化。

一些实验结果证实，该数据集可用于构建 MLLM，其性能超越了传统的开源模型。例如，"MathVerse "和 "We-Math "等最先进的基准通过有效结合文本和图像，在解决问题方面取得了显著进步，尤其是在具有视觉成分的数学推理方面。

这种方法有望加速开发能够有效解决复杂数学问题的 MLLMs，尤其是那些大量使用数学公式、图形和图表的问题。所提议的数据集规模大、质量高，是整个开源社区的重要资源。

2.实验

本文的实验使用多个基准来验证 InfiMM-WebMath-40B 数据集。实验的目的是验证所提出的数据集在多大程度上提高了大规模多模态数学推理模型（MLLM）的性能。

首先，该模型的架构基于最先进的视觉语言学习方法，使用 SigLip 模型提取视觉特征，使用 Perceiver Resampler 提取视觉和文字部分。Coder 1.3B 和 DeepSeek-Coder 7B）。

训练分三个阶段进行。第一个阶段是模态对齐阶段，使用常见的图像-文本对进行训练，以弥合视觉和文本模态之间的差距。在这一阶段，视觉编码器和 LLM 主干网是固定的，只对感知器重采样器进行训练。

然后使用 InfiMM-WebMath-40B 数据集进行了额外的预训练，以增强多模态数学知识的获取。在这里，使用 4096 个词条的上下文长度和多达 32 幅图像进行了一次历时训练。

最后一个阶段是利用指令数据集进行微调。在这一阶段，固定了视觉编码器，更新了感知器重采样器和 LLM 的参数。在训练中使用了 ScienceQA 和 DocVQA 等数据集，从而提高了指令跟踪能力。

实验结果表明，使用 InfiMM-WebMath-40B 的模型在 MathVerse 和 We-Math 两个基准测试中表现出色。特别是，该模型在 MathVerse 基准测试中的表现优于传统的开源模型，并在 We-Math 中表现出卓越的多模态推理能力。特别是，7B 模型的性能可与其他 72B 和 110B 模型相媲美。

3.结果

本文的结论强调，InfiMM-WebMath-40B 作为首个公开的大规模多模态数学预训练数据集，为开源研究界做出了重要贡献。该数据集通过结合文本和图像实现了高级学习，特别是在数学推理方面，为提高解决复杂数学问题的能力奠定了基础。

使用 InfiMM-WebMath-40B 的模型比传统的开源模型表现更好，特别是在 MathVerse 和 We-Math 等现代基准测试中。特别是，7B 模型的性能可与其他 72B 和 110B 的大型模型相媲美。这些结果表明，InfiMM-We-Math-40B 的高质量多模态数据集大大增强了其数学推理能力。

未来的研究显示，计划增强视觉编码器，以高效处理数学符号、图表和表达式，并利用强化学习技术进一步提高数学推理能力。据说，这将为解决多模态数学推理的复杂性和开发更精确的人工智能模型铺平道路。

4.图表说明

在这里插入图片描述
本图展示了构建数学相关数据集 InfiMM-WebMath-40B 的过程。首先，我们从一个名为 CommonCrawl 的大型网络数据集开始，该数据集涵盖 122.6 亿个网页。

第一步是 “语言过滤”，根据语言进行过滤，将列表缩小到 57.2 亿页。然后进行 “高检索数学过滤”，以识别相关的数学内容，从而筛选出 9.5 亿个页面。

接下来，"重复数据删除 "会删除重复数据，并将页面数量减少到 3.9 亿页。之后，"基于规则的过滤 "将删除更多不必要的内容。这一阶段的数据数量为 3.8 亿页。

最后，"高精度数学过滤 "只保留高精度数学内容，最终选出约 24 万页。这 24 万页包含 40 亿个文本标记和 8500 万张图片。这一过滤过程建立了一个以数学为重点的高质量数据集。

在这里插入图片描述
此图形象地说明了与高斯定律有关的 "电通量 "概念。图中电荷呈曲面状，周围有电场线。这些电场线显示了电场如何在电荷周围扩散。

正负电荷位于图的中心，电场线朝向或远离正负电荷。电通量指的是通过这个表面的电场线的总和，与表面所包围的电荷的总和成正比。这意味着被包围的电荷量越大，电通量就越大。

dA 向量代表的只是表面该部分的微小面积元素，描述的是电场线与表面之间的关系。此图可作为直观教具的一部分，帮助学生理解物理和电磁学中的重要概念。

在这里插入图片描述
本表评估了不同模型的性能。

表格第一列显示的是型号名称。人体 "表示人体性能标准。
接下来，"Base LLM "表示每个模型所基于的大规模语言模型（LLM）的类型。
全部 "一栏显示所有类型任务的总得分。
下面各栏显示的是根据任务特征得出的分数："Text Dominant "表示以文本为主要信息来源的任务，"Text Lite "表示文本信息很少的任务，"Vision Intense "表示图像信息很多的任务，"Vision Dominant "表示以图像为主要信息来源的任务，"Vision Only "表示完全只有图像信息的任务。Vision Dominant "表示以图像为主要信息来源的任务，而 "Vision Only "表示完全只有图像信息的任务。

在本表中，三个非公开模型被评估为 “专有模型”，即 GPT-4V、Gemini-Pro 和 Qwen-VL-Max。此外，"开源模型 "是一组可公开获取的模型，包括 SPHINX-Plus、G-LaVA、InternLM-XC2 和 Math-LLAVA 等。

最后，"我们的模型 "中列出了 InfiMM-Math DS-Coder-1.3B 和 DS-Coder-1.5-7B 这两个模型。这些模型在某些分数上优于其他开源模型。

总体而言，InfiMM-数学模型在 “全部”、"文本主导 "和 "视觉密集 "任务中的表现尤为出色，显示出它在结合视觉和文本信息的任务中的优势。这是我们设计该模型的结果，目的是提高它在同时使用视觉和文本信息的复杂任务中的能力，让机器学习新手也能轻松理解。
在这里插入图片描述
该图显示了机器学习模型的评估结果。具体来说，它比较了 DeepSeek-Coder 1.5-7B 模型在不同训练设置下，在评估标准 MathVerse 上的得分。

表中有两种主要的训练方法：连续预训练（CPT）和指令微调（IFT）。这些方法都能提高模型的性能。

本文介绍了 "梅维斯 "和 "扩展 "两个不同数据集的结果。
在不使用 CPT 的情况下，Mavis 数据集的得分为 22.8，而使用 CPT 后得分提高到 27.1。
在扩展数据集中，使用 CPT 将得分从 23.8 提高到 29.1。

从表中可以看出，使用 CPT 后，模型的性能得到了提升。这种改进在扩展数据集上尤为明显，因为该数据集使用的数据更加多样化。

在这里插入图片描述
本表显示了一个机器学习模型的实验结果。具体来说，它衡量了 "CPT "和 "IFT "两种不同训练方法结合使用时的效果。

CPT "是 Continual Pre-Training（持续预训练）的缩写，是一种利用现有数据集重新训练模型的方法。
IFT "是 “指令微调”（Instruction Fine-Tuning）的缩写，是一种利用基于指令的数据集调整模型的方法。

该表显示了以下信息。

DSC-1.3B "是所用型号的名称。
Mavis "和 "Extended "是不同数据集的名称。
MathVerse w/o score "表示 MathVerse 评分标准的得分。其分数衡量学生解决数学问题的能力。
例如，仅对 "梅维斯 "数据集进行评估时，得分是 20.2，但在执行 "CPT "后，得分提高到 25.1。

这些结果表明，结合不同的训练方法可以提高模型的性能。每种方法的得分提升范围也有详细显示，这有助于了解这些方法的具体效果。

在这里插入图片描述
本表比较了不同语言模型（LLM）在数学基准测试 We-Math 中的表现。

模型和基础 LLM 栏：.

模型栏列出了每个模型的名称，下面显示了所使用的基本模型（Base LLM）。
基础 LLM 是用于自然语言处理的主要模型，在每个模型中都会用到。

专有型号：.

这些都是公司拥有的私人模型。
有多种不同性能级别的型号，如 Qwen-VL-Max 和 GPT-4o。

开源模型：.

这是一个公开的开源模型。
介绍了许多型号，包括 LLaVA 系列和 DeepSeek-VL。

我们的机型：.

这是研究小组自己开发的模式。
可以看出，InfiMM-Math 使用的是 DeepSeek-Coder-1.3B 和 DeepSeek-Base-7B 基本模型。

绩效指标：.

AVG 表示平均性能得分。越高表示整体越好。
IK（知识不足）是指知识不足的百分比，越低越好。
不充分概括 (IG) 是对不充分概括的衡量；该值越高越好。
完全掌握 (CM) 表示完全理解，应为高分。
RM（Rote Memorisation）是死记硬背的比率，数值越低，表示理解越自然。

该图表的目的是方便直观地显示每个模型的性能如何。它是衡量模型总体掌握程度或知识欠缺程度的一种手段。它还显示了专有模型与其他公开模型相比的竞争力。
在这里插入图片描述

本表比较了不同机器学习模型的性能。表中列出了每个模型的平均得分（AVG）和基于特定评估标准（IK、IG、CM、RM）的得分。

专有型号 "类别包括 Qwen-VL-Max 和 GPT-4V 等专有型号，每种型号都有不同的评估指数。例如，与其他型号相比，GPT-4o 的 "CM "得分特别高（35.2）。
开源模型 "类别包括 LLaVA 系列和 Math-LaVA 等开源模型。这些模型的 AVG 分数通常低于专有模型，但也有更注重视觉信息的模型。
我们的模型 "展示了一个名为 InfiMM-Math 的独特模型，它使用了 DeepSeek-Coder-1.3B 和 DeepSeek-Base-7B 等基本模型。这些模型在某些评估标准（IK、IG 和 CM）上的得分不亚于或优于其他开源模型。

通过该表，可以一目了然地了解不同模型的优缺点，对那些对数学推理能力感兴趣的人尤其有用。

在这里插入图片描述
本表显示了分类模型的评估结果。使用的两个模型是 LLM 分类器和 FastText 分类器。每个模型在基准 MMLU (STEM) 和 GSM8K 上的得分均已列出。

首先，"MMLU (STEM) "是一项评估各种科学和技术领域知识的测评，LLM-分类器得分 32.8，FastText-分类器得分 31.1。其次，GSM8K 是一项评估数学推理能力的基准测试，LLM-Classifier 的得分率为 17.5%，FastText-Classifier 的得分率为 20.2%。这表明 FastText-Classifier 在 GSM8K 中更胜一筹。

文本的平均长度也显示出来，LLM-分类器的平均长度为 2500，FastText-分类器的平均长度为 1700。这表明，即使发布的信息较少，快速文本分类器也可能更有效。