【AIGC月报】AIGC大模型启元：2025.02（DeepSeek）

【AIGC月报】AIGC大模型启元：2025.02

- （1）o3-mini系列（OpenAI推理大模型）
- （2）Falcon 3系列（阿联酋大语言模型）
- （3）Deep Research（OpenAI推理大模型）
- （4）Mistral Small 3（Mistral AI轻量化大模型）
- （5）Qwen2.5-Max（阿里巴巴大模型）

（1）o3-mini系列（OpenAI推理大模型）

2025.02.01 今天凌晨3点，OpenAI正式发布了新模型o3-mini，可在ChatGPT和API中可用。
Pro用户可无限使用o3-mini，Plus和Team用户的速率限制将是o1-mini的3倍。免费版ChatGPT用户可以免费使用o3-mini，但有次数限制。此外，o3-mini可以执行网络搜索功能，并展示完整的深度思考过程。遗憾的是，o3-mini不支持视觉推理。
　　o3-mini也是 OpenAI 首款支持多项开发者需求特性的小型推理模型，包括函数调用、结构化输出和开发者消息，无需额外调整可直接应用于实际环境中。o3-mini和OpenAI o1-mini、OpenAI o1-preview 一样，也支持流式传输。开发者还能根据具体应用场景，在低、中、高三种推理强度选项中灵活选择：

面对复杂难题时，可选择高推理强度让模型深入思考；
面对延迟敏感问题时，可选择低推理强度优先保证速度。

在性能表现方面，OpenAI o3-mini 针对 STEM 推理进行了优化。

在数学、编码和科学领域，中等推理强度的o3-mini 性能与OpenAI o1相当，但响应速度更快。专家评估发现，o3-mini给出的答案比OpenAI o1-mini更准确、清晰，推理能力更强。
在美国数学竞赛（AIME 2024）中，低推理强度时o3-mini 与 o1-mini 表现相近，中等推理强度时与o1相当，高推理强度时则超越 o1-mini 和 o1；
在博士水平科学问题测试中，不同推理强度的 o3-mini 表现同样出色。
在研究级数学测试里，高推理强度的 o3-mini 表现优于其前代模型；
在竞赛编程中，o3-mini 随着推理强度增加，Elo评分逐步提高，均超过 o1-mini，中等推理强度时与o1表现相当；
在软件工程测试中，o3-mini 是表现最佳的模型。
在速度上，o3-mini 平均响应时间为7.7 秒，比 o1-mini的10.16秒快了24%。

参考博客：
刚刚，OpenAI发布o3-mini，可免费使用、3大推理模式
首个OpenAI免费推理模型o3-mini发布！DeepSeek让奥特曼反思：不开源我们错了

（2）Falcon 3系列（阿联酋大语言模型）

2025.02.01 位于阿布扎比的科技创新研究院（Technology Innovation Institute, TII）再次推出其重磅产品——Falcon3 系列。作为一组参数规模在10亿以下的解码器（Decoder-only）大型语言模型，Falcon3系列不仅在性能和训练效率上取得了重要突破，还彰显了TII致力于推动开放、可访问的基础模型的决心。
　　Falcon3 是对其前代模型的自然演进，重点提升了模型在科学、数学和代码领域的能力。这一系列包含五个基础模型：Falcon3-1B-BaseFalcon3-3B-BaseFalcon3-Mamba-7B-BaseFalcon3-7B-BaseFalcon3-10B-Base这些模型通过一系列创新技术实现了高效训练和卓越性能，以下是Falcon3在开发过程中实现的关键技术进展：

1）大规模预训练：在开发Falcon3-7B模型时，研究团队使用了1024颗H100 GPU芯片，并基于14万亿个高质量多语言数据（涵盖Web内容、代码及STEM领域），进行了一次大规模的预训练。
2）模型深度扩展：通过对冗余层的复制和2万亿高质量数据的进一步训练，研究团队将7B模型扩展为10B参数的Falcon3-10B-Base，成功提升了零样本（Zero-shot）和少样本（Few-shot）任务性能。
3）知识蒸馏技术：为开发更加紧凑高效的小模型（如Falcon3-1B和Falcon3-3B），团队采用了剪枝和知识蒸馏技术，利用不到100GB的精选数据完成预训练，显著提升了效率。
4）强化数学推理能力：Falcon Mamba 7B模型通过额外训练1.5万亿高质量数据，形成了Falcon3-Mamba-7B-Base版本，大幅提升了推理和数学任务的表现。
5）丰富的模型变体：所有Falcon3基础模型均提供多种变体，包括 Instruct、GGUF、GPTQ-Int4、GPTQ-Int8 等，满足多样化的应用需求。

参考博客：
Falcon 3：阿联酋技术创新研究所推出世界上最小、最强大的人工智能模型
猎鹰翱翔：Falcon 3系列模型发布，端侧模型持续发力（Falcon3测试）

（3）Deep Research（OpenAI推理大模型）

2025.02.03 OpenAI临时举行小型发布会。ChatGPT上新“Deep Research”，把推理大模型的思考能力用于联网搜索。
　　Deep Research功能可在数十分钟完成人类专家需要几个小时的复杂研究任务。在“人类最后的考试”上，Deep Research刷新了最高分，比o3-mini高推理设置分数高出一倍。该测试包括3000多个多选和简答题，涵盖从语言学、火箭科学到生态学的100多个主题。与o1相比，Deep Research最突出的地方在化学，人文和社会科学以及数学中，表现出类似人类的“在必要时寻找专业信息”的能力。
　　另一项测试GAIA，在现实世界问题上评估AI的公开基准测试，Deep Research在3个级别的难度上均刷新记录。
　　OpenAI表示，Deep Research专门为在金融/科学/工程等领域从事高强度知识工作、需要深入精确且可靠研究的人群而设计。它由OpenAI o3驱动，通过基于真实任务（涉及浏览器和Python工具的使用）的训练，采用了与o1相同的强化学习方法。只需一个提示，它就会查找分析并整合数百个在线资源，生成一份达到研究分析师水平的综合报告。
在这里插入图片描述

参考博客：
OpenAI紧急加播：ChatGPT上新深度搜索，持续思考30分钟输出1万字，刷榜“人类最后的考试”
刚刚，OpenAI 再出招反击 DeepSeek！「深度研究」在这个终极测试超越 R1

（4）Mistral Small 3（Mistral AI轻量化大模型）

2025.02.03 Mistral AI开源，主打轻量化、低延迟、以Agent为中心的24B新模型Mistral Small 3，Mistral Small 3 并未使用强化学习（RL）或合成数据进行训练，因此它比像 Deepseek R1（一个出色且互补的开源技术）这样的模型更早地处于模型生产流程中。
　　Mistral Small 3 在70B以下的“小型”大型语言模型类别中树立了新的标杆，在性能上能够与更大的模型（例如 Llama 3.3 70B 或 Qwen 32B）竞争，并且是像 GPT4o-mini 这样的封闭专有模型的优秀开源替代品。Mistral Small 3 的性能与 Llama 3.3 70B 指令模型相当，但在相同的硬件上速度要快 3 倍以上。
　　Mistral Small可以本地部署，经过量化后，它可以完美适配单个RTX 4090或32GB内存的MacBook，是一个极其“知识密集型”的模型。它非常适合以下场景：快速响应的对话Agent、低延迟功能调用、特定领域微调。
关键特性：

多语言支持：支持多种语言，包括英语、法语、德语、西班牙语、意大利语、中文、日语、韩语、葡萄牙语、荷兰语和波兰语。
以Agent为中心：提供顶级的Agent能力，支持原生功能调用和JSON输出。
高级推理：具有最先进的对话和推理能力。
Apache 2.0许可：开放许可，允许用于商业和非商业目的的使用和修改。
上下文窗口：32k上下文窗口。
系统提示：对系统提示有很强的遵循和支持。
分词器：使用Tekken分词器，词汇量为131k。

参考博客：主打低延迟Agent，Mistral Small 3开源，24B媲美70B！
开源地址：
https://mistral.ai/news/mistral-small-3/
https://hf-mirror.com/mistralai/Mistral-Small-24B-Instruct-2501

（5）Qwen2.5-Max（阿里巴巴大模型）

2025.02.04 2月4日凌晨，Chatbot Arena公布了最新的大模型盲测榜单，Qwen2.5-Max轻松办超越了行业翘楚DeepSeek V3、o1-mini和Claude-3.5-Sonnet等知名模型，以1332分位列全球第七名，也是非推理类的中国大模型冠军。同时，Qwen2.5-Max在数学和编程等单项能力上排名第一，在硬提示（Hard prompts）方面排名第二。这一成就不仅标志着中国大模型在国际舞台上的崛起，也展现了阿里云在人工智能领域的强大实力。
在这里插入图片描述

由于使用了大规模MoE架构以及超过20万亿token的预训练数据，可以说Qwen2.5-Max在技术上真正做到了精雕细琢，也让Qwen2.5-Max基准在测试中表现极为惊艳！
　　我们都知道，Chatbot Arena LLM Leaderboard是业界公认的最公正、最权威榜单之一，它已经成为全球顶级大模型的重要竞技场，其拥有一套独特且先进的评测体系，确保每一个参与的大模型都能得到公正、科学的评估，让全球用户都能清晰了解各模型的实力与特点。
　　在此次榜单更新中，Qwen2.5-Max的表现尤为突出。它不仅在综合排名上位列全球第七，还在数学和编程等单项能力上排名第一，在硬提示（Hard prompts）方面排名第二。
　　在实际评测中，Qwen2.5-Max多个基准测试中超越当红炸子鸡DeepSeek V3，展现出极强的综合性能，如在Arena-Hard、LiveBench、LiveCodeBench、GPQA-Diamond及MMLU-Pro等测试中，Qwen2.5-Max比肩Claude-3.5-Sonnet，并几乎全面超越了GPT-4o、DeepSeek-V3及Llama-3.1-405B。
　　更令人惊叹的是，Qwen2.5-Max在多模态能力上也非常惊艳，例如在联网搜索功能中，它每一句输出都有清晰的来源标注，轻松畅快。用户可以仅用一句话，就能通过Qwen2.5-Max完成旋转球体等各种可视化创作。不仅如此，这款模型甚至能帮用户迅速开发出小游戏，比如丢掉手动操作，秒速玩转扫雷游戏。
在这里插入图片描述