大语言模型概念科普

大模型（Large Model）是指具有大规模参数和复杂计算结构的机器学习模型。

大语言模型（Large Language Model）：通常是具有大规模参数和计算能力的自然语言处理模型，例如ChatGPT、deepseek。这些模型可以通过大量的数据和参数进行训练，以生成人类类似的文本或回答自然语言的问题。大型语言模型在自然语言处理、文本生成和智能对话等领域有广泛应用。

生成式AI（Generative AI）是指能够生成文字、图片、音频、视频等多种内容的人工智能系统。大语言模型（LLM）是生成式 AI 的一种，但生成式 AI 不仅限于语言，还包括图像、视频、音乐等。

多模态AI（Multimodal AI）进一步扩展了生成式 AI 的能力，使其能够处理文本、图像、音频、视频等多种数据类型。

通用人工智能（AGI：Artificial General Intelligence）指的是能够像人类一样理解、学习和执行多种任务的智能系统。与当前的人工智能（AI）相比，AGI 不是专门针对某个任务（如语言生成、图像识别），而是具备自主学习和推理能力，可以适应不同领域的问题。

大语言模型机器学习直接的联系：

在这里插入图片描述

按照应用领域的不同，大模型主要可以分为L0、L1、L2三个层级：

类型	应用能力	适合场景	举例
通用大模型L0	具备广泛的泛化能力，可应用于多种领域和任务。通过大规模无标注数据训练，具备“通识教育”水平。	任何场景，但并不一定精通该场景	chatGPT4.0、deepseek
行业大模型L1	针对特定行业（如医疗、法律）优化，提高行业相关任务的准确性。通过行业数据微调，使其具备专业知识，相当于“行业专家”。	特定行业	医疗大模型 Med-PaLM
垂直大模型L2	专注于特定任务或应用场景，优化执行效果。特定任务依赖高质量任务数据进行训练或微调，以实现最佳性能。	具体任务	代码大模型 Code Llama、AI 设计工具 Midjourney

大模型的参数很大，例如：LLaMA 2: 7B、13B、65B。这里的B是bilion（十亿）的意思，表示LLaMA2有70亿、130亿、650亿个参数。

在使用大语言模型时，总会看到token一词，调用大模型api是根据token的使用数进行付费。大模型的token 并不等同于单词，一个token可能是一个单词、一部分单词，或者一个标点符号。

prompt中文为“提示词”。在AI大模型中，Prompt的作用主要是给AI模型提示输入信息的上下文和输入模型的参数信息。

构建大模型需要数据、Transformer 架构、训练优化、对齐技术 及 推理部署，并且需要大规模计算资源（如 A100/H100 GPU）。当前主流 LLM 采用 自回归 Transformer 结构，结合 微调（Fine-tuning） 和 RLHF（Reinforcement Learning from Human Feedback） 提升应用效果。同时，量化、RAG（Retrieval-Augmented Generation） 等技术能优化推理效率，使 LLM 更好地应用到实际场景。