大语言模型概念科普

server/2025/2/27 22:04:19/

大模型(Large Model)是指具有大规模参数和复杂计算结构的机器学习模型。

语言模型(Large Language Model):通常是具有大规模参数和计算能力的自然语言处理模型,例如ChatGPT、deepseek。这些模型可以通过大量的数据和参数进行训练,以生成人类类似的文本或回答自然语言的问题。大型语言模型自然语言处理、文本生成和智能对话等领域有广泛应用。

生成式AI(Generative AI)是指能够生成文字、图片、音频、视频等多种内容的人工智能系统。语言模型(LLM)是生成式 AI 的一种,但生成式 AI 不仅限于语言,还包括图像、视频、音乐等。

多模态AI(Multimodal AI)进一步扩展了生成式 AI 的能力,使其能够处理文本、图像、音频、视频等多种数据类型

通用人工智能(AGI:Artificial General Intelligence)指的是能够像人类一样理解、学习和执行多种任务的智能系统。与当前的人工智能(AI)相比,AGI 不是专门针对某个任务(如语言生成、图像识别),而是具备自主学习和推理能力,可以适应不同领域的问题。

语言模型机器学习直接的联系:

在这里插入图片描述

按照应用领域的不同,大模型主要可以分为L0、L1、L2三个层级:

类型应用能力适合场景举例
通用大模型L0具备广泛的泛化能力,可应用于多种领域和任务。
通过大规模无标注数据训练,具备“通识教育”水平。
任何场景,但并不一定精通该场景chatGPT4.0、deepseek
行业大模型L1针对特定行业(如医疗、法律)优化,提高行业相关任务的准确性。
通过行业数据微调,使其具备专业知识,相当于“行业专家”。
特定行业医疗大模型 Med-PaLM
垂直大模型L2专注于特定任务或应用场景,优化执行效果。
特定任务依赖高质量任务数据进行训练或微调,以实现最佳性能。
具体任务代码大模型 Code Llama、AI 设计工具 Midjourney

大模型的参数很大,例如:LLaMA 2: 7B、13B、65B。这里的B是bilion(十亿)的意思,表示LLaMA2有70亿、130亿、650亿个参数。

在使用大语言模型时,总会看到token一词,调用大模型api是根据token的使用数进行付费。大模型的token 并不等同于单词,一个token可能是一个单词、一部分单词,或者一个标点符号

prompt中文为“提示词”。在AI大模型中,Prompt的作用主要是给AI模型提示输入信息的上下文和输入模型的参数信息。

构建大模型需要数据Transformer 架构训练优化对齐技术推理部署,并且需要大规模计算资源(如 A100/H100 GPU)。当前主流 LLM 采用 自回归 Transformer 结构,结合 微调(Fine-tuning)RLHF(Reinforcement Learning from Human Feedback) 提升应用效果。同时,量化RAG(Retrieval-Augmented Generation) 等技术能优化推理效率,使 LLM 更好地应用到实际场景。

大模型的两种常见优化技术

  • 蒸馏(Distillation):将大模型的知识压缩到一个较小的模型中,减少计算资源需求并提高推理效率。
  • 微调(Fine-tuning):在预训练的大模型上,使用特定任务的数据进行进一步训练,以提高其在该任务上的表现。

什么是大模型?一文读懂大模型的基本概念 - 知乎 (zhihu.com)

prompt(AI模型提示词)_百度百科 (baidu.com)

【大模型】初识大模型(非常详细)零基础入门到精通,收藏这一篇就够了_大模型入门_大模型学习-CSDN博客


http://www.ppmy.cn/server/171133.html

相关文章

蓝桥备赛(二)- C++输入输出(上)

一、getchar 和 putchar getchar() 和 putchar() 是属于 C 语言的库函数 ,C是兼容 C 语言的,所以 C 中只要正确包 含头文件也可以正常使用这两个函数。 1.1 getchar() getchar - C Reference 函数原型如下: int getchar (void) ; 1 . getch…

使用快捷键高效管理 VSCode:提升工作效率,告别鼠标操作

如果你想提高工作效率,减少鼠标操作,掌握键盘快捷键是一个非常有效的方式。在编程过程中,熟练使用快捷键能够快速管理文件、标签页,节省时间并提升效率。比如,Ctrl P 和 Ctrl W 可以快速打开和关闭文件,而…

Visual Studio更新说明(关注:.NET+AI生产力)

Ver V0.0:Visual Studio 2022 v17.12更新:.NET9AI生产力 AI插件推荐 (1)腾讯云AI代码手(内含了DeepSeek-R1),目前免费,但收费我也可能会买。 AI插件!推荐 (1)百度的…

3-2 WPS JS宏 工作簿的打开与保存(模板批量另存为工作)学习笔记

************************************************************************************************************** 点击进入 -我要自学网-国内领先的专业视频教程学习网站 *******************************************************************************************…

Leetcode 0001 level - easy

题目:给定一个整数数组 nums 和一个整数目标值 target,请你在该数组中找出 和为目标值 target 的那 两个 整数,并返回它们的数组下标。 你可以假设每种输入只会对应一个答案,并且你不能使用两次相同的元素。 你可以按任意顺序返…

3D格式转换工具HOOPS Exchange在PMI处理中的关键作用与优势解析

在现代制造业的数字化进程中,产品和制造信息(PMI)扮演着至关重要的角色。PMI是指在CAD模型中所包含的用于明确制造和装配细节的各类注释与标记信息,涵盖了几何尺寸、公差、材料说明以及加工要求等关键要素。其能否实现有效传递&am…

面试之《nodejs中,网络请求时stream和json的区别》

在 Node.js 网络请求中,stream(流)和 JSON(JavaScript 对象表示法)是两种不同的数据处理方式,它们在数据传输、处理方式、适用场景等方面存在明显区别,以下为你详细介绍: 数据格式和…

开发一个交易所需要哪些技术?

在当今数字化时代,交易所作为金融市场的重要组成部分,其技术架构和功能的复杂性日益增加。无论是传统的股票、期货交易所,还是新兴的数字货币交易所,开发一个高效、安全、可靠的交易所系统都是一个复杂而系统的工程。本文将深入探…