DataWhale 大语言模型 - GPT和DeepSeek模型介绍

server/2025/3/18 1:41:48/

本课程围绕中国人民大学高瓴人工智能学院赵鑫教授团队出品的《大语言模型》书籍展开,覆盖大语言模型训练与使用的全流程,从预训练到微调与对齐,从使用技术到评测应用,帮助学员全面掌握大语言模型的核心技术。并且,课程内容基于大量的代码实战与讲解,通过实际项目与案例,学员能将理论知识应用于真实场景,提升解决实际问题的能力。

课程地址:https://www.datawhale.cn/learn/summary/107

赵鑫教授团队:http://aibox.ruc.edu.cn/

课程学习地址:Datawhale-学用 AI,从此开始

视频地址:《大语言模型》1.3 GPT+DeepSeek模型介绍_哔哩哔哩_bilibili

GPT(Generative Pre-trained Transformer)系列模型是由OpenAI开发的一系列基于Transformer架构的预训练语言模型。以下是GPT系列模型的发展历程:


1. GPT (2018)
发布时间:2018年6月
特点:GPT是基于Transformer的解码器模型,采用了无监督预训练和有监督微调两阶段训练方法。预训练使用了大量未标注的文本数据,微调则针对特定任务进行。
能力:GPT能够生成连贯的文本,并在多种自然语言处理任务中表现出色。
2. GPT-2 (2019)
发布时间:2019年2月
特点:GPT-2是GPT的升级版,拥有更多的参数(1.5亿到15亿)和更大的数据集。OpenAI最初计划逐步释放模型的不同版本,但由于对模型可能被滥用的担忧,最终决定直接发布了完整模型。
能力:GPT-2在文本生成方面表现更加出色,能够生成更加连贯和有深度的文本。
3. GPT-3 (2020)
发布时间:2020年5月
特点:GPT-3是一个巨大的语言模型,拥有1750亿个参数,是当时最大的语言模型。GPT-3展示了显著的学习和泛化能力,能够在多种任务上仅通过少量示例就能实现很好的性能。
能力:GPT-3能够进行翻译、回答问题、写文章、编写代码等,其能力范围远远超出了传统的语言模型
4. GPT-3.5 (2022)
发布时间:2022年
特点:GPT-3.5是GPT-3的改进版,虽然参数数量没有显著增加,但在指令遵循和上下文学习方面有了显著提升。GPT-3.5采用了基于人类反馈的强化学习(RLHF)技术来训练模型。
能力:GPT-3.5在理解复杂指令和生成更加人性化的文本方面有了显著进步。
5. GPT-4 (2023)
发布时间:2023年3月
特点:GPT-4是一个多模态模型,不仅能够处理文本,还能处理图像输入。GPT-4在理解和生成文本方面有了更大的提升,同时减少了错误和偏见。
能力:GPT-4在多种任务上表现出色,包括数学、逻辑推理、文本理解等,并且在视觉输入的处理上也展现了能力。
GPT系列模型的发展展示了深度学习和自然语言处理领域的快速进步,特别是在模型规模、预训练技术和应用范围方面的突破。随着模型能力的增强,关于其潜在影响、伦理问题和监管的讨论也越来越多。

DeepSeek系列模型的技术演变是一个引人注目的过程,涵盖了从基础架构优化到混合专家架构的革新,再到强化学习训练的多个阶段。


DeepSeek-V1(2024年1月)
技术特点:DeepSeek-V1采用了Gshard MoE架构,并解决了相关的工程训练问题。它引入了专家级的损失计算均衡方式,以应对分布式训练中的高通信成本。
参数规模:模型总参数约为1.89B,激活参数量为0.24B。
性能:在代码、数学和推理领域超越了LLaMA-2 70B,并在与GPT-3.5的对比中表现出更优异的性能。
DeepSeek-V2(2024年5月)
技术特点:DeepSeek-V2将模型规模扩展到百亿MoE,并解决了各种负载均衡问题,实现了高效训练。同时,引入了MLA(混合局部注意力)以优化推理效率。
参数规模:模型总参数约为236B,激活参数量为21B。
DeepSeek-V3
技术特点:DeepSeek-V3进一步扩展了模型规模,并引入了多令牌预测和无辅助损失的负载均衡策略,实现了更高的性能和更低的训练成本。
DeepSeek-R1
技术特点:DeepSeek-R1通过强化学习和冷启动数据显著提升了模型的推理能力。此外,它还通过蒸馏技术将推理能力扩展到小型模型。
创新:这一阶段的模型在架构设计、训练算法和推理效率上实现了质的飞跃。
总结
DeepSeek系列模型的发展历程体现了从基础架构优化到混合专家架构的革新,再到强化学习训练的逐步演进。每一代模型都在解决前一代模型的局限性,同时引入新的技术和优化策略,以提升性能和效率。这一过程不仅展示了人工智能领域的快速发展,也体现了大模型研究的重要性和潜力。


http://www.ppmy.cn/server/175825.html

相关文章

记第一次跟踪seatunnel的任务运行过程四——getJobConfigParser().parse()的动作

前绪 记第一次跟踪seatunnel的任务运行过程三——解析配置的具体方法getLogicalDag 正文 书接上文 ImmutablePair<List<Action>, Set<URL>> immutablePair getJobConfigParser().parse(null);在前一篇文章中说到getLogicDag()方法的第一行&#xff08;如…

删除二叉搜索树中的节点

本文参考代码随想录 给定一个二叉搜索树的根节点 root 和一个值 key&#xff0c;删除二叉搜索树中的 key 对应的节点&#xff0c;并保证二叉搜索树的性质不变。返回二叉搜索树&#xff08;有可能被更新&#xff09;的根节点的引用。 删除节点需要考虑多种情况&#xff1a; 没…

鸿蒙 @ohos.arkui.node

鸿蒙 ohos.arkui.node 在鸿蒙开发中&#xff0c;ohos.arkui.node 模块提供了一系列用于构建和管理自定义节点的 API。这些 API 组织在一起&#xff0c;方便开发者进行导出和使用。本文将详细介绍 ohos.arkui.node 模块的功能和使用方法。 一、模块功能概述 ohos.arkui.node 模…

大语言模型微调和大语言模型应用的区别?

大语言模型微调和大语言模型应用的区别&#xff1f; 1. 定义与目标 微调&#xff08;Fine-tuning&#xff09; 目标&#xff1a;调整预训练模型&#xff08;如GPT、LLaMA、PaLM&#xff09;的参数&#xff0c;使其适应特定任务或领域。 核心&#xff1a;通过额外的训练&#x…

Linux的部分常用基础指令

目录 1. ls 指令 2. pwd命令 3. cd 指令 4. touch 指令 5. mkdir指令 6. rmdir指令&&rm指令 7. rm命令可以同时删除文件或目录 8. man指令 9. cp指令 10. mv指令 11. cat 指令 12. more指令 13. less 指令 14. head指令 15. tail 指令 16. find 指令 17. whi…

【Java--数据结构】优先级队列( PriorityQueue)

一. 优先级队列 1.1 优先级队列的概念 优先级队列是一种特殊的队列&#xff0c;它在入队时会根据元素的优先级进行排序&#xff0c;优先级最高的元素排在队列的前面&#xff0c;出队时会优先出队优先级最高的元素。 1.2 优先级队列的区别 &#xff08;1&#xff09;与普通…

Spring Retry

1. Spring Retry 的工作原理 内部机制 Spring Retry 主要通过 AOP&#xff08;面向切面编程&#xff09;实现重试逻辑。以下是 Spring Retry 的内部工作流程&#xff1a; AOP 拦截器&#xff1a;当一个方法被标记为需要重试&#xff0c;并且该方法抛出了指定类型的异常时&am…

[RN 实践有效]Expo+cross-env配置项目环境变量

首先,从中可以看出,cross-env的主要作用是跨平台设置环境变量,而Expo项目通常通过app.config.js或.env文件来管理这些变量。需要强调安装cross-env的必要性,以及如何在package.json中正确配置脚本命令。 接下来,用户的问题是关于Expo中cross-env的详细配置,因此需要分步骤…