23. AI-大语言模型-DeepSeek简介

文章目录

前言
一、DeepSeek是什么
- 1. 简介
- 2. 产品模式
- - 1. 模式
  - 2. 版本
  - 3. 参数规模与模型能力
- 3. 特征
- 4. 三种访问方式
- - 1. 网页端和APP
  - 2. DeepSeek API
二、DeepSeek可以做什么
- 1. 应用场景
- 2. 文本生成
- - 1. 文本创作
  - 2. 摘要与改写
  - 3. 结构化生成
- 3. 自然语言理解与分析
- - 1. 语义分析
  - 2. 文本分类
  - 3. 知识推理
- 4. 编程与代码相关
- - 1. 代码生成
  - 2. 代码调试
  - 3. 技术文档处理
- 5. 常规绘图
- - 1. SVG矢量图
  - 2. Mermaid图表
  - 3. React图表
三、DeepSeek多场景应用
- 1. 人机高效协作
- 2. 职场应用-PPT
- 3. 职场应用
- 4. 开发AI应用
- 5. 行业赋能-车联网
- 6. 行业赋能

前言

DeepSeek‌

在今年的春节期间，DeepSeek火出了圈。凭借创新技术和卓越表现，迅速成为了行业内外的焦点。不管是技术专家还是普通用户，都对DeepSeek赞不绝口。它最大的特点是开源、使用成本低，在有限算力的条件下，通过算法创新同样能够实现接近的性能，为中国AI产业提供了宝贵的经验。

ai.com 这个域名之前跳转的是 ChatGPT，现在跳到 DeepSeek，可知 DeepSeek 的火爆程度。也从侧面反映了DeepSeek在全球范围内的影响力。

超级产品增长1亿用户用时

DS太香了

一、DeepSeek是什么

1. 简介

DeepSeek 是国内一款开源的大模型，主打通用 AI 能力，类似于 OpenAI 的 GPT 系列，目标是打造国产的、强大的、开放的大语言模型。

LLM（Large Language Model，大语言模型）‌是指使用大量文本数据训练的深度学习模型，能够生成自然语言文本或理解语言文本的含义。
LLM的核心思想是通过大规模无监督训练学习自然语言的模式和结构，模拟人类的语言认知和生成过程‌。

2. 产品模式

1. 模式

DeepSeek提供了两种不同模式，以满足用户在不同场景下的需求。

通用模型：高效便捷，适用于绝大多数“规范性”任务，如用于快速获取百科信息。一般侧重于语言生成、上下文理解、文本分类、翻译和自然语言处理。此类模型通常通过对大量文本数据的训练，掌握语言规律并能够生成合适的内容，但缺乏像推理模型那样复杂的推理和决策能力。

例如：DeepSeek-V3、GPT-4o（OpenAI）。

推理模型

推理模型：擅长解决复杂推理和深度分析等“开放性”任务，如数理逻辑推理和辅助编程。侧重于强化推理、逻辑分析、决策能力和实时问题解决的模型。具备额外的技术，比如强化学习、神经符号推理等，来增强其推理和问题解决能力。

例如：DeepSeek-R1、OpenAI-o1。

维度	推理模型	通用模型
优势领域	数学推导、逻辑分析、代码生成、复杂问题拆解	文本生成、创意写作、多轮对话、开放性问答
劣势领域	发散性任务（如诗歌创作）	需要严格逻辑链的任务（如数学证明）
性能本质	专精于逻辑密度高的任务	擅长多样性高的任务
强弱判断	并非全面更强，仅在其训练目标领域显著优于通用模型	通用场景更灵活，但专项任务需依赖提示语补偿能力

2. 版本

DeepSeek 主要有以下几个大模型：

DeepSeek R1
DeepSeek V3
DeepSeek Coder V2
DeepSeek VL
DeepSeek V2
DeepSeek Coder
DeepSeek Math
DeepSeek LLM

以 DeepSeek-R1 为例，满血版本为：671B，性能最强，也就是官网部署的版本。还有几个蒸馏版本：

DS-R1版本

B 则是指 Billion 十亿

1.5B 有 15 亿个参数；
671B 是 6710 亿个参数。

什么是蒸馏？
机器学习（ML）中的模型蒸馏是一种用于将知识从大型复杂模型（通常称为教师模型）转移到较小、更简单模型（称为学生模型）的技术。
目标是创建一个更小、更高效的版本，保留大模型的大部分性能，同时在计算资源、内存使用和推理速度方面更高效。为企业级应用提供了更实用的解决方案。

蒸馏模型是通过使用DeepSeek-R1生成的800K个推理数据样本对较小的基础模型进行微调（如Qwen和Llama系列），发布了DeepSeek-R1-Distill系列模型。
蒸馏过程涉及对推理数据的监督微调（SFT），但不包括额外的强化学习（RL）阶段。这使得该过程对于较小的模型来说更高效、更容易实现。

3. 参数规模与模型能力

参数规模

模型规格后面的数字代表模型的参数规模，表示模型的复杂度和学习能力，参数规模越大，通常理解和生成能力越强。

参数规模与模型能力成正比，一般来说：

参数规模越大：代表模型越聪明，对复杂问题的处理能力越强，生成内容的质量越高，但对算力和硬件资源的要求也越高。
参数规模越小：代表模型越轻量化，对算力和硬件的要求越低，适合资源受限的设备。

模型能力

DeepSeek-R1 系列模型的规格划分主要是为了适应不同场景的需求，从小到大覆盖了轻量化应用到高算力推理的各种场景。在实际应用中，我们需要根据算力、成本、业务需求等综合因素来选择合适的模型。适合自己的，才是最好的！

1.5B - 14B：轻量级模型，适合基础任务（文本生成、简单问答）。
32B - 70B：中等规模，平衡性能与资源消耗，适合复杂任务（逻辑推理、代码生成）。

不同模型规格，需要的硬件配置，以下可供参考：

1.5B：CPU最低4核，内存8GB+，硬盘3GB+存储空间，显卡非必需，适合低资源设备部署等场景。
7B：CPU 8核以上，内存16GB+，硬盘8GB+，显卡8GB+显存，可用于本地开发测试等场景。
8B：硬件需求与7B相近略高，适合需更高精度的轻量级任务。
14B：CPU 12核以上，内存32GB+，硬盘15GB+，显卡16GB+显存，可用于企业级复杂任务等场景。
32B：CPU 16核以上，内存64GB+，硬盘30GB+，显卡24GB+显存，适合高精度专业领域任务等场景。
70B：CPU 32核以上，内存128GB+，硬盘70GB+，显卡需多卡并行，适合科研机构等进行高复杂度生成任务等场景。

3. 特征

技术突破

DeepSeek 之所以能迅速崛起，主要是因为在技术上有一些独特的优势。

DeepSeek 采用了 Mixture of Experts（MoE，混合专家模型），这一架构让它可以在计算资源相对有限的情况下，仍然保持高性能，实现了它对 OpenAI 的弯道超车。

混合专家模型（MoE，Mixture of experts）是一种机器学习方法，它将人工智能（AI）模型划分为单独的子网络（或专家 experts），每个子网络专攻输入数据的一个子集，以共同执行任务。
核心思想是，不是所有参数都在每次推理时被激活，而是只有一部分专家在工作，这样可以减少计算成本，同时提高模型的推理效率。也就是说，它通过选择性地激活特定任务所需的特定专家来实现这种效率，而不是为每个任务激活整个神经网络。

性价比

从技术演进的角度来看，DeepSeek V3 和 R1 的成功为AI发展的新方向指明了道路。在追求模型性能的同时，效率优化将成为未来竞争的关键。

据官方技术论文披露，DeepSeek-V3在预训练阶段仅使用2048块GPU训练了2个月，花费557.6万美元，而GPT-4o的训练成本估计高达数亿美元，马斯克的Grok3更是动用了20万块H100集群。

相比于 OpenAI 的 Transformer 模型架构，DeepSeek 的 MoE 版本可以用更少的计算量，获得接近的性能。如下是在多个评价基准方面，与OpenAI-o1（mini）的性能对比：

模型对比

开源

DeepSeek-R1 在全球范围内引发巨大轰动，不仅源于其技术突破，更在于其与 OpenAI 的对比。相较之下，DeepSeek-R1 揭开了 o1 的神秘面纱，开源了这类强推理模型背后的关键技术，既促进了行业的快速发展，也对 OpenAI 的闭源策略形成了有力冲击。

对比项	DeepSeek	OpenAI
是否开源	✅ 开源	❌ 闭源
中文优化	✅ 很强	✅ 强
代码能力	✅ 强	✅ 更强
推理速度	✅ 轻量级 MoE 优势	❌ 需要更大计算资源
本地部署	✅ 可以	❌ 不能
使用限制	✅ 自由可商用	❌ 需要付费 API 访问

优势

DeepSeek 的最大优势是开源、高性价比、 中文优化好，适合 本地部署 和 企业使用，尤其适合 中文 AI 应用 的场景。

4. 三种访问方式

DeepSeek的R1和V3模型现已在网页端、APP，以及API上全面推出，为用户提供多样化的访问途径。这三种访问方式各具特色，适用于不同的使用场景。

DeepSeek的网页端是一个用户友好的在线平台，用户只需通过浏览器即可轻松访问。该平台设计直观，即使是非技术背景的用户也能迅速上手，享受DeepSeek带来的便捷服务。

专为移动设备打造的DeepSeek APP，则让用户体验更加便捷和个性化。用户可以在智能手机或平板电脑上安装并使用该APP，随时随地访问DeepSeek平台，享受与网页端相似，但更加贴合移动场景的功能和服务。

同时，DeepSeek还为开发者提供了强大的API工具。通过API，开发者可以轻松地将DeepSeek平台的功能集成到自己的应用程序或系统中，实现与平台的无缝对接。利用DeepSeek提供的各种算法和模型，开发者可以高效地处理数据、生成对话、实现其他创新功能。

DeepSeek的API也是大语言模型（LLM）的三板斧，
CoT（思维链）、Prompt Engineering（提示工程）、Function Calling（函数调用）。

1. 网页端和APP

开启DeepSeek网页端对话，只需访问官网并点击“开始对话”按钮，登录后即可与AI进行即时交流。

访问网址

DS网页端
2. 开启DeepSeek APP的访问，只需在智能手机或平板电脑上下载安装后，打开应用并登录即可。

DS移动端
3. 深度思考（R1）和联网搜索是什么？

DeepSeek的深度思考（R1）和联网搜索是其两大核心功能，这两大功能相辅相成，共同构筑了其强大的功能框架。

深度推理（R1）：R1模型擅长逻辑推理和复杂问题解答，能够处理需要深度思考的任务。
联网搜索：允许DeepSeek实时访问互联网上的信息，从而为用户提供最新、最准确的内容。

2. DeepSeek API

DeepSeek的API是什么？

DeepSeek的API是为开发者提供的一种工具，它允许开发者将DeepSeek提供的能力集成到自己的应用程序中。

调用API，需要提供如下三个请求参数。

api_key: "<DeepSeek API Key>"
base_url: "https://api.deepseek.com"
model: ""

DeepSeek的API能力有哪些？

DeepSeek API支持调用其平台上的多种模型，如深度思考（R1）和智能对话（V3）等，并具备多轮对话能力和对话生成与理解功能，为开发者提供强大的智能对话与交互体验。

二、DeepSeek可以做什么

1. 应用场景

直接面向用户，提供智能对话、文本生成、语义理解等应用场景，支持联网搜索与深度思考模式，同时支持文件上传，能够扫描读取各类文件及图片中的文字内容。

深度思考模式，在多个领域具有广泛的应用前景。例如，在教育领域，它可以作为智能辅导工具，帮助学生解决数学问题、编写代码等；在科研领域，它可以作为研究助手，帮助研究人员处理数据、生成假设，甚至计算推理等。

DS能力图谱

2. 文本生成

1. 文本创作

文章/故事/诗歌写作
营销文案、广告语生成
社交媒体内容（如推文、帖子）
剧本或对话设计

2. 摘要与改写

长文本摘要（论文、报告）
文本简化（降低复杂度）
多语言翻译与本地化

3. 结构化生成

表格、列表生成（如日程安排、菜谱）
代码注释、文档撰写

3. 自然语言理解与分析

1. 语义分析

语义解析
情感分析（评论、反馈）
意图识别（客服对话、用户查询）
实体提取（人名、地点、事件）

2. 文本分类

文本分类
主题标签生成（如新闻分类）
垃圾内容检测

3. 知识推理

知识推理
逻辑问题解答（数学、常识推理）
因果分析（事件关联性）

4. 编程与代码相关

1. 代码生成

根据需求生成代码片段
自动补全与注释生成

2. 代码调试

错误分析与修复建议
代码性能优化提示

3. 技术文档处理

API文档生成
代码库解释与示例生成

5. 常规绘图

1. SVG矢量图

基础图形
图标
简单插图
流程图
组织架构图

2. Mermaid图表

流程图
时序图
类图
状态图
实体关系图
思维导图

3. React图表

折线图
柱状图
饼图
散点图
雷达图
组合图表

三、DeepSeek多场景应用

‌从如何用好的提示语技巧，到，用到哪里的多场景应用‌

DeepSeek大模型的研发及开源，0->1，科研成果的重大突破。
DeepSeek大模型的应用，1->100，可以做什么，如何赋能哪些产业，属于国人的擅长领域。可以期待百花齐放。从互联网，到移动互联网，到现在的AI时代。2025 AI 应用元年，风口已经来了。

1. 人机高效协作

基本操作技巧：提示词、追问逻辑、插件使用

人机协作意识：优势不足、取长补短、选择性采纳

能动意识：千人千面、洞察能力、思维深度

边界意识：学术伦理、新闻伦理、伦理规范

2. 职场应用-PPT

利用DeepSeek+Kimi

DeepSeek搞定ppt文案

我们用DeepSeek来生成ppt文稿的提纲文案，比如，我要做一个有关人工智能发展的报告，帮我做一个提纲。
DeepSeek联网思考后，生成一个ppt的大纲。
等待几分钟，整个ppt的框架就好了，下面copy到kimi中。

Kimi搞定ppt

在Kimi中有一个关于ppt制作的神器，ppt助手。
我们点进去，把用DeepSeek生成的ppt提纲输入进去。
输入完毕后，Kimi会帮我们自动再次排版，最后点击“一键生成PPT‘，选择一个模板。
生成ppt。
生成完毕后，点击”去编辑“，点击”下载“，就可以把ppt下载到本地了。

至此，这个ppt就生成好了。

3. 职场应用

可视化图表
设计海报
生成视频
生成新媒体文案
市场调查

4. 开发AI应用

示例

5. 行业赋能-车联网

对于汽车行业，车联网的互动能力和趣味性，会成为行业内竞争堡垒。尤其，内容交互的引流已经变成各家车企重点攻坚的方向。

典型场景，AIGC领域的图像生成技术，应用于汽车行业的车联网服务中。

车主节假日中短途游之后，基于车联网和车载芯片，会记录如下旅程信息：

车联网-旅程信息

基于旅程信息，期望大模型在汽车内容社区，自动生成风格化素材，并推送

风格化素材

为了最大化的c端引流，车企对AIGC的能力提出了极高的要求，尤其注重生图细节的下列部分：

生图的风格化，是否能完全遵从指令
汽车logo和边缘的色差
背景车型无违和拼装等

构建RAG应用
利用模型构建RAG应用 (Retrieval-Augmented Generation) ，通过检索相关信息并结合上下文生成准确的自然语言回答，增强语言模型处理和理解复杂查询的深度。

参考阿里实战，基于业务需求设计完整的工作流。

在这里插入图片描述

6. 行业赋能

行业赋能

本文的引用仅限自我学习如有侵权，请联系作者删除。
参考知识
DeepSeek 是什么？｜扫盲贴
清华大学第一弹：DeepSeek从入门到精通
清华大学第二弹DeepSeek赋能职场
一文搞懂DeepSeek - DeepSeek的三种访问方式