开源先锋DeepSeek-V3 LLM 大语言模型本地调用,打造自己专属 AI 助手

server/2025/2/1 15:33:43/

DeepSeek-V3是一个强大的混合专家 (MoE) 语言模型,总共有 671B 个参数。为了实现高效的推理和经济高效的训练,DeepSeek-V3 采用了多头潜在注意力机制 (MLA) 和 DeepSeekMoE 架构,这些架构在 DeepSeek-V2 中得到了彻底的验证。此外,DeepSeek-V3 开创了一种无辅助损失的负载平衡策略,并设置了多 token 预测训练目标以获得更强大的性能。

DeepSeek-V3在 14.8 万亿个多样化和高质量的 token 上进行了预训练,然后进行监督微调和强化学习阶段,以充分利用其性能。综合评估表明,DeepSeek-V3 优于其他开源模型,并实现了与领先的闭源模型相当的性能。尽管性能出色,但 DeepSeek-V3 仅需要 2.788M H800 GPU 小时即可完成完整训练。此外,它的训练过程非常稳定。在整个训练过程中,没有遇到任何无法恢复的损失峰值或执行任何回滚操作。

DeepSeek-V3作为一个开源的模型,得到了业界的一致好评,其DeepSeek官网网站也更新了模型,可以直接在DeepSeek官网进行 AI 对话。

前期我们介绍过 ollama以及Lobe Chat的安装教程,可以参考往期的内容进行下载安装,并下载预训练模型,打造本地 AI 助手。ollama官网已经更新到了DeepSeek-V2.5,其 V3 版本是网友在 hugging face 上面共享的模型,若电脑配置不高,可以使用此版本的模型。

ollama run deepseek-v2.5
ollama run deepseek-v3

DeepSeek-V3作为一个开源模型,可以直接在 GitHub 上面找到对应的模型代码以及预训练权重,若喜欢代码的同学,可以直接运行代码,但是针对其他小伙伴可以考虑直接使用DeepSeek-V3的 API,遥想当年,大家为申请一个 openai的 API 使出各种绝招,如今大语言模型层出不穷,且开源的模型很多性能也是趋近了闭源模型(比如 meta 的 llama系列)

DeepSeek-V3模型也提供了 API 接口,我们可以直接在DeepSeek-V3官网申请自己的 API 接口,一旦申请成功,后台给了免费 500 万 tokens 的使用额度,针对小型的应用调试也是足够了。我们只需要申请自己的 API keys 即可。

得到 API keys 后,喜欢玩代码的小伙伴可以使用 openai库进行代码的调用,调用代码兼容 openai的代码,直接使用 openai库进行调用即可。

# Please install OpenAI SDK first: `pip3 install openai`
from openai import OpenAI
client = OpenAI(api_key="<DeepSeek API Key>", base_url="https://api.deepseek.com")
response = client.chat.completions.create(model="deepseek-chat",messages=[{"role": "system", "content": "You are a helpful assistant"},{"role": "user", "content": "Hello"},],stream=False
)
print(response.choices[0].message.content)

当然我们可以直接在 vscode 中也可以直接来使用DeepSeek-V3模型,打开 vscode 编辑器,在扩展程序中安装 Cline 即可。

安装完成后,选择 deep seek 模型,并添加自己的 API keys,我们就可以跟DeepSeek-V3模型聊天了。

在输入框中输入对应的问题,就可以跟DeepSeek-V3聊天,若模型回复其问题,说明我们配置成功了DeepSeek-V3的 API,当然这里也支持其他模型的 API,比如 Google Gemini,open-ai以及ollama等等。

DeepSeek-V3 是由深度求索公司开发的先进大型语言模型,代表了其AI模型系列的第三代,在自然语言理解、推理能力和上下文感知方面有显著改进。主要特点包括:

  • 架构:基于改进注意力机制的Transformer神经网络,整体模型框架使用 transformer 模型,当然最后在前馈神经网络阶段,使用了 MoE混合专家模型,有关 transformer 模型以及混合专家模型,可以参考往期内容。
  • 规模:包含数千亿参数,用于全面的知识表示
  • 能力:擅长文本生成、翻译、问答和代码生成等任务
  • 训练:利用海量数据集和先进训练技术提升性能
  • 应用:用于AI助手、内容创作和数据分析等领域

关于DeepSeek-V3模型的更多细节,可以参考 GitHub 上面的公开论文。

https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf
https://github.com/deepseek-ai/DeepSeek-V3?tab=readme-ov-file
https://www.deepseek.com/更多transformer,VIT,swin tranformer
参考头条号:人工智能研究所
v号:启示AI科技

 动画详解transformer  在线教程 


http://www.ppmy.cn/server/164097.html

相关文章

汇编语法及相关指令

1.汇编指令的基本格式&#xff1a; <opcode>{<cond>}{s} <Rd>, <Rn>, <shifter_operand> opcode&#xff1a;指令的功能码&#xff0c;用来表示当前指令的作用 cond&#xff1a;条件码&#xff0c;需要在指令执行之前先判断条件受否满足&…

Qt调用FFmpeg库实时播放UDP组播视频流

基于以下参考链接&#xff0c;通过改进实现实时播放UDP组播视频流 https://blog.csdn.net/u012532263/article/details/102736700 源码在windows&#xff08;qt-opensource-windows-x86-5.12.9.exe&#xff09;、ubuntu20.04.6(x64)(qt-opensource-linux-x64-5.12.12.run)、以…

代发考试战报:1月22号 1月23号 CCDE考试通过

还有几个人考的也考过了&#xff0c;但是只有俩位考生提供了成绩单截图&#xff0c;有的考生反馈遇到6-7个新题&#xff0c;有的考生反馈遇到将近20个新题&#xff0c;差距比较大&#xff0c;最终结果都一样&#xff0c;都是通过了 #华为#HCIP#题库#考试#思科#CCNP#CCNA#HCIA#通…

【JavaEE进阶】应用分层

目录 &#x1f38b;序言 &#x1f343;什么是应用分层 &#x1f38d;为什么需要应用分层 &#x1f340;如何分层(三层架构) &#x1f384;MVC和三层架构的区别和联系 &#x1f333;什么是高内聚低耦合 &#x1f38b;序言 通过上⾯的练习,我们学习了SpringMVC简单功能的开…

基于物联网设计的疫苗冷链物流监测系统

一、前言 1.1 项目开发背景 随着全球经济的发展和物流行业的不断创新&#xff0c;疫苗和生物制品的运输要求变得越来越高。尤其是疫苗的冷链物流&#xff0c;温度、湿度等环境因素的控制直接关系到疫苗的质量和效力&#xff0c;因此高效、可靠的冷链监控系统显得尤为重要。冷…

基于Django的Boss直聘IT岗位可视化分析系统的设计与实现

【Django】基于Django的Boss直聘IT岗位可视化分析系统的设计与实现&#xff08;完整系统源码开发笔记详细部署教程&#xff09;✅ 目录 一、项目简介二、项目界面展示三、项目视频展示 一、项目简介 该系统采用Python作为主要开发语言&#xff0c;利用Django这一高效、安全的W…

【人工智能】基于Python的机器翻译系统,从RNN到Transformer的演进与实现

《Python OpenCV从菜鸟到高手》带你进入图像处理与计算机视觉的大门! 解锁Python编程的无限可能:《奇妙的Python》带你漫游代码世界 机器翻译(Machine Translation, MT)作为自然语言处理领域的重要应用之一,近年来受到了广泛的关注。在本篇文章中,我们将详细探讨如何使…

【AI论文】VideoAuteur:迈向长叙事视频

摘要&#xff1a;近期的视频生成模型在制作持续数秒的高质量视频片段方面已展现出令人鼓舞的成果。然而&#xff0c;这些模型在生成能传达清晰且富有信息量的长序列时面临挑战&#xff0c;限制了它们支持连贯叙事的能力。在本文中&#xff0c;我们提出了一个大规模烹饪视频数据…