1-DeepSeek
参考:【Deepseek】Linux 本地部署 Deepseek_linux部署deepseek-CSDN博客
问题: (base) root@QiuKu_303:~/Documents/Ollama# sh ollama_install.sh >>> Cleaning up old version at /usr/local/lib/ollama >>> Installing ollama to /usr/local >>> Downloading Linux amd64 bundle ######################################################################### 100.0% |
解决:【跳过问题】 export LD_LIBRARY_PATH=/usr/lib/x86_64-linux-gnu:$LD_LIBRARY_PATH |
2-QWQ-32B
参考:消费级显卡也能跑!QwQ-32B本地部署教程来了!【视频号】
参考:Linux环境下使用vLLM部署本地大模型_vllm加载本地模型-CSDN博客
参考:DeepSeek 部署指南 (使用 vLLM 本地部署)_vllm部署deepseek-CSDN博客
conda create -n QWQ-32B python=3.12 |
pip install vllm |
pip install git+https://github.com/huggingface/transformers |
pip install modelscope |
modelscope download --model 'Qwen/QwQ-32B' --local_dir '目标目录' |
vllm serve /home74/liguangzhen/folder/QwQ-32B |
方案 1:使用 vLLM 部署 DeepSeek vLLM 具有高吞吐量,支持 PagedAttention,高效利用多张 GPU。 1. 安装 vLLM 2. 下载 DeepSeek 模型 拉取 DeepSeek 相关模型,例如:# 以 deepseek-ai/deepseek-llm-7b-chat 为例 3. 启动 vLLM 服务器
启动后,API 服务会运行在 4. 测试 API |