1.环境需求:
1. 独显
2. 最好32g+内存
3. 安装 ollama
https://ollama.com/download/windows
2. 安装 deepseek-r1
https://ollama.com/library/deepseek-r1
根据显存选择对应大小的模型,推荐能将整个模型放入显存的大小,放不下的话会将一部分放到内存中,生成速度会变慢,最佳效果是显存>模型大小*2;
如选择 7b 模型,则 cmd 输入ollama run deepseek-r1,下载速度比较慢的话可以使用 Ctrl+C 断联在重新下载,会自动继续。
3. 安装 cuda(非必须)
安装 cuda 能加速字符的生成。
https://developer.nvidia.com/cuda-toolkit
4. 安装 open-webui(非必须,需要有python环境)
图形界面,自动读取 ollama 中的模型,便于使用。 // 安装pip install open-webui// 启动open-webui serve
5. 开始使用
访问 http://localhost:8080/,选择对应模型,开始使用。
Ps. 我的电脑配置是 i5-12450k + 4050 8g
* Deepseek-r1 14b 模型加载时间在30-60s,每秒钟2-3个中文字符的生成速度,时间上基本是不可用状态;
* Deepseek-r1 7b 模型加载时间在5s左右,每秒钟10-20个中文字符的生成速度,已经赶上了在线模型的速度;
* 在一些通用问题上,7b和14b的模型效果没有明显的区别。