Deepseek学习--工具篇之Ollama
- 用途
- 特点
- 简化部署
- 轻量级与可扩展性
- API支持
- 预构建模型库
- 模型导入与定制
- 跨平台支持
- 命令行工具与环境变量
- 来源
- 缘起
- 诞生
- 爆发
- 持续
- 安装使用方法
- 下载安装
- 安装模型
- 调用API
用途
我们在进行Deepseek本地部署的时候,通常会用到工具Ollama,这是专为在本地机器上便捷部署和运行大型语言模型(LLM)的一个工具。
使用这个工具,非专业用户也可以轻松的完成Deepseek本地部署。
特点
首先,Ollama是一个开源框架,其好处有以下几点:
简化部署
Ollama旨在简化在Docker容器中部署大型语言模型的过程,使得非专业用户也能方便地管理和运行这些复杂的模型。
轻量级与可扩展性
作为轻量级框架,Ollama保持了较小的资源占用,同时具备良好的可扩展性,允许用户根据需要调整配置以适应不同规模的项目和硬件条件。
API支持
提供了一个简洁的API,使得开发者能够轻松创建、运行和管理大型语言模型实例,降低了与模型交互的技术门槛。
预构建模型库
包含一系列预先训练好的大型语言模型,用户可以直接选用这些模型应用于自己的应用程序,无需从头训练或自行寻找模型源。
这里需要重点说一下:查询官网,目前支持:Llama 3.3, DeepSeek-R1, Phi-4, Mistral, Gemma 3等模型。
模型导入与定制
支持从特定平台(如GGUF)导入已有的大型语言模型,兼容PyTorch或Safetensors深度学习框架,允许用户为模型添加或修改提示(prompt engineering),以引导模型生成特定类型或风格的文本输出。
跨平台支持
提供针对macOS、Windows(预览版)、Linux以及Docker的安装指南,确保用户能在多种操作系统环境下顺利部署和使用Ollama。
命令行工具与环境变量
命令行工具与环境变量:通过命令行启动Ollama服务,用户可以通过环境变量配置来指定服务绑定的主机地址和端口。
使用效果如下,非常简单方便:
在实际应用中,Ollama具有很强的实用性和便利性。例如,用户可以在本地计算机上实验模型,无需依赖外部服务或API。Ollama还兼容多种模型,如Llama 3、Mistral、Gemma等,使得开发者和研究人员能够在本地环境中高效利用大型语言模型进行各种自然语言处理任务。此外,Ollama还提供了一个类似OpenAI的简单内容生成接口和聊天界面,支持热切换模型,使得使用体验更加灵活多变。
来源
Ollama是由Facebook AI Research开发的。Ollama是一个开源、轻量级且高效的大型语言模型(LLM)框架,旨在使研究人员和开发人员能够更轻松地在自己的硬件上部署和运行LLM,而无需专门的云计算资源。
此外,Ollama团队由Michael Chiang和Jeffrey Morgan创立,是一家独立的初创公司,总部位于加利福尼亚州帕洛阿尔托。尽管Ollama是一个独立的开源项目,但它的开发背景与Facebook AI Research有关。
缘起
2023年,Meta发布 Llama 2 并开源,Google、Mistral AI等企业也相继推出轻量化模型(如 Gemma、Mistral-7B),开源社区对本地运行模型的需求激增。
诞生
2023年底,Ollama由开发者社区主导创建,旨在 简化本地LLM的部署与管理,提供类似Docker的“一键运行”体验,诞生伊始,已经可以通过命令行直接加载模型(如ollama run llama2),自动处理模型依赖与运行环境,支持量化模型(如4-bit/8-bit),降低硬件需求。
爆发
2024年,逐步支持 Llama 3、Mistral、Gemma、Phi-3 等主流模型,并集成社区自定义模型(如Code Llama、医疗领域微调版)。新增模型版本管理(多版本切换);支持REST API,便于集成到外部应用;提供Python/JavaScript库,降低开发成本。
开源社区贡献持续增加,GitHub Star数快速破万,成为本地运行LLM的标杆工具。
持续
2025年,支持Deepseek。笔者也是从开始关注Deepseek之后,逐步了解该工具的。
针对前面提到的自动处理模型依赖与运行环境等功能,安装完这些软件之后,系统更新大乱炖,往往会把显卡驱动、Cudnn等更新乱,将来这些功能肯定会不断优化。
安装使用方法
和一般的软件安装方法一样,支持本地安装和在线一键安装,网上教程很多,大家可以自行体会。其实,最可靠的方法就是直接参考官网,Ollama的官网非常简单,非常直白。
下载安装
直接使用官网提供的命令行即可,一个命令全部搞定:
curl -fsSL https://ollama.com/install.sh | sh
手动安装也很简单,先下载和解压:
curl -L https://ollama.com/download/ollama-linux-amd64.tgz -o ollama-linux-amd64.tgz
sudo tar -C /usr -xzf ollama-linux-amd64.tgz
然后运行:
ollama serve
这里只是说明以下,具体内容参考https://github.com/ollama/ollama/blob/main/docs/linux.md
安装模型
在https://ollama.com/library/中下载相应的模型安装
ollama run deepseek-r1:XX.XXb
XX.XXb对照模型参数量填写,1.5b模型1.1G,671b模型404Gb,安装之前要充分评估自己的硬件。
其他细节如更新、自定义安装、卸载等可以参考文档。
调用API
Ollama的API调用主要包括以下几种方式:
生成文本补全:使用/api/generate端点,通过POST请求生成指定模型的文本补全。主要参数包括model(模型名称)、prompt(生成文本的提示词)、suffix(生成的补全文本之后附加的文本)、stream(是否流式传输响应)等。12
聊天模式:使用/api/chat端点,通过POST请求在聊天中生成下一条消息。支持多轮对话历史,可以通过设置stream为false来关闭流式传输。23
创建模型:使用/api/create端点,可以通过上传另一个模型、safetensors目录或GGUF文件来创建一个新模型。2
列出本地模型:使用/api/tags端点,可以列出本地可用的模型。
显示模型信息:使用/api/show端点,显示有关模型的信息,包括详细信息、模型文件、模板、参数、许可证、系统提示符等。