从零开始:在服务器上部署大模型并集成到 vscode +Cline使用

embedded/2025/1/16 0:34:57/

1. 引言 (Introduction)

欢迎来到本篇技术博客! 在本文中, 我将引导你一步一步地在阿里云服务器上部署 Qwen 大模型,并将其集成到 Cline 插件中。

我们将从零开始,详细介绍每个步骤,确保即使是初学者也能轻松上手。

请在此添加图片描述

近年来,大型语言模型(LLMs)展现出了强大的自然语言处理能力,吸引了越来越多的关注。 Qwen 系列模型是阿里巴巴开源的一系列强大的大语言模型, 具有优秀的性能和广泛的应用场景。

Ollama 是一个易于使用的工具, 可以让你在本地轻松部署和运行大模型, 并提供 API 接口供外部调用。 而 Cline 插件则提供了一个便捷的 UI 界面, 可以连接到各种大模型,并进行交互式对话。

本篇博客的目标是:

  • 在阿里云服务器上,部署一个强大的 Qwen 大模型。
  • 使用 Ollama 提供 API 接口,方便本地和远程调用。
  • 使用 Cline 插件连接到 Ollama API, 并进行测试。

我们将使用以下配置:

  • 阿里云服务器 (CPU 机器)。
  • Ollama (最新版本)。
  • Qwen2.5:1.5b 模型 (当然你可以选择更大的模型)。
  • Cline 插件 (一个客户端, 用于连接到 Ollama API)。

2. 准备工作 (Prerequisites)

在开始之前, 你需要确保你的环境满足以下条件:

你需要一个运行 Linux (例如 Ubuntu, CentOS) 的阿里云服务器

服务器需要有公网 IP 地址。

服务器需要有足够的 CPU 核心数、 内存 (至少 4GB 以上) 以及 磁盘空间 (至少 20 GB 以上)。

  • Xshell 连接工具 (或其他 SSH 工具):

你需要使用 SSH 客户端连接工具, 例如 Xshell 或者其他类似的工具,连接到你的阿里云服务器

你需要知道服务器的 IP 地址, 用户名和密码。

  • 网络:

你需要确保你的阿里云服务器可以连接互联网, 以便下载 Ollama 和模型。

3. Ollama 安装 (Ollama Installation)

  • 下载 Ollama:

访问 Ollama 的官方 GitHub Release 页面 (https://github.com/ollama/ollama/releases), 找到最新版本的 Linux 安装包下载链接。 你应该看到类似 ollama-linux-amd64.tgz 的文件。

使用 wget 下载安装包, 并将 v0.x.x 替换为你实际的版本号:

wget https://github.com/ollama/ollama/releases/download/v0.x.x/ollama-linux-amd64.tgz

请在此添加图片描述

  • 解压安装包:

使用 tar 命令解压安装包:

tar -zxvf ollama-linux-amd64.tgz

请在此添加图片描述

  • 移动 Ollama 可执行文件到 **/usr/local/bin**
sudo cp bin/ollama /usr/local/bin
sudo chmod +x /usr/local/bin/ollama
  • 验证 Ollama 安装:

    使用以下命令验证 Ollama 是否安装成功:

ollama --version

你将看到类似以下输出:

ollama version is 0.5.x
  • 设置 OLLAMA_HOST 环境变量:

为了让 Ollama API 监听所有网络接口, 你需要设置 OLLAMA\_HOST 环境变量。

  • 在 __运行 __\*\*ollama serve\*\*__ 的终端窗口中__ 设置, 你可以使用以下命令:
export OLLAMA_HOST="0.0.0.0:11434"

或者使用默认端口:

export OLLAMA_HOST="0.0.0.0"

你可以在该终端窗口中使用以下命令验证环境变量:

echo $OLLAMA_HOST
  • 启动 Ollama 服务

使用 nohup ollama serve & 命令在后台启动 Ollama 服务。

使用 tail -f nohup.out 查看日志,确认服务在监听 0.0.0.0:11434 。

 nohup ollama serve &tail -f nohup.out

你将看到类似以下输出:

Listening on [::]:11434 (version 0.5.x)

4. 模型下载和运行 (Model Download and Run)

下载 qwen2.5:1.5b 模型:

使用以下命令下载并运行 qwen2.5:1.5b 模型:

ollama run qwen2.5:1.5bOllama 会自动下载模型文件, 你需要等待一段时间。

我们使用 qwen2.5:1.5b 模型是因为它适合我们当前的 CPU 服务器配置,

当然你可以选择更大的模型。

解释 Ollama 的模型加载:

ollama serve 命令仅启动 Ollama API 服务。

ollama run <model_name> 命令下载并运行指定模型。

我们使用 API 调用模型,因此不需要使用

ollama run <model_name> 命令来启动模型。

请在此添加图片描述

5. Cline 插件配置 (Cline Plugin Configuration)

  • 安装 Cline 插件:
  • 如果你没有安装 Cline 插件, 请参考 Cline 官方文档进行安装。
  • 配置 Cline 的 API Provider:
  • 在 Cline 插件的设置中, 将 “API Provider” 设置为 “Ollama”:
  • 设置 Base URL:

“Base URL” 设置为 http://<你的服务器公网IP>:11434, 将 <你的服务器公网IP> 替换为你的阿里云服务器的公网 IP 地址:

  • 设置 Model ID:

将 “Model ID” 设置为你使用的 Ollama 模型 ID: qwen2.5:1.5b

  • 设置 Custom Instructions (可选):

你可以设置自定义的指令, 这些指令会添加到发送给模型的系统提示中:

请在此添加图片描述

你需要在阿里云控制台中配置你的防火墙, 允许外部访问 11434 端口。

6. Cline 测试 (Cline Testing)

  • 输入 Prompt 测试:
  • 在 Cline 插件中输入 prompt,测试是否可以正常连接到 Ollama API, 并获取模型响应。

7. 总结 (Conclusion)

恭喜你, 你已经成功地在阿里云服务器上部署了 Qwen 大模型,并将其集成到 Cline 插件中!

通过本篇博客, 我们学习了:

  • 如何下载、安装和配置 Ollama。
  • 如何下载和运行 Qwen 模型。
  • 如何配置 Cline 插件,连接到 Ollama API 。

通过 Ollama 和 Cline, 你可以方便地在本地运行大模型,并且可以通过 Cline 插件进行对话。

请在此添加图片描述

未来展望:

  • 你可以尝试使用更大规模的模型,例如 qwen2.5:7b, qwen2.5:32b等, 但需要你的服务器内存足够。
  • 你可以考虑使用 GPU 服务器加速推理过程。
  • 你可以考虑使用 Docker 来管理和部署你的环境。
  • 你可以使用 API 网关实现 API Key 验证和其他安全措施。

8. 附录 (Appendix) (可选)

  • 常用命令:

下载 Ollama 安装包:

wget https://github.com/ollama/ollama/releases/download/v0.x.x/ollama-linux-amd64.tgz`  

解压安装包:

 tar -zxvf ollama-linux-amd64.tgz`         

移动 Ollama 可执行文件:

sudo cp bin/ollama /usr/local/bin         sudo chmod +x /usr/local/bin/ollama`         

验证 Ollama 安装:

ollama --version`         

设置 OLLAMA_HOST 环境变量:

export OLLAMA_HOST="0.0.0.0:11434"`        

后台运行 Ollama 服务:

nohup ollama serve &`         

查看 Ollama 日志:

tail -f nohup.out`         

下载并运行模型

ollama run qwen2.5:1.5b`       
  • Ollama 官方网站: https://ollama.com/
  • Ollama 官方文档: https://ollama.com/docs
  • Cline 插件官方 GitHub: https://github.com/cline-py/cline
    如果遇到任何问题,欢迎私信作者,一起交流学习在这里插入图片描述

http://www.ppmy.cn/embedded/154248.html

相关文章

vue router的使用

一、引入 vue-router是Vue.js官方的路由插件&#xff0c;它和vue.js是深度集成的&#xff0c;适合用于构建单页面应用。vue的单页面应用是基于路由和组件的&#xff0c;路由用于设定访问路径&#xff0c;并将路径和组件映射起来。传统的页面应用&#xff0c;是用一些超链接来实…

K8S集群常用命令

1&#xff0c;查看pod kubectl get pods -A 查看所有的pod kubectl get pods 这个只查看namespace为default下的pod&#xff0c;也就是只查看默认命名空间下的pod kubectl get pod -A -o wide 查看所有的pod&#xff0c;并且放出的信息更全&#xff08;包含了pod的ip&#xff0…

Windows图形界面(GUI)-QT-C/C++ - QT框架解析

公开视频 -> 链接点击跳转公开课程博客首页 -> ​​​链接点击跳转博客主页 目录 工程配置 代码视图 配置文件 核心代码 工程配置 New Project QT Widgets Application 涉及到名称输入不要存在中文 QMAKE Weight 可以手动指定修改类文件 选择开发环境 代码视图 配置…

【Elasticsearch】批量操作:优化性能

🧑 博主简介:CSDN博客专家,历代文学网(PC端可以访问:https://literature.sinhy.com/#/?__c=1000,移动端可微信小程序搜索“历代文学”)总架构师,15年工作经验,精通Java编程,高并发设计,Springboot和微服务,熟悉Linux,ESXI虚拟化以及云原生Docker和K8s,热衷于探…

RuoYi-Vue-Plus 加入 GitCode:驱动多租户后台管理创新发展

在当今数字化进程持续推进的时代背景下&#xff0c;企业对后台管理系统的要求不断攀升&#xff0c;高效、安全、灵活与可拓展性成为关键要素。近日&#xff0c;RuoYi-Vue-Plus 正式加入 GitCode&#xff0c;为多租户后台管理领域带来全新动力与机遇&#xff0c;有力推动行业技术…

使用Python实现深度强化学习的自动驾驶模拟

友友们好! 我的新专栏《Python进阶》正式启动啦!这是一个专为那些渴望提升Python技能的朋友们量身打造的专栏,无论你是已经有一定基础的开发者,还是希望深入挖掘Python潜力的爱好者,这里都将是你不可错过的宝藏。 在这个专栏中,你将会找到: ● 深入解析:每一篇文章都将…

【算法学习】——整数划分问题详解(动态规划)

&#x1f9ee;整数划分问题是一个较为常见的算法题&#xff0c;很多问题从整数划分这里出发&#xff0c;进行包装&#xff0c;形成新的题目&#xff0c;所以完全理解整数划分的解决思路对于之后的进一步学习算法是很有帮助的。 「整数划分」通常使用「动态规划」解决&#xff0…

网络协议(八):IP 协议

目录 1. IP 协议简介 2. 首部属性 2.1 版本号 2.2 首部长度 2.3 服务类型 2.4 总长度 2.5 > 16位标识 & 3位标志 & 13位片偏移 2.5.1 > 16 位标识 2.5.2 > 3 位标志 2.5.3 > 13 位片偏移 2.6 生存时间(TTL) 2.7 > 8 位协议 2.8 首部校验和…