Windows下AMD显卡在本地运行大语言模型(deepseek-r1)

devtools/2025/2/9 11:08:22/

Windows下AMD显卡在本地运行大语言模型

  • 本人电脑配置
  • 第一步先在官网确认自己的 AMD 显卡是否支持 ROCm
  • 下载Ollama安装程序
  • 模型下载位置更改
  • 下载 ROCmLibs
    • 先确认自己显卡的gfx型号
    • 下载
    • 解压
  • 替换
    • 替换rocblas.dll
    • 替换library文件夹下的所有
  • 重启Ollama
  • 下载模型
  • 运行效果

本人电脑配置

CPUi5-12600KF
内存32 GB
显卡AMD Radeon RX 6750 GRE 12GB

第一步先在官网确认自己的 AMD 显卡是否支持 ROCm

官网地址:https://rocm.docs.amd.com/projects/install-on-windows/en/develop/reference/system-requirements.html
在这里插入图片描述如果自己的显卡在官网列表上只需要下载并安装 AMD 官方版本的 ROCm 和 Ollama 的官方版本就能直接使用。

下载Ollama安装程序

由于本人的AMD显卡不在官网支持的ROCm列表上,所以下载
下载地址:https://github.com/likelovewant/ollama-for-amd/releases
在这里插入图片描述
下载安装即可

模型下载位置更改

Ollama默认下载位置是C盘,如果C盘没有足够的空间那就需要更改下载位置
设置系统环境变量即可(用户变量与系统变量都要新建)
在这里插入图片描述

下载 ROCmLibs

先确认自己显卡的gfx型号

通过如下链接查询
https://www.techpowerup.com/
在这里插入图片描述
在这里插入图片描述

下载

下载链接:https://github.com/likelovewant/ROCmLibs-for-gfx1103-AMD780M-APU/releases
寻找符合自己显卡型号的下载,注意要下载符合你安装Ollama版本支持的hipsdk
在这里插入图片描述

解压

解压下载的ROCmLibs压缩包之后会得到一个dll与一个文件夹
在这里插入图片描述

替换

替换rocblas.dll

将解压之后的rocblas.dll替换到Ollama安装目录下的C:\Users\ctl456\AppData\Local\Programs\Ollama\lib\ollama(路径根据自己实际的安装目录)
在这里插入图片描述

替换library文件夹下的所有

将解压之后的library文件夹下的所有文件替换Ollama安装目录下的
C:\Users\ctl456\AppData\Local\Programs\Ollama\lib\ollama\rocblas\library

在这里插入图片描述

重启Ollama

重启Ollama之后查看日志可以发现已经可以识别到显卡
在这里插入图片描述

下载模型

完成如上的操作之后就可以下载模型并运行了
操作命令可以查看官网:https://registry.ollama.ai/library/deepseek-r1:14b
在这里插入图片描述
由于国内的原因下载模型可能会遇到下载速度慢,这个时候你就需要借助魔法来下载(一定要开启Tun模式)这样Ollama才能通过走代理下载模型

运行效果

如下图所示代表成功
在这里插入图片描述在这里可以借助Cherry Studio能够更好的调用
下载地址:https://cherry-ai.com/
在这里插入图片描述
在这里插入图片描述如上图所示已经部署成功
在这里插入图片描述可以看到已经成功调用显卡进行推理


http://www.ppmy.cn/devtools/157333.html

相关文章

Elasticsearch term精确查询无数据

Elasticsearch数据库中存在数据,但是使用term无法查到, 原因Elasticsearch 对文本字段的处理有两种主要类型:text 和 keyword, 当你对 text 类型的字段使用 match 查询时,Elasticsearch 会自动对查询字符串进行分词,并…

Python进行模型优化与调参

在数据科学与机器学习领域,模型的优化与调参是提高模型性能的重要步骤之一。模型优化可以帮助提高模型的准确性和泛化能力,而合理的调参则能够充分发挥模型的潜力。这篇教程将重点介绍几种常用的模型优化与调参方法,特别是超参数调整和正则化技术的应用。这些技术能够有效地…

【负载均衡式在线OJ】实现负载均衡

目录 管理服务器 增加负载 && 减少负载 重置负载 && 获得负载 负载均衡 添加配置信息 什么是负载均衡 如何实现? 管理服务器 增加负载 && 减少负载 客户端访问一次服务器,负载就加1。客户端结束访问服务器,…

驱动开发系列34 - Linux Graphics Intel 动态显存技术的实现

一:概述 动态显存技术(Dynamic Video Memory Technology, DVMT)是一种由 Intel 提出的内存分配技术,主要用于整合显卡(集成显卡)系统中,以便动态地调整显存大小,从而在不同的负载场景下优化内存使用和系统性能。 动态显存技术的核心在于共享系统内存。集成显卡没有独立…

基于html和vue.js以及其他编程技术打造一个仿京东购物网站平台

效果展示 <!DOCTYPE html> <html lang"zh-CN"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>仿京东商城</title><link re…

两栏布局、三栏布局、水平垂直居中

文章目录 1 两栏布局1.1 浮动 margin1.2 浮动 BFC1.3 flex布局1.4 左绝父相 margin1.5 右绝父相 方向定位 2 三栏布局2.1 子绝父相 margin2.2 flex布局2.3 浮动 margin2.4 圣杯布局2.5 双飞翼布局 3 水平垂直居中3.1 绝对定位 translate3.2 绝对定位 margin3.3 绝对定位…

Sentinel——Spring Boot 应用接入 Sentinel 后内存开销增长计算方式

接入 Sentinel 对 Spring Boot 应用的内存消耗影响主要取决于 规则数量、资源数量、监控粒度、并发量 等因素。 1. 核心内存消耗来源 (1) Sentinel 核心库 默认依赖&#xff1a;Sentinel Core 本身占用较小&#xff0c;通常在 10~50MB&#xff08;取决于资源数量和规则复杂度…

保姆级AI开发环境搭建

目录 windows下环境搭建1. Python环境搭建2. 下载vLLM2.1 安装CUDA2.2 安装Pytorch2.3 安装vllm 3. 部署Deepseek&#xff08;huggingface&#xff09;3.1 DeepSeek的优化建议 4. ollama快速部署Deepseek4.1 下载Ollama4.2 配置Ollma4.2 运行模型4.3 其他Ollama命令 linux下环境…