ubuntu中ollama设置记录

ops/2025/3/3 23:50:49/

自己同一台电脑主机安装3080和3090显卡,测试发现ollama只默认跑在3090上;故查看一下设置,成功也把3080也运行起来了。

原因如下:

 开始设置记录:

Environment Variables:
OLLAMA_DEBUG
作用:显示额外的调试信息。
示例:export OLLAMA_DEBUG=1OLLAMA_HOST
作用:指定 ollama 服务器的 IP 地址和端口(默认为 127.0.0.1:11434)。
示例:export OLLAMA_HOST=0.0.0.0:8080OLLAMA_KEEP_ALIVE
作用:设置模型在内存中保持加载的时间(默认为 5m)。
示例:export OLLAMA_KEEP_ALIVE="10m"OLLAMA_MAX_LOADED_MODELS
作用:指定每个 GPU 上可以同时加载的最大模型数。OLLAMA_MAX_QUEUE
作用:设置允许排队的最大请求数量。OLLAMA_MODELS
作用:指定存储模型的目录路径。OLLAMA_NUM_PARALLEL
作用:设置允许同时处理的最大并行请求数量。OLLAMA_NOPRUNE
作用:禁用启动时清理模型 blob 文件的功能。OLLAMA_ORIGINS
作用:指定允许的跨域请求来源(以逗号分隔)。
示例:export OLLAMA_ORIGINS="http://example.com,https://localhost"OLLAMA_SCHED_SPREAD
作用:强制将模型均匀分配到所有 GPU 上。OLLAMA_FLASH_ATTENTION
作用:启用 Flash Attention(加速注意力机制)。OLLAMA_KV_CACHE_TYPE
作用:设置 K/ V 缓存的量化类型(默认为 f16)。
示例:export OLLAMA_KV_CACHE_TYPE="q4_0"OLLAMA_LLM_LIBRARY
作用:指定 LLM 库以绕过自动检测。OLLAMA_GPU_OVERHEAD
作用:为每个 GPU 预留一部分 VRAM(以字节为单位)。OLLAMA_LOAD_TIMEOUT
作用:设置模型加载的最大等待时间(默认为 5m)。
示例:export OLLAMA_LOAD_TIMEOUT="10m"

自己按照自己需求设置 

(phi) root@cl-System-Product-Name:/home/cl/桌面/临床数据# cat /etc/systemd/system/ollama.service
[Unit]
Description=Ollama Service
After=network-online.target[Service]
ExecStart=/usr/local/bin/ollama serve
User=ollama
Group=ollama
Restart=always
RestartSec=3
Environment="PATH=/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin:/usr/games:/usr/local/games:/snap/bin"
Environment="OLLAMA_HOST=0.0.0.0:11434"
Environment="OLLAMA_NUM_PARALLEL=4"
Environment="OLLAMA_MAX_LOADED_MODELS=2"
Environment="CUDA_VISIBLE_DEVICES=0,1"
Environment="OLLAMA_SCHED_SPREAD=true"
DeviceAllow=gpu/*
[Install]
WantedBy=default.target

 

systemctl daemon-reload

systemctl restart ollama.service

# 确保ollama服务正常运行
systemctl status  ollama.service

 


http://www.ppmy.cn/ops/162901.html

相关文章

【R语言】PCA主成分分析

使用R语言手动实现PCA主成分分析计算&#xff0c;通过计算协方差矩阵计算出数据的主成分得分&#xff0c;根据的分最高的特征进行得分图的绘制 # 读取数据raw_data <- read.csv("R可视化/data.csv", header TRUE, fileEncoding "GBK")new_data <-…

【C】链式二叉树算法题1 -- 单值二叉树

leetcode链接https://leetcode.cn/problems/univalued-binary-tree/description/ 1 题目描述 如果二叉树每个节点都具有相同的值&#xff0c;那么该二叉树就是单值二叉树。只有给定的树是单值二叉树时&#xff0c;才返回 true&#xff1b;否则返回 false。 示例 1&#xff1…

大模型微调入门(Transformers + Pytorch)

目标 输入&#xff1a;你是谁&#xff1f; 输出&#xff1a;我们预训练的名字。 训练 为了性能好下载小参数模型&#xff0c;普通机器都能运行。 下载模型 # 方式1&#xff1a;使用魔搭社区SDK 下载 # down_deepseek.py from modelscope import snapshot_download model_…

Android AsyncLayoutInflater异步加载xml布局文件,Kotlin

Android AsyncLayoutInflater异步加载xml布局文件&#xff0c;Kotlin implementation "androidx.asynclayoutinflater:asynclayoutinflater:1.1.0-alpha01" import android.os.Bundle import android.util.Log import android.view.View import android.view.ViewGro…

【Vue3】浅谈setup语法糖

Vue3 的 setup 语法糖是通过 <script setup> 标签启用的特性&#xff0c;它是对 Composition API 的进一步封装&#xff0c;旨在简化组件的声明式写法&#xff0c;同时保留 Composition API 的逻辑组织能力。以下是其核心概念和原理分析&#xff1a; 一、<script setu…

数据结构:Top-K问题详解

一.Top-K问题 #include<stdio.h> //先自主创建n个数据 void CreateNDate() {// 造数据int n 100000;srand(time(0));//表示随时间初始化随机生成数的种子const char* file "data.txt";///创建一个文件FILE* fin fopen(file, "w");//“只写”写入创…

Android15 Camera HAL Android.bp中引用Android.mk编译的libB.so

背景描述 Android15 Camera HAL使用Android.bp脚本来构建系统。假设Camera HAL中引用了另外一个HAL实现的so &#xff08;例如VPU HAL&#xff09;&#xff0c; 恰巧被引用的这个VPU HAL so是用Android.mk构建的&#xff0c;那Camera HAL Android.bp在直接引用这个Android.mk编…

git clone的时候出现出现error

报错如下&#xff1a; Collecting githttps://github.com/haotian-liu/LLaVA.git Cloning https://github.com/haotian-liu/LLaVA.git to /tmp/pip-req-build-360q6tt1 Running command git clone --filterblob:none --quiet https://github.com/haotian-liu/LLaVA.git /t…