本地运行大模型效果及配置展示

news/2025/2/1 14:50:15/

电脑上用ollama安装了qwen2.5:32b,deepseek-r1:32b,deepseek-r1:14b,llama3.1:8b四个模型,都是Q4_K_M量化版。
在这里插入图片描述
运行过程中主要是cpu和内存负载比较大,qwen2.5:32b大概需要22g,deepseek-r1:32b类似。显卡的运行状态在使用nouveau驱动的情况下使用cpu-x没有读取到。前段时间换成NVIDIA驱动后又试了下qwen2.5:32b, 使用nvidia-smi读取到了运行状态,之前会占用大量内存的情况现在也没有再出现,但输出速度几乎不变,不太确定正不正常。考虑到切换NVIDIA驱动后我的两块屏幕无法显示,加上其他一些arch用户在更新系统时遇到的和NVIDIA驱动相关的问题,我又切换回了nouveau。

运行效果方面的话,两个32b的模型的效果是最好的,一些复杂问题的准确性也比两个要高,但是速度也是最慢的,对我来说属于勉强能用,如果速度能达到10 tokens/s的话,用起来就比较流畅了。

环境及配置

  • 系统::Arch Linux
  • CPU: AMD Ryzen 7 5800H with Radeon Graphics (16) @ 4.463GHz
  • GPU: AMD ATI Radeon Vega Series / Radeon Vega Mobile Series
  • GPU: NVIDIA GeForce RTX 3050 Ti Mobile / Max-Q
  • GPU驱动:nouveau
  • 内存: 64G (32x2) DDR4 3200MHZ

qwen2.5:32b
在这里插入图片描述
deepseek-r1:32b
在这里插入图片描述
llama3.1:8b
在这里插入图片描述

一些术语解释

Total Duration:
The total time it took the model to complete the task. This includes all processing time.

Load Duration:
The model’s time to load or initialize before starting the task.

Prompt Eval Count:
The number of tokens (individual words or sub-word units) in the input prompt given to the model.

Prompt Eval Duration:
he model’s time to process and understand the input prompt.

Prompt Eval Rate:
The speed at which the model processed the input prompt, measured in tokens per second.

Eval Count:
The total number of tokens the model processes during the entire task, including both the prompt and the generated output.

Eval Duration:
The model’s time to process all the tokens during the task.

Eval Rate:
The overall processing speed of the model during the task, measured in tokens per second.


http://www.ppmy.cn/news/1568448.html

相关文章

Oracle 创建用户和表空间

Oracle 创建用户和表空间 使用sys 账户登录 建立临时表空间 --建立临时表空间 CREATE TEMPORARY TABLESPACE TEMP_POS --创建名为TEMP_POS的临时表空间 TEMPFILE /oracle/oradata/POS/TEMP_POS.DBF -- 临时文件 SIZE 50M -- 其初始大小为50M AUTOEXTEND ON -- 支持…

Hive详细讲解-概述与环境搭建

文章目录 1.Hive概述1.2.Hive架构原理1.3Driver 2.Hive最小化模式安装部署3.生产环境hive安装部署4.将hive的元数据存储到Mysql5.元数据库概述6.Hive服务的部署6.1HiveServer26.2Metastore 7.HiveServer2使用7.1Metastore嵌入模式配置7.2Metastore独立模式配置* 8.hive常用的参…

强化学习笔记——4策略迭代、值迭代、TD算法

基于策略迭代的贝尔曼方程和基于值迭代的贝尔曼方程,关系还是不太理解 首先梳理一下: 通过贝尔曼方程将强化学习转化为值迭代和策略迭代两种问题 求解上述两种贝尔曼方程有三种方法:DP(有模型),MC&#xff…

使用ArcMap或ArcGIS Pro连接达梦数据库创建空间数据库

一、ArcMap 1、本地windows安装 32 位 DM 数据库客户端 2、覆盖dll 将 32 位 DM 数据的..\dmdbms\bin 目录中的 .dll 文件全部拷贝到 ArcGIS 的 ..\Desktop10.5\bin 目录下,有同名文件直接覆盖掉 3、开启达梦数据库空间扩展支持 使用管理员用户登录数据&#xff…

Mysql的主从复制及扩展功能

一、配置过程 1.配置master vim /etc/my.cnf [mysqld] datadir/data/mysql 指定数据库文件的存储位置 socket/data/mysql/mysql.sock symbolic-links0 log-binmysql-bin 启用二进制日志,用于记录数据库的更…

初学stm32 --- FreeRTOS移植

目录 移植前准备 1. 基础工程 2. FreeRTOS 源码 添加 FreeRTOS 文件 1. 添加 FreeRTOS 源码 2. 将文件添加到工程 3. 添加头文件路径 4. 添加 FreeRTOSConfig.h 文件 (1) FreeRTOSConfig.h 获取途径一 (2) FreeRTOSConfig.h 获取途径二 (3) FreeRTOSConfig.h 获取途径…

HTTP(1)

HTTP协议 HTTP是什么 HTTP(全称为"超文本传输协议")是一种应用非常广泛的基于TCP协议的应用层协议。 常见的应用场景: 浏览器与服务器之间的交互(访问网站)手机与服务器之间的通信多个服务器之间进行通信 …

RocketMQ优势剖析-性能优化

RocketMQ在性能优化方面展现出了许多独特的优点,这些优势使其在高吞吐量、低延迟以及可靠性等方面具有显著的表现。以下是对RocketMQ性能优化方面的详细剖析: 高吞吐量 RocketMQ采用了批量发送和预读取等技术来提升消息处理速度。批量发送允许客户端将…