使用llama.cpp进行量化和部署

使用llama.cpp进行量化和部署

embedded/2024/11/23 16:19:20/

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp

🖥️ CPU 版本

cmake -B build_cpu
cmake --build build_cpu --config Release

🖥️ CUDA 版本

cmake -B build_cuda -DLLAMA_CUDA=ON
cmake --build build_cuda --config Release -j 12

cmake -B build
cmake --build build --config Release -t llama-server

量化

1.将 safetensors 格式转成 gguf

cd ~/code/llama.cpp/build_cuda/bin

python convert-hf-to-gguf.py /mnt/workspace/Qwen2.5-7B-Instruct --outfile /mnt/workspace/Qwen2.5-7B-Instruct-GGUF/Qwen2.5-7B-Instruct-q8_0-v1.gguf --outtype q8_0

2.将 gguf 格式进行（再）量化

cd ~/code/llama.cpp/build_cuda/bin

./quantize --allow-requantize /root/autodl-tmp/models/Llama3-8B-Chinese-Chat-GGUF/Llama3-8B-Chinese-Chat-q8_0-v2_1.gguf /root/autodl-tmp/models/Llama3-8B-Chinese-Chat-GGUF/Llama3-8B-Chinese-Chat-q4_1-v1.gguf Q4_1

部署服务：

cd llama.cpp/build/bin

./llama-server -m /mnt/workspace/Qwen2.5-7B-Instruct-GGUF/Qwen2.5-7B-Instruct-q8_0-v1.gguf/Qwen2.5-7B-Instruct-Q8_0.gguf --port 8080

http://www.ppmy.cn/embedded/139883.html

相关文章

Spark RDD 的宽依赖和窄依赖

Spark RDD 的宽依赖和窄依赖

通俗地理解 Spark RDD 的宽依赖和窄依赖，可以通过以下比喻和解释： 1. 日常生活比喻假设你在管理多个团队完成工作任务： 窄依赖：每个团队只需要关注自己的分工，完成自己的任务。例如，一个人将纸张折好&…

阅读更多...

人工智能的核心思想-神经网络

人工智能的核心思想-神经网络

神经网络原理引言在理解ChatGPT之前，我们需要从神经网络开始，了解最简单的“鹦鹉学舌”是如何实现的。神经网络是人工智能领域的基础，它模仿了人脑神经元的结构和功能，通过学习和训练来解决复杂的任务。本文将详细介绍神经网络…

阅读更多...

Linux 中的 zoxide 命令详解与示例

Linux 中的 zoxide 命令详解与示例

文章目录 Linux 中的 zoxide 命令详解与示例zoxide 简介安装 zoxide使用包管理器Ubuntu/DebianArch LinuxFedoramacOS（Homebrew）Windows（Scoop） 使用脚本安装（linux、Centos）安装流程集成到 ShellBashZshF…

阅读更多...

MongoDB的常用命令（数据库操作、集合操作、文档操作）

MongoDB的常用命令（数据库操作、集合操作、文档操作）

文章目录 1. 数据库操作1.1 数据库的命名规范1.2 选择数据库和创建数据库1.3 删除数据库1.4 查看所有数据库1.5 查看当前正在使用的数据库 2. 集合操作2.1 集合的命名规范2.2 集合的显式创建2.3 集合的隐式创建2.4 删除集合2.5 查看当前数据库中的所有集合 3. 文档操作3.1 文档…

阅读更多...

QT之QML从入门到精通（第八章）

QT之QML从入门到精通（第八章）

布局使用 Column控件的使用 main.qml import QtQuick 2.12 import QtQuick.Window 2.12 import QtQuick.Controls 2.12 import QtQuick.Layouts 1.12Window {visible: truewidth: 640height: 480title: qsTr("Hello World")Column{ //列布局id:colspacing: 10 //控…

阅读更多...

GRU (门控循环单元 - 基于RNN - 简化LSTM又快又好 - 体现注意力的思想) + 代码实现 —— 笔记3.5《动手学深度学习》

GRU (门控循环单元 - 基于RNN - 简化LSTM又快又好 - 体现注意力的思想) + 代码实现 —— 笔记3.5《动手学深度学习》

目录 0. 前言 1. 门控隐状态 1.1 重置门和更新门 1.2 候选隐状态 1.3 隐状态 2. 从零开始实现 2.1 初始化模型参数 2.2 定义模型 2.3 训练与预测 3 简洁实现 4. 小结 0. 前言课程全部代码（pytorch版）已上传到附件看懂上一篇RNN的所有细节&am…

阅读更多...

飞桨大模型PaddleOCR

飞桨大模型PaddleOCR

一、新建项目PaddleOCRProject 二、查看开源 pip install paddlepaddle pip install paddleocr指定镜像源下载才快： pip install paddlepaddle -i https://pypi.tuna.tsinghua.edu.cn/simple pip install paddleocr -i https://pypi.tuna.tsinghua.edu.cn/simple 三…

阅读更多...

基于Java Springboot高校本科生学习成长记录系统

基于Java Springboot高校本科生学习成长记录系统

一、作品包含源码数据库设计文档万字PPT全套环境和工具资源部署教程二、项目技术前端技术：Html、Css、Js、Vue、Element-ui 数据库：MySQL 后端技术：Java、Spring Boot、MyBatis 三、运行环境开发工具：IDEA/eclipse 数据…

阅读更多...

最新文章