【vllm】Qwen2.5-VL-72B-AWQ 部署记录

server/2025/3/14 1:57:09/

版本:0.7.2
注意事项:

export LD_LIBRARY_PATH=/home/xxxxx/anaconda3/envs/xxxxx/lib/python3.10/site-packages/nvidia/nvjitlink/lib:$LD_LIBRARY_PATH # 如果报错可能需要Also pip install --force-reinstall git+https://github.com/huggingface/transformers.git@9985d06add07a4cc691dc54a7e34f54205c04d40  # 需要安装特定版本的transformer

服务端

PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True python -m vllm.entrypoints.openai.api_server \--model hf_models/Qwen/Qwen2.5-VL-72B-Instruct-AWQ \--tensor-parallel-size 4 \--gpu-memory-utilization 0.8 \--max-model-len 8192 \--quantization awq \--dtype float16 \--enforce-eager \--trust-remote-code \--host 0.0.0.0 \--port 8678 \
--api-key olllllama

客户端

python">
import base64
from openai import OpenAIuse_vision = True if use_vision:# 读取图片文件并转换为base64with open("./vision_test_50x50_enlarged.png", "rb") as image_file:base64_image = base64.b64encode(image_file.read()).decode('utf-8')messages = [{"role": "user","content": [{"type": "text","text": "这图片里面有什么?"},{"type": "image_url","image_url": {"url": f"data:image/png;base64,{base64_image}"}}]}]
else:messages = [{"role": "user", "content": "你是谁"}]client = OpenAI(base_url="http://localhost:8678/v1",api_key="olllllama",
)completion = client.chat.completions.create(model="hf_models/Qwen/Qwen2.5-VL-72B-Instruct-AWQ",messages=messages
)print('='*40)
print(completion.choices[0].message.content)
print('='*40)
print(completion.choices[0].message)
print('='*40)

输出

========================================
这张图片展示了一个简单的图形设计。图片的背景是白色的,中间有一条黑色的十字线,将图片分成四个相等的部分。在每个部分的中心位置,分别有一个不同颜色的小正方形:- 左上角是一个红色的正方形。
- 右上角是一个绿色的正方形。
- 左下角是一个蓝色的正方形。
- 右下角是一个灰色的正方形。这些正方形看起来是对称放置的,整个设计简洁明了。
========================================
ChatCompletionMessage(content='这张图片展示了一个简单的图形设计。图片的背景是白色的,中间有一条黑色的十字线,将图片分成四个相等的部分。在每个部分的中心位置,分别有一个不同颜色的小正方形:\n\n- 左上角是一个红色的正方形。\n- 右上角是一个绿色的正方形。\n- 左下角是一个蓝色的正方形。\n- 右下角是一个灰色的正方形。\n\n这些正方形看起来是对称放置的,整个设计简洁明了。', refusal=None, role='assistant', audio=None, function_call=None, tool_calls=[], reasoning_content=None)
========================================

http://www.ppmy.cn/server/174769.html

相关文章

【Deepseek基础篇】--v3基本架构

目录 MOE参数 1.基本架构 1.1. Multi-Head Latent Attention多头潜在注意力 1.2.无辅助损失负载均衡的 DeepSeekMoE 2.多标记预测 2.1. MTP 模块 论文地址:https://arxiv.org/pdf/2412.19437 DeepSeek-V3 是一款采用 Mixture-of-Experts(MoE&…

什么是全栈?

🤟致敬读者 🟩感谢阅读🟦笑口常开🟪生日快乐⬛早点下班 📘博主相关 🟧博主信息🟨博客首页🟫专栏推荐🟥活动信息 📃文章前言 🔷文章均为学习工…

Dify后端结构与二次开发指南(一)

Dify 的后端基于 Python 编写,使用 Flask 作为 Web 框架,SQLAlchemy 作为 ORM(对象关系映射),Celery 作为任务队列,Flask-Login 处理用户认证和授权。以下是对 Dify 后端结构的详细介绍,以及如何…

C和C++的内存管理 续篇

上文提到了内存管理的基本方法,本文则从更底层的层面来学习new/delete的有关知识。 operator new与operator delete函数 与malloc/free不同的是,new和delete不是函数,new和delete是用户进行动态内存申请和释放的操作符,operator …

[项目]基于FreeRTOS的STM32四轴飞行器: 六.2.4g通信

基于FreeRTOS的STM32四轴飞行器: 六.2.4g通信 一.Si24Ri原理图二.Si24R1芯片手册解读三.驱动函数讲解五.移植2.4g通讯(飞控部分)六.移植2.4g通讯(遥控部分) 一.Si24Ri原理图 Si24R1芯片原理图如下: 右侧为晶振。 模块…

微商模式的演进与开源链动2+1模式、AI智能名片及S2B2C商城小程序源码的应用探索

摘要:随着互联网技术的飞速发展,电子商务领域涌现出众多新兴商业模式,其中微商以其独特的社交属性、低成本创业门槛以及灵活的运营方式,迅速成为电子商务领域的一股重要力量。本文旨在深入探讨微商模式的内涵、发展历程及其面临的…

拥抱AI让你的项目具有响应能力

大家好,这里是架构资源栈!点击上方关注,添加“星标”,一起学习大厂前沿架构! 关注发送【C1】(读yi不是L)获取JetBrains全家桶软件激活,精选文章有踩坑经验可供参考! 在构…

源IP泄露后如何涅槃重生?高可用架构与自动化防御体系设计

一、架构层解决方案 1. 高防代理架构设计 推荐架构: 用户 → CDN(缓存静态资源) → 高防IP(流量清洗) → 源站集群(真实IP隐藏) ↑ Web应用防火墙(WAF) 实施要点&a…