DeepSeek 协程API 调用与 vllm推理,llamafactory本地vllm部署

devtools/2025/3/31 22:42:49/

文章目录

    • 简介
    • 代码实战
      • 调用官方API
      • 协程异步调用
      • 异步协程 方法二
    • vllm_infer

简介

使用协程调用DeepSeek的API,发现效果并不明显,没有加速的效果。
但如是本地部署DeepSeek,本地部署需要支持异步调用,我使用 llamafactory 部署,发现协程加速的效果还是很显著的。

代码实战

调用官方API

DeepSeek官方文档 https://api-docs.deepseek.com/zh-cn/
python 的调用代码如下,该调用方式为同步调用速度很慢。

# Please install OpenAI SDK first: `pip3 install openai`from openai import OpenAIclient = OpenAI(api_key="<DeepSeek API Key>", base_url="https://api.deepseek.com")response = client.chat.completions.create(model="deepseek-chat",messages=[{"role": "system", "content": "You are a helpful assistant"},{"role": "user", "content": "Hello"},],stream=False
)
print(response.choices[0].message.content)

import os
from tqdm import tqdm
from dotenv import load_dotenv
# 加载 .env 文件的密钥
load_dotenv()api_key = os.getenv("deepseek_api")
queries = ["What is AI?","How does deep learning work?","Explain reinforcement learning.","人工智能的应用领域有哪些?","大模型是如何进行预训练的?","什么是自监督学习,它有哪些优势?","Transformer 结构的核心组件是什么?","GPT 系列模型是如何生成文本的?","强化学习在游戏 AI 中的应用有哪些?","目前 AI 领域面临的主要挑战是什么?"
]answer1 = []for query in tqdm(queries):# 官方提供的API调用方式response = client.chat.completions.create(model="deepseek-chat",messages=[{"role": "system", "content": "You are a helpful assistant"},{"role": "user", "content": "Hello"},],stream=False,)content = response.choices[0].message.contentanswer1.append(content)

为了防止在分享代码的时候,导致 API Key 泄露,我把key保存到 .env 文件中,通过load_dotenv加载密钥。
在这里插入图片描述

协程异步调用

import asyncio
from typing import List# from langchain.chat_models import ChatOpenAI
from langchain_openai import ChatOpenAI
from langchain.schema import SystemMessage, HumanMessage# 初始化模型
llm = ChatOpenAI(model_name="deepseek-chat",# model_name="deepseek-reasoner",openai_api_key=api_key,openai_api_base="https://api.deepseek.com/v1",
)async def call_deepseek_async(query: str, progress) -> str:messages = [SystemMessage(content="You are a helpful assistant"),HumanMessage(content=query),]response = await llm.ainvoke(messages)progress.update(1)return response.contentasync def batch_call_deepseek(queries: List[str], concurrency: int = 5) -> List[str]:semaphore = asyncio.Semaphore(concurrency)progress_bar = tqdm(total=len(queries), desc="Async:")async def limited_call(query: str):async with semaphore:return await call_deepseek_async(query, progress_bar)tasks = [limited_call(query) for query in queries]return await asyncio.gather(*tasks)# for python script 
# responses = asyncio.run(batch_call_deepseek(queries, concurrency=10))# for jupyter
response = await batch_call_deepseek(queries, concurrency=10)

注意:异步调用需要使用 await 等待。

下述是tqdm 另外的一种,协程进度条的写法:

from tqdm.asyncio import tqdm_asyncio
results = await tqdm_asyncio.gather(*tasks)

上述的异步协程代码,我调用DeepSeek的API,没有加速效果,我怀疑官方进行了限速。

我使用本地llamafactory部署的DeepSeek,上述异步协程的效果加速明显。

llamafactory vllm本地部署 deepseek的脚本,只支持 linux 系统。

deepseek_7B.yaml 文件内容:

model_name_or_path: deepseek-ai/DeepSeek-R1-Distill-Qwen-7B
template: deepseek3
infer_backend: vllm
vllm_enforce_eager: true
trust_remote_code: true

linux 部署脚本:

 nohup llamafactory-cli api deepseek_7B.yaml > deepseek_7B.log 2>&1 &

异步协程 方法二

下述是 ChatGPT 生成的另外一种异步协程写法。
(下述方法我没有在本地部署的API上测试过,仅供大家参考)

import asyncio
from tqdm.asyncio import tqdm_asyncioanswer = []async def fetch(query):response = await client.chat.completions.create(model="deepseek-chat",messages=[{"role": "system", "content": "You are a helpful assistant"},{"role": "user", "content": query},],stream=False,)return response.choices[0].message.contentasync def main():tasks = [fetch(query) for query in queries]results = await tqdm_asyncio.gather(*tasks)answer.extend(results)asyncio.run(main())

vllm_infer

如果你是linux系统,那么相比API调用,最快的方式就是vllm推理。
你需要使用下述脚本,
https://github.com/hiyouga/LLaMA-Factory/blob/main/scripts/vllm_infer.py

python vllm_infer.py \
--model_name_or_path deepseek-ai/DeepSeek-R1-Distill-Qwen-7B \
--template deepseek3 \
--dataset industry_cls \
--dataset_dir ../../data/llamafactory_dataset/ \
--save_name output/generated_predictions.jsonl

llamafactory 可以指定自定义的数据集地址,你需要构建相应格式的数据集文件。

数据集文件夹下的文件:
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述


http://www.ppmy.cn/devtools/171276.html

相关文章

leetcode 之(移除元素)

给你一个数组 nums 和一个值 val&#xff0c;你需要 原地 移除所有数值等于 val 的元素。元素的顺序可能发生改变。然后返回 nums 中与 val 不同的元素的数量。 假设 nums 中不等于 val 的元素数量为 k&#xff0c;要通过此题&#xff0c;您需要执行以下操作&#xff1a; 更改…

【python】OpenCV—Hand Landmarks Detection

文章目录 1、功能描述2、代码实现3、效果展示4、完整代码5、涉及到的库函数6、参考 更多有趣的代码示例&#xff0c;可参考【Programming】 1、功能描述 基于 opencv-python 和 mediapipe 实现手部关键点的检测&#xff08;无法检测出手&#xff0c;不过可以根据关键点的信息外…

Hive问题记录(1)

在初始化中遇到的问题&#xff1a; [rootmaster data]# schematool -dbType derby -initSchema SLF4J: Class path contains multiple SLF4J bindings. SLF4J: Found binding in [jar:file:/data/hive/lib/log4j-slf4j-impl-2.10.0.jar!/org/slf4j/impl/StaticLoggerBinder.cl…

Python正则表达式(一)

目录 一、正则表达式的基本概念 1、基本概念 2、正则表达式的特殊字符 二、范围符号和量词 1、范围符号 2、匹配汉字 3、量词 三、正则表达式函数 1、使用正则表达式&#xff1a; 2、re.match()函数 3、re.search()函数 4、findall()函数 5、re.finditer()函数 6…

什么是 LLM(大语言模型)?——从直觉到应用的全面解读

什么是 LLM&#xff08;大语言模型&#xff09;&#xff1f;——从直觉到应用的全面解读 在人工智能&#xff08;AI&#xff09;和深度学习的世界里&#xff0c;**LLM&#xff08;Large Language Model&#xff0c;大语言模型&#xff09;**是一个近几年特别火的概念。ChatGPT…

工欲善其事必先利其器————idea插件

文章目录 前言1、CodeGlance&#xff1a;2、Key Promoter X&#xff1a;3、Lombok&#xff1a;4、Maven Helper&#xff1a;5、Save Actions&#xff1a;6、String Manipulation&#xff1a;7、Rainbow Brackets&#xff1a;8、PlantUML Integration&#xff1a;9、Ideolog&…

如何用Kafka实现优先级队列

引言 在分布式系统中&#xff0c;消息队列是一种常见的异步通信机制&#xff0c;而优先级队列则是消息队列的一种特殊形式&#xff0c;它能够根据消息的优先级进行处理&#xff0c;确保高优先级的消息能够优先被消费。Apache Kafka作为一个高性能、高可靠性的分布式流处理平台…

OpenCV三维解算常用方法C++

如果标定过程是通过OpenCV张正友标定法实现的&#xff0c;得到的内参外参保存在.txt文件中是这样的形式&#xff1a; ① 内参intrinsics.txt&#xff1a; ② 外参extrinsics.txt&#xff1a; 那么可以通过如下方法读取.txt文件获取左右相机内外参&#xff0c;主要包括三维解算…