LLM代码实现-Qwen(下载和调用)

基本介绍

Qwen 基础模型已经稳定训练了大规模高质量且多样化的数据,覆盖多语言(当前以中文和英文为主),Qwen 目前有多个版本:1.8B、7B、14B、72B,同时还开源了 Qwen-VL、Qwen-Audio 两款多模态模型。阿里可以算得上是业界良心,是目前唯一一家开源 72B 这个这个量级 Chat 版本模型的公司(智谱开源了 130B 的 GLM 可惜不是 Chat 版本),各模型特点和所需硬件条件如下:

image.png

环境配置

首先进入 Qwen 官方的 Github 拉取项目:github.com/QwenLM/Qwen 并安装相应依赖。

git clone https://github.com/QwenLM/Qwen.gitcd Qwen
pip install -r requirements.txt

模型下载

考虑到不是所有的读者都有足够的算力,本专栏使用 Qwen-1.8B-Chat(非基座模型)作为示例。Qwen 模型的下载方式挺多的,可以选择使用 [huggingface] 下载模型:

# 方式一:利用命令行下载
git lfs install
git clone https://huggingface.co/Qwen/Qwen-1_8B-Chat# 方式二:利用 python 代码下载
from modelscope import snapshot_download  
model_dir = snapshot_download('qwen/Qwen-1_8B-Chat', cache_dir="./model")

国内一般情况下由于网络原因用上述方案可能难以下载,也可以选择借助[魔搭社区]下载模型。

# 方式一:利用命令行下载
git lfs install
git clone https://www.modelscope.cn/qwen/Qwen-1_8B-Chat.git# 方式二:利用 python 代码下载
#模型下载 
from modelscope import snapshot_download 
model_dir = snapshot_download('qwen/Qwen-1_8B-Chat', cache_dir="./model")

模型调用

这是简单的一种调用方式,使用 transformers 库进行调用,可以测试环境配置和模型下载是否正确:

from transformers import AutoModelForCausalLM, AutoTokenizer
from transformers.generation import GenerationConfig# 加载模型和 tokenizer
tokenizer = AutoTokenizer.from_pretrained("./model/Qwen/Qwen-1_8B-Chat", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("./model/qwen/Qwen-1_8B-Chat",device_map="auto",trust_remote_code=True
).eval()# 配置模型参数
model.generation_config = GenerationConfig.from_pretrained("./model/Qwen/Qwen-1_8B-Chat", trust_remote_code=True)# 获取模型输出并返回历史记录
response, history = model.chat(tokenizer, "你好", history=None)
print(response)

其中 device_map 用于设置调用模型的设备, 可以选择"cpu", “auto”, “balanced”, “balanced_low_0”, “sequential”:

# "auto" 和 "balanced" 将会在所有的 GPU 上平衡切分模型,那么可以计算批尺寸大于 1 的输入
# "balanced_low_0" 会在除了第一个 GPU 上的其它 GPU 上平衡划分模型,并且在第一个 GPU 上占据较少资源。这个选项符合需要在第一个 GPU 上进行额外操作的需求,例如需要在第一个 GPU 执行 generate 函数(迭代过程)。
# "sequential" 按照GPU的顺序分配模型分片,从 GPU 0 开始,直到最后的 GPU(那么最后的 GPU 往往不会被占满,和"balanced_low_0"的区别就是第一个还是最后一个,以及非均衡填充)# 同时可以利用 accelerate 库的 infer_auto_device_map 函数自己设置每个设备上最大占用多少显存或内存from accelerate import infer_auto_device_mapdevice_map = infer_auto_device_map(model, max_memory={0: "10GiB", 1: "10GiB", "cpu": "30GiB"})
print(model.hf_device_map)

同时官方推荐显卡支持 fp16 或 bf16 精度的用户安装 flash-attention 以提高运行效率并降低显存占用:

git clone https://github.com/Dao-AILab/flash-attention
cd flash-attention && pip install .
# 下方安装可选,安装可能比较缓慢。
# pip install csrc/layer_norm
# 如果flash-attn版本高于2.1.1,下方无需安装。
# pip install csrc/rotary

GenerationConfig 中可以配置多种参数以控制模型输出(也可以不写以调用默认参数):

# temperature:控制生成文本的多样性。较高的温度值(例如1.0)会使生成的文本更加随机,而较低的温度值(例如0.2)会使生成的文本更加确定性。
# top_k:控制生成文本时,模型会考虑的最高概率的词的数量。较小的top_k值会限制模型只考虑概率最高的几个词,从而增加生成文本的多样性。
# top_p:控制生成文本时,模型会考虑的累积概率的阈值。较小的top_p值会限制模型只考虑累积概率高于阈值的词,从而增加生成文本的多样性。
# repetition_penalty:用于抑制生成文本中重复词语的参数。较大的repetition_penalty值会降低重复词语的概率。
# do_sample:指示模型是否使用采样方法生成文本。当设置为True时,模型会根据概率分布随机选择下一个词语;当设置为False时,模型会根据概率分布选择概率最高的词语。
# pad_token_id:用于填充序列的特殊标记的ID。
# eos_token_id:用于表示输入序列结束的特殊标记的ID。
# min_new_tokens:生成文本时,要求至少生成的新词语数量。
# max_new_tokens:生成文本时,要求最多生成的新词语数量。model.generation_config = GenerationConfig.from_pretrained(temperature=0.8, top_k=5, repetition_penalty=1.2,do_sample=True, return_unused_kwargs=True
)

以下实现了一个多轮对话的脚本,可以更方便地进行模型性能测试(输入"clc"后可清空历史聊天记录),同时可以设置系统提示词指定模型行为模式:

from transformers import AutoModelForCausalLM, AutoTokenizer
import osclass Qwen:def __init__(self):path = "./model/Qwen/Qwen-1_8B-Chat"self.tokenizer = AutoTokenizer.from_pretrained(path, trust_remote_code=True)self.model = AutoModelForCausalLM.from_pretrained(path,device_map="auto",trust_remote_code=True).eval()def clear_screen(self):os.system('clear')return [], ""def chat_qwen(self, System_Prompt):history, history = self.clear_screen()while True:prompt = input("user:")if prompt.lower() == "clc":history, history = self.clear_screen()continue# System Prompts 可以设定模型的行为模式,例如人物设定、语言风格、任务模式、甚至针对具体问题的具体行为。response, history = self.model.chat(self.tokenizer, prompt, history=history, system=System_Prompt)print("assistant:", response, end="\n\n")if __name__ == '__main__':qwen = Qwen()qwen.chat_qwen(System_Prompt="请用外婆的语气和我说话")

在这里插入图片描述

大模型&AI产品经理如何学习

求大家的点赞和收藏,我花2万买的大模型学习>大模型学习资料免费共享给你们,来看看有哪些东西。

1.学习路线图

在这里插入图片描述

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

2.视频教程

网上虽然也有很多的学习资源,但基本上都残缺不全的,这是我自己整理的大模型视频教程,上面路线图的每一个知识点,我都有配套的视频讲解。

在这里插入图片描述

在这里插入图片描述

(都打包成一块的了,不能一一展开,总共300多集)

因篇幅有限,仅展示部分资料,需要点击下方图片前往获取

3.技术文档和电子书

这里主要整理了大模型相关PDF书籍、行业报告、文档,有几百本,都是目前行业最新的。
在这里插入图片描述

4.LLM面试题和面经合集

这里主要整理了行业目前最新的大模型面试题和各种大厂offer面经合集。
在这里插入图片描述

👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
在这里插入图片描述

1.AI大模型学习>大模型学习路线图
2.100套大模型>AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

在这里插入图片描述


http://www.ppmy.cn/news/1520542.html

相关文章

力扣2503.矩阵查询可获得的最大分数

力扣2503.矩阵查询可获得的最大分数 离线算法 排序 小根堆 将query数组从小到大排序,用小根堆存每个单元格的值从小到大遍历query,如果堆顶元素小于query[i],弹出,直到全部弹出,总弹出个数为答案 class Solution …

Vue3项目开发——新闻发布管理系统(五)

文章目录 七、登录&注册页面设计开发4、后端接口调用4.1 AXIOS请求工具封装4.2 创建 axios 实例①安装 axios② 封装 axios 模块4.3完成 axios 基本配置5 实现 注册功能5.1 创建接口调用js文件5.2 页面中调用注册方法6 实现 登录功能6.1 创建接口调用js文件6.2 页面中调用登…

【STM32开发】GPIO最全解析及应用实例

目录 【1】GPIO概述 GPIO的基本概念 GPIO的应用 【2】GPIO功能描述 1.IO功能框图 2.知识补充 3.功能详述 浮空输入 上拉输入 下拉输入 模拟输入 推挽输出 开漏输出 复用开漏输出和复用推挽输出 【3】GPIO常用寄存器 相关寄存器介绍 4个32位配置寄存器 2个32位数据寄存器 1个32位…

能大致讲一下Chat GPT的原理吗?

AI视频生成:小说文案智能分镜智能识别角色和场景批量Ai绘图自动配音添加音乐一键合成视频百万播放量https://aitools.jurilu.com/ 话题群精选了三位网友的回答,从不同的角度阐释了Chat GPT的原理。 第一位网友的回答: 不给你扯长篇大论&#…

Gateway的基本概念

1.Gateway概念介绍 1.1Gateway介绍 Gateway网络为微服务架构提供简单且统一的API路由管理,作为系统的统一入口。 Gateway可以为客户端提供统一的服务,例如认证、路由转发、防刷、流量控制、监控日志等。 Gateway是无状态的,不存放数据&…

spring boot 项目 跟 JavaScript 简单 websocket 使用

文章目录 websocket 简绍WebSocket 的优势包括:JavaScript 设置处理事件 Java 服务端设置导jar包创建WebSocket端点EnableWebSocketregisterWebSocketHandlers 实现WebSocket处理器afterConnectionEstablishedafterConnectionClosedhandleTextMessage 注销WebSocket…

C# 使用微软OFFICE库操作excel

C# 使用微软OFFICE库操作excel写入数据 using System; using Excel Microsoft.Office.Interop.Excel;namespace ExcelExample {class Program{static void Main(string[] args){// 创建Excel应用程序实例Excel.Application excelApp new Excel.Application();// 让Excel应用…

Python 读写 Excel 文件:创建、遍历、更新与样式处理

Excel 是广泛使用的电子表格软件,用于数据存储、分析和可视化。Python 通过第三方库如 openpyxl 和 pandas 提供了丰富的功能来读写 Excel 文件。本文将详细介绍如何使用 Python 进行 Excel 文件的创建、遍历、更新、删除以及样式处理等操作。 1. 安装必要的库 首…

【计算机网络】socket编程 --- 实现简易TCP网络程序

👦个人主页:Weraphael ✍🏻作者简介:目前正在学习c和算法 ✈️专栏:Linux 🐋 希望大家多多支持,咱一起进步!😁 如果文章有啥瑕疵,希望大佬指点一二 如果文章对…

【Pytorch实用教程】tqdm的作用:在循环中显示进度条

tqdm 是一个 Python 库,用于在循环中显示进度条。它能够为任何可迭代对象(例如列表、生成器、数据加载器等)添加一个可视化的进度条,使用户可以实时查看程序的执行进度。 在数据科学和机器学习领域,tqdm 经常用于显示训练和验证过程中的进度。例如,在训练神经网络时,由…

编译 ffmpeg 以支持AVS格式视频解码与解码

前言 当前文章介绍如何在Linux下使用FFmpeg转码其他视频格式到AVS格式的指南,包括编译FFmpeg以支持XAVS编码和如何使用FFmpeg进行转码。 AVS (Audio Video Coding Standard) 格式是一种由中国主导制定的视频编码标准,全称为“中国数字音视频编解码技术…

装饰器模式及应用【理论+代码】

装饰器模式(Decorator Pattern)是一种结构型设计模式,它允许向一个现有的对象添加新的功能,同时又不改变其结构。这种设计模式通过创建一个包装对象,即装饰器,来封装实际对象。 装饰器模式的主要组成&#…

图像处理之透视变换

透视变换 什么是透视变换透视变换有什么用 什么是透视变换 透视变换(把斜的图变正,也就是一种坐标系到另外一种坐标系)是一种图像处理技术,它利用透视中心、像点、目标点三点共线的条件,按透视旋转定律使承影面&#…

python读取excel数据

在处理Excel数据时,Python 提供了多种强大的库来读取、处理以及分析这些数据。最常用的库之一是 pandas,它建立在 numpy、matplotlib 和 scipy 等库之上,为数据分析和操作提供了高级的、易于使用的数据结构和数据分析工具。另一个流行的库是 …

Java设计模式—策略模式(Strategy)

模式动机 完成一项任务,往往可以有多种不同的方式,每一种方式称为一个策略,我们可以根据环境或者条件的不同选择不同的策略来完成该项任务。在软件开发中也常常遇到类似的情况,实现某一个功能有多个途径,此时可以使用…

【运维监控】prometheus+node exporter+grafana 监控linux机器运行情况(2)

本示例是通过prometheus的node exporter收集主机的信息,然后在grafana的dashborad进行展示。本示例使用到的组件均是最新的,下文中会有具体版本说明,linux环境是centos。本示例分为四个部分,即prometheus、grafana、node exporter…

【MySQL】如何优化 SQL UPDATE 语句以提升性能

如何优化 SQL UPDATE 语句以提升性能 在日常开发中,优化 SQL 查询是非常关键的一项任务,尤其是在处理大量数据时。本文将通过一个 UPDATE 语句的优化过程,探讨如何提升 SQL 性能。 示例场景 假设我们有以下两张表: 表 table_a…

打造一流的研发型企业--- 金发科技研发驱动力初探

2006年3月29日,国家发改委副主任欧新黔亲自为金发科技颁发了“中国改性塑料行业第一位”、“中国合成材料制造业十强”、“中国石油化工全行业百强”三块铜牌证书,金发科技终于成为名符其实的行业“老大”。公司产品销售额增长迅速, 2006年完…

开发基础软件安装地址(持续更新中)

开发基础软件安装地址(持续更新中) 如果需要新增下载工具可以在评论中留言 欢迎广大开发人员在评论区讨论关于环境安装遇到的问题 正文会持续更新。。。 java常用的jdk1.8版本安装包 链接:jdk-8u421-windows-x64.exe idea java常用的开发工具…

提交保存,要做重复请求拦截,避免出现重复保存的问题

**问题:**前端ajax提交数据的时候,当频繁点击的时候,或者两个账号以相同数据创建的时候,会出现问题。 **处理办法:**前端拦截,防止重复提交数据,在上一次请求返回结果之后才允许提交第二次&…