如何基于transformers库通过训练Qwen/DeepSeek模型的传统分类能力实现文本分类任务

devtools/2025/2/23 1:01:19/

文章目录

    • 模型与环境准备
    • 文档分析
    • 源码解读
    • 模型训练及推理方式
    • 进阶:CPU与显存的切换
    • 进阶:多卡数据并行训练
      • 🔑 DDP 训练过程核心步骤
      • 🚫 DDP 不适用于模型并行
      • ⚖️ DDP vs. Model Parallelism
      • ⚙️ 解决大模型训练的推荐方法


🎉进入大模型应用与实战专栏 | 🚀查看更多专栏内容


在这里插入图片描述

模型与环境准备

首先从huggingface上下载Qwen2或者Qwen2.5模型到本地,我这里选择的是0.5或是1.5b大小的模型。DeepSeek开源的其他模型都太大了,只有基于Qwen蒸馏得到的模型较小可以用来训练。所以虽然说的是Qwen/DeepSeek模型,本质上都是Qwen模型。

在这里插入图片描述

注意虽然这些模型都是生成式模型,但是由于它们都是基于transformer架构,所以本质上和Bert等模型一样,是可以训练它们用来做传统的文本分类的。

我们


http://www.ppmy.cn/devtools/161071.html

相关文章

算法【贪心经典题目专题5】

题目一 测试链接:45. 跳跃游戏 II - 力扣(LeetCode) 分析:这道题用cur代表走完当前步数可以来到的最大长度,next代表如果多走一步可以来到的最大长度,然后遍历索引,如果当前步数可以来到的最大…

C# dynamic 关键字 使用详解

总目录 前言 dynamic 是 C# 4.0 引入的关键字,用于声明动态类型,允许在运行时解析类型和成员,而非编译时。它主要设计用于简化与动态语言(如 Python、JavaScript)的交互、处理未知结构的数据(如 JSON、XML…

新能源汽车核心元件揭秘:二极管、三极管结构与工作原理解析(2/2)

上一节我们讲了二极管的原理, 原文章: https://zhuanlan.zhihu.com/p/25252117833 看了的朋友应该很容易懂这节课 这篇文章我们来说说三极管的工作原理啊 这里要说下几个概念 1 半导体的导通, 就是说里面的负电荷电子和正电荷空穴可以大量的从 一个地方达到我们想要的地方…

通义灵码AI程序员

通义灵码是阿里云与通义实验室联合打造的智能编码辅助工具,基于通义大模型技术,为开发者提供多种编程辅助功能。它支持多种编程语言,包括 Java、Python、Go、TypeScript、JavaScript、C/C、PHP、C#、Ruby 等 200 多种编码语言。 通义灵码 AI…

系统学习算法:专题十一 floodfill算法

介绍: floodfill算法简单来说就是求出相同性质的联通块 比如在上面这个矩阵中,如果我们要求出所有负数的联通块,就可以使用floodfill算法,但联通必须是上下左右,斜对角的不行 其中实现的方法有深度优先遍历&#xff…

1.21作业

1 unserialize3 当序列化字符串中属性个数大于实际属性个数时,不会执行反序列化 外部如果是unserialize()会调用wakeup()方法,输出“bad request”——构造url绕过wakeup 类型:public class&…

A. C05.L08.贪心算法入门

这套题包含了历年真题,十分重要!!!!要考试的同学可以参考一下!! 此套题限时3小时。 A. C05.L08.贪心算法入门(一).课堂练习1.书架(SSOI2017五年级t6) 传统题1000ms256…

25会计研究生复试面试问题汇总 会计专业知识问题很全! 会计复试全流程攻略 会计考研复试真题汇总

宝子们,会计考研复试快到了,是不是有点慌?别怕!今天学姐给你们支招,手把手教你搞定复试面试,直接冲上岸!快来看看怎么准备吧,时间紧直接背第三部分的面试题! 目录 一、复…