深度学习中,文本分类任务怎么做

ops/2025/2/6 16:00:24/

一、处理流程

前置步骤:

  • 标注数据得到数据集
  • 数据清理:将特殊字符、特殊格式、无效字符去除
    正式步骤:
    1、分词或分字:英文一般都分词,中文有分词也有分字。分词还是分字取决于你模型的embedding。
    2、将字或词编辑ID
    3、embedding:将离散的数据(如文字、类别标签)转换成连续的向量表示

http://www.ppmy.cn/ops/156187.html

相关文章

LLM推理--vLLM解读

主要参考: vLLM核心技术PagedAttention原理 总结一下 vLLM 的要点: Transformer decoder 结构推理时需要一个token一个token生成,且每个token需要跟前序所有内容做注意力计算(包括输入的prompt和该token之前生成的token&#xf…

浅谈量化感知训练(QAT)

1. 为什么要量化? 假设你训练了一个神经网络模型(比如人脸识别),效果很好,但模型太大(比如500MB),手机根本跑不动。于是你想压缩模型,让它变小、变快。 最直接的压缩方法…

git基础使用--4---git分支和使用

文章目录 git基础使用--4---git分支和使用1. 按顺序看2. 什么是分支3. 分支的基本操作4. 分支的基本操作4.1 查看分支4.2 创建分支4.3 切换分支4.4 合并冲突 git基础使用–4—git分支和使用 1. 按顺序看 -git基础使用–1–版本控制的基本概念 -git基础使用–2–gti的基本概念…

Linux概述

Linux下开发项目 JavaEE 大数据 Python PHP C/C Go Linux运维工程师 服务器的规划、调试优化,系统的日程监控,故障的处理,对数据的备份和恢复。运维工程师往往管理服务器集群 Linux嵌入式工程师 驱动的开发,嵌入式的系统…

Maven 项目的基本结构

Maven 项目采用了标准的目录结构,旨在统一项目组织方式,提高可维护性,并且让不同的开发人员更容易理解和使用项目。通过遵循约定的目录结构,Maven 可以自动化管理项目的构建过程,并简化构建、测试、部署等任务。 1. M…

【LeetCode 刷题】贪心算法(2)-进阶

此博客为《代码随想录》二叉树章节的学习笔记,主要内容为贪心算法进阶的相关题目解析。 文章目录 135. 分发糖果406. 根据身高重建队列134. 加油站968. 监控二叉树 135. 分发糖果 题目链接 class Solution:def candy(self, ratings: List[int]) -> int:n len…

提示词实践总结

目录 一、要求创建SqlServer表(ChatGpt) 二、要求生成多层架构代码(Cursor) 三、要求修改方法返回值类型(Cursor) 四、要求修改方法入参(Cursor) 五、复杂的多表关联生成&#…

实验十四 EL和JSTL

实验十四 EL和JSTL 一、实验目的 1、掌握EL表达式的使用 2、掌握JSTL的使用 二、实验过程 1、在数据库Book中建立表Tbook,包含图书ID,图书名称,图书价格。实现在bookQuery.jsp页面中模糊查询图书,如果图书的价格在50元以上&#…