【王树森】RNN模型与NLP应用(1/9):数据处理基础(个人向笔记)

embedded/2024/12/23 6:33:08/

数值特征和分类特征

以下图为例子进行学习:
在这里插入图片描述

  • Age: 年龄本身就是数值特征,数值特征可以比较大小。
  • Gender: 二分的分类特征,可以用0和1来表示男性和女性。
  • Natinoality: 可以用0-197的这些数字建立一一映射,但是由于国籍之间没有大小关系。固改用One-hot编码来表示国籍:用197维的向量来表示。其中全0的向量代表国籍缺失。
    在这里插入图片描述
    这样,我们就可以用一个199维的向量来表示一个人:
    在这里插入图片描述

Quesion: 为什么国籍要用One-Hot编码而不是直接用数字编码更节省存储空间?

  • 数字编码相加无实际意义:
    在这里插入图片描述
  • One-hot编码的相加更能够表示特征:
    在这里插入图片描述

处理文本数据

Step1:Tokenization(Text to Words)

把文本中的单词都进行分割,将一篇文变为一个个词:
在这里插入图片描述

Step2:计算词频

  1. 建立一个空的哈希表来对词频进行计数
  2. 对哈希表按照词频由大到小进行排序,index从1开始。(哈希表长度被称为vocalubary)①为避免最后vocalubary过于庞大,我们进行计数和排序的目的就在于此,②还可以筛选掉一些人名或者拼写错误的词,最后只取排序前面的单词进行编码即可。

Step3:One-hot编码

对文本中的每一个词编码成其在哈希表中的index:
在这里插入图片描述
若一个单词在哈希表中不存在,则直接编码为0或者忽略即可。


http://www.ppmy.cn/embedded/104641.html

相关文章

Prometheus(八):Prometheus监控elasticsearch及常用API

目录 1 Prometheus监控elasticsearch1.1 启动ES自带的监控模块暴露指标数据1.2 通过Prometheus的插件 Elasticsearch Exporter来获取指标数据1、简介2、安装3、Prometheus配置 2 Prometheus常用API2.1 查询2.2 删除2.3 注册服务 1 Prometheus监控elasticsearch 使用Prometheus…

[bevformer渲染可视化] 2d框可视化 并可视化出小目标

可视化代码: 代码使用方法: 1.复制代码全文到任意python文件中 2.下载nuscenes v1.0-mini数据集,修改数据集路径,保证能读取到数据集 3.按照需求修改代码(本文是2dbox面积的面积和整个图片的面积比小于0.03视为小目标&#xff0…

在ElementUI项目中集成iconfont图标库

在前端项目开发中经常会遇到使用的组件库提供的ICON图标不够用的情况。最常见的解决方案无非就是把设计图的图标切图引入到项目中。还有就是使用svg图标,封装一个渲染组件在项目里面直接引入这个组件。 本文将介绍另一种方法,即集成iconfont图标库的图标…

机器学习中的聚类算法概述

概述 聚类(cluster)与分类(class)问题不同,聚类是属于无监督学习模型,而分类属于有监督学习。聚类使用一些算法把样本分为N个群落,群落内部相似度较高,群落之间相似度较低。在机器学…

java简单平台跳跃游戏

对于渴望用Java创建简单平台跳跃游戏的朋友,这里有一个基础的游戏框架可以作为你的开始。 想象我们正开发一个2D的跳跃游戏,其核心玩法是让玩家控制角色以避开障碍。 下文将介绍如何利用Java结合java.awt和javax.swing库来制作一个具有图形界面的游戏示…

【SQL】餐馆营业额七日均线数据

目录 题目 分析 代码 题目 表: Customer ------------------------ | Column Name | Type | ------------------------ | customer_id | int | | name | varchar | | visited_on | date | | amount | int | -----------------------…

大一地信新生,如何从0规划学习WebGIS开发!附通关攻略

关于学习WebGIS开发,很多GIS专业的学生,从大一开始苦恼从哪里入手?内容太多,不知道什么是重点?不了解企业实际应用情况,怕所学非所用。关于这一点,小编通过本文详细介绍一下! WebGIS&#xff…

区块链通证系统功能分析

区块链通证系统功能分析涉及多个关键方面,以确保系统能够满足不同的业务需求和合规性要求。 同质与非同质通证:区块链通证系统需要支持同质通证(如ERC-20)和非同质通证(如ERC-721),以适应不同类…