NLP学习笔记三-数据处理基础

NLP学习笔记三-数据处理基础

news/2024/11/30 18:35:57/

NLP学习笔记三-数据处理基础

NLP设计的处理处理技术也比较多，我们简单介绍一部分：
1.Tokenization

NLP当中的Tokenization，博主以前无论是在文章中还是在代码中都能经常看到，这在自然语言处理中也是比较常用的技术。
Tokenization其实就是把文本转化成单词列表。

在这里插入图片描述
如上图，给与一个文本，将其拆分成一个个的单词就可以了。

2.count word frequencies
count word frequencies其实顾名思义，就是统计词频，这一步其实是在Tokenization的基础上进行的，首先我们需要先对文本进行Tokenization操作，然后，统计有多少种词语，再统计这些词语分别的个数。
统计词频可以用于保留常用词去掉低频词

3.one-hot encoding
这一步，与前一篇文章说的比较相似，就是将词语进行词向量转化，当然这一步其实一部分工作在2中有一些做过了，比如词向量转化肯定是要进行单词统计的。
如下图所示哈：

在这里插入图片描述

http://www.ppmy.cn/news/285086.html

相关文章

计算机网络管理-使用SNMPc开展网管活动

计算机网络管理-使用SNMPc开展网管活动

一、实验目的全面学习SNMPc网络管理软件业务服务监控功能，了解如何使用网管软件从事网络管理工作二、实验内容与设计思想 1）操作映射数据库。 2）查看管理对象的MIB数据。 3）创建、保存长期统计数据（要求一定时长…

阅读更多...

科普下Tier1,Tier2,Tier3,Tier4 T1， T2， T3， T4

科普下Tier1,Tier2,Tier3,Tier4 T1， T2， T3， T4

Data-Center-Tiers大家有时候买VPS会发现一些小商家都敢给客户保证，低于99%的在线时间可以退款多少之类的话语，他们为什么这么屌呢？其实这个问题很简单，我们先了解下Tier1,Tier2,Tier3,Tier4这几个概念就差不多自然有结果了。本文…

阅读更多...

2499元索尼T2领跑主打差异化手机推荐

2499元索尼T2领跑主打差异化手机推荐

如今2000元内手机市场别有不少优秀产品，无论造型还是功能都相当有卖点，挑选一部性价比十分不错的手机，要看该机的性能配置能否对的起这个价格。下面，笔者将给大家介绍几款具有看点的千元级起热门智能手机，还望网友们能…

阅读更多...

week13-T1-T2

week13-T1-T2

文章目录 A-1-T1题目：输入格式：输出格式：Sample Input1：Sample Output1：Sample Input 2：Sample Output 2：题目分析：代码：B-1-T2题目：输入格式：输出…

阅读更多...

P53 T2

P53 T2

为方便储户，某银行拟开发计算机储蓄系统。储户填写的存款单或取款单由业务员输入系统，如果是存款，系统记录存款人姓名、住址、存款类型、存款日期、利率等信息，并印出存款单给储户；如果是取款，系统计算利息并印出利息清单给储户。写出问题定义并分析系统的可行性。 …

阅读更多...

MRI成像原理

MRI成像原理

概念 MRI：磁共振成像，英文全称是:Magnetic Resonance Imaging 原理核磁共振是一种物理现象，作为一种分析手段广泛应用于物理、化学生物等领域，到1973年才将它用于医学临床检测。为了避免与核医学中放射成像混淆，把…

阅读更多...

DPDK网卡PMD驱动常用属性字段和API函数汇总

DPDK网卡PMD驱动常用属性字段和API函数汇总

使用DPDK进行报文收发，网卡被DPDKPMD驱动接管，所以以前可以使用ethtool工具配置的网卡属性，现在都需要通过DPDK提供的API函数来进行配置。《DPDK官方文档说明》中我们对DPDK官方提供的文档做了整体说明，今天来具体看一下DPDK提供…

阅读更多...

sony DSC-M2使用感受

sony DSC-M2使用感受

之前老婆总是嫌我的20d比较笨重,出外使用不方便,拍人拍的不好看(冤枉啊,一个是技术不好,一个是镜头不好,另一个是人本来就不好拍,尤其是灯光不好处理),最最重要的是不好自拍.经过我一番辛苦的爬文之后,大家一致认同sony的DSC-M2,老婆还要限量的粉红色版本,只好到taobao网上的海…

阅读更多...

最新文章