NLP学习笔记三-数据处理基础

news/2024/11/30 18:35:57/

NLP学习笔记三-数据处理基础

NLP设计的处理处理技术也比较多,我们简单介绍一部分:
1.Tokenization

NLP当中的Tokenization,博主以前无论是在文章中还是在代码中都能经常看到,这在自然语言处理中也是比较常用的技术。
Tokenization其实就是把文本转化成单词列表。

在这里插入图片描述
如上图,给与一个文本,将其拆分成一个个的单词就可以了。

2.count word frequencies
count word frequencies其实顾名思义,就是统计词频,这一步其实是在Tokenization的基础上进行的,首先我们需要先对文本进行Tokenization操作,然后,统计有多少种词语,再统计这些词语分别的个数。
统计词频可以用于保留常用词去掉低频词

3.one-hot encoding
这一步,与前一篇文章 说的比较相似,就是将词语进行词向量转化,当然这一步其实一部分工作在2中有一些做过了,比如词向量转化肯定是要进行单词统计的。
如下图所示哈:

在这里插入图片描述


http://www.ppmy.cn/news/285086.html

相关文章

计算机网络管理-使用SNMPc开展网管活动

一、实验目的 全面学习SNMPc网络管理软件业务服务监控功能,了解如何使用网管软件从事网络管理工作 二、实验内容与设计思想 1)操作映射数据库。 2)查看管理对象的MIB数据。 3)创建、保存长期统计数据(要求一定时长…

科普下Tier1,Tier2,Tier3,Tier4 T1, T2, T3, T4

Data-Center-Tiers大家有时候买VPS会发现一些小商家都敢给客户保证,低于99%的在线时间可以退款多少之类的话语,他们为什么这么屌呢?其实这个问题很简单,我们先了解下Tier1,Tier2,Tier3,Tier4这几个概念就差不多自然有结果了。本文…

2499元索尼T2领跑 主打差异化手机推荐

如今2000元内手机市场别有不少优秀产品,无论造型还是功能都相当有卖点,挑选一部性价比十分不错的手机,要看该机的性能配置能否对的起这个价格。下面,笔者将给大家介绍几款具有看点的千元级起热门智能手机,还望网友们能…

week13-T1-T2

文章目录 A-1-T1题目:输入格式:输出格式:Sample Input1:Sample Output1:Sample Input 2:Sample Output 2:题目分析:代码:B-1-T2题目:输入格式:输出…

P53 T2

为方便储户,某银行拟开发计算机储蓄系统。储户填写的存款单或取款单由业务员输入系统,如果是存款,系统记录存款人姓名、住址、存款类型、存款日期、利率等信息,并印出存款单给储户;如果是取款,系统计算利息并印出利息清单给储户。 写出问题定义并分析系统的可行性。 …

MRI成像原理

概念 MRI:磁共振成像,英文全称是:Magnetic Resonance Imaging 原理 核磁共振是一种物理现象,作为一种分析手段广泛应用于物理、化学生物等领域,到1973年才将它用于医学临床检测。为了避免与核医学中放射成像混淆,把…

DPDK网卡PMD驱动常用属性字段和API函数汇总

使用DPDK进行报文收发,网卡被DPDKPMD驱动接管,所以以前可以使用ethtool工具配置的网卡属性,现在都需要通过DPDK提供的API函数来进行配置。 《DPDK官方文档说明》中我们对DPDK官方提供的文档做了整体说明,今天来具体看一下DPDK提供…

sony DSC-M2使用感受

之前老婆总是嫌我的20d比较笨重,出外使用不方便,拍人拍的不好看(冤枉啊,一个是技术不好,一个是镜头不好,另一个是人本来就不好拍,尤其是灯光不好处理),最最重要的是不好自拍.经过我一番辛苦的爬文之后,大家一致认同sony的DSC-M2,老婆还要限量的粉红色版本,只好到taobao网上的海…