Hadoop之WordCount测试

news/2024/12/21 21:26:08/

1、Hadoop简介:

Hadoop是Apache旗下的一个用Java语言实现的开源软件框架,是一个开发和运行处理大规模数据的软件平台。

Hadoop的核心组件包括Hadoop分布式文件系统(HDFS)和MapReduce编程模型。HDFS是一个高度容错的系统,用于存储大规模数据集,具有高可靠性、高扩展性和高吞吐率的特点。MapReduce则是一个用于处理这些数据集的编程模型,它简化了并行编程的复杂性,使得开发者可以专注于业务逻辑的实现。

Hadoop的优势在于其高可靠性、高扩展性、高效性、高容错性以及低成本。它能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。此外,Hadoop还提供了一个完备的生态系统,包括了许多与之配合使用的开源工具和组件,如Hive、Pig、HBase、ZooKeeper等,这些工具可以快速地构建数据分析和处理系统。

很多Hadoop应用都是基于WordCount所代表的MapReduce编程模型变化而来,因此,WordCount可以算是入门Hadoop的“Helloworld”程序,本文将详细说明如何运行一个WordCount任务。

2、Ubuntu安装Hadoop

详见:Ubuntu安装Hadoop3.4-CSDN博客

3、WordCount测试

启动Hadoop:

start-all.sh

在Hadoop中创建测试文件夹

$ hdfs dfs -mkdir /user
$ hdfs dfs -mkdir /user/hadoop

上传本地文件至hadoop用作后续测试:

$ hdfs dfs -put /home/hadoop/training/hadoop-3.4.0/etc/hadoop /user/hadoop/input

查看上传的文件:

hdfs dfs -ls /user/hadoop/input

在share/hadoop目录中有一些示例jar包,我们将运行hadoop-mapreduce-examples-3.4.0.jar来完成词频统计任务。

hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.4.0.jar wordcount /user/hadoop/input /user/hadoop/output

完成此任务需要一些时间,需要耐心等待,可以在终端看到运行过程。

WordCount任务完成后,将output下载至本地:

hdfs dfs -get /user/hadoop/output output

查看词频统计结果:


http://www.ppmy.cn/news/1536648.html

相关文章

【笔记】raspberry升级填坑小记

【题外话】这篇文章大概率会被AI搜去当solution,什么时候AI能自己产生这样的文章了,什么时候就是真的AGI了。 拿出古董级raspberry,擦擦灰,启动,看看还是debian jessie,隧准备升级。 原来配置的是科大的mi…

Pikachu-Unsafe Fileupload-服务端check

MIME MIME是Multipurpose Internet Mail Extensions (多用途互联网邮件扩展类型)的缩写,用来表示文件、文档、或字节流的性质和格式。是设定某种扩展名的文件用一种应用程序来打开的方式类型,当该扩展名文件被访问的时候&#xff…

408算法题leetcode--第22天

200. 岛屿数量 200. 岛屿数量时间:O(mn);空间:O(min(m, n)),队列最大入队个数,可以想象从左上到右下,第一次入队1个,第二次出队1,入队2,第三次出队2,入队3……

查看 git log的过程中看到 :说明日志输出可能超出屏幕大小,系统进入了分页模式

在命令行提示符中,通常 : 表示系统等待进一步的输入。如果你在查看 git log 的过程中看到 :,说明日志输出可能超出屏幕大小,系统进入了分页模式,默认使用 less 命令查看内容。 此时你可以: 按 q 退出日志查看。按 En…

Pikachu-csrf-CSRF(POST)

发起请求 拦截抓包&#xff0c;在请求信息中&#xff0c; Engagement Tool --》generate CSRF PoC 得到以下 html 代码 &#xff0c;生成poc.html 文件&#xff0c;当用户点击 <html><!-- CSRF PoC - generated by Burp Suite Professional --><body><…

DP34 【模板】前缀和

文章目录 1.题目描述输入描述&#xff1a;输出描述&#xff1a; 示例1 2.思路3.代码 1.题目 DP34 【模板】前缀和 描述 给定一个长度为n的数组a1,a2,…ana1,a2,…a**n. 接下来有q次查询, 每次查询有两个参数l, r. 对于每个询问, 请输出alal1…ara**la**l1…a**r 输入描述…

泛微OA将流程明细表内容传给SAP

泛微OA 将流程的明细表数据传给SAP 在泛微二开中&#xff0c;经常会遇到的问题就有涉及到多个系统数据传输的问题&#xff0c;今天记录的就是泛微OA与SAP系统的数据传输&#xff0c;希望对你有用 传递参数给SAP 一般在与SAP系统传输数据的时候&#xff0c;需要明确SAP接收的…

Redis篇(Redis原理 - RESP协议)

目录 一、简介 二、Redis通信协议 基于Socket自定义Redis的客户端 三、Redis内存回收 1. 过期key处理 1.1. 惰性删除 1.2. 周期删除 1.3. 知识小结 2. 内存淘汰策略 一、简介 Redis是一个CS架构的软件&#xff0c;通信一般分两步&#xff08;不包括pipeline和PubSub&a…