Hadoop实验:关于MapReduce词频统计的实验步骤

news/2024/12/21 22:31:19/

需要搭建帮助的可以去taobao搜索Easy Company技术服务,谢谢!!!

需要搭建帮助的可以去taobao搜索Easy Company技术服务,谢谢!!!

一、在本地创建两个文本文件

创建 wordfile1.txt 文件,内容为:

I love SparkI love HadoopI love WangJianXiong

创建 wordfile2.txt 文件,内容为:

Hadoop is good 
Spark is fast
WangJianXiong is good

将本地文件复制到docker容器内

docker cp /usr/local/hadoop-docker/wordfile1.txt 88ec9e3975c7:/root/wordfile1.txt
docker cp /usr/local/hadoop-docker/wordfile2.txt 88ec9e3975c7:/root/wordfile2.txt

二、启动 HDFS 并创建 input 目录

hadoop fs -mkdir /input
hadoop fs -ls /

三、上传文件到 HDFS 的 input 目录

hadoop fs -put /root/wordfile1.txt /input
hadoop fs -put /root/wordfile2.txt /input
hadoop fs -ls /input

四、编写 MapReduce 程序

WordCount.java

java">import java.io.IOException;
import java.util.StringTokenizer;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;public class WordCount {// Mapper 类public static class TokenizerMapper extends Mapper<Object, Text, Text, IntWritable> {private final static IntWritable one = new IntWritable(1);private Text word = new Text();public void map(Object key, Text value, Context context) throws IOException, InterruptedException {StringTokenizer itr = new StringTokenizer(value.toString());while (itr.hasMoreTokens()) {word.set(itr.nextToken());context.write(word, one);}}}// Reducer 类public static class IntSumReducer extends Reducer<Text, IntWritable, Text, IntWritable> {private IntWritable result = new IntWritable();public void reduce(Text key, Iterable<IntWritable> values, Context context)throws IOException, InterruptedException {int sum = 0;for (IntWritable val : values) {sum += val.get();}result.set(sum);context.write(key, result);}}// Main 方法public static void main(String[] args) throws Exception {Configuration conf = new Configuration();Job job = Job.getInstance(conf, "word count");job.setJarByClass(WordCount.class);job.setMapperClass(TokenizerMapper.class);job.setCombinerClass(IntSumReducer.class);job.setReducerClass(IntSumReducer.class);job.setOutputKeyClass(Text.class);job.setOutputValueClass(IntWritable.class);FileInputFormat.addInputPath(job, new Path(args[0]));FileOutputFormat.setOutputPath(job, new Path(args[1]));System.exit(job.waitForCompletion(true) ? 0 : 1);}
}

五、编译和运行程序

1.将代码保存到 WordCount.java 文件中

vi WordCount.java

按下 i 进入 插入模式,将上述的WordCount代码插入到此WordCount.java 文件中,:wq保存退出

2.保存完代码后,运行以下命令查看文件内容

cat WordCount.java

3.编译代码

javac -classpath $(hadoop classpath) -d . WordCount.java

$(hadoop classpath):自动获取 Hadoop 所需的类路径。

-d .:编译输出目录设置为当前目录。

jar -cvf wordcount.jar *.class

-cvf:创建一个新的 JAR 文件,显示详细信息。

wordcount.jar:输出的 JAR 文件名。

检查 wordcount.jar 是否已生成

ls -l wordcount.jar

4.运行 MapReduce 作业

将打包的 wordcount.jar 运行在 Hadoop 集群上

hadoop jar wordcount.jar WordCount /input /output

六、查看输出结果

hadoop fs -cat /output/part-r-00000


http://www.ppmy.cn/news/1557030.html

相关文章

2024-12-20 iframe嵌套与postMessage传值

iframe嵌套与postMessage传值 在Web开发中&#xff0c;iframe嵌套和postMessage传值是两个常用的技术&#xff0c;它们各自具有独特的用途和优势。本文将对这两项技术进行详细解析&#xff0c;并通过实例展示其使用方法。 一、iframe嵌套 什么是iframe嵌套&#xff1f; ifram…

go语言压缩[]byte数据为zlib格式的时候,耗时较多,应该怎么修改?

在Go语言中使用compress/flate包来实现Zlib格式的压缩时&#xff0c;如果发现压缩耗时较多&#xff0c;可以考虑以下几个优化方向&#xff1a; ### 1. 压缩级别 默认情况下&#xff0c;compress/flate包中的NewWriter函数使用的是默认压缩级别&#xff08;BestSpeed和BestComp…

【Harmony Next】多个图文配合解释DevEco Studio工程中,如何配置App相关内容,一次解决多个问题?

解决App配置相关问题列表 1、Harmony Next如何配置图标&#xff1f; 2、Harmony Next如何配置App名称&#xff1f; 3、Harmony Next如何配置版本号&#xff1f; 4、Harmony Next如何配置Bundle ID? 5、Harmony Next如何配置build号&#xff1f; 6、Harmony Next多语言配置在哪…

【k8s】在ingress-controlller中Admission Webhook 的作用

介绍1 在 NGINX Ingress Controller 中&#xff0c;Admission Webhook 是一种用于增强 Kubernetes API 请求的机制&#xff0c;它允许你在资源&#xff08;如 Ingress&#xff09;被创建或更新之前对这些请求进行验证或修改。具体来说&#xff0c;Admission Webhook 在 NGINX I…

Sui 基金会任命 Christian Thompson 为新任负责人

Sui 基金会是专注于推动 Sui 蓬勃发展的生态增长与采用的机构。近日&#xff0c;基金会宣布任命 Christian Thompson 为新任负责人。在 Sui 主网发布的开创性一年里&#xff0c;Sui 凭借其无与伦比的速度、可扩展性和效率&#xff0c;迅速崛起为领先的 Layer 1 区块链之一&…

Ubuntu搭建ES8集群+加密通讯+https访问

目录 写在前面 一、前期准备 1. 创建用户和用户组 2. 修改limits.conf文件 3. 关闭操作系统swap功能 4. 调整mmap上限 二、安装ES 1.下载ES 2.配置集群间安全访问证书密钥 3.配置elasticsearch.yml 4.修改jvm.options 5.启动ES服务 6.修改密码 7.启用外部ht…

基底展开(Expansion in a Basis):概念、推导与应用 (中英双语)

参考&#xff1a;Introduction to Applied Linear Algebra – Vectors, Matrices, and Least Squares Stephen Boyd and Lieven Vandenberghe Website: https://web.stanford.edu/~boyd/vmls/ 基底展开&#xff08;Expansion in a Basis&#xff09;&#xff1a;概念、推导与…

JS实现在线预览HTML文件

要在JavaScript中直接预览一个在线的HTML文件&#xff0c;可以采用以下几种方法&#xff1a; 使用iframe标签 这是最简单的方法之一。你可以创建一个iframe元素&#xff0c;并设置其src属性为在线HTML文件的URL。示例代码&#xff1a;const iframe document.createElement(i…