hadoop3跑第一个例子wordcount

embedded/2024/9/23 2:54:48/

1、创建目录

hdfs dfs -mkdir -p /user/input

2、创建测试文件,并上传文件到hdfs

echo '1' > 1.txt
hdfs dfs -put 1.txt /user/input

3、进入hadoop-3目录,并创建测试文件

cd /app/hadoop-3

创建目录
mkdir wcinput
cd wcinput
保存wc.input
nano wc.input

hadoop yarn
hadoop mapreduce
spark
spark

上传文件

hdfs dfs -put wcinput/wc.input /user/input/

4、使用词频测试wordcount

hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.6.jar wordcount /user/input/ /user/output

问题:
如果卡住很久,修改更改mapred-site.xml文件将

<property><name>mapreduce.framework.name</name><value>yarn</value>
</property>

改为:

<property><name>mapreduce.job.tracker</name><value>hdfs://此处为自己的电脑IP:8001</value><final>true</final></property>

再次运行即可。

hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.6.jar wordcount /user/input/ /user/output

另一种可以尝试的方法是修改:yarn-site.xml
删除cpu和内存配置的相关内容,重启yarn。
参考文章:
https://blog.csdn.net/lwprain/article/details/142280497?spm=1001.2014.3001.5501
5、输出统计结果

hdfs dfs -cat /user/output/*

6、修改hdfs的权限 不一定用

hdfs dfs -chmod -R 755 / 

7、常用地址
http://192.168.6.19:9870/ 查看文件
http://192.168.6.19:8088/查看mapreduce情况
8、删除输出目录

hdfs dfs -rm -R /user/output

9、如果跑例子时提示出错,找不到resource-types.xml文件,则
nano etc/hadoop/resource-types.xml ,添加后可能会导致yarn无法启动,目前尚未找到原因。
内容如下:

<configuration><property><name>yarn.resource-types</name><value>resource1, resource2</value></property><property><name>yarn.resource-types.resource1.units</name><value>G</value></property><property><name>yarn.resource-types.resource2.minimum</name><value>1</value></property><property><name>yarn.resource-types.resource2.maximum</name><value>1024</value></property>
</configuration>

10、 提示错误:Couldn’t preview the file. NetworkError: Failed to execute ‘send’ on ‘XMLHttpRequest’: Failed to load
hdfs-site.xml 增加内容,用于web预览文件

<property><name>dfs.webhdfs.enabled</name><value>true</value>
</property>

11、如果windows下需要预览文件
在C:\Windows\System32\drivers\etc\hosts
增加: 192.168.6.19 master 即可


http://www.ppmy.cn/embedded/115367.html

相关文章

半导体制造技术中的沉积和驱入(Deposition and drive-in)过程

来源&#xff1a;半导体制造技术导论——萧宏 沉积和驱入过程 图5.34 硼掺杂工艺高温扩散炉系统示意图 图5.35 扩散掺杂工艺流程 图5.36 扩散工艺在超浅结深&#xff08;USJ&#xff09;上的应用

flutter基础 --dart语法学习

由于想要写一款性能较好,但是又可以一套代码多个平台运行的客户端app,所以选择了flutter 就去看了官方文档,大体发现flutter使用的dart语言和java和js差不多,感觉就是缝合怪。 Dart 是一种面向对象的编程语言&#xff0c;语法上与 Java、JavaScript 等语言有一些相似之处&…

深度学习02-pytorch-06-张量的形状操作

在 PyTorch 中&#xff0c;张量的形状操作是非常重要的&#xff0c;可以让你灵活地调整和处理张量的维度和数据结构。以下是一些常用的张量形状函数及其用法&#xff0c;带有详细解释和举例说明&#xff1a; 1. reshape() 功能: 改变张量的形状&#xff0c;但不改变数据的顺序…

简单了解 JVM

目录 ♫什么是JVM ♫JVM的运行流程 ♫JVM运行时数据区 ♪虚拟机栈 ♪本地方法栈 ♪堆 ♪程序计数器 ♪方法区/元数据区 ♫类加载的过程 ♫双亲委派模型 ♫垃圾回收机制 ♫什么是JVM JVM 是 Java Virtual Machine 的简称&#xff0c;意为 Java虚拟机。 虚拟机是指通过软件模…

高级java每日一道面试题-2024年9月17日-框架篇-什么是ORM框架?

如果有遗漏,评论区告诉我进行补充 面试官: 如何处理事务中的性能问题&#xff1f; 我回答: 在Java高级面试中&#xff0c;理解ORM&#xff08;Object-Relational Mapping&#xff0c;对象关系映射&#xff09;框架是非常重要的。ORM框架是一种编程技术&#xff0c;用于将面向…

如何在微服务的日志中记录每个接口URL、状态码和耗时信息?

一、实现方式 1.直接通过SpringCloud-GateWay 的GlobalFilter实现 2.AOP反射自定义注解自己封装 二、具体实现 1.自定义注解 Target({ElementType.METHOD})//作用在方法上 Retention(RetentionPolicy.RUNTIME)//运行时生效 public interface MethodExporter{//自定义注解只…

Python知识点:如何使用Python进行算法交易

开篇&#xff0c;先说一个好消息&#xff0c;截止到2025年1月1日前&#xff0c;翻到文末找到我&#xff0c;赠送定制版的开题报告和任务书&#xff0c;先到先得&#xff01;过期不候&#xff01; 使用Python进行算法交易的完整指南 在当今快节奏的金融市场中&#xff0c;算法…

systemctl控制服务和守护进程

system守护进程介绍: systemd daemon(守护进程)管理linux的启动,包括服务的启动和管理 systemd可在系统引导时以及运行中的系统上激活系统资源、服务器守护进程和其他进程。 守护进程daemon是在后台运行或等待的进程,以执行不同的任务。通常daemon在系统启动时…