Hadoop(CentOS)安装及MapReduce实现数据去重

news/2025/1/8 20:14:23/

Hadoop(CentOS)安装及MapReduce实现数据去重

1. JDK安装

1.1 资源下载:

  • 下载地址:https://pan.quark.cn/s/17d7266205f9

    • hadoop的安装 包

    • java jdk安装包

    • eclipse连接hadoop工具

  • 所学其他工具可自行在官网下载

    • centos下载地址:https://www.centos.org/centos-linux/
    • Vmware虚拟机官网下载地址:
      • Vmware下载:https://www.vmware.com/products/workstation-pro.html
      • 下载之后安装完成,到输入密钥的地方时候,可以直接在百度上搜一个,超简单的啦!

1.2 虚拟机网络配置

Vmware配置及 xshell连接:https://zjxweb.github.io/#/techBlog/vmware/

  1. 先输入ip addr 查看ip的内容,发现没有ip 地址,所以进行ip的配置。需要先关闭网络管理器,之后要开启网络。请添加图片描述

  2. 在编辑中找到虚拟网络编辑器,查看ip 地址的范围,查看子网掩码以及网关。

请添加图片描述
请添加图片描述
![请添加图片描述](https://img-blog.csdnimg.cn/a82486e822d34ff3a01627853cbf3b34.png请添加图片描述

  1. 输入命令,修改相关配置

    • vim /etc/sysconfig/network-scripts/ifcfg-ens33 
      

请添加图片描述

 > 上面图片由于截图时间问题,有些对不上,各位按照自己的配置来!!!!
  • 设置完成之后,开启网络,输入ip addr查看ip地址,发现ip地址已经有了,之后ping www.baidu.com 查看是否可以连接外网。(暂停 Ctrl+Z)

1.2.1 防火墙关闭

  • [zjx@localhost ~] systemctl stop firewalld
    [zjx@localhost ~] systemctl disable firewalld.service
    

1.3 JDK安装

1.3.1 卸载虚拟机自带的JDK

  • 注意:如果你的虚拟机是最小化安装不需要执行这一步。

  • [zjx@localhost ~] rpm -qa | grep -i java | xargs -n1 rpm -e --nodeps 
    
    • rpm -qa:查询所安装的所有rpm软件包
    • grep -i:忽略大小写
    • xargs -n1:表示每次只传递一个参数
    • rpm -e –nodeps:强制卸载软件
  • 如果没有rpm请安装

    • [zjx@localhost ~] yum install rpm
      
  • 重启虚拟机

    • [zjx@localhost ~] reboot
      

1.3.2 使用 rz从xshell上传所需的包

lrzsz这个软件,可以让我们直接从linux上,下载和上传文件的操作
yum install -y lrzsz

1.3.3 JDK安装过程

  1. 新建目录(按自己的来)

    cd /home
    mkdir software && cd software
    rz
    上传包到此目录下
    
  2. 解压

    [zjx@localhost software]$ tar zxvf jdk-8u171-linux-x64.tar.gz 
    
  3. .新建/etc/profile.d/my_env.sh文件

    sudo vim /etc/profile.d/my_env.sh
    
  4. 添加如下内容

    #JAVA_HOME
    export JAVA_HOME=/home/software/jdk1.8.0_171
    export PATH=$PATH:$JAVA_HOME/bin
    
  5. source一下/etc/profile文件,让新的环境变量PATH生效

    source /etc/profile
    
  6. 测试JDK是否安装成功

    java -version
    

在这里插入图片描述

2. Hadoop安装

# 切换到software目录
cd /home/software
rz #上传hadoop
[root@localhost software]# tar zxvf hadoop-2.7.7.tar.gz
  • 将Hadoop添加到环境变量

    1. 将Hadoop添加到环境变量

      sudo vim /etc/profile.d/my_env.sh
      
    2. 在my_env.sh文件末尾添加如下内容

      export HADOOP_HOME=/home/software/hadoop-2.7.7
      export PATH=$PATH:$HADOOP_HOME/bin
      export PATH=$PATH:$HADOOP_HOME/sbin
      
    3. source一下/etc/profile文件,让新的环境变量PATH生效

      source /etc/profile
      
    4. 测试是否安装成功

      [root@localhost software]# hadoop version
      Hadoop 2.7.7
      
    5. hadoop 目录介绍

      • bin目录:存放对Hadoop相关服务(hdfs,yarn,mapred)进行操作的脚本
      • etc目录:Hadoop的配置文件目录,存放Hadoop的配置文件
      • lib目录:存放Hadoop的本地库(对数据进行压缩解压缩功能)
      • sbin目录:存放启动或停止Hadoop相关服务的脚本
      • share目录:存放Hadoop的依赖jar包、文档、和官方案例

3. Hadoop运行模式

  • Hadoop官方网站:http://hadoop.apache.org
  • Hadoop运行模式包括:本地模式、伪分布式模式以及完全分布式模式。
    • 本地模式:单机运行,只是用来演示一下官方案例。生产环境不用。
    • 伪分布式模式:也是单机运行,但是具备Hadoop集群的所有功能,一台服务器模拟一个分布式的环境。个别缺钱的公司用来测试,生产环境不用。
    • 完全分布式模式:多台服务器组成分布式环境。生产环境使用。

4. hadoop伪分布式配置

  • 接下来是hadoop伪分布式配置。Hadoop 可以在单节点上以伪分布式的方式运行,Hadoop 进程以分离的 Java 进程来运行,节点既作为 NameNode 也作为 DataNode,同时,读取的是 HDFS 中的文件。

  • Hadoop 的配置文件位于 /usr/local/hadoop/etc/hadoop/ 中,伪分布式需要修改2个配置文件 core-site.xml 和 hdfs-site.xml 。Hadoop的配置文件是 xml 格式,每个配置以声明 property 的 name 和 value 的方式来实现。

cd /home/software/hadoop-2.7.7/etc/hadoop
vim core-site.xml
<configuration><property><name>hadoop.tmp.dir</name><value>file:/usr/local/hadoop/tmp</value><description>Abase for other temporary directories.</description></property><property><name>fs.defaultFS</name><value>hdfs://localhost:9000</value></property>
</configuration>

注意:这里可能会报权限错误的问题,所以说我们要分配权限

cd /home/software/hadoop-2.7.7/etc/hadoop
chmod +w core-site.xml
  • 接着配置hdfs文件
cd /home/software/hadoop-2.7.7/etc/hadoop
vim hdfs-site.xml
chmod +w core-site.xml
<configuration><property><name>dfs.replication</name><value>1</value></property><property><name>dfs.namenode.name.dir</name><value>file:/usr/local/hadoop/tmp/dfs/name</value></property><property><name>dfs.datanode.data.dir</name><value>file:/usr/local/hadoop/tmp/dfs/data</value></property>
</configuration>
  • Hadoop 的运行方式是由配置文件决定的(运行 Hadoop 时会读取配置文件),因此如果需要从伪分布式模式切换回非分布式模式,

  • 需要删除 core-site.xml 中的配置项。

  • 配置完成后,执行 NameNode 的格式化:

    cd /home/software/hadoop-2.7.7
    ./bin/hdfs namenode -format
    
  • 接着开启 NameNode 和 DataNode 守护进程。

cd /home/software/hadoop-2.7.7
./sbin/start-dfs.sh
  • 或者使用all来开启/结束hadoop全部进程

    cd /home/software/hadoop-2.7.7
    ./sbin/start-all.sh
    ./sbin/stop-all.sh
    
  • 启动完成后,可以通过命令 jps 来判断是否成功启动

    jps
    

在这里插入图片描述

5. Linux系统下eclipse中配置Hadoop插件

  • rz工具将下载好的 hadoop-eclipse-plugin-2.7.3 传输到eclipse目录下的plugins文件夹下即可.

5.1 开始配置

  1. cd到eclipse目录下,输入命令./eclipse 打开eclipse

    • eclipse安装简单说明一下吧

      下载-> 解压-> cd 进去解压的目录 -> ./eclipse

  2. 依次点击:顶部菜单栏的Window → Open Perspective → Other…→ Map/Reduce → OK 出现如下界面即说明操作正确

在这里插入图片描述

  1. 如果打开eclipse是该界面,点击图中指向的按钮即可

在这里插入图片描述

  1. 接着点击Map/Reduce Locations,在下方空白处单击右键 → 点击New Hadoop location…

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-V0bxGere-1686796551430)(./src/10.png)]

自定义一个Location name,接着将Host中的内容修改为你的master节点的IP地址,右边的Port改为9000 (这是因为在你的core-site.xml配置文件中配置的端口号为9000)

  1. 然后点击上图中黑色箭头指向的Advanced parameters,出现如下界面,滚动鼠标滚轮下拉找到 hadoop.tmp.dir,修改后面的路径

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-HNDFkrmj-1686796551430)(./src/11.png)]

找hadoop.tmp.dir路径的方法:
打开一个新的终端,cd到(以笔者为例)cd /home/software/hadoop-2.7.7/etc/hadoop/ 路径下面,输入命令vim core-site.xml 打开配置文件,就可以找到你的hadoop.tmp.dir相应的路径

  • 完成后点击finish即可,若出现类似如下界面,则说明成功了

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-95KEqVlT-1686796551431)(./src/12.png)]

:在这之前要先将Hadoop集群启动,否则将会失败

6. MapReduce实现数组去重

  • [root@localhost zjx]# cd /home/software/hadoop-2.7.7/
    vim file1.txt
    vim file2.txt
    
  • file1.txt

    • 2012-3-1 a
      2012-3-2 b
      2012-3-3 c
      2012-3-4 d
      2012-3-5 a
      2012-3-6 b
      2012-3-7 c
      2012-3-3 c
      
  • file2.txt

    • 2012-3-3 b
      2012-3-4 d
      2012-3-5 a
      2012-3-6 c
      2012-3-7 d
      2012-3-3 c
      

6.1 开始啦

  • 先在HDFS创建DateRemove文件夹

  • cd /home/software/hadoop-2.7.7/
    ./bin/hdfs dfs -mkdir /user/hadoop/DateRemove # 如果报错请运行这个 ./bin/hdfs dfs -mkdir -p /user/hadoop/DateRemove
    
  • 用ls查看文件是否创建成功

./bin/hdfs dfs -ls /user/hadoop

+ [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-oHx4Q53D-1686796551431)(./src/13.png)]

  • 在HDFS下创建一个名称为DateRemove/input的目录

    • ./bin/hdfs dfs -mkdir /user/hadoop/DateRemove/input
      
  • 将file1.txt和file2.txt传到hdfs的/user/hadoop/DateRemove/input文件夹中

    • ./bin/hdfs dfs -put ./file1.txt  /user/hadoop/DateRemove/input
      ./bin/hdfs dfs -put ./file2.txt  /user/hadoop/DateRemove/input
      ./bin/hdfs dfs -ls  /user/hadoop/DateRemove/input
      

    + [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ZzBS54mh-1686796551431)(./src/14.png)]

6.2 在Linux下的eclipse中创建一个MapReduce工程

6.2.1 开始创建MapReduce

  1. 配置Hadoop路径

    • 依次点击:顶部菜单栏的Window → Preferences,出现如下界面:

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-fhDc1JQJ-1686796551431)(./src/15.png)]

选择左边的 Hadoop Map/Reduce,点击右边Browse…,选择Hadoop文件夹的路径即可

  1. 创建工程
    依次点击:顶部菜单栏的File → New → Project,出现如下界面:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-j0VpJ9FE-1686796551432)(./src/16.png)]

选择Map/Reduce Project,点击右下方 Next> 然后输入项目名称wordcount,点击右下方 Next>,再点击Finish,创建项目。此时插件会把hadoop根目录和lib目录下的所有jar包自动导入

  1. 按照如下目录创建你自己的目录

"E:\study\zjxWeb.github.io\docs\techBlog\hadoop\src\17.png"

  1. DedupMapper.java
package Data_De_duplication;import java.io.IOException;import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;public class DedupMapper extends Mapper<LongWritable, Text, Text, NullWritable> {private static Text field = new Text();  @Override  protected void map(LongWritable key, Text value, Context context)  throws IOException, InterruptedException {  field = value;  context.write(field, NullWritable.get());  }  }
  1. DedupReducer.java
package Data_De_duplication;import java.io.IOException;import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;public class DedupReducer extends Reducer<Text, NullWritable, Text, NullWritable>{@Override  protected void reduce(Text key, Iterable<NullWritable> values,  Context context) throws IOException, InterruptedException {  context.write(key, NullWritable.get());  }  }
  1. DedupRunner.java
package Data_De_duplication;import java.io.IOException;import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;public class DedupRunner {public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {Configuration conf = new Configuration();Job job = Job.getInstance(conf);job.setJarByClass(DedupRunner.class);job.setMapperClass(DedupMapper.class);job.setReducerClass(DedupReducer.class);job.setOutputKeyClass(Text.class);job.setOutputValueClass(NullWritable.class);FileInputFormat.setInputPaths(job, new Path("hdfs://localhost:9000/user/hadoop/DateRemove/input"));// 指定处理完成之后的结果所保存的位置FileOutputFormat.setOutputPath(job, new Path("hdfs://localhost:9000/user/hadoop/DateRemove/output"));job.waitForCompletion(true);}
}
  1. 点击刚创建的DedupRunner.java,选择Run As -> Run Configurations,设置运行时的相关参数如下

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-h0i1zcpr-1686796551432)(./src/18.png)]

  1. run起来吧

在这里插入图片描述

在这里插入图片描述

hdfs://localhost:9000/user/hadoop/DateRemove/input
hdfs://localhost:9000/user/hadoop/DateRemove/output
  1. 结果

请添加图片描述

参考链接(感谢各位大佬的博客)

  1. Hadoop集群的配置:https://blog.csdn.net/qq_54542910/article/details/127366061

  2. 虚拟机安装Hadoop https://blog.csdn.net/qq_54542910/article/details/127364777?spm=1001.2014.3001.5501

  3. Hadoop 安装与配置:https://blog.csdn.net/weixin_43571612/article/details/129168659

  4. 大数据之Hadoop3.x 运行环境搭建(手把手搭建集群):https://blog.csdn.net/yuan2019035055/article/details/120901871

  5. 大数据之Hadoop学习(十二)对数据文件中的数据进行去重基于(MapReduce编程):https://blog.csdn.net/qq_42585108/article/details/105982486?utm_medium=distribute.pc_relevant.none-task-blog-2defaultbaidujs_baidulandingword~default-0-105982486-blog-40559781.235v38pc_relevant_anti_vip&spm=1001.2101.3001.4242.1&utm_relevant_index=3

  6. Linux系统下eclipse中配置Hadoop插件:https://blog.csdn.net/hxhRxz/article/details/105030871?utm_medium=distribute.pc_relevant.none-task-blog-2defaultbaidujs_baidulandingword~default-0-105030871-blog-49561361.235v38pc_relevant_anti_vip&spm=1001.2101.3001.4242.1&utm_relevant_index=3

  7. 在Linux下的eclipse中创建一个MapReduce工程:https://blog.csdn.net/hxhRxz/article/details/105053119?spm=1001.2014.3001.5502

  8. Centos之上传下载命令rz和sz-yellowcong:https://dandelioncloud.cn/article/details/1530902039366483969


http://www.ppmy.cn/news/400197.html

相关文章

Java企业开发学习笔记(1.5.1)采用配置方式使用AOP

一、采用配置方式使用AOP 1.1 创建所需子包 在cn.kox.spring包里创建day05.aop_xml子包 1.2 创建杀龙任务类 在aop_xml子包里创建杀龙任务类 - SlayDragonQuest package cn.kox.spring.day05.aop_xml; import org.springframework.stereotype.Component; /* 杀龙任务类*/ …

tinyWebServer 学习笔记——六、注册登录

文章目录 一、基础知识二、代码解析1. 载入数据库表2. 提取用户名和密码3. 同步线程登录注册4. 页面跳转 参考文献 一、基础知识 流程图 [1] 二、代码解析 1. 载入数据库表 // 用户名和密码 map<string, string> users;// 初始化数据库 void http_conn::initmysql_resu…

搜索树的逻辑以及代码实现-重点删除结点的逻辑

目录 搜索二叉树概念 代码 二叉搜索树的插入 二叉搜索树的查找 二叉搜索树的删除&#xff08;非常重要&#xff09; a、b、c情况&#xff1a;删除14 d情况 打印结点中序遍历 整体代码&#xff1a;&#xff08;有R开头的就是递归写法&#xff0c;逻辑一样&#xff09; 搜…

kube-prometheus数据持久化

参考文章 https://blog.csdn.net/MssGuo/article/details/127891331

史密斯图

史密斯图&#xff08;阻抗圆图&#xff09;是高频通讯领域进行阻抗分析的工具之一&#xff0c;此方面高端的数字分析仪器好像许多都具备有硬件的分析显示史密斯图&#xff0c;软件方面应用史密斯图的有90年代斯坦福&#xff08;STANFORDGRAPHICS&#xff09;图和哈佛图&#xf…

ao史密斯定时设置_下图ao史密斯热水器的预约定时怎么用?-史密斯热水器怎么接线...

下图ao史密斯热水器的预约定时怎么用? 在热水器使用的正常情况下,每三年到指定维修点更换一次温控器和加热器。淋浴器出水量减少时,要及时清理堵塞的杂物,保证出口通畅。不要自行更换热水器上的零件。电热水器在使用一定时间后内部会形成大量水垢,当水垢曾厚到一定程度后,…

ao史密斯定时设置_下图ao史密斯热水器的预约定时怎么用?

展开全部 1、先按一下预约定时,再按增加或减少键即可。 2、你32313133353236313431303231363533e78988e69d8331333365663433可以选择定时和中温保温一起使用,这样在定时范围以外的时间给你保持中温40度左右,到你设定的时间直接加热到你设定的温度,这样不用每次都手动调节了…

分布式定时任务框架 PowerJob

业务背景 1.1 为什么需要使用定时任务调度 &#xff08;1&#xff09;时间驱动处理场景&#xff1a;整点发送优惠券&#xff0c;每天更新收益&#xff0c;每天刷新标签数据和人群数据。 &#xff08;2&#xff09;批量处理数据&#xff1a;按月批量统计报表数据&#xff0c;批…