在虚拟机上安装 Hadoop 全攻略

embedded/2025/3/6 9:57:27/

在虚拟机上安装 Hadoop 是进入大数据处理和分析领域的重要一步。以下将详细讲解在常见虚拟机软件(如 VMware Workstation、VirtualBox)中,于 Linux 虚拟机系统安装 Hadoop 的流程与要点。

一、前期准备

  1. 虚拟机软件与系统镜像 :确保已正确安装 VMware Workstation 或 VirtualBox 等虚拟机软件,并且拥有目标操作系统的镜像文件(如 Ubuntu Server ISO、CentOS ISO 等),完成虚拟机的创建与基础系统安装。推荐使用 Ubuntu 或 CentOS,因为这两种发行版有广泛的社区支持和丰富的文档资源。分配足够的内存和硬盘空间给虚拟机,建议至少 2GB 内存和 20GB 硬盘空间 。

  2. 更新系统 :启动虚拟机并登录后,首先更新操作系统以确保所有软件包都是最新的。在 Ubuntu 中,你可以使用以下命令:

    • sudo apt update

    • sudo apt upgrade -y

在 CentOS 中,使用以下命令: * sudo yum update -y

  1. 安装 Java :Hadoop 依赖 Java,因此需要先安装 Java 开发工具包 (JDK)。在 Ubuntu 上,你可以使用以下命令安装 OpenJDK 8 或更高版本:

    • sudo apt install openjdk-8-jdk -y (安装 OpenJDK 8)

    • sudo apt install openjdk-11-jdk -y (安装 OpenJDK 11) 。

安装完成后,验证 Java 是否安装成功,通过命令 java -versionjavac -version,若返回正确的版本信息,说明 Java 安装成功。

二、安装 Hadoop

  1. 下载 Hadoop :访问 Apache Hadoop 的官方网站,下载 Hadoop 的最新版本。你可以使用 wget 命令直接下载到你的虚拟机中:

    • wget https://downloads.apache.org/hadoop/common/hadoop-3.3.1/hadoop-3.3.1.tar.gz (以 Hadoop 3.3.1 为例) 。

  2. 解压 Hadoop :解压下载的 Hadoop 压缩包:

    • tar -xzvf hadoop-3.3.1.tar.gz

    • 将解压后的目录移动到合适的位置,例如 /usr/local/hadoop

    • sudo mv hadoop-3.3.1 /usr/local/hadoop

三、配置 Hadoop 环境变量

编辑 ~/.bashrc 文件,添加 Hadoop 的环境变量:

  • nano ~/.bashrc

  • 在文件末尾添加以下内容:

    export HADOOP_HOME=/usr/local/hadoopexport HADOOP_INSTALL=$HADOOP_HOMEexport HADOOP_MAPRED_HOME=$HADOOP_HOMEexport HADOOP_COMMON_HOME=$HADOOP_HOMEexport HADOOP_HDFS_HOME=$HADOOP_HOMEexport YARN_HOME=$HADOOP_HOMEexport HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/nativeexport PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin 

保存并退出编辑器,然后使配置文件生效:

  • source ~/.bashrc

四、配置 Hadoop

  1. 编辑 core-site.xml 文件 :进入 Hadoop 配置目录 cd /usr/local/hadoop/etc/hadoop ,编辑 core-site.xml 文件,配置 Hadoop 的核心设置:

    • nano core-site.xml

    • 添加以下内容:

    • <configuration>

    • <property>

    • <name>fs.defaultFS</name>

    • <value>hdfs://localhost:9000</value>

    • </property>

    • </configuration>

  2. 编辑 hdfs-site.xml 文件 :编辑 hdfs-site.xml 文件,配置 HDFS 设置:

    • nano hdfs-site.xml

    • 添加以下内容:

    • <configuration>

    • <property>

    • <name>dfs.replication</name>

    • <value>1</value>

    • </property>

    • </configuration>

  3. 编辑 mapred-site.xml 文件 :首先需要复制一个模板文件:

    • cp mapred-site.xml.template mapred-site.xml

    • 然后编辑 mapred-site.xml 文件:

    • nano mapred-site.xml

    • 添加以下内容:

    • <configuration>

    • <property>

    • <name>mapreduce.framework.name</name>

    • <value>yarn</value>

    • </property>

    • </configuration>

  4. 编辑 yarn-site.xml 文件 :编辑 yarn-site.xml 文件,配置 YARN 设置:

    • nano yarn-site.xml

    • 添加以下内容:

      <configuration><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property></configuration> 

五、格式化 HDFS 并启动 Hadoop 服务

  1. 格式化 HDFS :在启动 Hadoop 之前,需要对 HDFS 进行格式化。执行以下命令:

    • /usr/local/hadoop/bin/hdfs namenode -format

  2. 启动 Hadoop 服务 :启动 Hadoop 的 NameNode 和 DataNode 服务:

    • /usr/local/hadoop/sbin/start-dfs.sh

    • 可以使用以下命令检查服务是否成功启动:

    • jps

    • 应能看到 NameNodeDataNode 的进程 。

六、验证 Hadoop 安装

我们可以通过 HDFS 命令来测试安装是否成功:

  • /usr/local/hadoop/bin/hdfs dfs -mkdir /test

  • /usr/local/hadoop/bin/hdfs dfs -ls /

如果能看到 /test 目录,则安装成功 。

七、安装后配置优化

  1. 配置 SSH 免密码登录 :Hadoop 需要 SSH 服务,确保可以无密码登录到本机。生成 SSH 密钥对,并将公钥添加到授权密钥中:

    • ssh-keygen -t rsa

    • cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

  2. 创建 Hadoop 用户 :为了更好地管理 Hadoop,建议创建一个专用用户:

    • sudo adduser hadoopuser

    • 创建完成后,将用户添加到 sudo 组:

    • sudo usermod -aG sudo hadoopuser

八、常见问题及解决

  1. 环境变量配置错误

    • 错误示例 :在配置 Hadoop 环境变量时,错误地设置了 HADOOP_HOME 的路径,导致系统无法识别 Hadoop 命令。

    • 解决方法 :仔细检查 ~/.bashrc 文件中的环境变量配置,确保路径正确无误。使用 echo $HADOOP_HOME 命令检查环境变量是否正确设置,若未设置或设置错误,重新编辑 ~/.bashrc 文件并正确配置 。

  2. HDFS 格式化失败

    • 错误示例 :在格式化 HDFS 时,出现 “JAVA_HOME is not set” 的错误。

    • 解决方法 :确保已正确设置 JAVA_HOME 环境变量,并指向有效的 JDK 安装目录。在 ~/.bashrc 文件中添加 export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64(根据实际 JDK 安装路径修改),然后重新格式化 HDFS 。

  3. Hadoop 服务无法启动

    • 错误示例 :启动 Hadoop 服务时,出现 “NameNode not started” 的错误。

    • 解决方法 :检查 Hadoop 配置文件中的 fs.defaultFSdfs.replication 等关键参数是否配置正确,确保 HDFS 的相关配置与实际环境一致。同时,检查是否有其他冲突的 Hadoop 进程在运行,如有,先停止这些进程,再重新启动 Hadoop 服务 。

通过以上步骤,你应该能够在虚拟机上成功安装并配置 Hadoop。希望这篇指南能为你带来帮助,祝你顺利进入大数据处理和分析的世界!


http://www.ppmy.cn/embedded/170453.html

相关文章

jupyter notebook更改文件存储路径

默认情况打开是这样的 进入cmd或者Anaconda Prompt&#xff0c;输入以下命令 jupyter notebook --generate-config进入该目录 打开该文件&#xff0c;CTRLF 查找c.ServerApp.root_dir 进行修改。 这样就修改好啦&#xff01;

K8s部署kube-state-metrics和cAdvisor

在 Kubernetes (K8s) 上部署 kube-state-metrics 和 cAdvisor&#xff0c;并允许外部访问它们的 metrics 接口&#xff0c;同时配置 RBAC 鉴权&#xff0c;可以按照以下步骤进行。 1. 部署 kube-state-metrics kube-state-metrics 是一个服务&#xff0c;它监听 Kubernetes A…

java后端开发day27--常用API(二)正则表达式爬虫

&#xff08;以下内容全部来自上述课程&#xff09; 1.正则表达式&#xff08;regex&#xff09; 可以校验字符串是否满足一定的规则&#xff0c;并用来校验数据格式的合法性。 1.作用 校验字符串是否满足规则在一段文本中查找满足要求的内容 2.内容定义 ps&#xff1a;一…

Kylin麒麟操作系统服务部署 | NFS服务部署

以下所使用的环境为&#xff1a; 虚拟化软件&#xff1a;VMware Workstation 17 Pro 麒麟系统版本&#xff1a;Kylin-Server-V10-SP3-2403-Release-20240426-x86_64 一、 NFS服务概述 NFS&#xff08;Network File System&#xff09;&#xff0c;即网络文件系统。是一种使用于…

VSCode配置优化指南:打造高效开发环境的终极实践

一、为什么需要优化VSCode&#xff1f; 作为一款轻量级但功能强大的编辑器&#xff0c;VSCode的默认配置虽然能满足基本需求&#xff0c;但面对大型项目、多插件协作或复杂开发场景时&#xff0c;性能瓶颈和操作低效问题会逐渐暴露。优化目标包括&#xff1a; 减少内存和CPU占…

MQ保证消息的顺序性

在消息队列&#xff08;MQ&#xff09;中保证消息的顺序性是一个常见的需求&#xff0c;尤其是在需要严格按顺序处理业务逻辑的场景&#xff08;例如&#xff1a;订单创建 → 支付 → 发货&#xff09;。 一、消息顺序性被破坏的原因 生产者异步/并行发送&#xff1a;消息可能…

CSS Selectors

当然&#xff0c;理解纯CSS选择器&#xff08;CSS Selectors&#xff09;对于进行UI自动化测试非常重要。CSS选择器允许您通过元素的属性、层级关系、类名、ID等来精准定位页面上的元素。下面我将详细讲解CSS选择器的常见用法&#xff0c;并结合您的需求提供具体的示例。 1. 基…

AI浪潮下的软件工程师:如何在变革中突破自我,掌握AI技术

AI浪潮下的软件工程师&#xff1a;如何在变革中突破自我&#xff0c;掌握AI技术 引言 随着人工智能&#xff08;AI&#xff09;技术的飞速发展&#xff0c;各行各业都在经历前所未有的变革。软件工程师作为技术领域的核心力量&#xff0c;面临着新的挑战和机遇。本文将探讨在…