复习打卡大数据篇——Apache Hadoop

news/2024/12/23 3:16:42/

1. Hadoop简介

Hadoop概念:

Hadoop是一个分布式系统基础架构,主要是为了解决海量数据的存储和海量数据的分析计算问题。组件包括:HDFS,是一个具有高可靠性、高吞吐量的分布式文件系统,用于数据存储;MapReduce用于处理业务逻辑运算;YARN负责作业调度与集群资源管理。

Hadoop特性:

  • 扩容能力:Hadoop是在可用的计算机集群间分配数据并完成计算任务的,这些集群可用方便的扩展到数以千计的节点中。
  • 成本低:Hadoop通过普通廉价的机器组成服务器集群来分发以及处理数据,以至于成本很低。
  • 高效率:通过并发数据,Hadoop可以在节点之间动态并行的移动数据,使得速度非常快。
  • 可靠性:能自动维护数据的多份复制,并且在任务失败后能自动地重新部署(redeploy)计算任务。所以Hadoop的按位存储和处理数据的能力值得人们信赖。

Hadoop集群简介:

 HADOOP集群具体来说包含两个集群:HDFS集群和YARN集群,两者逻辑上分离,但物理上常在一起。

HDFS集群:解决了海量数据存储 分布式存储系统

  • 主角色:namenode(NN)
  • 从角色:datanode(DN)
  • 主角色辅助角色"秘书角色":secondarynamenode (SNN)

YARN集群:集群资源管理 任务调度

  • 主角色:resourcemanager(RM)
  • 从角色:nodemanager(NM)

Hadoop部署模式:

  • Standalone mode(独立模式):又称为单机模式,仅1个机器运行1个java进程,主要用于调试。
  • Pseudo-Distributed mode(伪分布式模式):也是在1个机器上运行HDFS的NameNode和DataNode、YARN的 ResourceManger和NodeManager,但分别启动单独的java进程,主要用于调试。
  • Cluster mode(集群模式):集群模式主要用于生产环境部署。会使用N台主机组成一个Hadoop集群。这种部署模式下,主节点和从节点会分开部署在不同的机器上。
  • 高可用(持续可用)集群 HA :在分布式的模式下给主角色设置备份角色,实现了容错的功能 解决了单点故障,保证集群持续可用性。

集群webUI:

一旦Hadoop集群启动并运行,可以通过web-ui进行集群查看:

  • NameNode    http://nn_host:port/    默认9870
  • ResourceManager    http://rm_host:port/    默认 8088
  • jobhistoryserver     默认 19888


http://www.ppmy.cn/news/1557355.html

相关文章

【AI图像生成网站Golang】项目架构

AI图像生成网站 目录 一、项目介绍 二、雪花算法 三、JWT认证与令牌桶算法 四、项目架构 五、图床上传与图像生成API搭建 六、项目测试与优化 四、项目架构 本项目的后端基于Golang和Gin框架开发,主要包括的模块有: backend/ ├── controller…

RabbitMQ的核心组件有哪些?

大家好,我是锋哥。今天分享关于【RabbitMQ的核心组件有哪些?】面试题。希望对大家有帮助; RabbitMQ的核心组件有哪些? 1000道 互联网大厂Java工程师 精选面试题-Java资源分享网 RabbitMQ是一个开源的消息代理(Messag…

Restaurants WebAPI(三)——Serilog/FluenValidation

文章目录 项目地址一、Serilog使用1.1 安装 Serilog1.2 注册日志服务1.3 设置日志级别和详情1.4 配置到文件里1.5 给不同的环境配置日志1.5.1 配置appsettings.Development.json二、Swagger的使用三、自定义Exception中间件3.1 使用FluentValidation项目地址 教程作者:教程地址…

TinyML在OBD-II边缘设备上燃油类型分类的实现与优化

论文标题:TinyML Implementation and Optimization for Fuel Type Classification on OBD-II Edge Device(TinyML在OBD-II边缘设备上燃油类型分类的实现与优化) 作者信息:Miguel Amaral, Morsinaldo Medeiros, Matheus Andrade, …

高并发架构设计:从 Java Callable 到 CompletableFuture 的进阶修炼

前言 在现代的分布式系统中,高并发性能是一个决定系统能否成功的关键因素。而 Java 作为主流的后端开发语言,也提供了许多强大的工具来帮助我们处理并发任务。今天,我们将通过两个关键工具来讲解高并发架构设计的技巧:Callable 和…

1688跨境代购代采业务:利用API实现自动化信息化

在全球化贸易日益频繁的今天,跨境电商已成为推动国际贸易的重要力量。作为中国电商的源头货盘,1688平台拥有大量的工厂、品牌商和一级批发商,为外贸人提供了极其丰富的货源。如何利用这一平台优势,开展跨境代购代采业务&#xff0…

基础二层交换组网(静态IP)

拓扑图 实验目的 掌握并了解网络中静态IP默认无路由影响的情况。 实验过程 1.创建拓扑 2.配置PC1、PC2 IP地址 PC1: IP地址:192.168.0.1 子网掩码:255.255.255.0PC2: IP地址:192.168.0.2 子网掩码:255.…

selenium 在已打开浏览器上继续调试

关闭浏览器,终端执行如下指令,--user-data-dir换成自己的User Data路径 chrome.exe --remote-debugging-port9222 --user-data-dir"C:\Users\xxx\AppData\Local\Google\Chrome\User Data" 会打开浏览器,打开百度,如下状…