大数据005-hadoop003-了解MR及Java的简单实现

server/2024/9/26 1:23:00/

了解MapReduce

MapReduce过程分为两个阶段:map阶段、reduce阶段。每个阶段搜键-值对作为输入和输出。
要执行一个MR任务,需要完成map、reduce函数的代码开发。


Hellow World

【Hadoop权威指南】中的以分析气象数据为例,找到每年的最高气温。
数据样例如下:
在这里插入图片描述

map阶段

map函数只是一个数据准备阶段。
在本例中,它的功能只需要取出年份、气温两个属性即可。
map函数的输出应该长这样:
在这里插入图片描述

reduce阶段

reduce函数收到的输入数据不是map函数的直接结果,中间经过MR框架的处理(基于键对键-值进行排序和分组处理),看到输入如下:
在这里插入图片描述
键是年份,值是该年的所有气温值。
reduce函数,需要对map函数的输出结果(MR框架处理后)进行处理。
在本例中,它的功能是找到每年的最高气温。
在这里插入图片描述


Java实现MapReduce函数

使用java实现上述例子的map、reduce方法

Map方法

在这里插入图片描述

  1. 实现Mapper(org.apache.hadoop.mapreduce.Mapper),重写map方法,定义输入、输出类型
  2. 将每行文本截取,取出年份、气温属性
    a. 主要是理解它的操作步骤,不用纠结中间的判断细节
  3. 将结果写入到输出中,使用context.write

Reduce函数

在这里插入图片描述

  1. 继承Reduce(org.apache.hadoop.mapreduce.Reducer)函数,定义输入、输出类型
  2. 取出当前集合中的最大值,Math.max
  3. 将结果写入到输出中,使用context.write

调用自定义的MapReduce函数,运行MR任务

在这里插入图片描述

  1. 将代码打包成jar文件
  2. FileInputFormat的addInputPath为原始数据的输入路径
  3. FileInputFormat的setOutputPath为结果数据的输出路径
  4. setMapperClass、setReducerClass为指定要用的map类和reduce类
  5. setOutputKeyClass、setOutputValueClass为reduce函数的输出类型

运行测试

在这里插入图片描述
执行后查看输出目录:
在这里插入图片描述


http://www.ppmy.cn/server/22227.html

相关文章

【数据结构与算法(C语言)】1. 线性表的顺序存储

文章目录 前言一. 线性表插入和删除1. 元素的插入2. 元素的删除 二. 代码三. 优缺点 前言 线性表的顺序存储结构,指的是用一段地址连续的存储单元依次存储线性表的数据结构 一. 线性表插入和删除 1. 元素的插入 插入位置之后的数据都向后移一位,上图中元…

HTML5(1)

目录 一.HTML5(超文本&#xff08;链接&#xff09;标记&#xff08;标签<>&#xff09;语言) 1.开发环境&#xff08;写代码&#xff0c;看效果&#xff09; 2.vscode 使用 3.谷歌浏览器使用 4.标签语法 5.HTML基本骨架&#xff08;网页模板&#xff09; 6.标签的…

利用机器学习进行图像分类:以TensorFlow和Keras为例

当使用 TensorFlow 和 Keras 进行图像分类时&#xff0c;常用的方法是使用卷积神经网络&#xff08;Convolutional Neural Network&#xff0c;CNN&#xff09;。以下是一个简单的图像分类示例&#xff0c;使用 TensorFlow 和 Keras 来训练一个 CNN 模型对手写数字进行分类。 …

《微服务设计》读书笔记

此为阅读纽曼《微服务设计》一书后总结的读书笔记&#xff0c;点此处下载PDF文档。 一、微服务的概念 微服务&#xff08;或称微服务架构&#xff09;是一种云原生架构方法&#xff0c;其核心思想在于将单个应用拆分为众多 小型、松散耦合的服务&#xff0c;服务之间均通过网…

使用minikube搭建本地k8s练习环境

官网文档; https://minikube.sigs.k8s.io/docs/start/ 硬件要求&#xff1a; 2 个或更多 CPU2GB 可用内存20GB 可用磁盘空间容器或虚拟机管理器&#xff0c;例如&#xff1a;Docker、QEMU、Hyperkit、Hyper-V、KVM、Parallels、Podman、VirtualBox或VMware Fusion/Workstatio…

python virtualenv 创建虚拟环境指定python版本,pip 从指定地址下载某个包

一、安装 pip install virtualenv是python3 的话 换成 pip3 如果下载过慢可以从国内链接下载 如下从阿里云下载 pip3 install -i https://mirrors.aliyun.com/pypi/simple virtualenv二、创建指定python版本的虚拟环境 virtualenv venv --pythonpython3.12这里的venv 为创…

基于 Spring Boot 博客系统开发(五)

基于 Spring Boot 博客系统开发&#xff08;五&#xff09; 本系统是简易的个人博客系统开发&#xff0c;为了更加熟练地掌握 SprIng Boot 框架及相关技术的使用。&#x1f33f;&#x1f33f;&#x1f33f; 基于 Spring Boot 博客系统开发&#xff08;四&#xff09;&#x1f…

深入解析 Spring Boot 中的 Reactor 模型

在现代的软件开发中&#xff0c;异步编程和响应式编程模型越来越受到重视。为了满足对高性能、高并发、低延迟的需求&#xff0c;Spring Boot 引入了 Reactor 模型作为其响应式编程的核心框架。本文将深入探讨 Spring Boot 中 Reactor 模型的应用&#xff0c;详细解释其原理、优…