Hadoop简介之望见数据湖

news/2024/11/20 9:19:20/

1 Hadoop概述

随着信息化时代的来临,数据信息呈爆炸式增长。IBM的研究称,90%的人类文明数据是近两年产生的,而到了2020年,全球产生的数据量将是今天的44倍。传统的方法已难以应对越来越多的海量数据,因此海量数据的处理方法成为研究热点。大数据技术研究与应用推动互联网产业的快速发展,同时企业也促进了大数据技术的“新陈代谢”。
在国外的计算机行业,Yahoo,Linkedin,Fackbook,eBay等企业都着手搭建Hadoop平台,努力推动Hadoop技术的发展并完善Hadoop项目。在国内,随着中国科学技术的发展创新,如阿里巴巴和京东等国内电商平台、微博和微信等社交网络平台及其他数据信息行业积极搭建Hadoop大数据分布式计算平台,并对数据进行采集、处理和分析。
Hadoop使用的开发语言是Java,由文本搜索系统库(Lucene)的创始人道格·卡丁(Doug Cutting)创建。Hadoop是由Apache软件基金会支持的基础架构系统,而且还是对Google的文件系统 (Google File System,GFS),MapReduce和Bigtable等核心技术开源实现的分布式计算平台。Hadoop框架的设计核心是MapReduce和分布式文件系统(Hadoop Distribute File System,HDFS)。
如图1-1所示,HDFS和MapReduce分别为海量数据提供了数据存储和并行计算。HDFS是对GFS的开源实现,其冗余存储的方式使得安全性得到保证。并通过廉价计算机搭建服务器集群获得海量数据的分布式存储能力,这样不仅降低了开发成本,还具备了高吞吐率的读写、高容错性和高扩展性。
MapReduce是针对Google MapReduce的开源实现,是一种海量


http://www.ppmy.cn/news/834985.html

相关文章

qcon_从QCon伦敦2010中学到的重点知识和教训

qcon 在本文中,我们介绍了许多博客上有关 QCon的博客的观点和观点,以便您可以体会QCon London的印象和经历。 从最初的教程到最后的会议,人们在他们的博客中讨论了QCon的许多方面。 您还可以在Flickr上看到众多与会者拍摄的QCon照片。 这次Q…

编程 单引号 双引号_我的25个最喜欢的编程引号也很有趣

编程 单引号 双引号 Recently I was looking for some good programming quotes for one of my presentation. I was amazed to find that there are some good programming quotes that are really funny and need some brains to figure out the fun part. 最近,我…

再见c罗再见梅西_再见眼镜你好smartglasses

再见c罗再见梅西 It’s been a few months since I last wrote about augmented reality (AR), and, if anything, AR activity has only picked up since then — particularly in regard to smartglasses. I pointed out then how Apple’s Tim Cook and Facebook’s Mark Zu…

极客时间和极客学院_本周极客历史:旅行者指南,光盘和旋风式操作系统

极客时间和极客学院 Every week we look at fascinating facts and trivia from the history of Geekdom. This week we’re taking a look at The Hitchhiker’s Guide to the Galaxy, Compact Discs, and Whirlwind, the first computer to foreshadow modern operating syst…

江西理工大数据笔记

文章目录 1、大数据简介2、Linux2.1 安装部署2.2 windows连接虚拟机**作业**2.3 常用命令**系统相关命令****文件相关命令****软件安装操作**shell脚本脚本定时作业 3、Hadoop3.1 为什么要用hadoop3.2 Hadoop的简要介绍3.3 谷歌的三篇论文3.4 Hadoop的发展历史3.5 Hadoop的版本…

大数据笔记

文章目录 1、大数据简介2、Linux2.1 安装部署2.2 windows连接虚拟机**作业**2.3 常用命令**系统相关命令****文件相关命令****软件安装操作**shell脚本脚本定时作业 3、Hadoop3.1 为什么要用hadoop3.2 Hadoop的简要介绍3.3 谷歌的三篇论文3.4 Hadoop的发展历史3.5 Hadoop的版本…

ASN.1编解码与编程

ASN.1编解码与编程 荣涛 2021年8月23日 2386499836qq.com 1. 概述 ASN.1 – Abstract Syntax Notation dot one,抽象记法1。数字1被ISO加在ASN的后边,是为了保持ASN的开放性,可以让以后功能更加强大的ASN被命名为ASN.2等,但至今也…

17.AtomicInteger、AtomicBoolean的底层原理

小陈:老王啊,今天就要开始Atomic原子类的学习了吧...... 老王:是啊,之前我们只是简单介绍了Atomic的体系,今天我们就要进入Atomic底层原理的的学习了,首先我们从AtomicInteger这个比较简单的原子类开始&…