何为大数据?

news/2024/11/7 21:06:15/

多大的数据量才算是大数据?这是从存储角度来界定的,1TB或者是1PB还是更多?大数据库有哪些基本特征?大数据永远是大数据吗?10几年前我们觉得1GB的数据很大,20多年前,100MB也很大,30多年前,在一次计算机展会上,Bill Gates (比尔·盖茨)曾经说过当时刚推出的IBM PC的640KB的可用RAM限制应该是“ought to be enough for everyboby”(640个kb(千字节)对任何人来说都应该足够了。),不过后来其极力否认当年说过此话。

我们来看看更直观的量化比较数据吧:

1 Byte = 一粒沙子

1 KB = 一小撮沙子

1 MB=一小碗沙子

1 GB = 一盒沙子

1 TB = 一个沙箱(1000盒沙子)

1 PB= 一个1千米长的海滩上的沙粒总数

1 EB = 北京到上海之间距离的沙粒总和

1 ZB = 几乎全世界所有海滩上得沙粒综合

从数据的生成速度来看,根据国际数据公司IDC的监测数据显示:

2013年,全球大数据库储量为4.3ZB(相当于47.24亿个1TB容量的移动硬盘);

2014年是6.6ZB;

2015年是8.6ZB;

2016年是16.1ZB;

2017年是21.6ZB;

2018年是33.0ZB

……

尤其是COVID-19以来,数据生成速度更为惊人!(暂略)

从数据产生的渠道来看:

·人类活动生成的数据:

网页浏览

移动设备使用

·机器产生的数据:

生产线设备

物联网设备、传感器等

无线网络等

对于大数据,不同人有不同的定义,最流行的是早在2001年的 Meta Group,现在叫Garther的分析师Doug Lanley定义的“3V”,也就是用3个特点来定义大数据库:

数量(Volume)—— 庞大容量 (2010—2020年,数据量增长44倍)

种类(Variety)—— 种类丰富 (结构化、半结构化、准结构化、非结构化)

速度(Velocity)—— 极快速度 (Twitter每秒产生120万的推文;Google每秒能处理100万个                                     搜索;facebook每天新生成2.5亿张照片……)

当然,后来又增加了其他几个“V”,如数据真实性(Veracity)、数据价值(Velue)等,最多的时候有人提出过11个“V”,不过笔者认为“4V”即可 ,也就是处以上的“3V”外,再加上真实性(Veracity)(数据的噪声、处理上的错误)

数据的完整生命周期就是从杂乱无章的数据到整理而成的信息,再到提炼而成的知识,进而升华为智慧,最后演变成可以赋予机器的智能

数据的完整生命周期

 


http://www.ppmy.cn/news/296295.html

相关文章

大数据十大“关键词”

2021年,互联网大数据行业经历了一场耐力大考验。 这一年,政策监管席卷了诸多行业,互联网行业身处风暴眼。从反垄断超200亿元巨额罚款,到平台之间“拆墙”势在必行,数据合规已经上升至国家安全的战略高度,一…

大数据的理解

大数据讲解 1、大数据概念2、大数据特点2.1 Volume(大量)2.2 Variety(多样)2.3 Velocity(高速)2.4 Value(价值) 3 大数据技术发展史4 大数据应用场景4.1医疗大数据看病更高效4.2生物…

大数据技术概论

大数据技术概论 大数据技术的产生 大数据的基本概念 ●大数据简介: 大数据是规模非常巨大和复杂的数据集,传统数据库管理工具处理起来面临很多问题,比如说获取、存储、检索、共享、分析和可视化,数据量达到PB、EB或ZB的级别。 大数据有三个V: 一是数据量(Volume),数…

大数据与云计算应用

第一章 云计算概述 什么是云计算 就像生活中的水、电、煤等利用着的IT资源都无时无刻的按人们自己的需求使用 而水、电、煤,这些呢是属于资源性产品 IT资源就是计算存储网络资源 云计算的定义 按需使用IT资源和应用程序,通过互联网…

上海大数据研究中心专委会成立

日前,上海互联网大数据工程技术研究中心专家委员会在上海理想信息产业(集团)有限公司成立,该中心将依托企业、科研院所和高校等科技创新科研实体,完成工程化研发、突破行业关键技术、加快科技成果转移和扩散等促进行业…

上海大数据技术汇

活动背景 信息创造价值!以数据为本的新一代信息处理技术,让数据获取、处理和呈现方式与手段更加丰富多元,更多维度凸显数据价值,深刻改变着我们的生活和工作方式。 由示说网发起的上海“大数据技术汇”线下交流活动,致…

上海万应云——大数据精准招商系统

上海万应云数字科技有限公司,基于全国企业大数据与企业特有的经营数据,进行动态分析与整合,形成如下几个业务领域: 1、针对地方政府、产业园:形成产业政策分析、产业链路图谱、区域经济报告、高潜企业挖掘,…

大数据技术

CSDN话题挑战赛第2期 参赛话题:大数据技术分享 目录 一、大数据技术 1.大数据的定义 2.大数据的特征 3.大数据框架 4.数据采集 5.数据存储 6.数据处理 7.资源管理 8.ETL任务管理 9.数据应用以及分析工具 二、大数据场景 三、大数据算法 1.hash映射 2…