大数据技术概述_1.大数据的定义

ops/2024/10/19 9:31:46/

1.维基百科的定义

         大数据是指其大小或复杂性无法通过现有常用的软件工具,以合理的成本并在可接受的时限内对其进行捕获、管理和处理的数据集。这些困难包括数据的收入、存储、搜索、共享、分析和可视化。

2.Granter的定义

        Granter公司关注大数据的三个量化指标:数据量、数据种类和处理速度。Granter认为传统的存储技术难以应付大数据处理,主要存在以下三大挑战。

        挑战一:不断增长的数据量。在大数据背景下,数据这一宝贵财富通常是不能删除的,因此数据将不断积累增长,增长速度经常超出人们预计。信息中心需要管理TB级甚至PB级数据。要为这些数据提供存储、保护和使用的方案,信息系统需要不断地作相应升级或重构,需要投入大量人力物力。

        挑战二:多格式数据。海量数据包括了越来越多不同格式的数据,这些不同格式的数据也需要不同的处理方法。从简单的电子邮件、数据日志和信用卡记录,在到仪器收集到的科学研究、医疗数据、财务数据以及丰富的媒体数据(包括照片、音乐、视频等),都具有这个特点。

        挑战三:性能。速度是指数据从客户端到处理器和存储的移动速度,涉及终端数据处理能力、数据流访问和交付、服务器计算处理能力和后端存储的吞吐能力。速度意味着要求数据必须以足够快的频率被处理。大数据处理需要不同于交易类应用的速度,通常其对带宽的要求比I/O操作的速度更重要。

        注:Gartner(高德纳,又译顾能公司,NYSE: IT and ITB)全球最具权威的IT研究与顾问咨询公司,成立于1979年,总部设在美国康涅狄克州斯坦福。其研究范围覆盖全部IT产业,就IT的研究、发展、评估、应用、市场等领域,为客户提供客观、公正的论证报告及市场调研报告,协助客户进行市场分析、技术选择、项目论证、投资决策。为决策者在投资风险和管理、营销策略、发展方向等重大问题上提供重要咨询建议,帮助决策者作出正确抉择。

3.IBM的定义

        IBM认为大数据横跨三个层面:数量,速度和品种。IBM将大数据概括为三个V,即大规模(Volume)、高速度(Velocity)和多样化(Variety),这些特点也反映了大数据所潜藏的价值(Value,第四个“V”)。因此大数据的特征可以整体概括为:“海量+多样化+快速处理+价值”。

4.SAS的定义

        SAS大数据传统“3V”模型定义的基础上加入了“可变性”和“复杂性”两个重要特征。

        可变性主要反映了数据流可能具有高度的不一致性,并存在周期性的峰值。对日常的、季节性和时间驱动的峰值数据流的管理具有挑战性,特别是当社交媒体介入的情况下。

        复杂性主要体现在数据来源的多样性上。连接、匹配、清洗和转化来自多个系统的数据是一件非常复杂的事情。除此之外,还需要考虑不同数据源之间的连接关系、关联关系和层次关系等。需要实施数据处理策略,帮助企业系统地集成结构化和非结构化数据资产,产生高质量、恰当的、最新的有用信息。

        注:SAS是全球最大的软件公司之一,是全球商业智能和分析软件与服务领袖。自1976年成立以来,公司收入和利润稳步提高,凭借雄厚的资源,公司在产品开发和客户支持方面不断取得新的成功。全球120个国家的50,000多家客户都在采用SAS解决方案,其中包括《财富》全球500强企业前100家企业中的93家。SAS一直向全球客户提供" THE POWER TO KNOW "。经营范围是商业智能和分析软件及解决方案、智能领域专业咨询服务、基于SAS解决方案的专业培训和技术支持等。2018年12月,世界品牌实验室发布《2018世界品牌500强》榜单,SAS排名第345。


http://www.ppmy.cn/ops/38617.html

相关文章

【进程等待】阻塞等待 | options非阻塞等待

目录 waitpid 阻塞等待 options&非阻塞等待 pid_t返回值 阻塞等待VS非阻塞等待 waitpid 回顾上篇: pid_ t waitpid(pid_t pid, int *status, int options); 返回值: 当正常返回的时候waitpid返回收集到的子进程的进程ID;如果设置了…

Python ArcPy批量将大量栅格文件的投影坐标系转为地理坐标系

本文介绍基于Python语言中的ArcPy模块,批量将多个遥感影像由投影坐标系转为地理坐标系的方法。 在之前的文章中,我们介绍过将单独1景遥感影像的投影坐标系转为地理坐标系的方法,大家可以参考文章投影坐标系转为地理坐标系:GDAL命令…

手动实现简易版RPC(四)

手动实现简易版RPC(四) 往期内容 手动实现简易版RPC(一):RPC简介及系统架构 手动实现简易版RPC(二):简单RPC框架实现 手动实现简易版RPC(三):mock数据生成 前言 接上几篇博客我们实现了最…

第一天复习Qt文件读取

Qt文件操作: 1、QFile QTextStream操作文件案例: 1、打开文件 QFile file(absolute filepath | relative path); file.readLine()返回内容长度,如果为-1就是读取失败 file. Close()读取后关闭 file.errorString()返回文件打开发生的错误2、…

面试:CopyOnWriteArrayList

问题: ArrayList 是线程不安全的,同一时间写和读会造成线程不安全,怎么解决呢? 答:可以使用CopyOnWriteList。 CopyOnWriteList特点 CopyOnWriteArrayList是Java中的一种并发集合类,它实现了List接口&am…

DNS 解析在网络传输中有什么意义?

首先我们先说说什么是DNS解析? DNS解析是将域名解析为对应的IP地址的过程。DNS它作为将域名和IP地址相互映射的一个分布式数据库,能够使人更方便地访问互联网。DNS解析的过程就是寻找哪个IP地址对应你所输入的网址,然后将网页内容返回给用户…

6份不用辞职就能赚钱的副业,上班族必看!

在这个经济浪潮中,生活成本的上升与工资增长的缓慢形成了鲜明对比。对于许多上班族来说,寻找额外收入的途径显得尤为迫切。 今天,就让我们一起探索那些适合在业余时间开展的副业,为你的财务自由之路添砖加瓦。 1. 闲鱼二手手机售卖…

nginx代理原理(端口复用)探究

前言:对于一些常用的插件,我们应该学会如何使用。同时,其实现原理也要进行深究,可以为其他的项目开发做借鉴。 探究方案: 一、发布两个不同的服务,这两个服务的端口不致 二、配置nginx,让这两…