大数据技术概述_1.大数据的定义

news/2024/11/13 5:31:54/

1.维基百科的定义

         大数据是指其大小或复杂性无法通过现有常用的软件工具,以合理的成本并在可接受的时限内对其进行捕获、管理和处理的数据集。这些困难包括数据的收入、存储、搜索、共享、分析和可视化。

2.Granter的定义

        Granter公司关注大数据的三个量化指标:数据量、数据种类和处理速度。Granter认为传统的存储技术难以应付大数据处理,主要存在以下三大挑战。

        挑战一:不断增长的数据量。在大数据背景下,数据这一宝贵财富通常是不能删除的,因此数据将不断积累增长,增长速度经常超出人们预计。信息中心需要管理TB级甚至PB级数据。要为这些数据提供存储、保护和使用的方案,信息系统需要不断地作相应升级或重构,需要投入大量人力物力。

        挑战二:多格式数据。海量数据包括了越来越多不同格式的数据,这些不同格式的数据也需要不同的处理方法。从简单的电子邮件、数据日志和信用卡记录,在到仪器收集到的科学研究、医疗数据、财务数据以及丰富的媒体数据(包括照片、音乐、视频等),都具有这个特点。

        挑战三:性能。速度是指数据从客户端到处理器和存储的移动速度,涉及终端数据处理能力、数据流访问和交付、服务器计算处理能力和后端存储的吞吐能力。速度意味着要求数据必须以足够快的频率被处理。大数据处理需要不同于交易类应用的速度,通常其对带宽的要求比I/O操作的速度更重要。

        注:Gartner(高德纳,又译顾能公司,NYSE: IT and ITB)全球最具权威的IT研究与顾问咨询公司,成立于1979年,总部设在美国康涅狄克州斯坦福。其研究范围覆盖全部IT产业,就IT的研究、发展、评估、应用、市场等领域,为客户提供客观、公正的论证报告及市场调研报告,协助客户进行市场分析、技术选择、项目论证、投资决策。为决策者在投资风险和管理、营销策略、发展方向等重大问题上提供重要咨询建议,帮助决策者作出正确抉择。

3.IBM的定义

        IBM认为大数据横跨三个层面:数量,速度和品种。IBM将大数据概括为三个V,即大规模(Volume)、高速度(Velocity)和多样化(Variety),这些特点也反映了大数据所潜藏的价值(Value,第四个“V”)。因此大数据的特征可以整体概括为:“海量+多样化+快速处理+价值”。

4.SAS的定义

        SAS大数据传统“3V”模型定义的基础上加入了“可变性”和“复杂性”两个重要特征。

        可变性主要反映了数据流可能具有高度的不一致性,并存在周期性的峰值。对日常的、季节性和时间驱动的峰值数据流的管理具有挑战性,特别是当社交媒体介入的情况下。

        复杂性主要体现在数据来源的多样性上。连接、匹配、清洗和转化来自多个系统的数据是一件非常复杂的事情。除此之外,还需要考虑不同数据源之间的连接关系、关联关系和层次关系等。需要实施数据处理策略,帮助企业系统地集成结构化和非结构化数据资产,产生高质量、恰当的、最新的有用信息。

        注:SAS是全球最大的软件公司之一,是全球商业智能和分析软件与服务领袖。自1976年成立以来,公司收入和利润稳步提高,凭借雄厚的资源,公司在产品开发和客户支持方面不断取得新的成功。全球120个国家的50,000多家客户都在采用SAS解决方案,其中包括《财富》全球500强企业前100家企业中的93家。SAS一直向全球客户提供" THE POWER TO KNOW "。经营范围是商业智能和分析软件及解决方案、智能领域专业咨询服务、基于SAS解决方案的专业培训和技术支持等。2018年12月,世界品牌实验室发布《2018世界品牌500强》榜单,SAS排名第345。


http://www.ppmy.cn/news/1458915.html

相关文章

十二届蓝桥杯Python组3月中/高级试题 第四题

** 十二届蓝桥杯Python组3月中/高级试题 第四题 ** 第四题(难度系数 4,30 个计分点) 编程实现: 给定一组包含n个(n>3) 正整数数据,和一个正整数M,从这n个正整数中任意拿出两个数相 加&…

AR人脸道具SDK解决方案,实现道具与人脸的自然融合

AR人脸道具SDK解决方案,实现道具与人脸的自然融合美摄科技以其卓越的技术实力和创新能力,为企业带来了全新的AR人脸道具SDK解决方案。这一解决方案将为企业打开全新的市场机会,为用户带来前所未有的互动体验。 颠覆传统,开启AR人…

Python专题:五、条件语句

流程控制语句 count()字符串计数 句尾\分行写码 运行输入cmd 输入Python 回车进入shell python 解释器 shell模式 再给x1,没有结果出来 if条件语句关键词,x>5条件表达式,:条件结束,四个空格&#x…

计算机视觉与深度学习实战之以Python为工具:基于主成分分析的人脸二维码识别

注意:本文的下载教程,与以下文章的思路有相同点,也有不同点,最终目标只是让读者从多维度去熟练掌握本知识点。 下载教程:计算机视觉与深度学习实战-以MATLAB和Python为工具_基于主成分分析的人脸二维码识别_项目开发案例教程.pdf 一、引言 随着科技的快速发展,计算机视觉…

Liunx_DNS域名解析服务

目录 DNS术语 域名分层 顶级域名(Top-Level Domain, TLD) 二级域名(Second-Level Domain, SLD) 子域名(Subdomain) FQDN(Fully Qualified Domain Name) 域名分层的意义 域名…

Qt——HighLight篇

用HighLight绘制高亮按钮,之前有一篇讲述绘制pushButton按钮颜色的QpushButton绘制圆角矩形并绘制背景颜色-CSDN博客,这个是扩展,另一种实现方案。 想要将按钮的背景颜色设置为 Qt 的高亮显示颜色。可以使用 QPalette::Highlight 来获取 Qt 的…

PT通过size vt修时序脚本

常用到mmmc的情况下通过synopsys的prime time的multisceanrio 模式提高fix 效率 以下内容仅供学习参考 ##start job:dsubjob pt_shell -multi_scenario -f setup_size_vt.tcl set date [exec date %m%d%H%M] set work_path setup_fixvt_${date} sh rm -rf ./$work/* set_hos…

如何判断nat网络?如何内网穿透

大家都清楚,如果你想开车,就必须要给车上一个牌照,随着车辆越来越多,为了缓解拥堵,就需要摇号,随着摇号的人数越来越多,车牌对于想开车的人来说已经成为奢望。在如今的IPv4时代,我们…