1.维基百科的定义
大数据是指其大小或复杂性无法通过现有常用的软件工具,以合理的成本并在可接受的时限内对其进行捕获、管理和处理的数据集。这些困难包括数据的收入、存储、搜索、共享、分析和可视化。
2.Granter的定义
Granter公司关注大数据的三个量化指标:数据量、数据种类和处理速度。Granter认为传统的存储技术难以应付大数据处理,主要存在以下三大挑战。
挑战一:不断增长的数据量。在大数据背景下,数据这一宝贵财富通常是不能删除的,因此数据将不断积累增长,增长速度经常超出人们预计。信息中心需要管理TB级甚至PB级数据。要为这些数据提供存储、保护和使用的方案,信息系统需要不断地作相应升级或重构,需要投入大量人力物力。
挑战二:多格式数据。海量数据包括了越来越多不同格式的数据,这些不同格式的数据也需要不同的处理方法。从简单的电子邮件、数据日志和信用卡记录,在到仪器收集到的科学研究、医疗数据、财务数据以及丰富的媒体数据(包括照片、音乐、视频等),都具有这个特点。
挑战三:性能。速度是指数据从客户端到处理器和存储的移动速度,涉及终端数据处理能力、数据流访问和交付、服务器计算处理能力和后端存储的吞吐能力。速度意味着要求数据必须以足够快的频率被处理。大数据处理需要不同于交易类应用的速度,通常其对带宽的要求比I/O操作的速度更重要。
注:Gartner(高德纳,又译顾能公司,NYSE: IT and ITB)全球最具权威的IT研究与顾问咨询公司,成立于1979年,总部设在美国康涅狄克州斯坦福。其研究范围覆盖全部IT产业,就IT的研究、发展、评估、应用、市场等领域,为客户提供客观、公正的论证报告及市场调研报告,协助客户进行市场分析、技术选择、项目论证、投资决策。为决策者在投资风险和管理、营销策略、发展方向等重大问题上提供重要咨询建议,帮助决策者作出正确抉择。
3.IBM的定义
IBM认为大数据横跨三个层面:数量,速度和品种。IBM将大数据概括为三个V,即大规模(Volume)、高速度(Velocity)和多样化(Variety),这些特点也反映了大数据所潜藏的价值(Value,第四个“V”)。因此大数据的特征可以整体概括为:“海量+多样化+快速处理+价值”。
4.SAS的定义
SAS在大数据传统“3V”模型定义的基础上加入了“可变性”和“复杂性”两个重要特征。
可变性主要反映了数据流可能具有高度的不一致性,并存在周期性的峰值。对日常的、季节性和时间驱动的峰值数据流的管理具有挑战性,特别是当社交媒体介入的情况下。
复杂性主要体现在数据来源的多样性上。连接、匹配、清洗和转化来自多个系统的数据是一件非常复杂的事情。除此之外,还需要考虑不同数据源之间的连接关系、关联关系和层次关系等。需要实施数据处理策略,帮助企业系统地集成结构化和非结构化数据资产,产生高质量、恰当的、最新的有用信息。
注:SAS是全球最大的软件公司之一,是全球商业智能和分析软件与服务领袖。自1976年成立以来,公司收入和利润稳步提高,凭借雄厚的资源,公司在产品开发和客户支持方面不断取得新的成功。全球120个国家的50,000多家客户都在采用SAS解决方案,其中包括《财富》全球500强企业前100家企业中的93家。SAS一直向全球客户提供" THE POWER TO KNOW "。经营范围是商业智能和分析软件及解决方案、智能领域专业咨询服务、基于SAS解决方案的专业培训和技术支持等。2018年12月,世界品牌实验室发布《2018世界品牌500强》榜单,SAS排名第345。