大数据技术概述_2.大数据面临的5个方面的挑战

embedded/2024/9/25 6:18:42/

1. 大数据面临着5个主要问题

        2012年冬季,来自IBM、微软、谷歌、HP、MIT、斯坦福、加州大学伯克利分校、UIUC等产业界和学术界的数据库领域专家通过在线的方式共同发布了一个关于大数据的白皮书。该白皮书首先指出大数据面临着5个主要问题,分别是异构性(Heterogeneity)、规模(Scale)、时间性(Timeliness)、复杂性(Complexity)和隐私性(Privacy)

2.大数据的研究工作将面临5个方面的挑战

        大数据的研究工作将面临5个方面的挑战

        1)挑战一:        

         数据获取问题。我们需要决策哪些数据需要保持或丢弃的问题,目前这些决策还只能采用特设方法给出。

        2)挑战二: 

         数据结构问题。只有将没有语义的内容转换为结构化的格式,并进行后续处理。      

        3)挑战三: 数据集成问题。只有将数据之间进行关联,才能充分发挥数据的作用,因此数据集成也是一项挑战。        

        4)挑战四: 

         数据分析、组织、抽取和建模是大数据本质的功能性挑战。数据分析是许多大数据应用的瓶颈,目前底层算法缺乏伸缩性、对待分析数据的复杂性估计不够,等等。       

        5)挑战五: 

        如何呈现数据分析的结果,并与非技术的领域专家进行交互。

3.一些具体问题和挑战

3.1大数据技术中常用的数据结构

          大数据技术在处理海量数据时,需要使用高效的数据结构来组织和存储数据。以下是一些在大数据技术中常用的数据结构:

  •         分布式文件系统(Distributed File System)
  •         列式存储
  •         键值存储
  •         文档存储
  •         图存储(Graph Storage)
  •         分布式数据仓库(Distributed Data Warehouse)
  •         内存数据库(In-Memory Database)
  •         时间序列数据库(Time Series Database)

3.2分析技术的冲击和挑战

        随着大数据时代的到来,半结构化和非结构化数据量的迅猛增长,给传统的分析技术带来了巨大的冲击和挑战,主要体现在:

        (1)数据处理的实时性:随着时间的流逝,数据中所蕴含的知识价值往往也在衰减,因此很多领域对于数据的实时处理有需求。在实时处理的模式选择中,主要有三种思路:即流处理模式、批处理模式以及二者的融合。虽然已有的研究成果很多,但仍未有一个通用的大数据实时处理框架。

        (2)动态变化环境中索引的设计:关系数据库中的索引能够加速查询速率,但是传统数据管理中的模式基本不会发生变化,因此在其上构建索引主要考虑的是索引创建、更新的效率等。大数据时代的数据模式随着数据量的不断变化可能会处于不断的变化之中,这就要求索引结构的设计简单、高效,能够在数据模式发生变化时快速调整并适应。目前,存在一些通过在NoSQL数据库上构建索引来应对大数据挑战的一些方案,但总得来说,这些方案基本都有特定的应用场景,且这些场景的数据模式不太会发生变化。在数据模式变更的假设前提下设计新的索引方案将是大数据时代的主要挑战之一。

        (3)先验知识的缺乏:传统分析主要针对结构化数据展开,这些数据在以关系模型进行存储的同时就隐含了这些数据内部关系的先验知识。比如我们知道所要分析的对象会有哪些属性,通过属性我们又能大致了解其可能的取值范围等。这些知识使得我们在数据分析之前就已经对数据有了一定的理解。而在面对大数据分析时,一方面是半结构化和非结构化数据的存在,这些数据很难以类似结构化数据的方式构建出其内部的正式关系;另一方面很多数据以流的形式源源不断的到来,这些需要实时处理的数据很难有足够的时间去建立先验知识。

3.3数据集成的挑战

        数据集成的挑战主要有两个方面:

        (1)广泛的异构性:

        ①数据类型从以结构化数据为主转向结构化、半结构化、非结构化三者的融合。

        ②数据产生方式的多样性带来的数据源变化。

        (2)数据质量:

        数据量大不一定就代表信息量或者数据价值的增大,相反很多时候意味着信息垃圾的泛滥。

         


http://www.ppmy.cn/embedded/35176.html

相关文章

VastGaussian:用于大型场景重建的巨大3D高斯函数

VastGaussian:用于大型场景重建的巨大3D高斯函数 摘要IntroductionRelated WorkPreliminariesMethod VastGaussian: Vast 3D Gaussians for Large Scene Reconstruction. 摘要 现有基于NeRF的大型场景重建方法在视觉效果和渲染速度方面往往存在限制。虽然最近的3D高斯分裂在小…

【MySQL篇】使用mysqldump全量+mysqlbinlog增量完成实例的全库恢复(第四篇,总共四篇)

☘️博主介绍☘️: ✨又是一天没白过,我是奈斯,DBA一名✨ ✌✌️擅长Oracle、MySQL、SQLserver、阿里云AnalyticDB for MySQL(分布式数据仓库)、Linux,也在扩展大数据方向的知识面✌✌️ ❣️❣️❣️大佬们都喜欢静静的看文章&am…

系统分析与设计(3)

信息系统得联合体 前端信息系统(front-office information system) -市场信息系统 -销售信息系统 -客户信息系统 后端信系系统(back-office information system) -人力资源信息系统 -财务信息系统 -生产信息系统 -库存信息系统 知…

2024-5-6(Vue)

1.Vue介绍:构建用户界面的渐进式框架 1)构建用户界面:基于数据渲染出用户可以看到的界面 2)渐进式:循序渐进,不用非得把Vue中所有的API学完才能开发Vue,可以学一点开发一点 3)框架…

图像处理

图像处理 导入图片 导入io模块,读取文件所在位置,将生成的图像数据赋给变量img,显示图像 from skimage import ioimgio.imread(D:\工坊\图像处理\十个勤天2.png)io.imshow(img) 运行结果: 将图片进行灰度处理 from skimage i…

MATLAB 变换

MATLAB 变换(Transforms) MATLAB提供了用于处理诸如Laplace和Fourier变换之类的变换的命令。转换在科学和工程中用作简化分析和从另一个角度查看数据的工具。 例如,傅立叶变换允许我们将表示为时间函数的信号转换为频率函数。拉普拉斯变换使…

【小菜鸟之---Ansible基础详解】

文章目录 1 【Ansible简介】1.1简介1.2 Ansible 特点1.3 Ansible的工作机制1.4Ansible任务工作模式 2【安装部署】2.1安装命令2.2 Ansible配置文件2.3主机清单配置2.4 基于ssh免密登录2.5常用命令 3【Ansible常用模块】3.1 ping模块3.2 shell模块3.3 command模块3.4 copy模块3.…

PHP基础【介绍,注释,更改编码,赋值,数据类型】

源码 <?php //单行注释 /* 多行注释 *///通过header()函数发送http头的请求信息用来指定页面的字符集编码 header("Content-type:text/html;Charsetutf-8"); //告诉浏览器&#xff0c;当前页面的内容类型是HTML&#xff0c;并且页面内容使用的是UTF-8编码。//ph…