Spark技术系列(一):初识Apache Spark——大数据处理的统一分析引擎

embedded/2025/2/28 8:42:13/

Spark技术系列(一):初识Apache Spark——大数据处理的统一分析引擎

1. 背景与核心价值

1.1 大数据时代的技术演进

  • MapReduce的局限性:磁盘迭代计算、中间结果落盘导致的性能瓶颈
  • Spark诞生背景:UC Berkeley AMPLab实验室为解决复杂迭代计算需求研发(2010年开源)
  • 技术定位:基于内存的通用分布式计算框架(支持批处理、流计算、机器学习、图计算等)

1.2 Spark内置模块

Spark Core:实现了Spark的基本功能,包含任务调度、内存管理、错误恢复、与存储系统交互等模块。Spark Core中还包含了对弹性分布式数据集(Resilient Distributed DataSet,简称RDD)的API定义。
Spark SQL:是Spark用来操作结构化数据的程序包。通过Spark SQL,我们可以使用 SQL或者Apache Hive版本的SQL方言(HQL)来查询数据。Spark SQL支持多种数据源,比如Hive表、Parquet以及JSON等。
Spark Streaming:是Spark提供的对实时数据进行流式计算的组件。提供了用来操作数据流的API,并且与Spark Core中的 RDD API高度对应。
Spark MLlib:提供常见的机器学习(ML)功能的程序库。包括分类、回归、聚类、协同过滤等,还提供了模型评估、数据 导入等额外的支持功能。
集群管理器:Spark 设计为可以高效地在一个计算节点到数千个计算节点之间伸缩计 算。为了实现这样的要求,同时获得最大灵活性,Spark支持在各种集群管理器(Cluster Manager)上运行,包括Hadoop YARN、Apache Mesos,以及Spark自带的一个简易调度 器,叫作独立调度器。

Spark得到了众多大数据公司的支持,这些公司包括Hortonworks、IBM、Intel、Cloudera、MapR、Pivotal、百度、阿里、腾讯、京东、携程、优酷土豆。当前百度的Spark已应用于大搜索、直达号、百度大数据等业务;阿里利用GraphX构建了大规模的图计算和图挖掘系统,实现了很多生产系统的推荐算法;腾讯Spark集群达到8000台的规模,是当前已知的世界上最大的Spark集群。

1.3 Spark特点

  1. :与Hadoop的MapReduce相比,Spark基于内存的运算要快100倍以上,基于硬盘的运算也要快10倍以上。Spark实现了高效的DAG执行引擎,可以通过基于内存来高效处理数据流。计算的中间结果是存在于内存中的。
  2. 易用:Spark支持Java、Python和Scala的API,还支持超过80种高级算法,使用户可以快速构建不同的应用。而且Spark支持交互式的Python和Scala的Shell,可以非常方便地在这些Shell中使用Spark集群来验证解决问题的方法。
  3. 通用

http://www.ppmy.cn/embedded/167760.html

相关文章

《AI和人工智能和编程日报》

OpenAI:将深度研究扩展到 ChatGPT Plus、Team、Edu 和 Enterprise 用户,每月 10 次查询;Pro 用户每月有 120 次查询,ChatGPT 语音模式向免费用户开放。DeepSeek:R1 大模型宣布降价,调用价格将至四分之一&am…

【Java基础-51】Java中的File类及其常用方法详解

在Java中,java.io.File类是用于处理文件和目录路径的核心类。它提供了丰富的方法来操作文件系统,包括创建、删除、重命名文件或目录,以及查询文件属性等。本文将详细介绍File类的常用方法,并通过示例代码演示其用法。 1. File类概…

从0到一实现React Fiber从零到一实现React Fiber

为什么引入fiber JavaScript引擎和页面渲染引擎两个线程是互斥的,当其中一个线程执行时,另一个线程只能挂起等待 如果 JavaScript线程长时间地占用了主线程,那么渲染层面的更新就不得不长时间地等待,界面长时间不更新&#xff0c…

【做一个微信小程序】校园地图页面实现

前言 上一个教程我们实现了小程序的一些的功能,有背景渐变色,发布功能有的呢,已支持图片上传功能,表情和投票功能开发中(请期待)。下面是一个更高级的微信小程序实现,包含以下功能:…

【iOS】小蓝书学习(四)

小蓝书学习(四) 第23条:通过委托与数据源协议进行对象间通信第24条:将类的实现代码分散到便于管理的数个分类之中第25条:总是为第三方类的分类名加前缀第26条:勿在分类中声明属性第27条:使用“c…

深度学习笔记——循环神经网络RNN

大家好,这里是好评笔记,公主号:Goodnote,专栏文章私信限时Free。本文详细介绍面试过程中可能遇到的循环神经网络RNN知识点。 热门专栏 机器学习 机器学习笔记合集 深度学习 深度学习笔记合集 文章目录 热门专栏机器学习深度学…

基于SpringBoot的校园消费点评管理系统

作者:计算机学姐 开发技术:SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等,“文末源码”。 专栏推荐:前后端分离项目源码、SpringBoot项目源码、Vue项目源码、SSM项目源码、微信小程序源码 精品专栏:…

SQLite数据库从0到1

SQLite SQLite基础知识 SQLite数据库功能特性:ACID事务;支持数据库大小至2TB;足够小,大致13万行C代码4MB左右;存储在单一磁盘文件中的完整数据库。独立,无额外依赖。源码完全开源。支持多种编程语言&#…