Spark——core——2

news/2024/10/23 5:41:31/

spark-core概述

课程目标:

  • 知道RDD的概念
  • 独立实现RDD的创建

2.1 什么是RDD

  • RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合.
    • Dataset:一个数据集,简单的理解为集合,用于存放数据的
    • Distributed:它的数据是分布式存储,并且可以做分布式的计算
    • Resilient:弹性的
      • 它表示的是数据可以保存在磁盘,也可以保存在内存中
      • 数据分布式也是弹性的
      • 弹性:并不是指他可以动态扩展,而是容错机制。
        • RDD会在多个节点上存储,就和hdfs的分布式道理是一样的。hdfs文件被切分为多个block存储在各个节点上,而RDD是被切分为多个partition。不同的partition可能在不同的节点上
        • spark读取hdfs的场景下,spark把hdfs的block读到内存就会抽象为spark的partition。
        • spark计算结束,一般会把数据做持久化到hive,hbase,hdfs等等。我们就拿hdfs举例,将RDD持久化到hdfs上,RDD的每个partition就会存成一个文件,如果文件小于128M,就可以理解为一个partition对应hdfs的一个block。反之,如果大于128M,就会被且分为多个block,这样,一个partition就会对应多个block。
    • 不可变
    • 可分区
    • 并行计算

2.2 RDD的创建

  • 第一步 创建sparkContext

    • SparkContext, Spark程序的入口. SparkContext代表了和Spark集群的链接, 在Spark集群中通过SparkContext来创建RDD
    • SparkConf 创建SparkContext的时候需要一个SparkConf, 用来传递Spark应用的基本信息
    conf = SparkConf().setAppName(appName).setMaster(master)
    sc = SparkContext(conf=conf)
    
  • 创建RDD

    • 进入pyspark环境
    [hadoop@hadoop000 ~]$ pyspark
    Python 3.5.0 (default, Nov 13 2018, 15:43:53)
    [GCC 4.8.5 20150623 (Red Hat 4.8.5-28)] on linux
    Type "help", "copyright", "credits" or "license" for more information.
    19/03/08 12:19:55 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
    Setting default log level to "WARN".
    To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
    Welcome to____              __/ __/__  ___ _____/ /___\ \/ _ \/ _ `/ __/  '_//__ / .__/\_,_/_/ /_/\_\   version 2.3.0/_/Using Python version 3.5.0 (default, Nov 13 2018 15:43:53)
    SparkSession available as 'spark'.
    >>> sc
    <SparkContext master=local[*] appName=PySparkShell>
    
    • 在spark shell中 已经为我们创建好了 SparkContext 通过sc直接使用
    • 可以在spark UI中看到当前的Spark作业 在浏览器访问当前centos的4040端口

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-6EGSFw6K-1690872744192)(/img/sparkui.png)]

    • Parallelized Collections方式创建RDD

      • 调用SparkContextparallelize 方法并且传入已有的可迭代对象或者集合
      data = [1, 2, 3, 4, 5]
      distData = sc.parallelize(data)
      
      >>> data = [1, 2, 3, 4, 5]
      >>> distData = sc.parallelize(data)
      >>> data
      [1, 2, 3, 4, 5]
      >>> distData
      ParallelCollectionRDD[0] at parallelize at PythonRDD.scala:175
      
      • 在spark ui中观察执行情况

      [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-NsHuKTMU-1690872744193)(/img/createrdd.png)]

      • 在通过parallelize方法创建RDD 的时候可以指定分区数量
      >>> distData = sc.parallelize(data,5)
      >>> distData.reduce(lambda a, b: a + b)
      15
      
      • 在spark ui中观察执行情况

      [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-fi9K87ya-1690872744193)(/img/createrdd2.png)]

      • Spark将为群集的每个分区(partition)运行一个任务(task)。 通常,可以根据CPU核心数量指定分区数量(每个CPU有2-4个分区)如未指定分区数量,Spark会自动设置分区数。
    • 通过外部数据创建RDD

      • PySpark可以从Hadoop支持的任何存储源创建RDD,包括本地文件系统,HDFS,Cassandra,HBase,Amazon S3等
      • 支持整个目录、多文件、通配符
      • 支持压缩文件
      >>> rdd1 = sc.textFile('file:///home/hadoop/tmp/word.txt')
      >>> rdd1.collect()
      ['foo foo quux labs foo bar quux abc bar see you by test welcome test', 'abc labs foo me python hadoop ab ac bc bec python']
      

http://www.ppmy.cn/news/1000482.html

相关文章

【elasticsearch】关于elasticsearch的max_result_window限制问题的解决方式思考

事情起因&#xff1a;我们使用es作为日志搜索引擎&#xff0c;客户收集到的业务日志非常之大&#xff0c;每次查询后&#xff0c;返回页数较多&#xff0c;由于我们web界面限制每页返回150条&#xff0c;当客户翻到66页之后就会报错。 文章目录 前言 二、实验 1.默认生成20条数…

Java类集框架(一)

目录 1.Collection集合接口 2.List 接口 (常用子类 ArrayList ,LinkedList,Vector) 3.Set 集合 接口(常用子类 HashSet LinkedHashSet,TreeSet) 4.集合输出(iterator , Enumeration) 1.Collection集合接口 Collection是集合中最大父接口&#xff0c;在接口中定义了核心的…

金蝶云星空和吉客云单据接口对接

金蝶云星空和吉客云单据接口对接 接入系统&#xff1a;吉客云 吉客云是基于“网店管家”十五年电商ERP行业和技术积累基础上顺应产业发展需求&#xff0c;重新定位、全新设计推出的换代产品&#xff0c;从业务数字化和组织数字化两个方向出发&#xff0c;以构建流程的闭环为依归…

windows编译zookeeker动态库供C++链接使用以及遇到的错误处理方法

windows下面C链接zookeeper资料不多&#xff0c;特此记录一下 编译环境VS 2015 一. 相关安装包安装下载 1. zookeeper zookeeper3.6.4 下载zip包解压即可 2. ant apache-ant-1.9.16 将包进行解压D:project\apache-ant-1.9.16&#xff0c;然后配置环境变量 新建 ANT_HOME 系…

Stephen Wolfram:“足够大的网络肯定能做任何事!”

“Surely a Network That’s Big Enough Can Do Anything!” “足够大的网络肯定能做任何事&#xff01;” The capabilities of something like ChatGPT seem so impressive that one might imagine that if one could just “keep going” and train larger and larger neura…

开源元数据管理平台Datahub最新版本0.10.5——安装部署手册(附离线安装包)

大家好&#xff0c;我是独孤风。 开源元数据管理平台Datahub近期得到了飞速的发展。已经更新到了0.10.5的版本&#xff0c;来咨询我的小伙伴也越来越多&#xff0c;特别是安装过程有很多问题。本文经过和群里大伙伴的共同讨论&#xff0c;总结出安装部署Datahub最新版本的部署手…

关于网页视频下载方法(仅针对存在index.m3u8)

关于网页视频下载方法&#xff08;仅针对存在index.m3u8&#xff09; 一、使用工具。 必备工具&#xff1a;迅雷、ffmpeg、python环境 选用工具&#xff1a;猫抓插件 二、获取m3u8、key和ts文件。 像腾讯课堂希望下载的课 1.下载m3u8文件。 首先使用【猫抓视频下载】的浏…

二叉树进阶版(C)

文章目录 1.树1.1概念1.2相关定义1.3 表示&#xff08;左孩子右兄弟&#xff09; 2.二叉树2.1概念2.2特殊的二叉树1. 满二叉树&#xff1a;2. 完全二叉树&#xff1a; 2.3二叉树的性质2.4练习 3.二叉树的存储结构1. 顺序存储2. 链式存储 4.完全二叉树的代码实现4.1堆的介绍1.堆…