SparkSQL 核心编程

news/2025/2/21 7:03:33/

文章目录

  • SparkSQL 核心编程
    • 1、新的起点
    • 2、SQL 语法
      • 1) 读取 json 文件创建 DataFrame
      • 2) 对 DataFrame 创建一个临时表
      • 3) 通过SQL语句实现查询全表
    • 3、DSL 语法
      • 1) 创建一个DataFrame
      • 2) 查看DataFrame的Schema信息
      • 3) 只查看"username"列数据
      • 4) 查看"username"列以及"age"+1数据
      • 5) 查看"age"大于"20"的数据
      • 6) 按照"age"分组,查看数据条数
    • 4、RDD 转换为 DataFrame
    • 5、DataSet
      • 1) 创建 DataSet
      • 2) DataFrame 转换为 DataSet
      • 3)RDD 直接转换为 DataSet

SparkSQL 核心编程

学习如何使用 Spark SQL 提供的 DataFrame 和 DataSet 模型进行编程,以及了解他们之间的关系和转换,关于具体的SQL书写不是我们的重点。

1、新的起点

Spark Core 中,如果想要执行应用程序,需要首先构建上下文环境对象,SparkContext,Spark SQL 其实可以理解为对 Spark Core的一种封装,不仅仅在模型上进行了封装,上下文环境对象也进行了封装。
在老的版本中,SparkSQL提供两种 SQL 查询起始点,一个叫 SQLContext,用于 Spark 自己提供的 SQL 查询,一个叫 HiveContext,用于连接 Hive 查询。
SparkSession 是 Spark 最新的 SQL 查询起点,实质是上 SQLContext 和 HiveContext 的组合,所以在 SQLContext 和 HiveContext 上可用的API在 SparkSession 上同样是可以使用的。SparkSession 内部封装了 SparkContext,所以实际上是由sparkContext 完成的。当我们使用 spark-shell 的时候,spark 框架会自动创建一个名称叫做spark的SparkSession对象,就像我们以前可以自动获取到一个sc来表示SparkContext对象一样。
这下面是在终端命令行简单的演示,是怎么用spark 执行sql语句执行的。
读取json文件创建DataFrame:
val df = spark.read.json("input/user.json")
在这里插入图片描述
在这里插入图片描述
注意
从内存中获取数据,spark 可以知道数据具体是什么。如果是数字,默认作为 Int 处理,但是从文件中读取的数字,不能确定是什么类型,所以用 bigint(大整形) 接收,可以和 Long 类型转换,但是和 Int 不能进行转换。

2、SQL 语法

SQL 语法风格是指我们查询数据的时候使用 SQL 语句来查询,这种风格的查询必须要有临时视图或者全局视图来辅助。

1) 读取 json 文件创建 DataFrame

在这里插入图片描述

2) 对 DataFrame 创建一个临时表

要想用sql语句,那肯定首先就要有个表,所以将DataFrame转换为一个临时表,就可以用sql语句了。创建临时表使用 createReplaceTempView("pepole"),创建临时视图使用 createTempView("pepole")
在这里插入图片描述
注意:普通临时表是Session范围内的,如果想应用范围内有效,可以使用全局临时表。使用全局临时表时需要全路径访问。
比如下面这里就是newSession 开启了一个新的会话,之前那个临时表就用不了了,找不到。
在这里插入图片描述在这里插入图片描述

3) 通过SQL语句实现查询全表

spark 查询语句:spark.sql("select * from user") 这个user就是上面创建的临时视图,必须要创建个这样的对象,才能进行sql 语句查询。
在这里插入图片描述
这个就是查询的结果
在这里插入图片描述

3、DSL 语法

DataFrame 提供一个特定领域语言(domain-specific language,DSL)去管理结构化数据。可以在 Scala,Java,Python,和 R 中使用 DSL,使用 DSL 语法风格不必去创建临时视图了。

1) 创建一个DataFrame

val df = spark.read.json("input/user.json")
在这里插入图片描述

2) 查看DataFrame的Schema信息

df.printSchema 用这个看到看信息,说明spark的那些方法都是可以用的。
在这里插入图片描述
在这里插入图片描述
这里可以看到,这种DSL 不需要创建什么表,这个是可以直接用 DataFrame对象直接进行select的查询
在这里插入图片描述

3) 只查看"username"列数据

df.select("username").show
在这里插入图片描述

4) 查看"username"列以及"age"+1数据

df.select($"username",$"age" + 1)
df.select('username,'age + 1)
注意涉及到运算的时候,每列都必须使用$,或者采用引号表达式:单引号+字段名
在这里插入图片描述
或者不要双引号,在每个字段的前面加上一个单引号也是可以的。
在这里插入图片描述

5) 查看"age"大于"20"的数据

就不是select了,使用filter进行筛选过滤。
df.filter($"age">20).show
注意:这里这个大于20,上面那个20+1那个是不算的。在这里插入图片描述

6) 按照"age"分组,查看数据条数

使用groupBy,分组完还必要要用count统计
df.groupBy("age").count.show
在这里插入图片描述

4、RDD 转换为 DataFrame

在 IDEA 开发程序时,如果需要 RDD 与 DF 或者 DS 之间互相操作,那么需要引入import spark.implicits._
这里的 spark 不是 Scala 中的包名,而是创建的sparkSession 对象的变量名称,所以必须先创建 SparkSession 对象再导入。这里的 spark 对象那个不能那个使用 var 声明,因为Scala 只支持 val 修饰的对象的引入。
spark-shell 中无需导入,自动完成此操作。
首先创建一个rdd
val rdd = sc.makeRDD(List(1,2,3,4)) 然后可以看到下面有很多的方法,其中有一个toDF方法,就是 RDD 转换为 DataFrame的。
在这里插入图片描述
val df = rdd.toDF("id") 我们将数据转换为DataFrame 那我们得让他知道我们的数据是什么意思,所以给他一个列字段名,“id”。
在这里插入图片描述
要是想从DataFrame转换回RDD的话,那么直接 df.rdd 就转换回去了。

5、DataSet

DataSet 是具有强类型的数据集合,需要提供对应的类型信息。

1) 创建 DataSet

使用样例类序列创建DataSet
在这里插入图片描述
上面创建了一个样例类的列表的数据 ,然后直接使用toDS 方法之间转换为DataSet
在这里插入图片描述
转换好之后,数据就可以直接看了。
在这里插入图片描述

2) DataFrame 转换为 DataSet

首先从RDD转换为DataFrame使用rdd.toDF,然后我们要创建一个样例类,注意样例类里面这个列字段名要和那个DataFrame里面的那个字段名是一样的,比如这里这个是value,然后用df.as[fengz] 有了类型他就变成DataSet了。
在这里插入图片描述
在这里插入图片描述

3)RDD 直接转换为 DataSet

直接先创建一个样例类,把他的类型先确定好,然后创建一个RDD,RDD里面的数据直接使用这个样例类创建,然后直接使用rdd.toDS直接就从RDD转换为DataSet了。在这里插入图片描述


http://www.ppmy.cn/news/23736.html

相关文章

初阶指针C

🚀🚀🚀大家觉不错的话,就恳求大家点点关注,点点小爱心,指点指点🚀🚀🚀 目录 🐰指针是什么 🐰指针和指针类型 🌸指针-整数 &#x…

程序环境--翻译+执行

ANSI C标准下,有两种程序环境。 第1种是翻译环境,在这个环境中源代码被转换为可执行的机器指令。 翻译环境包括:预处理(预编译)编译汇编链接。四个步骤。 第2种是执行/运行环境,它用于实际执行代码。 链接…

【PyTorch】教程:Transfer learning

Transfer learning 实际工作中,只有很少的人从头开始训练 CNN,因为很难获得大量的样本。一般情况下,会通过调用预训练模型,例如 ConvNet 在 ImageNet(1.2 M 图像 1000 个类别),可以用 ConvNet 初始化&#…

每日go语言面试题一

1.Redis Multi实现原理 redis中的multi是为了实现redis独特的事务而存在的,底层是有一个队列,将Multi后面的命令先进先出的顺序加入队列,在执行exce命令,将队列中的命令取出执行。配合redis完成事务的命令还有watch(会…

并发线程、锁、ThreadLocal

并发编程并发编程Java内存模型(JMM)并发编程核心问题—可见性、原子性、有序性volatile关键字原子性原子类CAS(Compare-And-Swap 比较并交换)ABA问题Java中的锁乐观锁和悲观锁可重入锁读写锁分段锁自旋锁共享锁/独占锁公平锁/非公平锁偏向锁/轻量级锁/重…

08讲 | 基于STM32单片机NBIOT定位实战项目

前言 绘制基于 STM32 单片机的 NBIOT 实战开发板。 文章目录前言一、原理图1、绘制1)电源供电a、USB 转 TTL 电路b、锂电池充电管理电路c、3.3V电压转换电路d、一键开关机电路2)单片机最小系统3)ADC电压转换电路4)NBIOT 模组串口电…

【C++】类和对象(第一篇)

文章目录1. 面向过程和面向对象初步认识2.类的引入3.类的定义3.1 类的两种定义方式3.2 成员变量命名规则建议4. 类的访问限定符及封装4.1 访问限定符4.2 封装5. 类的作用域6. 类的实例化7. 类对象模型7.1 类对象大小的计算7.2 类对象的存储方式猜测7.3 结构体内存对齐规则复习8…

python(15)--函数设计

前言 函数是可重用的程序代码块。 函数的作用,不仅可以实现代码的复用,还可以保证修改函数的代码时,所有调用该函数的地方都能得到体现。目前我已知函数的作用是:对代码实现了封装、函数调用、传递参数、返回计算结果等。 正文 …