Spark处理结构化数据:DataFrame、DataSet、SparkSQL

devtools/2024/9/23 2:40:15/

Spark处理结构化数据:DataFrame、DataSet、SparkSQL

在这里插入图片描述

1. DataFrame:

  • 表示分布式数据集合,以表格的形式存储数据,具有行和列。

在这里插入图片描述

  • 支持丰富的操作和转换(如过滤、选择、聚合等)。

在这里插入图片描述

  • 提供了对数据的高级抽象,简化了对复杂数据处理的操作。
    在这里插入图片描述

在这里插入图片描述
在这里插入图片描述在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

2. DataSet:

在这里插入图片描述

  • 结合了RDD的强类型特性和DataFrame的优化特性。

在这里插入图片描述

  • 提供了类型安全的操作,编译时会检查类型错误。

在这里插入图片描述

  • 可以用来处理需要严格类型控制的复杂数据。

3. SparkSQL:

  • 提供SQL查询接口来处理结构化数据。

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

  • 允许用SQL语句直接对DataFrame进行操作。

在这里插入图片描述

  • 支持通过SQL API进行复杂的查询和数据分析。

它们之间的关系:

  • DataFrameDataSet 的一个特定实现,数据类型为 Row

  • DataSet 可以通过 toDF() 转换为 DataFrame,反之亦然。

http://www.ppmy.cn/devtools/115763.html

相关文章

【计算机网络】TCP的可靠传输机制、标记位以及编程结构

文章目录 一、TCP的可靠传输的工作原理1、确认应答机制和捎带应答机制2、超时重传3、快速重传4、滑动窗口5、流量控制 未 PSH6、拥塞控制7、延迟应答8、TCP 以段为单位发送数据 二、TCP 首部的六个标记位1、URG2、ACK3、PSH4、RST5、SYN6、FIN 三、TCP网络并发编程 一、TCP的可…

基于python+django+vue的图书管理系统

作者:计算机学姐 开发技术:SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等,“文末源码”。 专栏推荐:前后端分离项目源码、SpringBoot项目源码、SSM项目源码 系统展示 【2025最新】基于pythondjangovueMySQL的图…

gin基本使用

中文文档:https://gin-gonic.com/zh-cn/docs/ 下载和安装gin模块 go get -u github.com/gin-gonic/gin简单接口demo package mainimport "github.com/gin-gonic/gin"func main() {r := gin.Default() // 创建一个默认的路由引擎r.GET("/pin…

【webpack4系列】webpack构建速度和体积优化策略(五)

文章目录 速度分析:使用 speed-measure-webpack-plugin体积分析:使用webpack-bundle-analyzer使用高版本的 webpack 和 Node.js多进程/多实例构建资源并行解析可选方案使用 HappyPack 解析资源使用 thread-loader 解析资源 多进程并行压缩代码方法一&…

docker desktop windows stop

服务docker改为启动 cmd下查看docker版本 {"builder": {"gc": {"defaultKeepStorage": "20GB","enabled": true}},"experimental": false,"registry-mirrors": ["https://hub.atomgit.com/"]…

从零到精通!新手实测ToDesk云电脑、易腾云、顺网云,云端畅玩黑神话悟空、魔兽世界

一、引言 在数字时代,云计算技术革新了娱乐方式,尤其在游戏领域带来巨变。玩家通过云端资源,享受流畅、逼真游戏体验,不再受限于硬件。但面对众多云电脑产品,新手玩家常感迷茫。 本文实测ToDesk云电脑、易腾云、顺网云…

我国首次星间激光100Gbps超高速高分辨遥感影像传输试验

“吉林一号”平台02A01星、平台02A02星,成功开展我国首次星间激光100Gbps超高速高分辨遥感影像传输试验。 “吉林一号”星座是长光卫星在建的核心工程,目前已成功实现“百星飞天”的阶段性目标,并逐步成为全球重要的航天遥感信息来源。随着星…

《娱乐至死》

娱乐是温水煮青蛙式的慢性自杀吗? 文字(旧媒介) VS 视频(新媒体) 思考深浅 阅读书籍更容易让人引发深度思考 连贯性 刷视频获得的信息更多是碎片化的知识 影响 娱乐内容容易让人上瘾,从而逐步让人养成逃避…