新书速览|Spark SQL大数据分析快速上手

ops/2024/11/13 9:16:48/

《Spark SQL大数据分析快速上手》

本书内容

《Spark SQL大数据分析快速上手》内容基于Spark新版本展开,符合企业目前开发需要。《Spark SQL大数据分析快速上手》全面讲解Spark SQL相关知识和实战应用,各章均提供较为丰富的案例及其详细的操作步骤,并配套示例源码、数据集、PPT课件和教学大纲

《Spark SQL大数据分析快速上手》共10章。第1~3章为Spark SQL的基础准备部分,内容包括Spark SQL的发展和简介、Spark的典型数据容器及关系、Spark概述与环境搭建、Spark典型数据结构RDD;第4~7章为Spark SQL的基础应用部分,内容包括Spark SQL入门实战(包括Scala编程基础)、SQL基础语法、操作多数据源、Spark SQL性能调优等;第8~10章分别通过影评数据分析、商品统计数据分析、咖啡销售数据分析等3个实战项目进行巩固提升。

本书作者

迟殿委,计算机软件与理论专业硕士,系统架构设计师。有多年企业软件研发经验和丰富的JavaEE、大数据技术培训经验,熟练掌握JavaEE与大数据全栈技术框架,擅长JavaEE系统架构设计、大数据分析与挖掘。著有图书《Hive入门与大数据分析实战》《Hadoop大数据分析技术》《Hadoop+Spark大数据分析实战》《Spring Boot企业级开发实战(视频教学版)》《深入浅出Java编程》《Spring Boot+Spring Cloud微服务开发》。

本书读者

《Spark SQL大数据分析快速上手》内容翔实、示例丰富,既可作为Spark初学者数据分析人员、大数据应用开发人员的自学手册,也可作为高等院校或高职高专院校计算机、软件工程、数据科学与大数据技术、智能科学与技术、人工智能等专业大数据课程的教材

本书目录

第 1 章 Spark SQL概述 1

1.1 Spark SQL简介 1

1.1.1 什么是Spark SQL 1

1.1.2 Spark SQL的特点 2

1.2 Spark数据容器 4

1.2.1 什么是DataFrame 4

1.2.2 什么是DataSet 5

1.2.3 Spark SQL与DataFrame 6

1.2.4 DataFrame与RDD的差异 6

第 2 章 Spark概述及环境搭建 8

2.1 Spark概述 8

2.1.1 关于Spark 8

2.1.2 Spark的基本概念 9

2.1.3 Spark集群相关知识 11

2.2 Linux环境搭建 16

2.2.1 VirtualBox虚拟机的安装 16

2.2.2 安装Linux操作系统 18

2.2.3 SSH工具与使用 24

2.2.4 Linux的统一设置 26

2.3 Hadoop完全分布式环境搭建 28

2.4 Spark的安装与配置 33

2.4.1 本地模式安装 34

2.4.2 伪分布模式安装 36

2.4.3 完全分布模式安装 39

2.4.4 Spark on YARN 41

2.5 Spark的任务提交 45

2.5.1  使用spark-submit提交 45

2.5.2  spark-submit参数说明 46

第 3 章 Spark的典型数据结构RDD 49

3.1 什么是RDD 49

3.2 RDD的主要属性 50

3.3 RDD的特点 51

3.4 RDD的创建与处理过程 54

3.4.1 RDD的创建 55

3.4.2 RDD的处理过程 55

3.4.3 RDD的算子 56

第 4 章 Spark SQL入门实战 65

4.1 DataFrame和DataSet实战体验 65

4.1.1 SparkSession 65

4.1.2 DataFrame应用 66

4.1.3 DataSet应用 72

4.1.4 DataFrame和DataSet之间的交互 74

4.2 Scala开发环境搭建及其基础编程 74

4.2.1 开发环境搭建 75

4.2.2 Scala基础编程 78

4.3 Spark SQL实战入门体验 94

第 5 章 Spark SQL语法基础及应用 101

5.1 Hive安装与元数据存储配置 101

5.1.1 安装Hive 101

5.1.2 配置MySQL存储元数据 104

5.2 Spark SQL DML语句 107

5.2.1 插入数据 107

5.2.2 加载数据 110

5.3 Spark SQL查询语句 111

5.4 Spark SQL函数操作 115

5.4.1 内置函数及使用 115

5.4.2 自定义函数 126

第 6 章 Spark SQL数据源 131

6.1 Spark SQL数据加载、存储概述 131

6.1.1 通用load/save函数 131

6.1.2 手动指定选项 133

6.1.3 在文件上直接进行SQL查询 133

6.1.4 存储模式 133

6.1.5 持久化到表 134

6.1.6 桶、排序、分区操作 135

6.2 Spark SQL常见结构化数据源 135

6.2.1 Parquet文件 135

6.2.2 JSON 数据集 140

6.2.3 Hive表 141

6.2.4 其他关系数据库中的数据表 144

第 7 章 Spark SQL性能调优 148

7.1 Spark执行流程 148

7.2 Spark内存管理 149

7.3 Spark的一些概念 150

7.4 Spark开发原则 151

7.5 Spark调优方法 157

7.6 数据倾斜调优 168

7.7 Spark执行引擎Tungsten简介 172

7.8 Spark SQL解析引擎Catalyst简介 173

第 8 章 Spark SQL影评大数据分析项目实战 177

8.1 项目介绍 177

8.2 项目实现 179

8.2.1 引入依赖 179

8.2.2 公共类开发 184

8.2.3 需求1的实现 187

8.2.4 需求2的实现 191

8.2.5 需求3的实现 194

第 9 章 Spark SQL商品统计分析项目实战 198

9.1 项目介绍 198

9.2 项目实现 201

9.2.1 引入依赖 201

9.2.2 环境测试 202

9.2.3 Spark SQL初始化数据 203

9.2.4 Spark SQL商品数据分析 206

第 10 章 Spark SQL咖啡销售数据分析项目实战 211

10.1 项目介绍 211

10.2 数据预处理与数据分析 212

10.2.1 查看咖啡销售量排名 213

10.2.2 观察咖啡销售量的分布情况 214

10.3 数据可视化 218

编辑推荐

《Spark SQL大数据分析快速上手》帮助读者快速提高Spark 大数据分析技能,内容包括:

Spark SQL发展背景、Spark的典型数据容器及关系、Spark开发环境搭建、Spark典型数据结构RDD。

Spark SQL入门实战(包括Scala编程基础)、SQL基础语法、操作多数据源、Spark SQL性能调优。

影评数据分析、商品统计数据分析、咖啡销售数据分析3个实战项目。

本文摘自《Spark SQL大数据分析快速上手》,获出版社和作者授权发布。

Spark SQL大数据分析快速上手——jd


http://www.ppmy.cn/ops/132482.html

相关文章

dbt 数据分析工程实战教程(汇总篇)

最近陆续写了数据分析工程相关的系列博客,主要包括dbt-core相关的实战教程。本文是阶段性整理回顾,希望为你学习数据工程领域知识提供帮助,后续会持续更新。 数据工程理论 介绍数据工程基础理论,包括数据仓库、数据建模等内容。结…

软考中级 软件设计师 上午考试内容笔记(个人向)Part.1

软考上午考试内容 1. 计算机系统 计算机硬件通过高/低电平来模拟1/0信息;【p进制】: K n K n − 1 . . . K 2 K 1 K 0 K − 1 K − 2... K − m K n r n . . . K 1 r 1 K 0 r 0 K − 1 r − 1 . . . K − m r − m K_nK_{n-1}...K_2K_1K_0K…

Axure设计之三级联动选择器教程(中继器)

使用Axure设计三级联动选择器(如省市区选择器)时,可以利用中继器的数据存储和动态交互功能来实现。下面介绍中继器三级联动选择器设计的教程: 一、效果展示: 1、在三级联动选择器中,首先选择省份&#xff…

【数据分享】1901-2023年我国省市县镇四级的逐年降水数据(免费获取/Shp/Excel格式)

之前我们分享过1901-2023年1km分辨率逐月降水栅格数据和Shp和Excel格式的省市县四级逐月降水数据,原始的逐月降水栅格数据来源于彭守璋学者在国家青藏高原科学数据中心平台上分享的数据!基于逐月数据我们采用求年累计值的方法得到逐年降水栅格数据&#…

数据分析-38-时间序列分解之时变滤波器经验模态分解TVFEMD

文章目录 1 时间序列模态分解1.1 模态分解的概念1.2 模态分解的作用1.3 常用的模态分解方法1.4 模态分解的常用库2 时变滤波器经验模态分解TVFEMD2.1 TVFEMD的流程2.2 加载数据集2.2.1 数据重采样2.2.2 原始数据可视化2.3 代码实现TVFEMD3 参考附录1 时间序列模态分解 1.1 模态…

Blender 几何、线框猴头的构建 笔记

一、学习blender视频教程链接 案例7:猴头构建_建模动画_哔哩哔哩_bilibilihttps://www.bilibili.com/video/BV1Bt4y1E7qn?spm_id_from333.788.videopod.episodes&vd_sourced0ea58f1127eed138a4ba5421c577eb1&p23 二、几何节点基础教程 1.首先添加几何节…

Vite环境下uniapp Vue 3项目添加和使用环境变量的完整指南

一、引言 在uniapp项目中,合理配置环境变量对于提高开发效率和保障项目安全至关重要。Vite作为新一代的前端构建工具,为环境变量的管理提供了简洁而强大的支持。下面,我们将一步步学习如何在Vite环境下为uniapp Vue 3项目添加和使用环境变量…

基于 Encoder-only 架构的大语言模型

基于 Encoder-only 架构的大语言模型 Encoder-only 架构 Encoder-only 架构凭借着其独特的双向编码模型在自然语言处理任务中表现出色,尤其是在各类需要深入理解输入文本的任务中。 核心特点:双向编码模型,能够捕捉全面的上下文信息。 En…