dplyr、tidyverse和ggplot2初探

news/2024/9/18 12:53:30/ 标签: 信息可视化, 数据分析, r语言

dplyr、tidyverse 和 ggplot2 之间有紧密的联系,它们都是 R 语言中用于数据处理和可视化的工具,且都源于 Hadley Wickham 的工作。它们各自有不同的功能,但可以无缝协作,帮助用户完成从数据处理到数据可视化的工作流。以下是它们之间的关系和区别:

  1. ggplot2:
    功能:ggplot2 是一个 数据可视化 包,用于创建各种类型的图表。它是基于 图形语法(Grammar of Graphics)的理念,允许用户灵活地创建自定义图表。
    用途:ggplot2 主要用于数据的可视化展示,包括散点图、折线图、柱状图、箱线图等。
    示例:
library(ggplot2)# 使用 ggplot2 绘制散点图
ggplot(mtcars, aes(x = mpg, y = hp)) + geom_point() +ggtitle("Scatter plot of mpg vs hp")
  1. dplyr:
    功能:dplyr 是一个专门用于 数据操作和处理 的包。它提供了简洁的函数和语法,特别适合处理和变换数据框。它的主要函数包括:
    filter():按条件筛选数据。
    select():选择数据的列。
    mutate():添加或修改列。
    summarize():汇总数据。
    arrange():对数据进行排序。
    用途:dplyr 用于高效、直观地操作数据集,特别适合数据清理、变换和汇总。
    示例:
library(dplyr)# 使用 dplyr 对数据进行操作
mtcars %>%filter(mpg > 20) %>%select(mpg, hp) %>%arrange(desc(hp))
  1. tidyverse:
    功能:tidyverse 是一个 R 语言中的生态系统,由一系列功能强大的 R 包组成,用于处理数据、清理数据、分析数据和可视化数据。tidyverse 的核心理念是“整洁数据”(Tidy Data),即数据应该被组织成一个标准化的结构,每列代表一个变量,每行代表一个观测值。

用途:tidyverse 是一个 集合包,包括多个用于数据科学的 R 包,所有这些包都遵循一致的设计原则和数据结构。tidyverse 中最常用的包包括:

ggplot2(数据可视化)
dplyr(数据操作)
tidyr(数据整理)
readr(数据输入/输出)
tibble(增强的 data.frame)
purrr(函数式编程)
示例:

# 加载tidyverse包(包括ggplot2、dplyr等)
library(tidyverse)# 整合数据处理和可视化
mtcars %>%filter(mpg > 20) %>%ggplot(aes(x = mpg, y = hp)) +geom_point()

三者之间的关系:
ggplot2 和 dplyr 都是 tidyverse 生态系统的一部分。它们各自专注于不同的任务,但共同遵循了整洁数据的理念,且无缝集成。
ggplot2 用于 数据可视化。
dplyr 用于 数据处理。
tidyverse 是一个集合包,包含了 ggplot2、dplyr 等工具,提供完整的 数据科学工作流。
整合性:你可以先使用 dplyr 对数据进行筛选、转换、汇总等操作,然后直接用 ggplot2 进行可视化。它们共享相同的“整洁数据”结构,因此在不同包之间传递数据非常方便。
例如,dplyr 和 ggplot2 的结合:

library(tidyverse)# 使用 dplyr 处理数据,然后用 ggplot2 可视化
mtcars %>%filter(mpg > 20) %>%        # 用 dplyr 筛选数据ggplot(aes(x = mpg, y = hp)) +  # 用 ggplot2 绘制散点图geom_point() +ggtitle("Scatter plot of mpg vs hp for cars with mpg > 20")

总结:
ggplot2 专注于 数据可视化。
dplyr 专注于 数据处理和操作。
tidyverse 是一个 集合包,包含 ggplot2、dplyr 和其他包,用于完成整个数据分析工作流,从数据整理到可视化。
这三者结合起来,可以为数据科学工作提供极大的便利。


http://www.ppmy.cn/news/1524774.html

相关文章

Kubernetes 系列 | k8s入门运维

目录 一、K8S集群搭建1.1 部署方式1.2 了解kubeadm1.3 部署流程1.3.1 初始化配置1.3.2 安装容器运行时1.3.3 安装K8S软件包1.3.4 创建集群 二、集群高可用1.1 集群高可用-堆叠1.2 集群高可用-集群外etcd 三、Pod运维3.1 Pod运维3.2 Pod的生命周期3.3 Pod状况3.4 Pod阶段3.5 容器…

java的BigInteget介绍

当java程序需要处理一个非常大的整数,超过long类型的取值范围,就无法用基本类型对数值接收,这样就要用到BigInteget类。 BigInteger类的方法 BigInteger(String val) 将字符串变为BigInteger类型数据 示例代码如下 import java.math.BigI…

Linux 驱动编写框架 并编译导入开发板

向内核新加文件&#xff1a;例如 demo1.c 1. 创建并编辑新的文件 #include <linux/init.h> #include <linux/kernel.h> #include <linux/types.h> #include <linux/fs.h> #include <linux/module.h> #include <linux/kdev_t.h> #include …

大数据之Spark(一)

九、Spark&#xff08;PySpark 3.2&#xff09; 9.1、基本概念 定义&#xff1a;用于大规模数据处理的统一分析引擎 运行模式 本地模式&#xff08;单机&#xff09;&#xff1a;一个独立进程&#xff0c;多个线程模拟spark运行时环境Standalone模式&#xff08;集群&#…

【数据库-CRUD进阶-约束,联合查询,内连接(详解)】

&#x1f308;个人主页&#xff1a;努力学编程’ ⛅个人推荐&#xff1a; c语言从初阶到进阶 JavaEE详解 数据结构 ⚡学好数据结构&#xff0c;刷题刻不容缓&#xff1a;点击一起刷题 &#x1f319;心灵鸡汤&#xff1a;总有人要赢&#xff0c;为什么不能是我呢 &#x1f412…

​招​银​网​络​​大​疆​​元​象​一​面​

1. 请尽可能详细地说明&#xff0c;XHR、axios和fetch这三者的区别是什么&#xff1f;axios和fetch的底层实现是什么&#xff1f;axios拦截器是什么&#xff1f;axios提供了哪些配置或功能&#xff0c;是fetch和XHR中没有的&#xff1f;你的回答中不要写出示例代码。 XHR、axi…

flink中startNewChain() 的详解

在 Apache Flink 中&#xff0c;startNewChain() 是一个与算子链&#xff08;operator chaining&#xff09;相关的方法。与 disableChaining() 类似&#xff0c;它允许开发者控制算子链的创建方式&#xff0c;但 startNewChain() 的作用是从当前算子开始创建一个新的算子链&am…

全面解析性能测试中的瓶颈分析与优化策略!

在软件开发的生命周期中&#xff0c;性能测试是确保应用程序在不同负载下稳定运行的关键步骤。性能瓶颈是导致系统性能下降的主要原因&#xff0c;及时发现并解决这些瓶颈&#xff0c;能够显著提升系统的响应速度和用户体验。本文将深入探讨性能测试中的瓶颈分析方法与优化策略…

【设计模式】设计模式的八大原则

设计模式的八个原则&#xff1a; 依赖倒置原则&#xff1a; 高层次的代码&#xff08;稳定&#xff09;不应该依赖低层次的代码&#xff08;变化&#xff09;抽象的代码不应该依赖具体的代码。 开放封闭原则&#xff1a;类模块应该开放扩展的&#xff0c;而其原先的代码尽量封…

盘点2024年大家都在用的录屏工具

现在录屏工具的使用范围越来越广了。我的深切体验是有很多人愿意为知识付费了&#xff0c;但是到线下培训的话很多人时间不一定能协调的来&#xff0c;这就导致涌现了不少的录屏课程。这次我们来探讨下要怎么录屏才能呈现更好的效果。 1.福昕录屏大师 链接达达&#xff1a;ww…

GPT撰写开题报告教程——课题确定及文献调研

撰写开题报告是一项复杂而重要的任务&#xff0c;需要涵盖从主题选择到文献综述、研究方法等多个环节。借助AI&#xff0c;如ChatGPT&#xff0c;可以显著提高这一过程的效率以及内容的质量。本文将详细探讨如何一步步利用ChatGPT撰写开题报告。 一、开题报告内容 一个清晰的…

Docker Swarm 管理

案例一概述及前置知识点 概述&#xff1a; 创鑫公司给云计算工程师提出新的要求&#xff0c;可将集群中所有Docker Engine整合进一个虚拟的资源池&#xff0c;通过执行命令与单一的主Swarm进行沟通&#xff0c;而不必分别和DockerEngine沟通。在灵活的调度策略下&#xff0c;…

MongoDB基本语法

MongoDB 基本语法详解 MongoDB 是一种面向文档的 NoSQL 数据库&#xff0c;支持灵活的数据结构和高扩展性&#xff0c;广泛应用于现代应用程序开发。MongoDB 采用 BSON&#xff08;Binary JSON&#xff09;格式存储数据&#xff0c;使得其能够存储复杂嵌套的结构。 1. 数据库…

大数据安全之Kerberos

Kerberos 是一个网络身份验证协议&#xff0c;旨在提供强身份验证&#xff0c;尤其是在开放网络环境中。它最早由麻省理工学院&#xff08;MIT&#xff09;开发&#xff0c;用于在不安全的网络环境中安全地验证用户身份。Kerberos 协议的设计旨在防止窃听、重放攻击和网络中的其…

2024年9月12日(k8s环境及测试 常用命令)

一、环境准备及测试 1、报错处理&#xff1a; kube-system calico-node-5wvln 0/1 Init:0/3 0 16h kube-system calico-node-d7xfb 0/1 Init:0/3 0 16h ku…

mysql学习教程,从入门到精通,SQL AND OR 运算符(12)

1、SQL AND & OR 运算符 在本教程中&#xff0c;您将学习如何在子句中使用ASELECT column1_name, column2_name, columnN_nameFROM table_nameWHERE condition1 AND condition2;ND&#xff06;OR运算符&#xff0c;WHERE以根据多个条件过滤记录。 1.1、根据条件选择记录 …

专注LabVIEW 做好一件事

在一次LabVIEW的系统改造项目中&#xff0c;遇到一个设备&#xff0c;操作手册居然还是基于DOS系统的。不难看出&#xff0c;这套设备虽然年代久远&#xff0c;但背后的技术积淀极为深厚。事实证明&#xff0c;这套系统在业内享有很高的认可度&#xff0c;由国外团队开发&#…

asio中的异步accept分析

简介 主要分析linux平台下的&#xff0c;即reactive_socket_service_base和reactive_socket_service 发起 由basic_socket_acceptor调用async_accept&#xff0c;前提是需要调用open创建socket添加到reactor中。其定义为 template <typename SocketService, typename Ac…

高级 ECharts 技巧:自定义图表主题与样式

ECharts 是一个强大的数据可视化库&#xff0c;提供了多种内置主题和样式&#xff0c;但你也可以根据项目的设计需求&#xff0c;自定义图表的主题与样式。本文将介绍如何使用 ECharts 自定义图表主题&#xff0c;以提升数据可视化的吸引力和一致性。 1. 什么是 ECharts 主题&…

开源免费的工贸一体行业ERP管理系统

引言 在当今数字化浪潮汹涌澎湃的时代&#xff0c;中小企业面临着前所未有的挑战与机遇。如何实现数字化转型发展&#xff0c;成为了众多中小企业主心头的大事。 据相关数据显示&#xff0c;目前我国中小企业数量已经超过了 4000 万户&#xff0c;然而成功实现数字化转型的比例…