1. 文件读取:here(), 以及glimpse的使用
cereal <- read.csv(here("datasets", "Cereal.csv"))
cereal |> glimpse() # ‘ dplyr ’包中的‘ glimpse() ’函数提供了‘ cereal ’数据集的快速
read.csv(here("datasets", "Cereal.csv"))
here("datasets", "Cereal.csv")
:构建一个文件路径,指向当前工作目录下的datasets
文件夹中的Cereal.csv
文件。read.csv()
:从Cereal.csv
文件中读取数据,并将其存储为一个数据框(data.frame
)。
cereal |> glimpse()
glimpse()
:由dplyr
包提供的函数,用于查看数据框的结构。与str()
类似,但glimpse()
提供了更简洁和易读的输出,可以快速查看数据的列名、类型以及前几个数据值。
2. 读取变量类别
cereal |> class()
3. 读取列名
cereal |> colnames()
4. 读取行数
cereal |> nrow()
5. 读取行列
cereal |> dim()
6. 提取列的三种方法
Cal <- cereal$calories Cal <- cereal |> select(calories)Cal <- cereal |> pull(calories)
7. 提取前xx行
cereal[1:20,]
cereal |> slice(1:20)
8. 获取带条件的dataframe
Kelloggs <- cereal |> filter(mfr == "K")
9. 转换成str
str(cereal)
10. 查看factor的元素
levels(cereal.with.factors$mfr)
nlevels(cereal.with.factors$mfr) # 个数
11. 提取成向量而不是数据框:pull()
cereal.calories <- cereal |> select(calories) |> pull()
select(calories)
:
- 这个函数从
cereal
数据框中选择名为calories
的列。select()
返回的是一个包含所选列的新的数据框。
pull()
:
pull()
用于将选择的列从数据框中提取为一个向量。它会返回一个单独的向量,而不是数据框。
12. 获取长度
length(cereal.calories)
13. 数据框转matrix,并且判断
cereal.matrix <- as.matrix(cereal)
is.matrix(cereal.matrix)
14. matrix删除某列
cereal.removed <- cereal |> select(-c(mfr, name))
15. 描述性统计
summary(cereal$sodium)
16. 计算每个factor的均值
mean.sodiums <- aggregate(sodium ~ mfr, data = cereal, FUN = mean)