刚接触实际操作Rstudio,果然欠的账早晚要还。
- 导入数据
data<-read.csv(“地址”, header = T)
#读取完的数据形式应该是data frame
#注释:header=T表示数据中的第一行是列名,如果没有列名就用header=F
# 把类别转化为数字(数据预处理)
newdata <- data
for (i in c(2,4,5,7,8,10,11,13,15,16,18,20,21)) {newdata[,i] <- as.numeric(as.factor(data[,i]))
}
- 下载并加载包
install packages(“名字”)
library(名字)
实际上这块也遇到了很多问题,我的建议是:
- 打开rstudio的时候选择管理员身份运行;
- 下载时可以先在官网上下载包:
下载地址 - 之后把下载下来的zip放在路径一下:由确定
.libPaths()
install.packages("C://Program Files/R/R-4.0.5/library/tree_1.0-40.tar.gz",repos=NULL,type="source")
- 之后运行代码
install.packages("tree")
library(tree)
- 画图
直方图
hist(data, breaks = c(0.5, 1.5, 2.5, 3.5)),xlab="x轴标注"freq = T(或probability = F),labels = c("A", "B", "C"),axes = T,col = "pink",border = NA,density = 1, angle = 45,main = "freq = T"
表示 以data里面的数据;以0.5、1.5、2.5、3.5为断点;x轴标注;freq为TRUE , y轴显示的是每个区间内的频数,FALSE, 代表显示的是频率(= 频数/ 总数)(probability相反);每个柱上面标注A、B、C;axes=T表示显示坐标轴;col表示柱的颜色;border是柱子边框的颜色(默认为黑色);density表示给柱打斜线的密度;angle表示斜线的倾斜度;main表示图的标题
箱线图
boxplot(data, width = 1, col = "green", border = "red", horizontal = TRUE)
points(mean(data), pch = 16, col = "red")
# 在图里面加一个红色的点表示平均值
表示为数据;箱体宽度为1;箱体为绿色;线为红色,水平放置
散点图
plot(data1, data2, main = "标题")
- 数据分析
mean(data) # 平均数
exp(mean(log(1+data)))-1 # 几何平均数
median(data[,i]) # 中数
min(data[,i]) # 最小值
max(data[,i]) # 最大值
quantile(data) # 四个四分位数
IQR(data) # 内距
var(data) # 方差
sd(data) # 样本标准差
sd(data)*sqrt((nrow(data)-1)/nrow(data)) # 数据集标准差
# 换行 shift+enter
# aggregate函数可以按照要求把数据打组聚合
aggregate(data1, data2, FUN=mean)
# 把data1按照data2进行分类并输出平均值(mean)
aggregate(data[,5], by=list(data[,1]),FUN=sum)
# 原来是写的list(c(“Day”))就不能运行,sum求和