数据处理基础-R语言

news/2024/11/6 15:34:26/

目录

数据的标准化

字符处理函数

①计算字符数量

②提取或替换一个字符向量中的子串

③另一种方式替换字符向量中的字符

④分割字符向量

⑤连接字符串

⑥大小写变换

⑦将连续型变量转换成因子

⑧绘图函数:将连续型变量X分割为n个区间

⑨连接对象函数


z <- mean(x, trim = 0.05, na.rm=TRUE) 
则提供了截尾平均数,即丢弃了最大5%和最小5%的数据和所有缺失值后的算术平均数。

数据的标准化

默认情况下,函数scale()对矩阵或数据框的指定列进行均值为0、标准差为1的标准化:

newdata <- scale(mydata)

要对每一列进行任意均值和标准差的标准化,可以使用如下的代码:

newdata <- scale(mydata)*SD + M

其中的M是想要的均值,SD为想要的标准差。在非数值型的列上使用scale()函数将会报错。 要对指定列而不是整个矩阵或数据框进行标准化,你可以使用这样的代码:

newdata <- transform(mydata, myvar = scale(myvar)*10+50)

此句将变量myvar标准化为均值50、标准差为10的变量。

字符处理函数

字符处理函数可以从文本型数据中抽取信息。

①计算字符数量

#nchar(x) 
x <- c("ab", "cde", "fghij") 
length(x)返回值为 3 
nchar(x[3])返回值为 5

②提取或替换一个字符向量中的子串

#substr(x, start, stop) 
x <- "abcdef" 
substr(x, 2, 4)返回值为"bcd"
substr(x, 2, 4) <- "22222"(x 将变成"a222ef")

③另一种方式替换字符向量中的字符

#sub(pattern, replacement, x, ignore.case=FALSE, fixed=FALSE) 
在 x 中搜索 pattern,并以文本 replacement 将其替换。若 fixed=FALSE,则
pattern 为一个正则表达式。若 fixed=TRUE,则 pattern 为一个文本字符串。
sub("\\s",".","Hello There")返回值为 Hello.There。注意,"\s"是一个
用来查找空白的正则表达式;使用"\\s"而不用"\"的原因是,后者是 R 中的转义
字符

④分割字符向量

#strsplit(x, split, fixed=FALSE) 
在 split 处分割字符向量 x 中的元素。若 fixed=FALSE,则 pattern 为一个正
则表达式。若 fixed=TRUE,则 pattern 为一个文本字符串
y <- strsplit("abc", "")将返回一个含有 1 个成分、3 个元素的列表,包含
的内容为"a" "b" "c"

⑤连接字符串

#paste(…, sep="") 
连接字符串,分隔符为 sep
paste("x", 1:3,sep="")返回值为 c("x1", "x2", "x3")
paste("x",1:3,sep="M")返回值为 c("xM1","xM2" "xM3")
paste("Today is", date())返回值为 Today is Thu Jun 25 14:17:32 2011

⑥大小写变换

#大写变换toupper(x) 
toupper("abc")返回值为"ABC"
#小写变换tolower(x) 
tolower("ABC")返回值为"abc"

⑦将连续型变量转换成因子

#cut(x, n)
将连续型变量 x 分割为有着 n 个水平的因子
使用选项 ordered_result = TRUE 以创建一个有序型因子

⑧绘图函数:将连续型变量X分割为n个区间

#pretty(x, n) 
创建美观的分割点。通过选取 n+1 个等间距的取整值,将一个连续型变量 x分割为 n 个区间。绘图中常用

⑨连接对象函数

#cat(... , file ="myfile", append =FALSE) 连接...中的对象

\n表示新行,\t为制表符,\' 为单引号,\b为退格,等等。(键入?Quotes以了解更多。)

 请注意第二行缩进了一个空格。当cat输出连接后的对象时,它会将每一个对象都用空格分 开。这就是在句号之前使用退格转义字符(\b)的原因。不然,生成的结果将是“Hello Bob .”。

 参考资料:R语言实战(第二版)


http://www.ppmy.cn/news/166936.html

相关文章

戴尔Inspiron 灵越 14R(N4120)加装固态硬盘

1、利用U盘制作系统 直接win10官网&#xff0c;下载系统制作软件&#xff08;MediaCreationTool&#xff09;&#xff0c;提前准备一个8G以上的U盘&#xff0c;按照提示将系统制作到U盘 https://www.microsoft.com/zh-cn/software-download/windows10 2、安装固态 dell电脑…

R语言绘制雷达图

R语言多种包绘制雷达图 前言R语言中已有的雷达包ggradar函数radarchart函数碎碎念 参考资料 前言 第一次用文档记录&#xff0c;排版&#xff0c;文字表达比较混乱&#xff0c;如果有对R雷达图感兴趣的小伙伴&#xff0c;可以一起讨论啊&#xff01; 会根据自己对R绘制雷达的了…

R语言:矩阵

R语言&#xff1a; 矩阵 R 语言为线性代数的研究提供了矩阵类型&#xff0c;这种数据结构很类似于其它语言中的二维数组&#xff0c;但 R 提供了语言级的矩阵运算支持。矩阵里的元素可以是数字、符号或数学式。 函数说明data向量&#xff0c;矩阵的数据nrow行数ncol列数byrow…

掌握R语言文件读取方法

目标 掌握 R语言文件读取方法 学习笔记 utils包内Date Input用法base包内readLines用法stringi包内stri_read_linesxlsx包内Date Input用法readr包内 Read a delimited file 用法 1.utils包内Date Input用法 以read.table为例。 read.table参数详细说明见http://www.360doc…

R语言日期处理

R语言日期处理的一些问题 使用R语言的很多都知道&#xff0c;其对于日期处理有时候会很麻烦&#xff0c;这里总结一些列子&#xff0c;希望有所帮助 注&#xff1a;这里主要描述日期识别&#xff0c;其他的计算参考下文中的R包&#xff0c;此处不细述 基础日期函数 as.Date…

通过R语言做灰色预测

通过R语言做灰色预测 GM(1&#xff0c;1)模型的定义数据的检验与处理数据的生成级比检验 GM(1,1)建模生成累加数据和均值数据构造矩阵 B B B及数据向量 Y Y Y,有计算&#xff1a;建立模型&#xff0c;求解&#xff0c;并还原数据 模型检验生成时间序列图计算残差&#xff0c;相…

r语言 读服务器数据,R语言数据实战 | 安装R语言

原标题:R语言数据实战 | 安装R语言 1、R的获取和安装 获取和安装R很容易(这也是它“亲民”的地方),具体步骤如下: Step 1: 登陆R语言官方网站https://www.r-project.org,点击download R。 图1 R官方网站 Step 2:在弹出的镜像(Mirrors)页面上选择合适的镜像入口,如果你在中…

R语言如何绘制相关性热图(14)

1.什么是相关性热图&#xff1f; 相关性分析是指对两个或多个具备相关性的变量元素进行分析&#xff0c;从而衡量两个变量因素的相关密切程度。相关性的元素之间需要存在一定的联系或者概率才可以进行相关性分析。 当两个变量之间存在非常强烈的相互依赖关系的时候&#xff0…