Linux入门攻坚——21、gawk入门

gawk——GNU awk

文本处理三剑客：grep，sed，awk
grep，egrep，fgrep：文本过滤工具，pattern；
sed：行编辑器：模式空间、保持空间；
awk：报告生成器，格式化文本输出；

linux使用的是gawk，为了统一，依然使用awk作为命令，只不过是gawk的链接：

基本用法：gawk [options] 'program' FILE ...
program：PATTERN{ACTION STATEMENTS}
语句之间用分号分隔

选项：
-F：指明输入时用到的字段分隔符
-v var=value：自定义变量

awk的工作原理：
按行读取文件，将读取的内容以-F指定的分隔符（默认为空白字符）进行分隔，形成多个部分，将不同的部分赋值给awk的内置位置变量，如$1，$2，$3...，而$0表示整行。（类似数据库中一条记录和字段）。

输出命令：
1、print： print item1，item2，...
要点：
1）逗号分隔符；
2）输出的各item可以是字符串，也可以是数值；当前记录的字段、变量或awk的表达式；
3）省略item，相当于print $0

2、变量
内建变量：
FS ： input field seperator，输入字段分隔符，默认为空白字符，相当于-F选项
OFS：output field seperator，输出字段分隔符，默认为空白字符
          RS：input record seperator，输入的换行符
          ORS：output record seperator，输出的换行符
          NF：number of field，字段数量
{print NF} 与 {print $NF}的区别，NF是每行的字段数，$NF相当于每行最后一个字段
          NR：number of record，行数，多个文件会统一计数
          FNR：行数，各文件分别计数；
          FILENAME：文件名
          ARGC：命令行参数的个数，命令本身也算在其中
          ARGV：数组，保存了命令行中所给定的各参数

  自定义变量：
1）-v var=value
变量名区分字符大小写
2）在program中直接定义

3、 printf命令：类似C语言中的printf
格式化输出：printf FORMAT，item1，item2，...
1）FORMAT必须给出；
2）不会自动换行，需要显示给出换行控制符，\n
3）FORMAT中需要分别为后面的每个item指定一个格式化符号；
格式符：
%c：显示字符的ASCII码；
%d，%i：显示十进制整数；
%e，%E：科学计数法数值显示；
%f：显示为浮点数；
%g，%G：以科学计数法或浮点形式显示数值；
%s：显示字符串；
%u：无符号整数；
%%：显示%自身；
修饰符：
#[.#]：%3.1f，第一个数字控制显示的宽度，第二个数字表示小数点后的精度；
-：左对齐；
+：显示数值的符号；
4、操作符
算术操作符：x+y，x-y，x*y，x/y，x^y，x%y， -x
+x：转换为数值
字符串操作符：没有符号的操作符，字符串连接
赋值操作符：=，+=，-=，*=，/=，%=，^=，++，--
比较操作符：>，>=，<，<=，!=，==
模式匹配符：~:是否匹配，!~：是否不匹配
逻辑操作符：&& ，||，！
函数调用：function_name(arg1，arg2，...)
条件表达式：selector？if-true-expression：if-false-expression

 awk -F: '{$3>=1000?usertype="Common User":usertype="Sysadmin";printf "%15s:%-s\n",$1,usertype}' /etc/passwd

5、PATTERN
1）empty：空模式，匹配每一行
2）/regular expression/：仅处理能够被模式匹配到的行；awk '/UUID/{print $1}' /etc/fstab
3）relational expression：关系表达式；结果真或假，结果为真才会被处理；
真：结果为非0值，非空字符串。awk -F: '$3>=1000{print $1,$3}' /etc/passwd
awk -F: '$NF=="/bin/bash"{print $1,$NF}' /etc/passwd
awk -F: '$NF~/bash$/{print $1,$NF}' /etc/passwd
4）line ranges：行范围； NR>=startline&&NR<=endline；/pat1/，/pat2/
5）BEGIN/END模式：
BEGIN{}：仅在开始处理文件中的文本之前执行一次；
END{}：仅在文本处理完成之后执行一次；

6、常用action
1）Expressions：表达式，条件表达式，赋值表达式等
2）Control statements：if，while等；
3）Compound statements：组合语句；
4）input statements：输入语句
5）Output statements：输出语句

7、控制语句
if(condition) {statements}
if(condition) {statements} else {statements}
while(condition) {statements}
do {statements} while(condition)
for(expr1;expr2;expr3) {statements}
break
continue
delete array[index]
delete array
exit
{ statements }

7.1 if-else
语法：if(condition) statement [else statement]

awk -F: '{if($NF=="/bin/bash") printf $1}' /etc/passwdawk -F: '{if($3>=1000) {printf "Common user: %s\n",$1} else {printf "root or Sysuser: %s\n",$1}}' /etc/passwd

使用场景：对awk取得的整行或某个字段做条件判断；
7.2 while循环
语法：while(condition) statement
条件“真”，进入循环；条件“假”，退出循环；
使用场景：对一行内的多个字段逐一类似处理时使用；对数组中的各元素逐一处理时使用；

awk '/^[[:space:]]*linux16/{i=1;while(i<=NF) {print $i,length($i);i++}}' /etc/grub2.cfgawk '/^[[:space:]]*linux16/{i=1;while(i<=NF) {if(length($i)>=7) {print $i,length($i)};i++}}' /etc/grub2.cfg

7.3 do-while循环
语法：do statement while(condition)
意义：至少执行一次循环体

7.4 for循环
语法：for(expr;expr2;expr3) statement
for(variable assignment;condition;iteration process)

 awk '/^[[:space:]]*linux16/{for(i=1;i<=NF;i++) {print $i,length($i)}}' /etc/grub2.cfg

特殊用法：能够遍历数组中的元素
语法：for（var in array）{for-body}

7.5 switch语句
语法：switch（expression）{case VALUE1 or /REGEXP/：statement；case VALUE2 or/REGEXP2/：statement；...；default：statement}

7.6 break和continue
break [n]
continue

7.7 next
提前结束对本行的处理而直接进入下一行；

 awk -F: '{if($3%2!=0) next;print $1,$3}' /etc/passwd

8、array
关联数组：array[index-expression]
index-expression：
1）可使用任意字符串，字符串要使用双引号；
2）如果某数组元素事先不存在，在引用时，awk会自动创建此元素，并将其值初始化为“空串”；
若要判断数组中是否存在某元素，要使用“index in array”格式进行；
若要遍历数组中的每个元素，使用for循环：
for（var in array）{for-body}

awk 'BEGIN{week["mon"]="Monday";week["tue"]="Tuesday";print week["tue"]}'
awk 'BEGIN{week["mon"]="Monday";week["tue"]="Tuesday";for(i in week)print week[i]}'
netstat -tan | awk '/^tcp\>/{state[$NF]++} END{for(i in state) {print i,state[i]}}'

注意：var会遍历array的每个索引；

9、函数
9.1 内置函数
数值处理：rand()：随机数
字符串处理：
length（[s]）:返回指定字符串的长度
sub（r，s，[t]）：以r表示的模式来查找t所表示的字符中的匹配的内容，并将其第一次出现替换为s所表示的内容；
gsub（r，s，[t]）：以r表示的模式来查找t所表示的字符中的匹配的内容，并将其所有出现替换为s所表示的内容；
split（s，a[，r]）：以r为分隔符切割字符s，并将切割后的结果保存至a所表示的数组中；
netstat -tan | awk '/^tcp\>/{split($5,ip,":");count[ip[1]]++} END{for(i in count) {print i,count[i]}}'

Linux入门攻坚——21、gawk入门

相关文章

任务调度xxljob的使用记录

【前端面试常问】什么是响应式❓Vue2/Vue3中响应式的原理

Java基础知识总结（73）

Trello与Notion的开源替代项目管理利器Focalboard本地安装与远程访问

TP8 利用jwt 生成token

CSS Position定位（详解网页中的定位属性）

Redis__数据类型

甘特图是什么？利用甘特图来优化项目管理流程