linux文本分析awk基础命令介绍(8)

来自：网络

时间：2020-10-30

阅读：

awk是一种模式扫描和处理语言，在对数据进行分析处理时，是十分强大的工具。

awk [options] 'pattern {action}' file...

awk的工作过程是这样的：按行读取输入(标准输入或文件)，对于符合模式pattern的行，执行action。当pattern省略时表示匹配任何字符串；当action省略时表示执行'{print}'；它们不可以同时省略。
每一行输入，对awk来说都是一条记录(record)，awk使用$0来引用当前记录：

[root@centos7 ~]# head -1 /etc/passwd | awk '{print $0}'
root:x:0:0:root:/root:/bin/bash

例子中将命令head -1 /etc/passwd作为awk的输入，awk省略了pattern，action为print $0，意为打印当前记录。
对于每条记录，awk使用分隔符将其分割成列，第一列用$1表示，第二列用$2表示...最后一列用$NF表示

选项-F表示指定分隔符
如输出文件/etc/passwd第一行第一列(用户名)和最后一列(登录shell)：

[root@centos7 ~]# head -1 /etc/passwd | awk -F: '{print $1,$NF}'
root /bin/bash

当没有指定分隔符时，使用一到多个blank(空白字符，由空格键或TAB键产生)作为分隔符。输出的分隔符默认为空格。
如输出命令ls -l *的结果中，文件大小和文件名：

[root@centos7 temp]# ls -l * | awk '{print $5,$NF}'
13 b.txt
58 c.txt
12 d.txt
0 e.txt
0 f.txt
24 test.sh
[root@centos7 temp]#

还可以对任意列进行过滤：

[root@centos7 temp]# ls -l *|awk '$5>20 && $NF ~ /txt$/'
-rw-r--r-- 1 nobody nobody 58 11月 16 16:34 c.txt

其中$5>20表示第五列的值大于20；&&表示逻辑与；$NF ~ /txt$/中，~表示匹配，符号//内部是正则表达式。这里省略了action，整条awk语句表示打印文件大小大于20字节并且文件名以txt结尾的行。

awk用NR表示行号

[root@centos7 temp]# awk '/^root/ || NR==2' /etc/passwd
root:x:0:0:root:/root:/bin/bash
bin:x:1:1:bin:/bin:/sbin/nologin
[root@centos7 temp]#

例子中||表示逻辑或，语句表示：输出文件/etc/passwd中以root开头的行或者第二行。

在一些情况下，使用awk过滤甚至比使用grep更灵活
如获得ifconfig的输出中网卡名及其对应的mtu值

[root@idc-v-71253 ~]# ifconfig|awk '/^\S/{print $1"\t"$NF}'
ens32: 1500
ens33: 1500
lo:   65536
[root@idc-v-71253 ~]# 
#这里的正则表示不以空白字符开头的行，输出内容中使用\t进行了格式化。

以上所说的NR、NF等都是awk的内建变量，下面列出部分常用内置变量

$0     当前记录（这个变量中存放着整个行的内容）
$1~$n    当前记录的第n个字段，字段间由FS分隔
FS     输入字段分隔符 默认是空格或Tab
NF     当前记录中的字段个数，就是有多少列
NR     行号，从1开始，如果有多个文件话，这个值也不断累加。
FNR     输入文件行号
RS     输入的记录分隔符， 默认为换行符
OFS     输出字段分隔符， 默认也是空格
ORS     输出的记录分隔符，默认为换行符
FILENAME  当前输入文件的名字

awk中还可以使用自定义变量，如将网卡名赋值给变量a，然后输出网卡名及其对应的RX bytes的值(注意不同模式匹配及其action的写法)：

[root@idc-v-71253 ~]# ifconfig|awk '/^\S/{a=$1}/RX p/{print a,$5}'
ens32: 999477100
ens33: 1663197120
lo: 0

awk中有两个特殊的pattern：BEGIN和END；它们不会对输入文本进行匹配，BEGIN对应的action部分组合成一个代码块，在任何输入开始之前执行；END对应的action部分组合成一个代码块，在所有输入处理完成之后执行。

#注意类似于C语言的赋值及print函数用法
[root@centos7 temp]# ls -l *|awk 'BEGIN{print "size name\n---------"}$5>20{x+=$5;print $5,$NF}END{print "---------\ntotal",x}'
size name
---------
58 c.txt
24 test.sh
---------
total 82
[root@centos7 temp]#

awk还支持数组，数组的索引都被视为字符串(即关联数组)，可以使用for循环遍历数组元素
如输出文件/etc/passwd中各种登录shell及其总数量

#注意数组赋值及for循环遍历数组的写法
[root@centos7 temp]# awk -F ':' '{a[$NF]++}END{for(i in a) print i,a[i]}' /etc/passwd
/bin/sync 1
/bin/bash 2
/sbin/nologin 19
/sbin/halt 1
/sbin/shutdown 1
[root@centos7 temp]#

当然也有if分支语句

#注意大括号是如何界定action块的
[root@centos7 temp]# netstat -antp|awk '{if($6=="LISTEN"){x++}else{y++}}END{print x,y}'
6 3
[root@centos7 temp]#

pattern之间可以用逗号分隔，表示从匹配第一个模式开始直到匹配第二个模式

[root@centos7 ~]# awk '/^root/,/^adm/' /etc/passwd    
root:x:0:0:root:/root:/bin/bash
bin:x:1:1:bin:/bin:/sbin/nologin
daemon:x:2:2:daemon:/sbin:/sbin/nologin
adm:x:3:4:adm:/var/adm:/sbin/nologin

还支持三目操作符pattern1 ? pattern2 : pattern3，表示判断pattern1是否匹配，true则匹配pattern2，false则匹配pattern3，pattern也可以是类似C语言的表达式。
如判断文件/etc/passwd中UID大于500的登录shell是否为/bin/bash，是则输出整行，否则输出UID为0的行：

#注意为避免混淆对目录分隔符进行了转义
[root@centos7 ~]# awk -F: '$3>500?/\/bin\/bash$/:$3==0 {print $0}' /etc/passwd     
root:x:0:0:root:/root:/bin/bash
learner:x:1000:1000::/home/learner:/bin/bash
#三目运算符也可以嵌套，例子略

选项-f file表示从file中读取awk指令

#打印斐波那契数列前十项
[root@centos7 temp]# cat test.awk 
BEGIN{
  $1=1
  $2=1
  OFS=","
  for(i=3;i<=10;i++)
  {
    $i=$(i-2)+$(i-1)
  }
  print
}
[root@centos7 temp]# awk -f test.awk 
1,1,2,3,5,8,13,21,34,55
[root@centos7 temp]#

选项-F指定列分隔符

#多个字符作为分隔符时
[root@centos7 temp]# echo 1.2,3:4 5|awk -F '[., :]' '{print $2,$NF}'
2 5
[root@centos7 temp]#
#这里-F后单引号中的内容也是正则表达式

选项-v var=val设定变量

#这里printf函数用法类似C语言同名函数
[root@centos7 ~]# awk -v n=5 'BEGIN{for(i=0;i<n;i++) printf "%02d\n",i}' 
00
01
02
03
04
[root@centos7 ~]#

print等函数还支持使用重定向符>和>>将输出保存至文件

#如按第一列(IP)分类拆分文件access.log，并保存至ip.txt文件中
[root@centos7 temp]# awk '{print > $1".txt"}' access.log 
[root@centos7 temp]# ls -l 172.20.71.*
-rw-r--r-- 1 root root 5297 11月 22 21:33 172.20.71.38.txt
-rw-r--r-- 1 root root 1236 11月 22 21:33 172.20.71.39.txt
-rw-r--r-- 1 root root 4533 11月 22 21:33 172.20.71.84.txt
-rw-r--r-- 1 root root 2328 11月 22 21:33 172.20.71.85.txt

内建函数
length()获得字符串长度

[root@centos7 temp]# awk -F: '{if(length($1)>=16)print}' /etc/passwd 
systemd-bus-proxy:x:999:997:systemd Bus Proxy:/:/sbin/nologin
[root@centos7 temp]#

split()将字符串按分隔符分隔，并保存至数组

[root@centos7 temp]# head -1 /etc/passwd|awk '{split($0,arr,/:/);for(i=1;i<=length(arr);i++) print arr[i]}'
root
x
0
0
root
/root
/bin/bash
[root@centos7 temp]#

getline从输入(可以是管道、另一个文件或当前文件的下一行)中获得记录，赋值给变量或重置某些环境变量

#从shell命令date中通过管道获得当前的小时数
[root@centos7 temp]# awk 'BEGIN{"date"|getline;split($5,arr,/:/);print arr[1]}'
09
#从文件中获取，此时会覆盖当前的$0。(注意逐行处理b.txt的同时也在逐行从c.txt中获得记录并覆盖$0，当getline先遇到eof时<即c.txt文件行数较少>将输出空行)
[root@centos7 temp]# awk '{getline <"c.txt";print $4}' b.txt 
"https://segmentfault.com/blog/learnning"
[root@centos7 temp]# 
#赋值给变量
[root@centos7 temp]# awk '{getline blog <"c.txt";print $0"\n"blog}' b.txt 
aasdasdadsad
BLOG ADDRESS IS "https://segmentfault.com/blog/learnning"
[root@centos7 temp]# 
#读取下一行(也会覆盖当前$0)
[root@centos7 temp]# cat file
anny
100
bob
150
cindy
120
[root@centos7 temp]# awk '{getline;total+=$0}END{print total}' file
370
#此时表示只对偶数行进行处理

next作用和getline类似，也是读取下一行并覆盖$0，区别是next执行后，其后的命令不再执行，而是读取下一行从头再执行。

#跳过以a-s开头的行，统计行数，打印最终结果
[root@centos7 temp]# awk '/^[a-s]/{next}{count++}END{print count}' /etc/passwd
2
[root@centos7 temp]# 
#又如合并相同列的两个文件
[root@centos7 temp]# cat f.txt 
学号 分值
00001 80
00002 75
00003 90
[root@centos7 temp]# cat e.txt 
姓名 学号
张三 00001
李四 00002
王五 00003
[root@centos7 temp]# awk 'NR==FNR{a[$1]=$2;next}{print $0,a[$2]}' f.txt e.txt  
姓名 学号 分值
张三 00001 80
李四 00002 75
王五 00003 90
#这里当读第一个文件时NR==FNR成立，执行a[$1]=$2，然后next忽略后面的。读取第二个文件时，NR==FNR不成立，执行后面的打印命令

sub(regex,substr,string)替换字符串string(省略时为$0)中首个出现匹配正则regex的子串substr

[root@centos7 temp]# echo 178278 world|awk 'sub(/[0-9]+/,"hello")'
hello world
[root@centos7 temp]#

gsub(regex,substr,string)与sub()类似，但不止替换第一个，而是全局替换

[root@centos7 temp]# head -n5 /etc/passwd|awk '{gsub(/[0-9]+/,"----");print $0}'   
root:x:----:----:root:/root:/bin/bash
bin:x:----:----:bin:/bin:/sbin/nologin
daemon:x:----:----:daemon:/sbin:/sbin/nologin
adm:x:----:----:adm:/var/adm:/sbin/nologin
lp:x:----:----:lp:/var/spool/lpd:/sbin/nologin

substr(str,n,m)切割字符串str，从第n个字符开始，切割m个。如果m省略，则到结尾

[root@centos7 temp]# echo "hello,世界！"|awk '{print substr($0,8,1)}'
界
[root@centos7 temp]#

tolower(str)和toupper(str)表示大小写转换

[root@centos7 temp]# echo "hello,世界！"|awk '{A=toupper($0);print A}'
HELLO,世界！
[root@centos7 temp]#

system(cmd)执行shell命令cmd，返回执行结果，执行成功为0，失败为非0

#此处if语句判断和C语言一致，0为false，非0为true
[root@centos7 temp]# awk 'BEGIN{if(!system("date>/dev/null"))print "success"}'
success
[root@centos7 temp]#

match(str,regex)返回字符串str中匹配正则regex的位置

[root@centos7 temp]# awk 'BEGIN{A=match("abc.f.11.12.1.98",/[0-9]{1,3}\./);print A}'
7
[root@centos7 temp]#

awk作为一个编程语言可以处理各种各样的问题，甚至于编写应用软件，但它更常用的地方是命令行下的文本分析，生成报表等，这些场景下awk工作的很好。工作中如经常有文本分析的需求，那么掌握这个命令的用法将为你节省大量的时间。

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持免费资源网。

服务器是企业和个人重要的存储设备之一，而数据是企业和个人的珍贵财富，一旦服务器出现故障，会导致数据丢失或者受损，对公司或个人造成巨大的损失。因此，服务器备份和恢复数据备受

2024-10-21 20:49:48

目录一：证书配置二：Tomcat配置 http自动跳转 https 总结一：证书配置下载已签发的证书、选择 Tomcat 版本进入 Tomcat 目录创建个 cert 文件夹将下载好的 SSL证书压缩包里的

2024-10-20 21:52:57

目录一、引言二、基本概念三、修改密码的步骤 3.1 登录到 CentOS 服务器 3.2 修改当前用户的密码 3.3 修改其他用户的密码 3.4 密码复杂性检查四、解决密码复杂性

2024-10-20 21:52:48

目录引言 1. Nginx简介 2. 跨域问题简介 3. 解决跨域问题的方法步骤一：安装和配置Nginx 步骤二：测试跨域访问结论总结引言在现代的Web开发中，跨域访问是一种常见的

2024-10-18 23:19:22

目录方法 1：直接从服务器上抓取并查看证书方法 2：通过 openssl 抓取并查看证书方法 3：下载并查看证书文件证书信息解析总结查看服务器端的证书时，可以通过导入服务器

2024-10-18 23:19:14

目录一、找到位于 /etc/netplan 的 netplan 目录二、修改或创建配置文件三、配置与本机相符的网络适配器四、禁用DHCP 五、配置静态IP、子网掩码、网关六、配置DNS服务

2024-10-18 23:19:06

目录方法一第一步：查看当前主机网络信息第二步：修改配置文件进入配置文件夹第三步：使配置生效且检查网络连接状况方法二第一步：查看当前主机网络信息第二步：修改

2024-10-18 23:18:57

目录 LINUX使用rsync命令 Rsync 命令语法 Rsync 命令选项 Rsync 命令命令示例 Rsync命令的基本语法使用 Rsync 命令传输文件和目录使用 Rsync 命令镜像数据

2024-10-18 23:18:22

目录首先重来就没有设置过ROOT用户 1.使用普通用户登录后输入以下命 2.设置root用户密码 3.输入“su”切换为root用户登录 4.输入“Visudo”命令

2024-10-18 23:18:14

目录 Linux解决「Unknown filesystem」遇到这种情况应该如何修复总结Linux解决「Unknown filesystem」不知道大家在使用 Linux 系统的时候有没有遇见过「Unknown filesys

2024-10-18 23:18:02

目录下载nginx 配置启动总结下载nginx下载地址https://nginx.org/en/download.htmldownload > Stable version 可选择稳定版的nginxnginx压缩包解压后的目录配置1.将打

2024-10-18 23:17:53

目录 1、VScode扩展安装与配置（1）vscode扩展安装（2）vscode远程配置 2、vscode-server离线下载（1）Commit ID查看（2）安装包下载 3、文件解压缩 4、移动文件到指定位置

2024-10-18 23:17:27

目录 Linux中监控系统重启的重要性深入探究：Linux 重启日志使用last命令 uptime 命令利用journalctl获取重启历史记录 who -b 命令总结借其强大的架构和无与伦比的灵活性

2024-10-18 23:17:06

目录 MKDIR 命令的语法 mkdir 命令可用的选项深入了解 MKDIR 命令示例使用 mkdir 创建简单目录在以其绝对功能和灵活性而闻名的 Linux 操作系统的动态世界中，有大量

2024-10-18 23:16:52

目录如何通过 Nginx 只允许 www 域名访问并禁止裸域名访问步骤 1：配置 Nginx 处理 www 域名步骤 2：禁止裸域名访问步骤 3：重定向裸域名到 www 域名（可选）步骤 4：重启 Ng

2024-10-18 23:16:32

从日志信息来看，确实是权限问题（Permission denied）。我们可以重新检查并设置权限，确保 Nginx 用户有权限访问这些文件。检查 Nginx 用户：首先确认 Nginx 使用的用户，一般是 www-d

2024-10-14 19:52:38

目录一、telnet简述二、telnet Connection refused不通处理思路一般对应上面的后两种情况排查目的主机服务总结一、telnet简述telnet一般用于测试本机到目的主机

2024-10-14 19:52:29

目录在linux下图形界面和命令行界面的切换 1. 图形界面和命令行界面的切换 2. 修改系统开机进入的界面总结在linux下图形界面和命令行界面的切换我估计好多喜欢用li

2024-10-14 19:52:19

目录 telnet nc命令返回“连接失败” 1、端口没有被监听 2、防火墙策略 3、目标主机不接受外部连接总结 telnet nc命令返回“连接失败”当使用n

2024-10-14 19:52:12

目录 1、问题描述 2、问题解决1、问题描述在命令行输入命令按Tab键时出现如下报错：很明显，设备上没有空间，即磁盘空间不足。通过命令查看具体情况如下：df -h2、问题解决首先想到

2024-10-14 19:52:02

本文主要介绍了nginx配置history模式的使用小结，具体如下：worker_processes 1; events { worker_connections 1024;} http { include mime.types; default_t

2024-10-14 19:51:41

目录一、配置 Nginx 获取客户端真实 IP 1、基本配置说明 2、set_real_ip_from详解 3、log_format 配置（参考）二、调试与测试三、Lua 中使用客户端真实 IP（参考）四

2024-10-14 19:51:32

目录官方文档代理样例 Linux 查看安装文件命令手册 Nginx 日志配置方案成功解决问题–使用 Nginx 代理 WebSocket 可能出现的问题 Nginx 官方文档网址 nginx d

2024-10-14 19:50:51

目录方法1: 使用 netstat 命令方法2: 使用 lsof 命令方法3: 使用 ss 命令方法4: 直接从Java进程读取注意事项在Linux系统中，如果你已经知道了Java应用程序的进程ID（PID），你

2024-10-14 19:50:44

目录 logrotate 简介 logrotate 配置文件日志回滚原理 sshd 日志回滚实战修改配置文件重启rsyslog 强制切割测试和运行 logrotate debug 模式 v

2024-10-14 19:50:35

目录利用Linux自带的logrotate管理日志 1. logrotate简介 2. logrotate配置参数 3. nginx日志切割实例 4. 其他配置示例总结利用Linux自带的logrotate管理日志日

2024-10-14 19:50:22

是一种常见的命令行工具，用于从远程服务器下载整个目录及其子目录中的文件。它可以通过递归方式下载目录中的所有文件，并保持目录结构的完整性。wget是一个开源的非交互式命令

2024-10-14 14:17:31

目录 linux开启关闭防火墙 1.关闭防火墙 2.设置开机不启动 3.查看防火墙状态不同系统常见防火墙相关命令下面是red hat/CentOs7关闭防火墙的命令 firewalld 总结

2024-10-12 00:18:20

目录第一种：Nginx自己的错误页面第二种：反向代理的错误页面一个网站项目，肯定是避免不了404页面的，通常使用Nginx作为Web服务器时，有以下集中配置方式，一起来看看。第一种：Nginx

2024-09-30 00:10:50

目录问题原因解决方法 1. 查看 Nginx 错误日志 2. 检查 Nginx 配置文件 3. 检查应用程序日志 4. 检查文件权限 5. 检查后端服务示例 Nginx 配置检查步骤检查步

2024-09-30 00:09:29

2020-07-31

2019-11-21

2019-08-07

2018-09-24

2020-03-22

2019-02-16

2019-11-17

2018-10-07

2018-10-04

linux文本分析awk基础命令介绍(8)

如何恢复linux和windows服务器被误删除文件

Tomcat服务器如何配置ssl证书

CentOS修改服务器登录密码的详细指南

Nginx解决跨域访问的完整实例

linux查看服务端证书方式(keytool和openssl)

Ubuntu设置静态IP地址的方法步骤(亲测有效)

Ubuntu配置静态IP的两种方法

在LINUX系统上使用rsync命令详解

Linux系统中如何将普通用户权限提升至root权限

Linux解决Unknown filesystem问题

nginx部署前端dist包详细图文教程

VScode连接远程服务器踩坑实战记录(新版离线vscode-server安装)

Linux系统中检查系统重启记录方案

LINUX中关于mkdir命令语法和实例解读

Nginx 只允许 www 域名访问并禁止裸域名访问的实现步骤

Nginx设置目录的访问权限实现访问静态资源

telnet Connection refused端口不通如何处理

linux下图形界面和命令行界面的切换方式

telnet nc命令返回“连接失败”问题及解决

Linux无法为立即文档创建临时文件：设备上没有空间的问题解决

nginx配置history模式的使用小结

Nginx获取客户端真实IP(real_ip_header)的实现

Nginx配置WebSocket代理的示例代码

Linux系统下通过jar包进程号查询jar程序占用端口的常用方法

linux日志轮询方案

Linux自带的logrotate管理日志用法

使用wget递归下载目录内容

linux如何开启关闭防火墙

Nginx实现404页面的配置方法的两种方法

nginx出现500 Internal Server Error错误的解决方法

热点内容

免费资源网

在线工具

扫一扫随时看

本站下载频道