利用shell命令统计日志的方法详解

来自：网络

时间：2020-10-30

阅读：

前言

大家都知道，通过使用 shell 命令可以很方便地对日志进行统计和分析，当服务有异常的时候，需要去排查日志，那么掌握一种统计日志的技巧就是必不可少的了。

假设有一个包含下面内容的日志文件 access.log。我们以统计这个文件的日志为例。

date=2017-09-23 13:32:50 | ip=40.80.31.153 | method=GET | url=/api/foo/bar?params=something | status=200 | time=9.703 | bytes=129 | referrer="-" | user-agent="Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.7 (KHTML, like Gecko) Chrome/16.0.912.63 Safari/535.7" | cookie="-"
date=2017-09-23 00:00:00 | ip=100.109.222.3 | method=HEAD | url=/api/foo/healthcheck | status=200 | time=0.337 | bytes=10 | referrer="-" | user-agent="-" | cookie="-"
date=2017-09-23 13:32:50 | ip=40.80.31.153 | method=GET | url=/api/foo/bar?params=anything | status=200 | time=8.829 | bytes=466 | referrer="-" | user-agent="GuzzleHttp/6.2.0 curl/7.19.7 PHP/7.0.15" | cookie="-"
date=2017-09-23 13:32:50 | ip=40.80.31.153 | method=GET | url=/api/foo/bar?params=everything | status=200 | time=9.962 | bytes=129 | referrer="-" | user-agent="Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.7 (KHTML, like Gecko) Chrome/16.0.912.63 Safari/535.7" | cookie="-"
date=2017-09-23 13:32:50 | ip=40.80.31.153 | method=GET | url=/api/foo/bar?params=nothing | status=200 | time=11.822 | bytes=121 | referrer="-" | user-agent="Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.7 (KHTML, like Gecko) Chrome/16.0.912.63 Safari/535.7" | cookie="-"

不同的服务对应的日志可能不一样，本文使用示例日志的格式是：

date | ip | method | url | status | time | bytes | referrer | user-agent | cookie

注意：mac 系统和 linux 系统中的命令行为可能不同，以下命令请在 linux 系统中使用

排除特殊日志

统计日志时，我们可能不关心 HEAD 请求，或者只关心 GET 请求，这里首先需要筛选日志，可以使用 grep 命令。-v 的含义是排除匹配的文本行。

grep GET access.log # 只统计 GET 请求
grep -v HEAD access.log # 不统计 HEAD 请求
grep -v 'HEAD\|POST' access.log # 不统计 HEAD 和 POST 请求

查看接口耗时情况

我们可以将每行的 time 匹配出来，然后做一个排序。使用 awk 的 match 方法可以匹配正则：

awk '{ match($0, /time=([0-9]+\.[0-9]+)/, result); print result[1]}' access.log

awk 命令使用方法如下：

awk '{pattern + action}' {filenames}

我们实际上只用到了 action：match($0, /time=([0-9]+\.[0-9]+)/, result); print result[1] 这一段。

match 方法接收三个参数：需要匹配的文本、正则表达式、结果数组。$0 代表 awk 命令处理的每一行，结果数组是可选的，因为我们要拿到匹配结果所以这里传入了一个 result 数组，用来存储匹配后的结果。

注意这里的正则我没有使用 \d 来表示数字，因为 awk 指令默认使用 “EREs"，不支持 \d 的表示，具体请看 linux shell 正则表达式(BREs,EREs,PREs)差异比较。

result 数组实际上和 javascript 里的结果数组很像了，所以我们打印出第二个元素，即匹配到的内容。执行完这行命令后结果如下：

当然实际上一天的日志可能是成千上万条，我们需要对日志进行排序，且只展示前 3 条。这里使用到 sort 命令。

sort 命令默认从小到大排序，且当作字符串排序。所以默认情况下使用 sort 命令之后 "11" 会排在 "8" 前面。那么需要使用 -n 指定按数字排序，-r 来按从大到小排序，然后我们查看前 3 条：

awk '{ match($0, /time=([0-9]+\.[0-9]+)/, result); print result[1]}' access.log | sort -rn | head -3

结果：

11.822
9.962
9.703

查看耗时最高的接口

当然我们一般不会只查看接口耗时情况，还需要把具体日志也打印出来，上面的命令就不能满足要求了。

awk 的打印默认是按空格分隔的，意思是 2017-09-23 GET 这一行如果使用 awk '{print $1}' 会打印出 "2017-09-23"，类似地，$2 会打印出 GET。

根据日志特征，我们可以使用 | 来作为分隔符，这样就能打印出各个我们感兴趣的值了。因为我们想找出耗时最高的接口，那么我们把 time、date 和 url 单独找出来。

awk 的 -F 参数用来自定义分隔符。然后我们可以数一下三个部分按 | 分隔后分别是第几个：time 是第 6 个、date 是第 1 个、url 是第 4 个。

awk -F '|' '{print $6 $1 $4}' access.log

这样打出来结果为：

 time=9.703 date=2017-09-23 13:32:50 url=/api/foo/bar?params=something
 time=0.337 date=2017-09-23 00:00:00 url=/api/foo/healthcheck
 time=8.829 date=2017-09-23 13:32:50 url=/api/foo/bar?params=anything
 time=9.962 date=2017-09-23 13:32:50 url=/api/foo/bar?params=everything
 time=11.822 date=2017-09-23 13:32:50 url=/api/foo/bar?params=nothing

因为我们想按 time 来排序，而 sort 可以按列来排序，而列是按空格分隔的，我们目前第一列是 time=xxx，是不能排序的，所以这里要想办法把 time= 给去掉，因为我们很鸡贼地把耗时放在了第一列，那么其实再通过 time= 进行分隔一下就行了。

awk -F '|' '{print $6 $1 $4}' access.log | awk -F 'time=' '{print $2}'

结果：

9.703 date=2017-09-23 13:32:50 url=/api/foo/bar?params=something
0.337 date=2017-09-23 00:00:00 url=/api/foo/healthcheck
8.829 date=2017-09-23 13:32:50 url=/api/foo/bar?params=anything
9.962 date=2017-09-23 13:32:50 url=/api/foo/bar?params=everything
11.822 date=2017-09-23 13:32:50 url=/api/foo/bar?params=nothing

使用 sort 的 -k 参数可以指定要排序的列，这里是第 1 列；再结合上面的排序，就能把耗时最高的日志打印出来了：

awk -F '|' '{print $6 $1 $4}' access.log | awk -F 'time=' '{print $2}' | sort -k1nr | head -3

结果：

11.822 date=2017-09-23 13:32:50 url=/api/foo/bar?params=nothing
9.962 date=2017-09-23 13:32:50 url=/api/foo/bar?params=everything
9.703 date=2017-09-23 13:32:50 url=/api/foo/bar?params=something

统计请求次数最多的接口

如果需要统计哪些接口每天请求量是最多的，只需要新引入 uniq 命令。

我们已经可以通过 grep -v HEAD access.log | awk -F '|' '{print $4}' 来筛选出所有的 url，uniq 命令可以删除相邻的相同的行，而 -c 可以输出每行出现的次数。

所以我们先把 url 排序以让相同的 url 放在一起，然后使用 uniq -c 来统计出现的次数：

grep -v HEAD access.log | awk -F '|' '{print $4}' | sort | uniq -c

因为示例日志数量太少，我们假设日志里有多条，那么结果应该类似下面：

1 url=/api/foo/bar?params=anything
19 url=/api/foo/bar?params=everything
4 url=/api/foo/bar?params=nothing
5 url=/api/foo/bar?params=something

接下来再 sort 即可：

grep -v HEAD access.log | awk -F '|' '{print $4}' | sort | uniq -c | sort -k1nr | head -10

总结

以上就是这篇文章的全部内容了，希望本文的内容对大家的学习或者工作能带来一定的帮助，如果有疑问大家可以留言交流，谢谢大家对免费资源网的支持。

服务器是企业和个人重要的存储设备之一，而数据是企业和个人的珍贵财富，一旦服务器出现故障，会导致数据丢失或者受损，对公司或个人造成巨大的损失。因此，服务器备份和恢复数据备受

2024-10-21 20:49:48

目录一：证书配置二：Tomcat配置 http自动跳转 https 总结一：证书配置下载已签发的证书、选择 Tomcat 版本进入 Tomcat 目录创建个 cert 文件夹将下载好的 SSL证书压缩包里的

2024-10-20 21:52:57

目录一、引言二、基本概念三、修改密码的步骤 3.1 登录到 CentOS 服务器 3.2 修改当前用户的密码 3.3 修改其他用户的密码 3.4 密码复杂性检查四、解决密码复杂性

2024-10-20 21:52:48

目录引言 1. Nginx简介 2. 跨域问题简介 3. 解决跨域问题的方法步骤一：安装和配置Nginx 步骤二：测试跨域访问结论总结引言在现代的Web开发中，跨域访问是一种常见的

2024-10-18 23:19:22

目录方法 1：直接从服务器上抓取并查看证书方法 2：通过 openssl 抓取并查看证书方法 3：下载并查看证书文件证书信息解析总结查看服务器端的证书时，可以通过导入服务器

2024-10-18 23:19:14

目录一、找到位于 /etc/netplan 的 netplan 目录二、修改或创建配置文件三、配置与本机相符的网络适配器四、禁用DHCP 五、配置静态IP、子网掩码、网关六、配置DNS服务

2024-10-18 23:19:06

目录方法一第一步：查看当前主机网络信息第二步：修改配置文件进入配置文件夹第三步：使配置生效且检查网络连接状况方法二第一步：查看当前主机网络信息第二步：修改

2024-10-18 23:18:57

目录 LINUX使用rsync命令 Rsync 命令语法 Rsync 命令选项 Rsync 命令命令示例 Rsync命令的基本语法使用 Rsync 命令传输文件和目录使用 Rsync 命令镜像数据

2024-10-18 23:18:22

目录首先重来就没有设置过ROOT用户 1.使用普通用户登录后输入以下命 2.设置root用户密码 3.输入“su”切换为root用户登录 4.输入“Visudo”命令

2024-10-18 23:18:14

目录 Linux解决「Unknown filesystem」遇到这种情况应该如何修复总结Linux解决「Unknown filesystem」不知道大家在使用 Linux 系统的时候有没有遇见过「Unknown filesys

2024-10-18 23:18:02

目录下载nginx 配置启动总结下载nginx下载地址https://nginx.org/en/download.htmldownload > Stable version 可选择稳定版的nginxnginx压缩包解压后的目录配置1.将打

2024-10-18 23:17:53

目录 1、VScode扩展安装与配置（1）vscode扩展安装（2）vscode远程配置 2、vscode-server离线下载（1）Commit ID查看（2）安装包下载 3、文件解压缩 4、移动文件到指定位置

2024-10-18 23:17:27

目录 Linux中监控系统重启的重要性深入探究：Linux 重启日志使用last命令 uptime 命令利用journalctl获取重启历史记录 who -b 命令总结借其强大的架构和无与伦比的灵活性

2024-10-18 23:17:06

目录 MKDIR 命令的语法 mkdir 命令可用的选项深入了解 MKDIR 命令示例使用 mkdir 创建简单目录在以其绝对功能和灵活性而闻名的 Linux 操作系统的动态世界中，有大量

2024-10-18 23:16:52

目录如何通过 Nginx 只允许 www 域名访问并禁止裸域名访问步骤 1：配置 Nginx 处理 www 域名步骤 2：禁止裸域名访问步骤 3：重定向裸域名到 www 域名（可选）步骤 4：重启 Ng

2024-10-18 23:16:32

从日志信息来看，确实是权限问题（Permission denied）。我们可以重新检查并设置权限，确保 Nginx 用户有权限访问这些文件。检查 Nginx 用户：首先确认 Nginx 使用的用户，一般是 www-d

2024-10-14 19:52:38

目录一、telnet简述二、telnet Connection refused不通处理思路一般对应上面的后两种情况排查目的主机服务总结一、telnet简述telnet一般用于测试本机到目的主机

2024-10-14 19:52:29

目录在linux下图形界面和命令行界面的切换 1. 图形界面和命令行界面的切换 2. 修改系统开机进入的界面总结在linux下图形界面和命令行界面的切换我估计好多喜欢用li

2024-10-14 19:52:19

目录 telnet nc命令返回“连接失败” 1、端口没有被监听 2、防火墙策略 3、目标主机不接受外部连接总结 telnet nc命令返回“连接失败”当使用n

2024-10-14 19:52:12

目录 1、问题描述 2、问题解决1、问题描述在命令行输入命令按Tab键时出现如下报错：很明显，设备上没有空间，即磁盘空间不足。通过命令查看具体情况如下：df -h2、问题解决首先想到

2024-10-14 19:52:02

本文主要介绍了nginx配置history模式的使用小结，具体如下：worker_processes 1; events { worker_connections 1024;} http { include mime.types; default_t

2024-10-14 19:51:41

目录一、配置 Nginx 获取客户端真实 IP 1、基本配置说明 2、set_real_ip_from详解 3、log_format 配置（参考）二、调试与测试三、Lua 中使用客户端真实 IP（参考）四

2024-10-14 19:51:32

目录官方文档代理样例 Linux 查看安装文件命令手册 Nginx 日志配置方案成功解决问题–使用 Nginx 代理 WebSocket 可能出现的问题 Nginx 官方文档网址 nginx d

2024-10-14 19:50:51

目录方法1: 使用 netstat 命令方法2: 使用 lsof 命令方法3: 使用 ss 命令方法4: 直接从Java进程读取注意事项在Linux系统中，如果你已经知道了Java应用程序的进程ID（PID），你

2024-10-14 19:50:44

目录 logrotate 简介 logrotate 配置文件日志回滚原理 sshd 日志回滚实战修改配置文件重启rsyslog 强制切割测试和运行 logrotate debug 模式 v

2024-10-14 19:50:35

目录利用Linux自带的logrotate管理日志 1. logrotate简介 2. logrotate配置参数 3. nginx日志切割实例 4. 其他配置示例总结利用Linux自带的logrotate管理日志日

2024-10-14 19:50:22

是一种常见的命令行工具，用于从远程服务器下载整个目录及其子目录中的文件。它可以通过递归方式下载目录中的所有文件，并保持目录结构的完整性。wget是一个开源的非交互式命令

2024-10-14 14:17:31

目录 linux开启关闭防火墙 1.关闭防火墙 2.设置开机不启动 3.查看防火墙状态不同系统常见防火墙相关命令下面是red hat/CentOs7关闭防火墙的命令 firewalld 总结

2024-10-12 00:18:20

目录第一种：Nginx自己的错误页面第二种：反向代理的错误页面一个网站项目，肯定是避免不了404页面的，通常使用Nginx作为Web服务器时，有以下集中配置方式，一起来看看。第一种：Nginx

2024-09-30 00:10:50

目录问题原因解决方法 1. 查看 Nginx 错误日志 2. 检查 Nginx 配置文件 3. 检查应用程序日志 4. 检查文件权限 5. 检查后端服务示例 Nginx 配置检查步骤检查步

2024-09-30 00:09:29

2020-07-31

2019-11-21

2019-08-07

2018-09-24

2020-03-22

2019-02-16

2019-11-17

2018-10-07

2018-10-04

利用shell命令统计日志的方法详解

如何恢复linux和windows服务器被误删除文件

Tomcat服务器如何配置ssl证书

CentOS修改服务器登录密码的详细指南

Nginx解决跨域访问的完整实例

linux查看服务端证书方式(keytool和openssl)

Ubuntu设置静态IP地址的方法步骤(亲测有效)

Ubuntu配置静态IP的两种方法

在LINUX系统上使用rsync命令详解

Linux系统中如何将普通用户权限提升至root权限

Linux解决Unknown filesystem问题

nginx部署前端dist包详细图文教程

VScode连接远程服务器踩坑实战记录(新版离线vscode-server安装)

Linux系统中检查系统重启记录方案

LINUX中关于mkdir命令语法和实例解读

Nginx 只允许 www 域名访问并禁止裸域名访问的实现步骤

Nginx设置目录的访问权限实现访问静态资源

telnet Connection refused端口不通如何处理

linux下图形界面和命令行界面的切换方式

telnet nc命令返回“连接失败”问题及解决

Linux无法为立即文档创建临时文件：设备上没有空间的问题解决

nginx配置history模式的使用小结

Nginx获取客户端真实IP(real_ip_header)的实现

Nginx配置WebSocket代理的示例代码

Linux系统下通过jar包进程号查询jar程序占用端口的常用方法

linux日志轮询方案

Linux自带的logrotate管理日志用法

使用wget递归下载目录内容

linux如何开启关闭防火墙

Nginx实现404页面的配置方法的两种方法

nginx出现500 Internal Server Error错误的解决方法

热点内容

免费资源网

在线工具

扫一扫随时看

本站下载频道