Tomcat进程假死问题排查_服务器-免费资源网

来自：网络

时间：2022-05-10

阅读：

1.网络

1.1 检查nginx的网络情况

更改nginx的配置，让该台nginx请求只转到本机器的出现问题的tomcat应用上面，在access.log里看是否有网络请求，结果可以查看到当前所有的网络请求，也就是说可以排除是网络的问题。

1.2 检查tomcat的网络情况

分析业务配置的tomcat访问日志xxxx.log上是否有日志访问记录，经过查询该台tomcat应用日志完全没有任何访问记录，由于我们的部署是本机的nginx转到本机的tomcat应用，所以可以排除不是网络问题。到此基本可以断定网络没有问题，tomcat 本身出现了假死的情况。在tomcat的日志里有报过OutOfMemoryError的异常，所以可以肯定tomcat假死的原因是OOM
！

2.Jvm内存溢出

2.1为什么会发生内存泄漏

在我们学习Java的时候就知道它最为方便的地方就是我们不需要管理内存的分配和释放，一切由JVM自己来进行处理，当Java对象不再被应用时，等到堆内存不够用时JVM会进行GC处理，清除这些对象占用的堆内存空间，但是如果对象一直被应用，那么JVM是无法对其进行GC处理的，那么我们创建新的对象时，JVM就没有办法从堆中获取足够的内存分配给此对象，这时就会导致OOM。我们出现OOM原因，一般都是因为我们不断的往容器里存放对象，然而容器没有相应的大小限制或清除机制，这样就容易导致OOM。

2.2快速定位问题

当我们的应用服务器占用了过多内存的时候，我们怎么样才能快速的定位问题呢？要想快速定位问题，首先我们必需获取服务器JVM某时刻的内存快照。 Jdk里面提供了很多相应的命令比如：jstack,jstat,jmap,jps等等. 在出现问题后我们应该快速保留现场。

2.3 jstack查看tomcat是否出现死锁

可以观察到jvm中当前所有线程的运行情况和线程当前状态.

sudo jstack -F 进程ID

输出内容如下：从上面的图我们可以看到tomcat进程里面没有死锁的情况，而且每个线程都处理等待的状态。这个时候我们可以telnet命令连上tomcat的端口查看tomcat进程是否有任务回应。这时发现tomcat没有任何回应可以证明tomcat应用已没有响应处理假死状态。

在thread dump中，要留意下面几种状态  死锁，
•  Deadlock（重点关注）  等待资源，
•  Waiting on condition（重点关注）  
•  等待获取监视器，Waiting on monitor entry（重点关注）  
•  阻塞，Blocked（重点关注） 
•  执行中，Runnable  
•  暂停，Suspended  
•  对象等待中，Object.wait() 或 TIMED_WAITING  
•  停止，Parked

2.4 jstat查看gc运行情况

2.5 jmap获取内存快照

Jdk自带的jmap可以获取内在某一时刻的快照

命令：

jmap -dump:format=b,file=heap.bin file：保存路径及文件名 pid：进程编号（windows通过任务管理器查看，linux通过ps aux查看）

dump文件可以通过MemoryAnalyzer分析查看，网址：http://www.eclipse.org/mat/，可以查看dump时对象数量，内存占用，线程情况等。

3. jvm GC 时间过长,导致应用暂停

查看gc.log回收时间，以下为例子：

7581088.402: [Full GC (System) 7581088.402: [CMS: 661091K->669762K(7340032K), 
1.7206330 secs] 848607K->669762K(8238848K), [CMS Perm : 34999K->34976K(58372K)],
1.7209480 secs] [Times: user=1.72 sys=0.00, real=1.72 secs]

最近的一次full gc 显示,也不应该会暂停几分钟的情况,这种假死可能可以排除。

4. load 太高,已经超出服务的极限

使用top 命令查看资源使用情况，都在合理范围，排除。

5. 大量tcp 连接 TIME_WAIT

Linux:

使用 ss -s 命令查看 tcp 链接状态，发现TIME_WAIT 1800+, 有点高，需要修改。

打开 sysctl.conf 文件，修改以下几个参数：

[root@web01 ~]# vim /etc/sysctl.conf
 
net.ipv4.tcp_tw_reuse = 1
 
net.ipv4.tcp_tw_recycle = 1
 
net.ipv4.tcp_timestamps = 1
 
net.ipv4.tcp_syncookies = 1
 
net.ipv4.tcp_fin_timeout = 30

开启tcp_tw_reuse 和 tcp_tw_recycle 需要timestamps的支持，而且这些配置一般不建议开启，但是对解决TIME_WAIT过多问题有效果。谨慎操作！！！

然后又发现，nginx 没有开启长连接。

当使用nginx作为反向代理时，为了支持长连接，需要做到两点：

从client到nginx的连接是长连接
从nginx到server的连接是长连接

Windows:

netstat -ano -p tcp
 
netstat -ano | find "ESTABLISHED"

5.1、保持和client的长连接：

[root@web01 ~]# vim /etc/sysctl.conf
 
net.ipv4.tcp_tw_reuse = 1
 
net.ipv4.tcp_tw_recycle = 1
 
net.ipv4.tcp_timestamps = 1
 
net.ipv4.tcp_syncookies = 1
 
net.ipv4.tcp_fin_timeout = 30

1）keepalive_timeout
语法:

keepalive_timeout timeout [header_timeout];

第一个参数：设置keep-alive客户端连接在服务器端保持开启的超时值（默认75s）；值为0会禁用keep-alive客户端连接；第二个参数：可选、在响应的header域中设置一个值“Keep-Alive: timeout=time”；通常可以不用设置；

注：keepalive_timeout默认75s，一般情况下也够用，对于一些请求比较大的内部服务器通讯的场景，适当加大为120s或者300s；

2）keepalive_requests：

keepalive_requests指令用于设置一个keep-alive连接上可以服务的请求的最大数量，当最大请求数量达到时，连接被关闭。默认是100。这个参数的真实含义，是指一个keep alive建立之后，nginx就会为这个连接设置一个计数器，记录这个keep alive的长连接上已经接收并处理的客户端请求的数量。如果达到这个参数设置的最大值时，则nginx会强行关闭这个长连接，逼迫客户端不得不重新建立新的长连接。

大多数情况下当QPS(每秒请求数)不是很高时，默认值100凑合够用。但是，对于一些QPS比较高（比如超过10000QPS，甚至达到30000,50000甚至更高) 的场景，默认的100就显得太低。

简单计算一下，QPS=10000时，客户端每秒发送10000个请求(通常建立有多个长连接)，每个连接只能最多跑100次请求，意味着平均每秒钟就会有100个长连接因此被nginx关闭。同样意味着为了保持QPS，客户端不得不每秒中重新新建100个连接。因此，就会发现有大量的TIME_WAIT的socket连接(即使此时keep alive已经在client和nginx之间生效)。因此对于QPS较高的场景，非常有必要加大这个参数，以避免出现大量连接被生成再抛弃的情况，减少TIME_WAIT。

5.2、保持和server的长连接：

nginx访问后端默认都是用的短连接(HTTP1.0）

为了让nginx和后端server（nginx称为upstream）之间保持长连接，location中有两个参数需要设置：

http {
    server {
        location /  {
            proxy_http_version 1.1;
            proxy_set_header Connection "";
        }
    }
}

5.3、 proxy_set_header 配置注意事项

在当前级别的配置中没有定义 proxy_set_header 指令时，这些指令从上级继承。
如果当前级别的配置中已经定义了 proxy_set_header 指令，在上级中定义的proxy_set_header 指令在当前级别都会失效。

举个例子：

http {
    ...
    proxy_http_version 1.1;
    proxy_set_header Host       $host;
    proxy_set_header Connection "";
    proxy_set_header X-Real-IP $remote_addr;
 
    upstream example.com_test {
        server 127.0.0.1:8080;
 
        keepalive 16;
    }
 
    server {
        server_name  example.com;
 
        location ^~ /test/ {
            proxy_set_header test      test;
            proxy_pass http://example.com_test;
        }
    }
}

这里后端服务器不能从 Header 中获取到 X-Real-IP。location ^~/test/ 中的proxy_set_header会覆盖上面的配置。

正确的做法，在location 中重复配置一遍：

http {
    ...
    proxy_http_version 1.1;
    proxy_set_header Host       $host;
    proxy_set_header Connection "";
    proxy_set_header X-Real-IP $remote_addr;
 
    upstream example.com_test {
        server 127.0.0.1:8080;
 
        keepalive 180;
    }
 
    server {
        server_name  example.com;
 
        location ^~ /test/ {
            proxy_set_header test      test;
            proxy_set_header Host       $host;
            proxy_set_header Connection "";
            proxy_set_header X-Real-IP $remote_addr;
            proxy_pass http://example.com_test;
        }
    }
}

6. tomcat长连接数超过最大连接数

发现tomcat 使用的是默认配置

tomcat默认最大连接数(线程数)200个,默认每一个连接的生命周期2小时(7200秒),tomcat使用http 1.1协议，而http1.1默认是长连接。tomcat接受处理完请求后，socket没有主动关闭，因此如果在2小时内，请求数超过200个，服务器就会出现上述假死现象。

解决办法：

（1）检查代码，及时断开socket

（2）修改tomcat配置文件，修改最大连接数(增大)

（3）修改linux的TCP超时时间(socket生命周期)限制

到此这篇关于Tomcat进程假死问题排查的文章就介绍到这了,更多相关Tomcat进程假死问题排查内容请搜索以前的文章或继续浏览下面的相关文章希望大家以后多多支持！

丢失数据的本质在本文开始前，首先明白一个点，平时我们说的组件数据不丢失究竟是在指什么，如果你往ES写入数据，ES返回给你写入错误，这个不算数据丢失。如果你往ES写入数据，ES返回给

2024-03-13 00:00:59

引言在网络环境中，有时候我们需要让局域网内的电脑访问外网，但是由于网络策略或其他原因，直接访问外网是不可行的。这时候，可以借助 Nginx 来搭建一个正向代理服务器，实现局域网

2024-03-12 23:58:37

netcat 命令介绍及使用示例nc（netcat）是一个强大的网络工具，它可以用于读取和写入数据流，支持 TCP 和 UDP 协议。它常被用于网络调试和网络服务的创建。一、安装方法centos 中，执

2024-03-08 22:33:26

接触过 Linux 的小伙伴们都知道在 Linux （或者说类 Unix）中，有三种类型的用户：超级用户（UID 为 0）：即 root 用户，拥有最高权限。系统用户（UID 为 1~999）：系统内建用户，用于运行系统服

2024-03-01 20:34:50

1 背景说明在做系统集群部署时,涉及到两个或多个服务器之间文件同步.在软件层面linux服务环境找到以下两种同步方式利用linux NFS功能将网络共享文件挂载成本地目录采用文

2024-03-01 11:54:51

这篇文章主要介绍了 Docker 如何利用 Linux 的 Control Groups（cgroups）实现容器的资源隔离和管理。最后通过简单 Demo 演示了如何使用 Go 和 cgroups 交互。如果你对云原生技

2024-02-26 22:19:08

通过这篇文章你可以了解到 Docker 容器的核心实现原理，包括 Namespace、Cgroups、Rootfs 等三个核心功能。如果你对云原生技术充满好奇，想要深入了解更多相关的文章和资讯，欢迎

2024-02-26 22:18:00

本文为从零开始写 Docker 系列第二篇，主要在 mydocker run 命令基础上优化参数传递方式，改为使用 runC 同款的匿名管道传递参数。完整代码见：https://github.com/lixd/mydocker

2024-02-26 22:17:36

本文为从零开始写 Docker 系列第一篇，主要实现 mydocker run 命令，构造了一个具有基本的 Namespace 隔离的简单容器。如果你对云原生技术充满好奇，想要深入了解更多相关的文章

2024-02-26 22:17:04

哈喽大家好，我是咸鱼。之前写过两篇关于 SSL 过期巡检脚本的文章： SSL 证书过期巡检脚本 SSL 证书过期巡检脚本(Python 版)这两篇文章都是讲如何通过脚本去自动检测 SSL 过期

2024-02-26 22:09:11

why 为什么要搭建此开发环境? 在linux环境下开发可以利用shell命令实现对文件的批处理伟大的程序员应该都用类unix系统! 可以实现对底层编译技术的了解,以便于更好的掌握嵌

2024-02-07 19:09:41

简介Nginx是一个高性能的HTTP和反向代理web服务器，同时也提供了IMAP/POP3/SMTP服务。其特点是占有内存少，并发能力强，在同类型的网页服务器中表现较好。此外，Nginx也可以作为一

2024-01-30 20:44:23

虚拟主机是一种特殊的软硬件技术，它可以将网络上的每一台计算机分成多个虚拟主机，每个虚拟主机可以独立对外提供www服务，这样就可以实现一台主机对外提供多个web服务，每个虚拟主

2024-01-30 20:43:52

nginx进程结构linux 信号量管理机制[root@VM-8-17-centos nginx]# kill -l 1) SIGHUP 2) SIGINT 3) SIGQUIT 4) SIGILL 5) SIGTRAP 6) SIGABRT

2024-01-30 20:42:44

本站的环境搭建用的军哥的 LNMP PHP 版本是 7.3.33 想用 PHP 8.0 但是有些客观的原因存在暂时无法使用。今天事情不多就把 LNMP PHP 的版本升级一下，把 PHP 升级到 7.4.29 如

2024-01-28 21:29:42

在我内网的 HomeLab 上部署 NextCloud 测试用。在部署的过程中需要用到 PHP 的 smbclient 这个扩展，就是在 NextCloud 上挂载我群晖的 SMB 共享作为存储。已经部署了 LNMP 环

2024-01-28 21:27:59

本篇教程是教大家如何使用群晖的 Active Backup for Business 套件来备份网站已经打包的压缩文件或者其他文件。无论你的网站环境是 LNMP 还是使用的宝塔，都可以使用这个教程

2024-01-28 21:23:05

Kickstart 是什么？kickstart是一个定义了Linux安装过程的配置文件，比如要在系统中使用的时区、如何对驱动器进行分区、或者应该安装哪些软件包。有了这个文件可以解放双手，让Li

2024-01-28 21:21:48

LNMP 的网站备份是压缩格式，但是数据库不是压缩格式。今天这篇文章是教大家如何让数据库备份为压缩格式。此方法来源于 LNMP 官方论坛。有需要的童鞋可以照着修改就可以了。

2024-01-28 21:21:00

Linux Shell 脚本入门教程Linux Shell 脚本是一种强大的工具，它允许您自动化日常任务和复杂操作。在本教程中，我们将逐步介绍几个实用的 Shell 脚本示例。每个示例都将详细说

2024-01-28 15:48:16

Linux操作系统具有多种安全策略，以下是其中一些常见的安全策略：访问控制：使用权限和访问控制列表（ACL）来限制用户对文件和目录的访问权限。可以使用chmod、chown等命令来设置文

2024-01-24 15:28:17

公司的一个商城项目，然后配置完参数，本来应该可以跑起来的，最近做了一次服务器迁移，打开后台发现浏览器提示重定向次数过多追踪代码调试，发现是$_SERVER['PHP_SELF']的值

2024-01-24 15:28:04

分布式架构是一种将系统拆分为多个独立的组件或服务，并在不同的计算节点上部署这些组件或服务的架构方式。它可以提供高性能和可用性的好处。下面我将详细介绍分布式架构在高

2024-01-24 15:27:42

将服务从 HTTP 变为 HTTPS，需要进行 SSL 证书的配置。需要完成一下步骤：获取 SSL 证书安装 SSL 证书配置 Nginx 支持 HTTPS 重启 Nginx HTTP 到 HTTPS 的重定向（可选）1. 获取

2024-01-24 15:27:26

总结/朱季谦在日常开发或者编程当中，经常需要用到redis集群，若是按照传统的方式，一个机器一个机器搭建，难免过于繁琐，故而可以通过dock er-compose编排方式，快速搭建。我在搭建过

2024-01-24 15:26:59

转载请注明出处：香吧香　　EOF（End of File）在Shell中通常用于指示输入的结束，并在脚本或命令中进行多行输入。它允许用户指定一个特定的分界符来表示输入的结束，通常用于创建临

2024-01-24 15:26:27

Prometheus 是一个时序数据库，存数据exporter是收集器，来收集被监控的数据，想要监控不同的内容，就使用不同的exporter，这个exporter应该放在被测服务器上，再把exporter和Prometheu

2024-01-24 15:25:59

公众号「架构成长指南」，专注于生产实践、云原生、分布式系统、大数据技术分享前言K8s本身不包含内置的监控工具，所以市场上有不少这样监控工具来填补这一空白，但是没有一个监

2024-01-24 15:25:39

在深入理解 Docker 核心原理：Namespace、Cgroups 和 Rootfs 一文中我们分析了 Docker 是由三大核心技术实现的。今天就一起分析 Docker 三大核心技术之一的 Linux Namespace

2024-01-24 15:25:18

前言linux以及嵌入式一些代码，我们看到core_initcall、device_initcall等等需要链接器分配各个section，并且在启动该模块时候执行。下面我们详细追溯一下执行过程。作者：良知犹

2024-01-24 15:24:55

2020-07-31

2019-11-21

2019-08-07

2018-09-24

2020-03-22

2019-02-16

2019-11-17

2018-10-07

2018-10-04

Tomcat进程假死问题排查

目录