记录一次开启nginx后应用全挂的情况

最新推荐文章于 2025-02-12 09:32:44 发布

原创最新推荐文章于 2025-02-12 09:32:44 发布 · 1.4k 阅读

0 ·

本内容遵循CC 4.0 BY-SA版权协议

Linux 专栏收录该内容

14 篇文章

订阅专栏

本文详细介绍了在CentOS服务器上遇到的Nginx域名卡死问题，表现为请求大量超时，通过排查发现是由于iptables防火墙的conntrack表满导致。文章提供了三种解决方案：关闭iptables、加大防火墙跟踪表大小并优化参数，以及使用裸表添加不跟踪标识。

有一台阿里云上的服务器，上一任运维留下来的，里面装了nginx1.10.2 ，还开启了iptables。之前一直都是相安无事，内存占用率稳定达到85%-90%，cpu占用率偶尔达到50%，一般在10%以下。

突然一天，发现nginx设置跳转的域名无法连接，观察内存，cpu都没问题，连接数也正常，由于能力有限，因此也未进入查看内核方面的情况，只是做了些紧急措施，将重要的域名迁出，关闭一些非必要的程序，降低cpu和内存，优先保证了前端网页的可用性，但具体原因尚未找出。

在静下心来后，开始查找原因，一开始以为是硬性参数不足，如内存cpu过高，nginx里连接过多，导致堵死，但在经过关闭程序，在nginx中配置了tcp参数后，仍然是开启nginx后十几秒就会直接域名卡死。

告诉自己不要乱，优先看日志，nginx只开了error日志，没开access日志，看了下，没什么问题。然后就去看了/var/log/messages，结果发现每次重启nginx后卡死的时候，都会有那么一段错误信息：

debug010000002015 kernel: nf_conntrack: table full, dropping packet

于是就去查了下关于这个错误代码的问题，终于找到了原因。这句代码的中文名是：连接跟踪表已满，开始丢包。

是一个基于防火墙上的一个问题。

基本信息整理如下：

问题表现： CentOS服务器，负载正常，但请求大量超时，服务器／应用访问日志看不到相关请求记录

原因：服务器访问量大，内核netfilter模块conntrack相关参数配置不合理，导致新连接被drop掉

解决办法：①：关闭iptables，后续也不开（我采用了这一种，简单粗暴）

service iptables stop

②加大防火墙跟踪表的大小，优化对应的系统参数

设置状态跟踪表的最大行数 sysctl –w net.netfilter.nf_conntrack_max = 2097152

运行状态中通过 sysctl net.netfilter.nf_conntrack_buckets 进行查看，通过文件 /sys/module/nf_conntrack/parameters/hashsize 进行设置，或者新建 /etc/modprobe.d/iptables.conf ，重新加载模块才生效 options nf_conntrack hashsize = 262144

优化参数 vi /etc/sysctl.conf

net.netfilter.nf_conntrack_max = 1048576

net.netfilter.ip_conntrack_tcp_timeout_established = 3600

net.netfilter.nf_conntrack_tcp_timeout_close_wait = 60

net.netfilter.nf_conntrack_tcp_timeout_fin_wait = 120

net.netfilter.nf_conntrack_tcp_timeout_time_wait = 120

③使用祼表，添加“不跟踪”标识

vi /etc/sysconfig/iptables

*raw

# 对TCP连接不启用追踪，解决ip_contrack满导致无法连接的问题

-A PREROUTING -p tcp -m tcp --dport 80 -j NOTRACK

-A PREROUTING -p tcp -m tcp --dport 22 -j NOTRACK