有一台阿里云上的服务器,上一任运维留下来的,里面装了nginx1.10.2 ,还开启了iptables。之前一直都是相安无事,内存占用率稳定达到85%-90%,cpu占用率偶尔达到50%,一般在10%以下。
突然一天,发现nginx设置跳转的域名无法连接,观察内存,cpu都没问题,连接数也正常,由于能力有限,因此也未进入查看内核方面的情况,只是做了些紧急措施,将重要的域名迁出,关闭一些非必要的程序,降低cpu和内存,优先保证了前端网页的可用性,但具体原因尚未找出。
在静下心来后,开始查找原因,一开始以为是硬性参数不足,如内存cpu过高,nginx里连接过多,导致堵死,但在经过关闭程序,在nginx中配置了tcp参数后,仍然是开启nginx后十几秒就会直接域名卡死。
告诉自己不要乱,优先看日志,nginx只开了error日志,没开access日志,看了下,没什么问题。然后就去看了/var/log/messages,结果发现每次重启nginx后卡死的时候,都会有那么一段错误信息:
debug010000002015 kernel: nf_conntrack: table full, dropping packet
于是就去查了下关于这个错误代码的问题,终于找到了原因。 这句代码的中文名是:连接跟踪表已满,开始丢包。
是一个基于防火墙上的一个问题。
基本信息整理如下:
问题表现: CentOS服务器,负载正常,但请求大量超时,服务器/应用访问日志看不到相关请求记录
原因:服务器访问量大,内核netfilter模块conntrack相关参数配置不合理,导致新连接被drop掉
解决办法:①: 关闭iptables,后续也不开(我采用了这一种,简单粗暴)
service iptables stop
②加大防火墙跟踪表的大小,优化对应的系统参数
设置状态跟踪表的最大行数 sysctl –w net.netfilter.nf_conntrack_max = 2097152
运行状态中通过 sysctl net.netfilter.nf_conntrack_buckets 进行查看,通过文件 /sys/module/nf_conntrack/parameters/hashsize 进行设置,或者新建 /etc/modprobe.d/iptables.conf ,重新加载模块才生效 options nf_conntrack hashsize = 262144
优化参数 vi /etc/sysctl.conf
net.netfilter.nf_conntrack_max = 1048576
net.netfilter.ip_conntrack_tcp_timeout_established = 3600
net.netfilter.nf_conntrack_tcp_timeout_close_wait = 60
net.netfilter.nf_conntrack_tcp_timeout_fin_wait = 120
net.netfilter.nf_conntrack_tcp_timeout_time_wait = 120
③使用祼表,添加“不跟踪”标识
vi /etc/sysconfig/iptables
*raw
# 对TCP连接不启用追踪,解决ip_contrack满导致无法连接的问题
-A PREROUTING -p tcp -m tcp --dport 80 -j NOTRACK
-A PREROUTING -p tcp -m tcp --dport 22 -j NOTRACK
-A PREROUTING -p tcp -m tcp --dport 21 -j NOTRACK
-A PREROUTING -p tcp -m tcp --dport 11211 -j NOTRACK
-A PREROUTING -p tcp -m tcp --dport 60000:60100 -j NOTRACK
-A PREROUTING -p tcp -s 192.168.10.1 -j NOTRACK
-A OUTPUT -p tcp -m tcp --sport 80 -j NOTRACK
-A OUTPUT -p tcp -m tcp --sport 22 -j NOTRACK
-A OUTPUT -p tcp -m tcp --sport 21 -j NOTRACK
-A OUTPUT -p tcp -m tcp --sport 11211 -j NOTRACK
-A OUTPUT -p tcp -m tcp --sport 60000:60100 -j NOTRACK
-A OUTPUT -p tcp -s 192.168.10.1 -j NOTRACK
COMMIT
*filter
# 允许ping
-A INPUT -p icmp -j ACCEPT
# 对本地回路、第5张网卡放行
-A INPUT -i lo -j ACCEPT
-A INPUT -i eth4 -j ACCEPT
# 连接状态跟踪,已建立的连接允许传输数据
-A INPUT -m state --state ESTABLISHED,RELATED,INVALID,UNTRACKED -j ACCEPT
# filter表里存在但在raw里不存在的,默认会进行连接状态跟踪
-A INPUT -s 192.168.10.31 -p tcp --dport 2669 -j ACCEPT
-A INPUT -j REJECT --reject-with icmp-host-prohibited
-A FORWARD -j REJECT --reject-with icmp-host-prohibited
COMMIT
本文详细介绍了在CentOS服务器上遇到的Nginx域名卡死问题,表现为请求大量超时,通过排查发现是由于iptables防火墙的conntrack表满导致。文章提供了三种解决方案:关闭iptables、加大防火墙跟踪表大小并优化参数,以及使用裸表添加不跟踪标识。

3624

被折叠的 条评论
为什么被折叠?



