CentOS 8 firewalld 原理与生产级运维指南

最新推荐文章于 2026-06-20 09:17:04 发布

原创最新推荐文章于 2026-06-20 09:17:04 发布 · 355 阅读

5 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#firewalld #CentOS 8 #nftables

1. 为什么 CentOS 8 的防火墙必须用 firewalld 而不是直接敲 iptables？

在 CentOS 8 上敲 iptables -L 看到空空如也，不是防火墙没开，而是你正站在一个被彻底重构的底层世界门口——firewalld 不是 iptables 的“图形界面”，它是 nftables 的策略编排层，而 nftables 又是 Linux 内核自 3.13 版本起就逐步替代 iptables 的新一代包过滤框架。我第一次在生产环境升级 CentOS 8 时，照着老 CentOS 7 的脚本执行 service iptables save ，结果报错 Unit iptables.service not found ，整台服务器的 SSH 连接瞬间中断了三分钟。后来才明白：CentOS 8 默认根本没装 iptables-services 包，它把 iptables 命令做了兼容层映射（ /usr/sbin/iptables 实际是 xtables-nft-multi 的软链），所有规则最终都转译成 nftables 规则存进内核。所以 firewalld 的核心价值，从来不是“多了一层命令”，而是用 zone + service + port 的语义化模型，把原本需要手写几十行 iptables 链跳转、conntrack 状态匹配、raw 表优先级控制的复杂逻辑，压缩成一条 firewall-cmd --add-service=http 就能生效的原子操作。这背后是 Red Hat 工程师花了五年时间打磨的抽象：zone 定义信任等级（public、internal、trusted），service 封装协议组合（http 代表 tcp:80+tcp:443+udp:80），port 是最细粒度的端口控制。当你执行 firewall-cmd --permanent --add-port=8080/tcp ，firewalld 并不是简单追加一条规则，而是先检查该端口是否已被某个 service 占用（比如 http 服务已声明 tcp:80），再校验当前 zone 是否允许该协议类型，最后生成带正确 priority 标签的 nftables rule 插入到 filter table 的 input chain 中。这种设计让运维人员不再需要背诵 iptables -t nat -A PREROUTING -p tcp --dport 80 -j REDIRECT --to-ports 8080 这类易错命令，而是用 firewall-cmd --add-forward-port=port=80:proto=tcp:toport=8080 这种接近自然语言的指令完成端口转发。更关键的是，firewalld 的 runtime 和 permanent 模式分离机制，让规则变更变成可审计、可回滚的操作——所有 --permanent 操作只写入 /etc/firewalld/zones/public.xml 文件，只有 --reload 才真正加载进内核，这比 iptables-save 直接覆盖规则集的安全性高出一个数量级。

2. firewalld 启动失败的三大根因与逐层排查链路

刚装完 CentOS 8 Stream，执行 systemctl start firewalld 却卡在 activating 状态？别急着重装系统，90% 的启动失败都集中在三个相互嵌套的依赖层。我处理过 17 个不同客户的 firewalld 启动故障，下面这条排查链路能覆盖全部场景：

2.1 第一层：nftables 内核模块是否就绪

firewalld 启动时会调用 nft list ruleset 验证内核支持，如果返回 Error: Could not fetch rule set: No such file or directory ，说明 nftables 模块未加载。此时执行 lsmod | grep nf_tables ，若无输出，需手动加载：

modprobe nf_tables
modprobe nf_tables_inet
modprobe nf_nat

提示：CentOS 8 Stream 的最小化安装可能禁用部分网络模块，建议在 /etc/modules-load.d/nftables.conf 中添加这三行，确保开机自动加载。

2.2 第二层：dbus 服务状态是否健康

firewalld 通过 D-Bus 总线与客户端通信， systemctl status dbus 显示 active (running) 仅是表象。真正要验证的是 D-Bus socket 是否监听：

ss -tlnp | grep :5353  # D-Bus system bus 默认端口
# 若无输出，检查 /usr/lib/systemd/system/dbus.socket 是否启用
systemctl enable --now dbus.socket

我遇到过最隐蔽的案例：某云厂商定制镜像中，dbus.socket 被 systemd mask 掉，导致 firewalld 进程启动后立即退出，日志里只显示 Failed to connect to bus: No such file or directory 。这种情况下 journalctl -u firewalld -n 50 看不到有效线索，必须用 strace -f -e trace=connect,socket systemctl start firewalld 抓取系统调用才能定位。

2.3 第三层：firewalld 配置文件语法错误

当 firewalld 进程能启动但无法响应 firewall-cmd 命令时，问题往往出在 XML 配置。重点检查 /etc/firewalld/firewalld.conf 中的 DefaultZone 是否拼写错误（比如写成 defualt ），以及 /etc/firewalld/zones/ 下的 XML 文件是否闭合标签缺失。一个快速验证法：

firewall-cmd --state  # 应返回 running
firewall-cmd --get-zones  # 若报错 "Invalid argument"，说明某个 zone XML 有语法错误
# 逐个验证 zone 文件
for f in /etc/firewalld/zones/*.xml; do echo $f; xmllint --noout $f 2>&1; done

注意：CentOS 8 Stream 的 firewalld 0.8.2 版本对 XML 格式极其敏感，连 <port protocol="tcp" port="22"/> 中的斜杠位置错误都会导致整个服务崩溃。建议用 vim 编辑时开启 :set ft=xml 自动缩进校验。

3. firewall-cmd 命令的语义分层与不可逆操作陷阱

firewall-cmd 的参数看似简单，实则暗藏四层语义结构： 作用域（runtime/permanent）→ 对象类型（zone/service/port）→ 操作动词（add/remove/query）→ 参数粒度（name/id/port） 。绝大多数误操作都源于混淆了前两层。比如 firewall-cmd --remove-service=http 和 firewall-cmd --permanent --remove-service=http 的效果天壤之别——前者只从当前运行时移除，重启后自动恢复；后者则永久删除配置，且必须配合 --reload 才生效。我见过最惨烈的事故：运维在生产库服务器上执行 firewall-cmd --permanent --remove-service=postgresql 后忘记 reload，以为规则已失效，结果半夜数据库连接超时报警，才发现 postgresql 服务仍在运行时规则中。更危险的是 --remove-port 类操作：当某个端口同时被 service 和 port 两种方式开放时， firewall-cmd --remove-port=5432/tcp 只删除 port 规则，而 service 规则依然存在，导致端口实际未关闭。真正的安全操作流程应该是：

先用 firewall-cmd --list-all 查看当前 zone 的完整规则集
识别目标端口的来源类型（service 或 port）
执行对应删除命令（ --remove-service 或 --remove-port ）
立即用 firewall-cmd --list-ports 和 firewall-cmd --list-services 双重验证

实操心得：永远不要在生产环境直接执行 --permanent 操作。我的标准流程是：先 firewall-cmd --add-port=8080/tcp 测试连通性，确认无误后再 firewall-cmd --permanent --add-port=8080/tcp ，最后 firewall-cmd --reload 。这样即使 reload 失败，runtime 规则仍可回退。

4. Docker 场景下 firewalld 与 iptables 的冲突本质与解法

docker0: iptables: no chain/target/match by that name 这个经典报错，表面是 iptables 命令找不到链，实则是 firewalld 和 Docker 的网络控制权争夺战。Docker 启动时会自动创建 DOCKER-USER 链并插入 filter 表，而 firewalld 的 reload 操作会清空所有非自身管理的链，导致 Docker 的自定义规则丢失。根本原因在于： firewalld 默认接管了内核 netfilter 的全量控制权，而 Docker 期望自己管理 docker0 网桥的流量 。解决方案不是禁用 firewalld（这是饮鸩止渴），而是让两者共存：

4.1 方案一：将 Docker 网络纳入 firewalld zone 管理

# 创建专用 zone
firewall-cmd --permanent --new-zone=docker
firewall-cmd --permanent --zone=docker --set-target=ACCEPT
firewall-cmd --permanent --zone=docker --add-interface=docker0
# 开放容器端口（以 nginx 容器暴露 80 端口为例）
firewall-cmd --permanent --zone=docker --add-port=80/tcp
firewall-cmd --reload

此方案让 firewalld 主动管理 docker0 接口，避免规则冲突。但要注意： --set-target=ACCEPT 会让该 zone 所有流量直通，生产环境应改为 --set-target=DEFAULT 并显式添加所需端口。

4.2 方案二：禁用 firewalld 对 docker0 的干预

修改 /etc/firewalld/firewalld.conf ：

# 关键参数：禁止 firewalld 管理桥接接口
FirewallBackend=nftables
# 添加以下行
IgnoreInterfaces=docker0

然后重启 firewalld： systemctl restart firewalld 。此时 firewalld 不再触碰 docker0 接口，Docker 可自由管理其规则。但需额外配置：

# 允许宿主机访问容器（默认 firewalld 会阻止）
iptables -I INPUT -i docker0 -j ACCEPT
# 允许容器访问外部网络（Docker 默认已配置）

踩坑记录：某次升级 Docker CE 到 20.10 版本后， IgnoreInterfaces=docker0 失效，原因是新版本 Docker 使用 nft 命令而非 iptables 管理规则。最终解决方案是升级 firewalld 到 0.9.0+ 版本，并在 /etc/firewalld/zones/docker.xml 中添加 <interface name="docker0"/> 标签，这才是 nftables 后端的正确纳管方式。

5. 生产环境 firewalld 策略落地的七条军规

在金融行业客户部署 firewalld 时，我们总结出七条必须写进 SOP 的硬性规定，每一条都来自血泪教训：

5.1 Zone 分区必须遵循最小权限原则

禁止使用默认 public zone 承载所有服务。标准分区方案：

public ：仅开放 22（SSH）、80（HTTP）、443（HTTPS）
internal ：用于数据库集群，开放 3306（MySQL）、5432（PostgreSQL）、2379（etcd）
trusted ：仅限监控节点 IP 段，开放 9100（node_exporter）、9093（alertmanager）

关键动作： firewall-cmd --permanent --zone=internal --add-source=10.10.20.0/24

5.2 所有 --permanent 操作必须双人复核

在 /etc/firewalld/ 目录下建立 git 仓库，每次修改前执行：

git add . && git commit -m "OPEN-2023-001: Add Redis port for app-server"

firewall-cmd --reload 前必须由第二人执行 git diff HEAD~1 确认变更内容。

5.3 端口转发必须绑定源 IP 白名单

禁止 firewall-cmd --add-forward-port=port=80:proto=tcp:toport=8080 这类无限制转发。正确姿势：

firewall-cmd --permanent --add-rich-rule='rule family="ipv4" source address="192.168.1.100" forward-port port="80" protocol="tcp" to-port="8080"'

5.4 服务白名单必须用 service 文件而非端口

为自定义应用创建 /etc/firewalld/services/myapp.xml ：

<?xml version="1.0" encoding="utf-8"?>
<service>
  <short>MyApp</short>
  <description>Custom application API</description>
  <port protocol="tcp" port="8080"/>
  <port protocol="tcp" port="8443"/>
</service>

然后 firewall-cmd --permanent --add-service=myapp 。这样既便于审计，又避免端口冲突。

5.5 日志审计必须开启 nftables 原生日志

firewalld 自带的日志（ --log-denied=all ）仅记录被拒绝的连接，且格式混乱。生产环境应启用 nftables 日志：

# 在 /etc/firewalld/zones/public.xml 中添加
<rule priority="10">
  <log prefix="FIREWALL-DROP: "/>
  <drop/>
</rule>

日志将输出到 /var/log/messages ，格式为： kernel: FIREWALL-DROP: IN=ens192 OUT= MAC=... SRC=192.168.1.200 DST=10.10.10.10 LEN=60 TOS=0x00 PREC=0x00 TTL=64 ID=12345 PROTO=TCP SPT=52345 DPT=22 WINDOW=29200 RES=0x00 ACK SYN URGP=0

5.6 故障应急必须预置 reload 回滚机制

在 /root/firewall-rollback.sh 中保存：

#!/bin/bash
# 记录当前规则快照
firewall-cmd --list-all > /tmp/firewall-before-$(date +%s).log
# 执行 reload
firewall-cmd --reload
# 若 30 秒内 SSH 断连，则自动回滚
sleep 30
if ! ping -c1 -W1 127.0.0.1 &>/dev/null; then
  cp /etc/firewalld/zones/public.xml.bak /etc/firewalld/zones/public.xml
  firewall-cmd --reload
fi

5.7 安全加固必须禁用 firewalld 的 D-Bus 接口暴露

默认 firewalld 允许任何本地用户通过 D-Bus 查询规则，这在多租户环境中是巨大风险。编辑 /etc/dbus-1/system.d/org.fedoraproject.FirewallD1.conf ，在 <policy context="default"> 块中添加：

<deny own="org.fedoraproject.FirewallD1"/>
<deny send_destination="org.fedoraproject.FirewallD1"/>

然后 systemctl restart dbus 。此后只有 root 用户能执行 firewall-cmd 命令。

6. 从 iptables 四表五链到 nftables 的映射真相

很多老运维抗拒 firewalld，根源是对底层机制的误解。所谓“iptables 四表五链”在 nftables 中已彻底重构：

iptables 的 filter 表 → nftables 的 inet filter table
iptables 的 nat 表 → nftables 的 inet nat table
iptables 的 mangle 表 → nftables 的 inet mangle table
iptables 的 raw 表 → nftables 的 inet raw table

但关键差异在于： nftables 不再有“链”的概念，而是用 chain + hook + priority 构建规则树 。执行 nft list ruleset 会看到类似：

table inet filter {
  chain input {
    type filter hook input priority 0; policy accept;
    ct state invalid drop
    ct state {established, related} accept
  }
}

这里的 priority 0 对应 iptables 的 raw 表， priority -100 对应 filter 表。firewalld 正是利用这个 priority 机制实现规则排序：当它添加 --add-service=http 时，会在 priority -100 的 input chain 中插入规则；而添加 --add-rich-rule 时，会根据 rule 中的 priority 属性插入到指定位置。这意味着 firewalld 的规则永远在用户自定义 nftables 规则之后执行——如果你在 /etc/sysconfig/nftables.conf 中写了自定义规则，firewalld 的 reload 操作不会覆盖它们，只会追加到同一 chain 中。这种设计让 firewalld 成为策略管理层，而非规则独占者。我曾用此特性实现混合管控：用 nftables 做基础流量清洗（丢弃 malformed packet），用 firewalld 做业务层访问控制（按 zone 限速），两者各司其职。

7. firewalld vendor preset: enabled 的深层含义与陷阱

systemctl is-enabled firewalld 返回 enabled ，这不仅是开机自启的标记，更是 firewalld 作为系统级基础设施的契约承诺。vendor preset 机制意味着：

当你执行 dnf reinstall firewalld 时，systemd 会自动恢复 enabled 状态
systemctl reset-failed firewalld 后，服务会按 preset 重新启用
但最关键的陷阱在于： preset enabled 不代表服务一定能启动成功 。它只保证 systemctl enable firewalld 被执行过，而实际启动依赖于前述的 nftables 模块、dbus 服务、XML 配置三重条件。我处理过一个案例：某客户在 Ansible Playbook 中用 systemctl: name=firewalld state=started ，结果在 200 台服务器中 3 台启动失败，因为那 3 台的内核模块被 SELinux 策略阻止加载。此时 systemctl is-enabled 仍显示 enabled，但 systemctl status firewalld 显示 failed。真正的健康检查必须是：

if ! firewall-cmd --state 2>/dev/null | grep -q "running"; then
  echo "FIREWALL CRITICAL: firewalld not operational"
  exit 1
fi

经验技巧：在监控脚本中永远不要依赖 is-enabled ，而要用 firewall-cmd --state 的实际输出。因为 vendor preset 是静态配置，而服务状态是动态事实。

8. CentOS 8 Stream 下 firewalld 的长期演进路径

CentOS 8 Stream 作为 RHEL 8 的上游开发分支，其 firewalld 演进方向已非常清晰：

2023 年 Q4 起 ：firewalld 将完全移除对 iptables-services 的兼容层， iptables 命令将彻底成为 nftables 的纯前端
2024 年 Q2 起 ：zone 配置将支持 JSON 格式，取代 XML（ /etc/firewalld/zones/public.json ）
2024 年 Q4 起 ：rich rule 语法将扩展支持 eBPF 程序注入，实现毫秒级流量整形

这意味着现在学习 firewalld，本质上是在学习未来十年 Linux 网络策略管理的标准范式。我建议所有运维人员立即停止手写 iptables 脚本，转而用 firewalld 的 rich rule 语法构建策略：

# 替代 iptables -t nat -A PREROUTING -p tcp --dport 80 -j REDIRECT --to-ports 8080
firewall-cmd --permanent --add-rich-rule='rule family="ipv4" port port="80" protocol="tcp" forward-port to-port="8080"'

# 替代 iptables -A INPUT -s 192.168.1.0/24 -p tcp --dport 22 -j ACCEPT
firewall-cmd --permanent --add-rich-rule='rule family="ipv4" source address="192.168.1.0/24" port port="22" protocol="tcp" accept'

这些命令生成的规则，在未来 firewalld 版本中无需修改即可平滑升级。真正的技术债，从来不是工具本身，而是我们固守旧范式的思维惯性。