VRRP 实战：从配置到故障切换的完整指南-CSDN博客

1. 为什么你的网络需要VRRP？从单点故障说起

不知道你有没有遇到过这种情况，办公室里网络突然断了，大家急得团团转，最后发现是连接外网的那台核心交换机或者路由器“罢工”了。这种设备一旦宕机，整个网段甚至整个公司的网络就瘫痪了，这就是典型的“单点故障”。在关键业务场景里，比如医院的挂号系统、银行的交易窗口，这种中断是绝对不能接受的。

这时候，VRRP（虚拟路由器冗余协议）就该登场了。你可以把它想象成给网络网关请了一个“备胎”。平时，主网关（Master）负责所有数据包的转发，兢兢业业；而备用网关（Backup）则处于待命状态，默默监听主网关的“心跳”。一旦主网关因为硬件故障、线路问题或者人为重启而“失联”，备用网关会在极短的时间内（通常是几秒钟）接管工作，成为新的主网关。对于网络中的电脑、服务器等终端设备来说，它们感知到的网关IP地址始终没变，网络连接只是短暂卡顿了一下就恢复了，业务几乎不受影响。这就是高可用性（High Availability）网络的核心价值——不是追求永远不出错，而是出错时能快速、自动地恢复。

我刚开始接触网络时，也觉得配置一堆冗余协议很麻烦，直到有一次真的因为一台老旧交换机宕机，导致整个部门半天没法干活，被领导狠狠批了一顿。从那以后，我在设计任何稍微重要一点的网络时，都会把VRRP、堆叠这些冗余技术考虑进去。实战下来你会发现，前期多花一点时间配置，换来的是后期无数个安稳觉。

2. 动手之前：理解VRRP的核心概念与选举机制

光知道VRRP能“防宕机”还不够，要想配得好、不出错，必须搞懂它内部是怎么工作的。这就像开车，不能只知道踩油门，还得懂点发动机原理。

首先，VRRP组（VRID）是一个逻辑概念。同一个局域网（比如同一个VLAN）里，你想做冗余的那几台三层设备（路由器或三层交换机），必须配置相同的VRID，它们才能组成一个“互助小组”。这个小组对外提供一个“虚拟IP地址”（Virtual IP），这个地址就是终端设备要设置的网关地址。记住，终端设备的网关永远指向这个虚拟IP，而不是任何一台物理设备的真实IP，这是理解VRRP的关键。

那么，谁来当“主”谁来当“备”呢？这就涉及到优先级（Priority）选举。默认情况下，每台设备的优先级都是100。VRRP协议规定，优先级高的设备成为Master。如果优先级相同，那么比较接口的真实IP地址，IP地址大的成为Master。在实际配置中，我们通常会手动将我们希望成为主设备的优先级调高，比如设为120，以确保它稳定地成为主网关。

这里有个容易踩的坑：抢占模式（Preempt）。默认情况下，抢占模式是开启的。这意味着，如果原来的主设备故障恢复后，它的优先级比当前的主设备高，它会抢回Master的角色。这在大多数情况下是符合需求的，保证了性能最好的设备始终工作。但在某些特殊场景，比如你希望故障切换后保持稳定，不希望网络因角色频繁切换而波动，就需要关闭抢占模式。这个细节很多新手会忽略。

另一个重要概念是“心跳”，学名叫通告报文（Advertisement）。主设备会以固定的时间间隔（默认1秒）向组内所有备份设备发送通告报文，宣告自己还活着。备份设备会监听这个报文。如果备份设备在“等待超时时间”（默认是3倍的通告间隔，即3秒）内没有收到主设备的通告，就会认为主设备挂了，从而发起新的选举。这个时间是可以调整的，但一般不建议改得太小，以免网络轻微拥塞就误触发切换。