深入理解TCC分布式事务：三个阶段与失败处理

业务合法性校验：校验所有业务前置条件，例如转账场景校验转出账户余额、风控黑名单；下单场景校验商品库存、用户收货地址合法性。前置条件不满足直接失败，阻断后续流程。
业务资源预留锁定：不扣真实余额、不真实扣减库存，仅做资源冻结。例如转账冻结转出金额、下单冻结对应库存，避免其他并发事务抢占资源，保证后续提交流程可正常执行。

阶段核心准则：Try阶段坚持快速失败原则，只要校验不通过、资源预留失败，立刻终止全局事务，无需等待后续流程。

当所有分支服务Try阶段全部执行成功后，事务管理器TM下发全局提交指令，所有分支同步执行Confirm操作，完成真实业务落地。

TCC存在一个关键设计假设：只要Try阶段全部成功，Confirm阶段必须执行成功。原因如下：

举例：转账场景Try冻结100元余额，Confirm直接将冻结余额扣除，完成真实转账。

全局事务任意分支Try失败、全局事务超时、主动触发回滚时，TM下发回滚指令，所有分支执行Cancel补偿操作，撤销Try阶段所有资源预留，还原业务初始状态。

Cancel同样遵循设计假设：需要回滚则Cancel必须成功，核心职责：释放冻结资源、消除预处理操作带来的业务影响。

举例：转账Try冻结100元，后续事务触发回滚，Cancel直接解冻冻结余额，账户数据完全还原。

理想状态下TCC可以自动完成提交和回滚，但线上分布式环境存在网络超时、服务宕机、请求乱序、消息重发等各类不可控问题。下面按阶段拆解所有故障场景，配套标准化落地解决方案。

场景：任意一个微服务分支Try接口调用失败/超时。

处理流程：TM立即终止全局事务，同步调用所有参与分支的Cancel接口，统一回滚所有已经预留的资源。

隐性风险：部分分支Try接口压根没有执行，却被TM调用Cancel，进而引发空回滚问题，需要通过事务状态表规避。

很多开发者会误以为Confirm失败可以直接调用Cancel回滚，这是典型误区：Confirm进入提交阶段后，禁止反向调用Cancel。

原因：分布式事务存在部分提交，可能一部分服务已经Confirm完成，此时再回滚会造成全局数据不一致，彻底破坏事务状态。

标准处理方案：

Cancel失败和Confirm失败处理逻辑一致，核心方案依旧是接口重试+幂等控制。

Cancel负责数据补偿，一旦补偿失败，冻结资源会永久占用，影响业务正常流转。因此重试间隔需要更密集，重试次数更多；超出阈值后同样触发告警，人工手动释放资源。

（1）空回滚

（2）接口幂等性问题（幂等设计）

（3）资源悬挂

统一最优解：搭建一张本地分支事务状态表，存储xid、分支id、事务状态、创建时间，三阶段接口执行前均做状态校验，一张表同时解决空回滚、幂等、资源悬挂三大问题，是工业级TCC落地标准方案。

阶段	核心职责	设计原则	异常处理方式
Try	业务校验+资源冻结预留	快速失败，不执行业务真实提交	任意分支失败，全局统一回滚
Confirm	真实执行业务提交，确认事务	Try成功则Confirm必成功，天然无业务校验	重试+幂等，禁止反向回滚，超时人工兜底
Cancel	撤销预处理，释放冻结资源	需要回滚则Cancel必成功	重试+幂等，规避空回滚与请求乱序

适合支付转账、订单扣库存、积分发放等高并发、允许短暂数据不一致、追求高性能的核心业务；不适合金融对账、账务清算等要求实时强一致性的业务场景。