Amber-Garden：面向生产落地的扩展性工程实践体系

最新推荐文章于 2026-06-14 11:23:17 发布

原创最新推荐文章于 2026-06-14 11:23:17 发布 · 444 阅读

6 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#高可用性 #扩展性 #服务端缓存

Spring 专栏收录该内容

4 篇文章

订阅专栏

1. 项目概述：为什么“Amber-Garden”不是另一个技术名词，而是一套可落地的扩展性工程实践

你有没有遇到过这样的时刻：凌晨两点，监控告警疯狂闪烁，用户投诉邮件堆满收件箱，而你的应用正卡在数据库连接池耗尽的红线上——不是代码有Bug，不是服务器宕机，而是它“太受欢迎了”。流量翻倍，响应时间翻三倍；用户增长50%，错误率飙升200%。你手忙脚乱地加机器、调参数、重启服务，可问题像打地鼠一样，刚压下这头，那头又冒出来。最后发现，真正拖垮系统的，不是某一行buggy的代码，而是整个架构在设计之初就埋下的扩展性债务。

“Amber-Garden”就是我给这套应对上述困境的实战方法论起的名字。它不是一个开源框架，不是一套抽象理论，更不是PPT里的漂亮模型图。它是我过去八年里，在三个从零起步、最终用户量突破千万级的SaaS产品中，亲手踩坑、反复验证、持续迭代出的一套 面向真实生产环境的扩展性工程实践体系 。名字里的“Amber”取自琥珀——象征将复杂、易逝的实践经验，凝固成可传承、可复用的知识结晶；“Garden”则代表它不是一堵冰冷的墙，而是一个需要持续修剪、灌溉、适配不同土壤（业务场景）的生命系统。

核心关键词早已悄然贯穿全文：高可用性、扩展性、维护性、可测试性、纵向扩展（Scale Up）、横向扩展（Scale Out）、AKF扩展模型、服务端缓存、数据库分片（Sharding）、读写分离、非阻塞IO 。但请注意，这些词在Amber-Garden里，从来不是教科书定义，而是带着油污和温度的操作指令。比如，“横向扩展”在我这里，意味着你必须在上线前就决定好负载均衡器是用Nginx还是Envoy，它的健康检查超时时间设为3秒还是8秒，以及当一个实例连续三次心跳失败时，是立即剔除还是等待5秒再确认——这些细节，直接决定了你的系统在流量洪峰来临时，是优雅扩容，还是雪崩式崩溃。

这个项目解决的，是所有成长型技术团队都会撞上的那堵墙： 当业务逻辑跑通、MVP验证成功后，如何让技术架构不成为商业增长的枷锁，反而成为加速器？ 它适合三类人：第一，正在从单体应用向微服务演进的架构师，你需要知道Y轴拆分的边界在哪，而不是盲目追求“服务越小越好”；第二，负责核心服务稳定性的后端工程师，你需要掌握Tomcat NIO线程池的 maxThreads 与 acceptCount 之间那微妙的平衡点；第三，刚接手一个“祖传”老系统的运维或DBA，面对每天都在增长的慢查询日志，你需要一份能立刻上手的索引优化清单，而不是泛泛而谈“加索引”。

它不承诺“一键解决所有问题”，但能确保你每一步扩容决策，都有数据支撑、有路径可循、有回滚预案。接下来的内容，就是我把这八年里，那些写在故障复盘文档里、贴在工位隔板上、甚至刻在咖啡杯底的硬核经验，毫无保留地摊开给你看。

2. Amber-Garden整体设计思路：从“救火队员”到“园丁”的思维跃迁

2.1 为什么拒绝“先写功能，再谈扩展”的线性思维？

很多团队的扩展性建设，始于一次惨烈的线上事故。老板拍桌子：“为什么扛不住？马上扩容！”于是大家加班加点，买服务器、改配置、上K8s，系统暂时稳住了。但三个月后，同样的问题换了个姿势又来了——这次是缓存击穿，下次是数据库连接池打满。这种“头痛医头，脚痛医脚”的模式，本质上是把扩展性当成一个可以事后补救的“功能模块”，就像给一辆没有底盘的车加装空气悬挂。

Amber-Garden的第一条铁律，就是 扩展性必须是架构的“默认属性”，而非“可选插件” 。这源于一个残酷的现实： 重构的成本，永远远高于初始设计的成本 。我曾参与过一个电商订单服务的改造，它最初是单体Java应用，数据库用MySQL。当订单量从日均1万涨到50万时，团队尝试了所有“标准答案”：加Redis缓存、做读写分离、引入消息队列削峰。但半年后发现，90%的慢查询都集中在一张 order_detail 表的联合查询上，而这张表的结构，恰恰是为了支持一个早已下线的“订单组合优惠”功能设计的。要根治，必须重写整个订单域模型。最终，我们花了4个人月，才把这块“历史债”清理干净。如果当初在设计 order_detail 表时，就遵循Amber-Garden的“数据访问契约”原则——即每个表只服务于一个明确的、不可拆分的业务能力，并且其查询模式在设计阶段就通过压测验证过QPS上限——这个代价完全可以避免。

所以，Amber-Garden的设计起点，不是“这个功能怎么实现”，而是“这个功能在未来一年内，预计会承受多大流量？它的数据读写比是多少？它的峰值QPS和平均QPS的比值大概是多少？” 这些问题的答案，会直接决定你选择单体还是微服务、选择MySQL还是Cassandra、选择本地缓存还是分布式缓存。它强迫你从第一天起，就以一个“未来运维者”的视角去审视代码。

2.2 AKF扩展模型：不是理论模型，而是你的扩容决策树

业界常把AKF模型当作一个高大上的理论框架，但在Amber-Garden里，它被彻底工具化，变成了一张贴在你Confluence首页的 扩容决策树 。每次你面临“要不要加机器”这个问题时，你都要按顺序回答这三个问题：

X轴问题：我的瓶颈，是否可以通过“复制”来解决？
这是最简单、最安全的扩容方式。比如，你的Web API层CPU使用率长期在85%以上，而数据库、缓存、消息队列一切正常。这时，加一台同配置的应用服务器，配合Nginx做轮询，就是完美的X轴方案。它的优势在于零侵入、零风险、见效快。Amber-Garden的经验是： 只要X轴能解决，就绝不用Y轴或Z轴 。因为X轴的边际成本最低，而Y/Z轴的复杂度和运维成本是指数级上升的。
Y轴问题：我的瓶颈，是否源于“职责不清”？
如果你的数据库CPU爆表，但应用服务器很空闲，这就暴露了Y轴问题。说明你的单体应用，把所有业务逻辑（用户管理、商品管理、订单处理、支付回调）都揉在一个进程里，它们共享同一套数据库连接池、同一个JVM内存空间、同一个线程池。当支付回调接口因第三方延迟而阻塞时，它会拖垮整个应用的线程池，导致用户登录也超时。Y轴拆分，就是把这团乱麻理清：支付服务独立部署、独立数据库、独立监控告警。这样，支付出问题，只影响支付，不影响登录。Amber-Garden的Y轴实践强调“ 能力边界”而非“业务边界 ”。比如，我们不会把“用户中心”作为一个服务，而是把“用户认证”、“用户资料查询”、“用户行为分析”拆成三个服务，因为它们的技术栈、伸缩策略、数据一致性要求完全不同。
Z轴问题：我的瓶颈，是否源于“用户分布不均”？
这是最容易被误用的轴。很多人一上来就想做“按用户ID哈希分片”，结果发现80%的流量来自北上广深，分片后大部分请求还是打在少数几个节点上。Z轴真正的价值，在于 地理隔离 和 租户隔离 。比如，你有一个面向全球客户的SaaS平台，那么Z轴就是按国家/地区划分：美国用户走AWS us-east-1集群，欧洲用户走eu-west-1集群。这不仅能降低网络延迟，更能满足GDPR等数据主权法规。或者，你服务的是大型企业客户，每个客户的数据必须物理隔离，那么Z轴就是按 tenant_id 分库分表。Amber-Garden的Z轴原则是： 只有当你能清晰定义出“隔离维度”，并且这个维度能带来显著的性能或合规收益时，才启用Z轴 。否则，它只会给你增加无谓的复杂度。

这张决策树，把抽象的“扩展性”转化成了可执行的、带判断条件的流程。它告诉你，当看到监控里 mysql_slow_queries 指标飙升时，第一步不是慌着加内存，而是打开决策树，问自己：“这是X轴问题（所有SQL都慢，说明是硬件瓶颈）？还是Y轴问题（只有 payment_log 表的SQL慢，说明是支付服务耦合太重）？或是Z轴问题（只有 tenant_123 的SQL慢，说明是该租户数据倾斜）？”

2.3 纵向扩展（Scale Up）：被严重低估的“内功心法”

横向扩展（Scale Out）是显学，因为它看得见、摸得着——新机器上架、服务注册、流量切过去。但Amber-Garden认为， 一个团队的纵向扩展能力，才是其技术深度的试金石 。它体现在你能否用一台机器，干出两台机器的活；能否让一个服务，在不增加任何硬件投入的情况下，吞吐量提升300%。

这绝非玄学。它的底层，是三个可量化、可操作的“内功”：

线程效率 ：一个Java Web服务，如果它的 ThreadPoolExecutor 里， activeCount （活跃线程数）常年低于 corePoolSize （核心线程数），说明你的线程池配置过大，大量线程在空转，消耗着宝贵的JVM内存和OS上下文切换资源。Amber-Garden的标准是： activeCount 应稳定在 corePoolSize 的70%-90%区间。这意味着你的线程池大小，是根据真实业务压力动态调优出来的，而不是拍脑袋定的“100”或“200”。
内存利用率 ：JVM的 -Xms 和 -Xmx 设置成一样，是Amber-Garden的底线要求。这能避免JVM在运行时频繁地申请和释放堆内存，引发STW（Stop-The-World）停顿。更重要的是，你要监控 jstat -gc 输出中的 GCT （GC总耗时）和 GCT/uptime （GC耗时占比）。Amber-Garden的红线是： GC耗时占比不能超过5% 。如果超过了，说明你的对象生命周期管理出了问题——要么是缓存没设过期时间，导致内存泄漏；要么是日志打印了大量临时字符串，触发了频繁的Minor GC。这时，加内存是治标，重构代码才是治本。
I/O调度 ：这是最容易被忽视的“内功”。一个服务，如果它的磁盘I/O Wait时间（ iostat -x 1 中的 %util 和 await ）长期高于70%，说明它正在被磁盘拖垮。Amber-Garden的解决方案不是换SSD（虽然这也有效），而是 把I/O操作从关键路径上剥离 。比如，日志异步刷盘（Log4j2的AsyncLogger）、数据库批量写入（JDBC Batch）、文件上传先存OSS再异步处理。这些看似微小的改动，能让单机QPS从500提升到2000。

纵向扩展的价值，在于它为你争取了宝贵的战略时间。当市场竞品还在为应对流量高峰而紧急采购服务器时，你已经通过代码优化，把现有集群的承载能力提升了50%。这50%，就是你用来打磨用户体验、开发新功能、甚至收购对手的资本。

3. Amber-Garden核心实操要点：从理论到键盘的每一行代码

3.1 服务实例的纵向扩展：Tomcat NIO的“黄金配置”与陷阱

Tomcat作为Java生态最主流的Web容器，其配置直接决定了你服务的并发上限。Amber-Garden团队经过上百次压测，总结出一套适用于中高并发（QPS 1000-5000）场景的“黄金配置”，并附上每一个参数背后的血泪教训。

<Connector 
    port="8080"
    protocol="org.apache.coyote.http11.Http11NioProtocol"
    connectionTimeout="20000"
    maxThreads="500"
    minSpareThreads="100"
    acceptCount="500"
    maxConnections="10000"
    redirectPort="8443"
    compression="on"
    compressionMinSize="2048"
    noCompressionUserAgents="gozilla, traviata"
    compressableMimeType="text/html,text/xml,text/plain,application/javascript,application/json"
/>

protocol="org.apache.coyote.http11.Http11NioProtocol" ：这是开启NIO模式的开关。 绝对不要用 Http11AprProtocol （APR） ，除非你有专业的C++工程师专门维护它。APR在高并发下确实性能略好，但它对操作系统依赖极强，一次内核升级就可能导致整个服务无法启动，稳定性风险远大于收益。
maxThreads="500" ：这是NIO模式下，真正处理HTTP请求的工作线程池大小。它的设定，不是越大越好。Amber-Garden的计算公式是： maxThreads = (预期峰值QPS * 平均请求处理时间(秒)) * 1.2 。例如，你的服务平均处理一个请求需要200ms，预期峰值QPS是2000，那么 maxThreads = (2000 * 0.2) * 1.2 = 480 ，向上取整为500。如果设得过大（如2000），会导致线程上下文切换开销剧增，CPU使用率虚高，实际吞吐量反而下降。
acceptCount="500" ：这是当所有工作线程都在忙碌时，Tomcat能暂存的“待处理连接”队列长度。它的值，必须等于 maxThreads 。为什么？因为NIO模型下，Acceptor线程（负责接收连接）和Worker线程（负责处理请求）是分离的。 acceptCount 队列，就是这两者之间的缓冲区。如果 acceptCount 远小于 maxThreads （如设为100），那么当瞬间流量洪峰到来时，大量连接会在这个小队列里排队，一旦队列满，新的TCP连接就会被操作系统直接 reject ，表现为客户端的 Connection refused 错误，这是最致命的体验。反之，如果 acceptCount 远大于 maxThreads （如设为2000），那么大量连接会积压在队列里，导致用户请求的“排队延迟”飙升，明明服务没挂，用户却感觉卡死。Amber-Garden的实践是： 让 acceptCount 和 maxThreads 保持1:1，确保连接进来就能被尽快分配给Worker线程处理，把延迟控制在毫秒级 。
maxConnections="10000" ：这是Tomcat能同时维持的最大连接数（包括已建立和正在握手的）。它应该远大于 maxThreads ，因为一个HTTP连接，在处理完一个请求后，可能还会保持一段时间（Keep-Alive），等待下一个请求。 10000 是一个安全的起点，你可以根据 netstat -an | grep :8080 | wc -l 的监控数据来动态调整。

提示：光有配置还不够。你必须在代码里， 禁用所有阻塞式IO调用 。比如，不要用 HttpURLConnection 的 getInputStream().read() ，而要用 OkHttp 的 enqueue() 异步回调；不要用 JDBC 的 executeQuery() 同步查询，而要用 Spring JDBC Template 的 queryAsync() （需配合Reactive Spring Boot）。Amber-Garden的代码审查清单第一条就是：“所有外部HTTP调用、数据库查询、文件读写，必须是异步的”。这是NIO发挥威力的前提。

3.2 服务端缓存：进程内缓存（Caffeine）与分布式缓存（Redis）的“攻守同盟”

缓存是提升扩展性的杠杆支点。但Amber-Garden坚决反对“缓存万能论”。我们把它看作一把双刃剑：用得好，事半功倍；用得不好，雪上加霜。关键在于， 明确区分“缓存什么”和“缓存在哪里” 。

进程内缓存（Caffeine）：用于“热、小、稳”的数据
“热”，指访问频率极高，QPS > 1000；“小”，指单条数据体积小，< 1KB；“稳”，指数据变更频率极低，TTL > 1小时。典型的例子是：系统配置项（ app.version , feature.flag ）、城市编码字典、API网关的路由规则。
Amber-Garden的Caffeine配置如下：
```
Caffeine.newBuilder()
    .maximumSize(10000) // 最大1万条，防内存溢出
    .expireAfterWrite(1, TimeUnit.HOURS) // 写入1小时后过期
    .refreshAfterWrite(30, TimeUnit.MINUTES) // 写入30分钟后自动刷新，保证数据新鲜
    .recordStats() // 开启统计，用于监控命中率
    .build(key -> loadFromDB(key)); // 加载函数，只在缓存未命中时调用
```
注意： refreshAfterWrite 是Amber-Garden的独门技巧。它让缓存能在后台自动更新，避免了“缓存穿透”（大量请求同时击穿缓存，打到DB）的风险。当一个key过期时，第一个请求会触发 loadFromDB ，后续请求会拿到旧值，直到新值加载完成。这比 expireAfterWrite 更平滑。
分布式缓存（Redis）：用于“热、大、变”的数据
“热”，同样指高频访问；“大”，指单条数据可能很大（如用户完整档案JSON，> 10KB）；“变”，指数据变更较频繁，TTL < 1小时。典型例子是：用户Session、商品详情页HTML、实时排行榜。
Amber-Garden的Redis使用铁律是： 永远不要把Redis当作数据库的替代品 。我们只缓存“计算结果”，绝不缓存“原始数据”。比如，商品详情页，我们缓存的是渲染好的HTML字符串，而不是从DB查出来的 product 、 sku 、 category 三张表的原始记录。这样，即使Redis宕机，服务降级为直连DB，也只是慢一点，不会直接挂掉。

更重要的是， 必须为Redis设置熔断和降级 。Amber-Garden在所有Redis客户端调用外，包裹了一层Hystrix或Resilience4j的熔断器：
```
@HystrixCommand(fallbackMethod = "getProductDetailFromDB", commandProperties = {
    @HystrixProperty(name = "execution.isolation.thread.timeoutInMilliseconds", value = "500"),
    @HystrixProperty(name = "circuitBreaker.requestVolumeThreshold", value = "20"),
    @HystrixProperty(name = "circuitBreaker.errorThresholdPercentage", value = "50")
})
public String getProductDetailFromCache(Long productId) {
    return redisTemplate.opsForValue().get("product:" + productId);
}
```
这段代码的意思是：如果500ms内Redis没返回，就走降级方法 getProductDetailFromDB （直连DB）；如果10秒内有20次调用，其中50%失败，熔断器就打开，接下来10秒内所有请求都直接走降级，不再尝试访问Redis。这保证了，即使Redis集群完全不可用，你的服务依然能以“降级模式”继续提供服务，只是性能稍差。

3.3 数据库扩展性：从“加索引”到“建索引”的范式转移

数据库是系统的命脉，也是扩展性最难啃的骨头。Amber-Garden团队曾花三个月时间，只为优化一条慢查询。我们的经验是： 优化数据库，90%的功夫在“建索引”之前，而不是“加索引”之后 。

3.3.1 建索引前的“三问”清单

在你敲下 CREATE INDEX 命令之前，Amber-Garden强制要求你回答以下三个问题：

这条SQL，真的是业务必需的吗？
我们曾发现一个报表查询， SELECT * FROM order WHERE create_time BETWEEN '2023-01-01' AND '2023-12-31' ，它扫描了上亿条记录。深入业务后发现，这个报表根本没人看，是三年前一个实习生写的测试脚本遗留下来的。 删除无用SQL，是性价比最高的“索引” 。
这个WHERE条件，真的能走索引吗？
很多开发者以为 WHERE status = 1 AND create_time > '2023-01-01' ，给 status 和 create_time 分别建索引就行。错！MySQL的B+树索引，只有在 最左前缀匹配 时才生效。对于这个查询，最优索引是 (status, create_time) 的联合索引。Amber-Garden的索引设计口诀是：“ 把等值查询字段放前面，范围查询字段放后面 ”。
这个ORDER BY，真的需要实时排序吗？
SELECT * FROM user ORDER BY last_login_time DESC LIMIT 20 ，如果 last_login_time 没有索引，全表扫描+排序是灾难。但Amber-Garden的解法是： 用“预排序”代替“实时排序” 。我们创建一个 user_last_login_rank 表，每当用户登录，就异步更新这个表的 rank 字段。查询时，只需 SELECT * FROM user_last_login_rank ORDER BY rank LIMIT 20 ，再JOIN回 user 表。这牺牲了一点实时性（几秒延迟），换来了查询性能的百倍提升。

3.3.2 针对性索引优化：覆盖索引与填充因子（Fill Factor）

覆盖索引（Covering Index） ：这是Amber-Garden最常用、效果最立竿见影的技巧。它的核心思想是： 让索引本身，就包含查询所需的所有字段，从而避免回表 。
例如，查询 SELECT name, email FROM user WHERE status = 1 AND city = 'Beijing' 。如果只建 (status, city) 索引，MySQL查到主键ID后，还得回到聚簇索引（主键索引）里去捞 name 和 email ，这就是“回表”，非常耗时。而建 (status, city, name, email) 联合索引，查询就能在索引树里一次性拿到所有数据，速度提升3-5倍。Amber-Garden的建议是： 对所有QPS > 100的SELECT语句，都优先考虑覆盖索引 。
填充因子（Fill Factor） ：这是针对写多读少场景的“内功”。 Fill Factor 决定了索引页的填充程度。默认是100%，即页填满。这对纯读场景最好，但对写多的场景，会导致频繁的“页分裂（Page Split）”。当一个页满了，插入新数据时，MySQL必须新建一个页，把一半数据挪过去，这个过程非常耗IO。Amber-Garden的实践是：对写入频繁的表（如 user_action_log ），将 Fill Factor 设为70%-80%。这预留了20%-30%的空间，让新数据能直接插入，大幅减少页分裂。当然，这会略微增加索引的存储空间，但换来的是写入性能的稳定。

4. Amber-Garden实操过程：一个电商订单服务的全链路扩展性改造

4.1 改造前的“脆弱”现状

我们以一个真实的电商订单服务（代号“OrderCore”）为例。它是一个Spring Boot单体应用，部署在3台4C8G的云服务器上，数据库是单节点MySQL 5.7。上线初期，日订单量1万，一切安好。但当活动大促期间，日订单量冲到50万时，系统开始出现一系列连锁反应：

现象1：API响应时间飙升 。 /api/v1/order/create 接口的P95延迟从200ms暴涨到3秒。
现象2：数据库连接池耗尽 。 Druid监控显示 activeCount 长期为100（最大连接数）， waitCount 高达500+，大量请求在连接池里排队。
现象3：服务器CPU和内存使用率双高 。 CPU持续95%以上，JVM Old Gen内存每小时Full GC一次。
现象4：缓存命中率暴跌 。 Redis的 keyspace_hits / (keyspace_hits + keyspace_misses) 从95%跌到40%。

根因分析（Root Cause Analysis）很快指向了两个核心瓶颈：

服务层 ： OrderCore 应用的Tomcat线程池配置为 maxThreads=200 ，但压测显示，其在QPS 1500时就达到瓶颈，线程上下文切换开销巨大。
数据库层 ： order 表没有合适的索引， SELECT * FROM order WHERE user_id = ? AND status IN (?, ?) 这条查询占用了70%的慢查询日志，且 user_id 字段上只有单列索引，无法高效过滤 status 。

4.2 Amber-Garden分阶段改造方案

阶段一：纵向扩展攻坚（1周）

目标：不加机器，不改架构，仅通过代码和配置优化，将单机QPS从1500提升到3000。

Tomcat调优 ：
将 maxThreads 从200提升至500， acceptCount 同步设为500。同时，将所有对外HTTP调用（支付回调、物流查询）从同步 RestTemplate 改为异步 WebClient 。效果：单机QPS提升至2200，P95延迟降至800ms。
JVM调优 ：
将 -Xms 和 -Xmx 统一设为4G，启用G1垃圾收集器（ -XX:+UseG1GC ），并设置 -XX:MaxGCPauseMillis=200 。效果：Full GC频率从每小时1次，降至每周1次，Old Gen内存占用稳定在60%。
缓存加固 ：
为 order 表的 user_id 和 status 字段，添加覆盖索引 (user_id, status, id, create_time) 。同时，在应用层，对 /api/v1/order/list?user_id=xxx 接口，增加Caffeine进程内缓存，缓存Key为 "user_orders_"+userId ，TTL设为5分钟。效果：数据库连接池 waitCount 归零，Redis缓存命中率回升至85%。

阶段二：横向扩展（X轴）落地（2周）

目标：通过增加应用实例，将集群QPS从2200*3=6600，提升至15000，从容应对大促。

负载均衡层 ：
在Nginx前，部署一个基于DNS的全局负载均衡（GSLB），将流量按地理位置（中国、东南亚、欧美）分发到不同的区域集群。区域内，用Nginx做四层TCP负载均衡，健康检查间隔设为3秒，超时设为5秒。
服务注册与发现 ：
引入Nacos作为服务注册中心。所有 OrderCore 实例启动时，自动向Nacos注册，并上报自己的 qps 、 cpu_usage 等指标。Nginx的upstream配置改为 upstream order_backend { server 127.0.0.1:8080; } ，由Nacos的Sidecar代理动态更新。
配置中心化 ：
将所有数据库连接串、Redis地址、第三方API密钥，全部迁移到Nacos配置中心。修改配置后，所有实例实时生效，无需重启。

效果：集群QPS轻松达到12000，P95延迟稳定在1秒以内。最关键的是，当某台服务器因硬件故障宕机时，Nacos在5秒内将其从服务列表剔除，Nginx自动将流量切走，用户无感知。

阶段三：Y轴拆分（微服务化）（4周）

目标：将 OrderCore 单体，按业务能力拆分为 Order-Service （订单核心）、 Payment-Service （支付）、 Logistics-Service （物流）三个独立服务，各自拥有独立的数据库和缓存。

拆分策略 ：
采用“绞杀者模式（Strangler Pattern）”。首先，将 Order-Service 中与支付无关的逻辑（如订单创建、状态流转、库存扣减）剥离出来，作为一个新服务。所有新订单，都先走 Order-Service ，再由它通过消息队列（RocketMQ）异步通知 Payment-Service 进行支付。老订单的查询，仍走原 OrderCore ，但新增的查询接口，全部路由到 Order-Service 。
数据迁移 ：
使用Canal监听MySQL的binlog，将 order 表的增量数据，实时同步到 Order-Service 的专属数据库。存量数据，用Spark SQL进行离线迁移，耗时12小时，期间服务正常运行。
最终成果 ：
大促当天， Order-Service 集群QPS达8000， Payment-Service 集群QPS达3000， Logistics-Service 集群QPS达1000。当 Payment-Service 因第三方支付网关抖动而短暂延迟时， Order-Service 和 Logistics-Service 完全不受影响，订单创建和物流查询照常进行。系统整体稳定性，实现了质的飞跃。

5. Amber-Garden常见问题与排查技巧实录：那些只在深夜故障群里流传的真相

5.1 “缓存雪崩”与“缓存穿透”：不是概念，是你的监控大盘

这两个词被讲烂了，但Amber-Garden的团队，只用两个监控图表来定义它们：

缓存雪崩 ：在你的Prometheus监控大盘上， redis_keyspace_hits （缓存命中数）曲线，突然在某个整点（比如凌晨2点） 断崖式下跌 ，同时 redis_keyspace_misses （缓存未命中数）曲线 垂直拉升 ，并且 mysql_slow_queries （MySQL慢查询数）曲线紧随其后，也出现一个尖峰。这说明，大量缓存key在同一时间过期，导致所有请求瞬间打到DB。

Amber-Garden的独家解法 ：
1. 随机过期时间 ：永远不要用 setex key 3600 value 。而是用 setex key (3600 + random(1800)) value ，给每个key的TTL加一个0-30分钟的随机偏移。
2. 永不过期 + 后台刷新 ：对核心数据（如商品信息），设置一个超长TTL（如7天），但用一个后台定时任务，每隔1小时，就去DB拉取最新数据，更新到Redis。这样，即使所有key同时过期，也不会有“雪崩”，因为数据一直在后台刷新。
缓存穿透 ：在你的监控大盘上， redis_keyspace_misses 曲线持续高位运行，但 mysql_slow_queries 曲线却 异常平稳 。这说明，大量请求查询的是 根本不存在的key （如 user_id=-1 , product_id=999999999 ），这些请求绕过了缓存，直接打到了DB，但DB查不到，返回空，导致缓存里也没有这个key的记录，下一次请求又来，形成恶性循环。

Amber-Garden的独家解法 ：
1. 布隆过滤器（Bloom Filter） ：在Redis之前，加一层布隆过滤器。所有查询请求，先过布隆过滤器。如果布隆过滤器说“不存在”，那就直接返回空，绝不查Redis和DB。布隆过滤器有误判率（约1%），但绝无漏判。
2. 空值缓存 ：如果布隆过滤器说“可能存在”，那就去Redis查。如果Redis里没有，再去DB查。如果DB也查不到，那就把 key_null （如 user:-1_null ）这个空值，以一个很短的TTL（如60秒）存入Redis。这样，后续的相同请求，就能在Redis里拿到空值，避免穿透。

5.2 数据库连接池“假死”：你以为是DB挂了，其实是你的代码在“自杀”

现象：应用日志里疯狂打印 Cannot get JDBC Connection ，但 mysqladmin ping 显示数据库一切正常。 netstat -an | grep :3306 显示，应用服务器到DB的连接数只有几十个，远低于连接池最大值。

根因：这是Amber-Garden团队最常遇到的“幽灵BUG”。它通常由两种代码写法导致：

写法一：在try-with-resources之外，手动关闭了Connection

// ❌ 错误示范
Connection conn = dataSource.getConnection();
try {
    PreparedStatement ps = conn.prepareStatement("...");
    ps.execute();
} finally {
    conn.close(); // 这里手动close，会把连接还给连接池
}
// 但下面这行代码，会再次尝试从连接池获取连接，而此时连接池可能已满
// 导致线程在这里无限等待，表现就是“假死”
doSomethingElse();

写法二：在Spring事务中，手动获取Connection

// ❌ 错误示范
@Transactional
public void updateOrder() {
    Connection conn = dataSource.getConnection(); // 手动获取，脱离了Spring事务管理
    // ... 一堆操作
    conn.close(); // 手动关闭，破坏了Spring的事务传播
}

Amber-Garden的排查口诀 ：