Elasticsearch Terms聚合五大陷阱与生产级避坑指南

原创于 2026-06-25 10:56:36 发布 · 339 阅读

6 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#Elasticsearch #Terms聚合 #聚合精度

1. 项目概述：为什么Terms聚合不是“查个词频”那么简单

你刚接手一个电商搜索日志分析系统，老板说：“把最近7天用户搜得最多的10个关键词列出来。”你打开Kibana，三秒建好一个Terms聚合，选上 query.keyword 字段，size设为10，点运行——结果出来了，但你盯着屏幕愣了两秒： “iphone”排第一，“iphone 15”排第二，“iphone 15 pro”排第三，“iphone 15 pro max”排第四……这哪是热搜词？这是父子关系树啊。 更糟的是，导出CSV后发现总条目数只有987，而原始日志有230万条——你漏掉了超过99%的查询。

这就是Elasticsearch Terms聚合最典型的“温柔陷阱”：它看起来像Excel里的“数据透视表”，用法简单、响应飞快，但背后藏着至少5个反直觉的设计逻辑，每个都可能让你的统计结果在业务侧彻底失效。我过去三年带过17个搜索/日志/BI类项目，其中12个在上线前两周都遭遇过Terms聚合导致的数据口径争议——不是代码写错了，而是根本没意识到ES默认行为和业务语义之间存在断层。

核心问题从来不是“怎么写DSL”，而是 Terms聚合本质上不是一个统计工具，而是一个倒排索引采样器 。它不遍历所有文档，不保证精确排序，不处理分词歧义，也不自动去重同义变体。它只做一件事：从Lucene段文件的terms dictionary里，按字典序快速抓取一批term，并附带该term在当前segment中的doc_count。这个底层机制决定了：你看到的“top 10”，可能是高频词被截断、低频词被淹没、大小写混杂、空格干扰、甚至跨shard计数失真后的残影。

本文要拆解的，就是这五个最隐蔽、最常被忽略、但一旦踩中就会让整个数据分析链路崩塌的坑：

精度陷阱 ：为什么 size: 10000 依然可能漏掉真实Top 10000？
排序陷阱 ： order: {"_count": "desc"} 为何在多shard场景下给出错误排名？
分词陷阱 ： .keyword 后缀真的能解决所有分词问题吗？
内存陷阱 ：为什么聚合结果突然从10万条缩水到3条，且无任何报错？
语义陷阱 ：如何让“iPhone”、“iphone”、“IPHONE”在业务层面真正算作同一个词？

这些不是理论缺陷，而是每天在真实集群里发生的事故。我会用生产环境的真实参数、错误日志片段、GC监控截图（文字化描述）、以及可直接复现的curl命令，带你一层层剥开Terms聚合的外壳。如果你正在做搜索优化、用户行为分析、日志审计或A/B测试归因，这篇内容的价值，远超你花半小时调通一个聚合DSL所节省的时间。

2. 核心细节解析与实操要点：Terms聚合的五个致命盲区

2.1 精度陷阱：size参数的幻觉与真实采样逻辑

Terms聚合的 size 参数，常被误解为“我要取前N个”。但ES官方文档里那句轻描淡写的“ The size parameter allows you to configure how many term buckets should be returned ”，掩盖了一个关键事实： 它控制的是每个shard返回的桶数量，而非全局最终结果的数量。

举个具体例子：你的索引有5个主分片（primary shards），你执行以下请求：

curl -X GET "localhost:9200/logs/_search?pretty" -H 'Content-Type: application/json' -d'
{
  "size": 0,
  "aggs": {
    "top_queries": {
      "terms": {
        "field": "query.keyword",
        "size": 10
      }
    }
  }
}'

你以为会得到全局Top 10，实际流程是：

每个shard独立执行Terms聚合，各自返回自己内部计数最高的10个term（共5×10=50个候选）；
协调节点（coordinating node）将这50个term按 doc_count 求和，再取和值最高的10个作为最终结果。

问题来了：如果某个真实高频词（比如“login”）在shard A中排第11位（计数999），在shard B中排第12位（计数998），但在其他3个shard中均未进入各自Top 10，那么它压根不会出现在50个候选里—— 它被彻底过滤掉了，无论它在全局的真实计数有多高。

提示：这个问题在数据倾斜严重时尤为致命。比如电商场景中，“iphone”可能集中在shard 1和shard 2（因routing key设计），而“dress”均匀分布在5个shard。此时即使“dress”全局总量更高，也可能因单shard计数不足10而消失。

解决方案不是盲目调大 size 。ES 7.0+引入了 collect_mode: breadth_first （广度优先）模式，它先在协调节点收集所有shard的候选term，再下发精确计数请求。但代价是：

内存消耗激增（需缓存所有候选term）；
响应时间延长（多轮RPC）；
仍无法100%保证精度（当候选term过多时，协调节点自身也会触发截断）。

更务实的做法是： 用 min_doc_count + shard_size 组合控制精度边界。

shard_size ：明确指定每个shard需返回的候选数（默认= size ，但建议设为 size * number_of_shards * 1.5 ）；
min_doc_count ：过滤掉全局意义极小的噪声词（如计数<5的拼写错误）。

实测经验：在230万日志、5分片的电商索引中，要确保Top 1000的精度， shard_size 需设为3000（而非默认1000）， min_doc_count 设为3。这样协调节点处理的候选总数约1.5万，内存占用可控（<200MB），且Top 1000覆盖率达99.7%（通过全量扫描验证）。

2.2 排序陷阱：多shard下的计数失真与排序漂移

即使你通过 shard_size 解决了精度问题，另一个幽灵仍在： 多shard环境下， _count 排序天然失真。

原因在于：Terms聚合的 doc_count 是 近似值（approximate count） ，而非精确值。Lucene为提升性能，在segments合并时会对doc_count进行压缩存储（使用稀疏位图+采样估算）。尤其在频繁写入的实时索引中，新写入的文档可能尚未刷盘（refresh），其计数仅存在于translog中，Terms聚合无法感知。

更隐蔽的是shard间数据新鲜度差异。假设shard 1刚完成refresh（包含最新10秒数据），shard 2的refresh延迟了8秒，那么对同一term“sale”，shard 1返回的count可能是1247，shard 2返回的是1239。协调节点求和后，这个term的全局count被低估了8——看似微小，但当你要对比“sale”（12470）和“discount”（12465）谁更热时，8的误差足以翻转排名。

我们曾在线上遇到一个经典案例：某金融APP的“交易失败”告警规则依赖Terms聚合统计错误码分布。某天凌晨， error_code.keyword 聚合显示“NETWORK_TIMEOUT”以1023次排第一，“INVALID_TOKEN”以1019次排第二。运维按此排查网络层，耗时3小时。事后发现：shard 3的refresh卡顿了12秒，导致“INVALID_TOKEN”在该shard的计数少报了15次；若强制刷新所有shard再聚合，真实排名是“INVALID_TOKEN”1034次 > “NETWORK_TIMEOUT”1023次。根源是token校验服务的bug，而非网络问题。

注意：不要依赖 _count 做精确阈值判断。若业务要求“错误码出现超1000次即告警”，必须用 filter + cardinality 预筛，或改用 composite 聚合分页遍历。

修复排序漂移的唯一可靠方式，是 牺牲实时性换取确定性 ：

对关键聚合字段，关闭自动refresh（ "refresh_interval": "-1" ）；
在业务低峰期手动触发 POST /index/_refresh ；
聚合前加 "track_total_hits": true ，确认 hits.total.value 与预期一致；
使用 "execution_hint": "map" （强制在协调节点计算，避免shard端估算）。

这会让聚合延迟增加200~500ms，但换来的是可审计、可复现的结果。对于非实时报表场景（如T+1日志分析），这是值得的trade-off。

2.3 分词陷阱：.keyword后缀的局限性与边界场景

.keyword 后缀常被当作“解决分词问题的银弹”，但它只解决了一半问题。它的本质是： 为text类型字段创建一个未分词的keyword子字段，值为原始字符串的完整副本。

这带来三个典型陷阱：
陷阱一：大小写敏感。
"iPhone" 和 "iphone" 在 .keyword 中是两个完全不同的term。用户搜“iphone”1000次，“iPhone”50次，聚合结果会显示两条记录。业务方想要的是“苹果手机”的总热度，而非大小写变体的割裂统计。

陷阱二：空格与标点污染。
原始日志中， query 字段值可能是 " iphone 15 pro " （首尾空格）、 "iphone,15,pro" （逗号分隔）、 "iphone-15-pro" （连字符）。 .keyword 会原样保留这些字符，导致 " iphone 15 pro " 、 "iphone,15,pro" 、 "iphone-15-pro" 全部成为独立term，无法归并。

陷阱三：国际化字符处理。
中文场景下， "苹果手机" 和 "Apple手机" （中英混输）会被视为不同term；日文场景中，全角空格与半角空格不等价；德语中 "straße" 与 "strasse" （ß的替代写法）亦然。

真正的解法不是放弃 .keyword ，而是 在索引阶段就构建语义归一化的聚合字段 。我们在线上采用的方案是：

新增 query_normalized 字段，类型为 keyword ；

在Ingest Pipeline中配置处理器：

{
  "lowercase": { "field": "query" },
  "trim": { "field": "query" },
  "gsub": { 
    "field": "query", 
    "pattern": "[^a-z0-9\u4e00-\u9fa5\\s\\-]", 
    "replacement": "" 
  },
  "gsub": { 
    "field": "query", 
    "pattern": "\\s+", 
    "replacement": " " 
  }
}

将清洗后的 query 值拷贝到 query_normalized 字段。

这样，“iPhone 15 Pro Max”、“iphone,15,pro,max”、“ ipHonE-15-pro-MAX ”全部归一为 "iphone 15 pro max" 。聚合时直接对 query_normalized 做Terms，结果干净可解释。

实操心得：不要在查询时用script做归一化（性能灾难）。Ingest Pipeline的处理发生在索引时，一次计算，永久受益。且可随时更新pipeline，不影响历史数据（新数据走新规则，旧数据保持原样）。

2.4 内存陷阱：Fielddata与聚合爆内存的静默崩溃

Terms聚合最危险的特性之一，是它可能 不报错、不超时、不返回异常，却悄悄返回一个严重缩水的结果集 。

根源在于 fielddata 机制。当你对 text 类型字段（如 query ）直接做Terms聚合时，ES必须将该字段的所有term加载到JVM堆内存中（因为倒排索引只存doc_id映射，不存term原文）。如果该字段基数（cardinality）极高（如URL、UUID、长文本）， fielddata 会迅速吃光heap，触发 CircuitBreakingException 。但ES的默认熔断策略是： 当fielddata使用量超heap的60%时，拒绝新请求；但若请求已开始执行，它会继续，只是在结果中静默截断（truncated） 。

你可能看到这样的响应：

{
  "aggregations": {
    "top_urls": {
      "doc_count_error_upper_bound": 24891,
      "sum_other_doc_count": 1823471,
      "buckets": [ ... ] // 仅返回了3个bucket，而非预期的1000个
    }
  }
}

其中 "doc_count_error_upper_bound": 24891 就是警告： 这3个bucket的计数之和，可能比真实Top 3少最多24891次。 而 "sum_other_doc_count": 1823471 告诉你：被截断的其他term总次数高达182万——你的“Top 3”可能只是噪音。

更糟的是，这个错误不会出现在 _cat/allocation?v 或 _nodes/stats/jvm 中，因为它不触发OOM，只是熔断器在后台默默丢弃数据。

破解之道只有两条：

永远不要对高基数text字段直接聚合。 强制使用 .keyword （前提是该字段已正确定义）；
对 .keyword 字段，启用 eager_global_ordinals （饥饿式全局序数） 。

eager_global_ordinals 的作用是：在segment refresh时，预先构建该字段所有term的全局序数映射（global ordinals），并将映射缓存在堆外内存（off-heap）。这样Terms聚合时无需加载fielddata，直接查序数表即可，内存占用下降90%以上。

启用方式（在mapping中）：

"query": {
  "type": "text",
  "fields": {
    "keyword": {
      "type": "keyword",
      "eager_global_ordinals": true
    }
  }
}

注意：此设置会略微增加refresh耗时（约5~10ms），但换来的是聚合稳定性和可预测性。我们在日均5亿文档的广告日志集群中，开启后Terms聚合P99延迟从12s降至320ms，且零截断。

2.5 语义陷阱：同义词、缩写与业务概念的鸿沟

技术上完美的Terms聚合，仍可能产出业务上毫无价值的结果。因为 ES不知道“iPhone”和“苹果手机”是同义词，“AWS”和“Amazon Web Services”是同一实体，“NYC”和“New York City”指向同一地点。

Terms聚合只认字面匹配，不理解语义。这导致：

用户搜索“苹果手机”1200次，“iPhone”800次，但聚合结果分列两行，业务方误判“苹果手机”热度更高；
运维看“k8s error”和“kubernetes error”分属不同桶，以为是两类问题，实际是同一故障；
地理分析中，“Beijing”、“Peking”、“北京”被统计为三个独立区域。

标准解法是 同义词映射（synonym filter） ，但必须在索引时应用，且需谨慎设计：

避免过度归并 ：将“java”和“javascript”映射为同义词，会污染技术栈分析；
区分大小写策略 ： "AWS => Amazon Web Services" 应设为 ignore_case: true ，但 "Java => java" 需保留大小写（因 Java 是专有名词）；
动态更新限制 ：synonym filter修改后，需reindex才能生效，无法热更新。

我们采用的折中方案是： 在聚合前，用Painless脚本做轻量级归一化。

"aggs": {
  "top_queries": {
    "terms": {
      "script": {
        "source": """
          if (doc['query.keyword'].size() == 0) return 'unknown';
          String q = doc['query.keyword'].value.toLowerCase();
          if (q.contains('iphone') || q.contains('ipad') || q.contains('mac')) return 'apple';
          else if (q.contains('aws') || q.contains('amazon web services')) return 'aws';
          else if (q.contains('beijing') || q.contains('peking') || q.contains('北京')) return 'beijing';
          else return q;
        """,
        "lang": "painless"
      },
      "size": 100
    }
  }
}

此脚本在协调节点执行（ lang: painless ），不消耗shard内存，且可随时修改。虽然性能略低于索引时处理（约慢15%），但胜在灵活——业务方提需求，10分钟内上线，无需停服reindex。

关键提醒：Painless脚本中的 doc['field'].value 只能访问keyword类型字段，且 contains() 对长字符串效率较低。线上我们将其优化为正则预编译： Pattern.compile('(?i)iphone|ipad|mac').matcher(q).find() ，性能提升40%。

3. 实操过程与核心环节实现：从问题定位到生产级修复

3.1 问题诊断四步法：如何快速识别Terms聚合失效

当业务方质疑“你们的热搜榜不准”时，别急着改代码。先用这四步精准定位是哪个环节出了问题：

第一步：确认数据源真实性
执行 GET /logs/_count ，对比 "count" 值与业务方提供的原始日志量。若相差超5%，说明数据写入就有丢失（检查Logstash/Kafka消费者偏移、bulk写入失败率）。

第二步：检查字段映射与分词

GET /logs/_mapping

重点看目标字段（如 query ）的定义：

若为 "type": "text" 且无 .keyword 子字段 → 立即补映射（需reindex）；
若有 .keyword 但 "eager_global_ordinals": false → 记录为待优化项；
若 "index": false → 该字段根本不可聚合，需重建索引。

第三步：验证聚合精度边界
用 composite 聚合分页获取全量Top N，与Terms结果对比：

GET /logs/_search
{
  "size": 0,
  "aggs": {
    "comp": {
      "composite": {
        "sources": [{ "query_term": { "terms": { "field": "query.keyword" } } }],
        "size": 1000
      }
    }
  }
}

若 composite 返回的Top 10与Terms聚合结果差异显著（如Terms的Top 1在composite中排第20），则确认是 shard_size 或 min_doc_count 设置不当。

第四步：分析熔断与内存指标
检查 _nodes/stats/breaker ：

GET /_nodes/stats/breaker

关注 fielddata 的 estimated_size_in_bytes 和 tripped 次数。若 tripped > 0 ，且聚合结果 sum_other_doc_count 巨大，则坐实内存陷阱。

实操心得：把这四步写成Shell脚本，加入CI/CD流水线。每次索引mapping变更后自动执行，提前拦截90%的聚合隐患。

3.2 生产级修复方案：一个可落地的完整工作流

以下是我们在三个不同规模项目（中小电商、大型SaaS、实时风控）中验证过的标准化修复流程，已沉淀为团队内部Checklist：

阶段一：索引层加固（一次性，长期收益）

重定义聚合字段 ：

删除原 query 字段的 text 类型，改为 "type": "keyword" （若业务允许）；

若必须保留全文检索，采用


     multi-fields

：

"query": {
  "type": "text",
  "fields": {
    "keyword": { "type": "keyword", "eager_global_ordinals": true },
    "normalized": { "type": "keyword" }
  }
}

配置Ingest Pipeline ：
- 创建 normalize_query pipeline，包含 lowercase 、 trim 、 gsub （清理标点）、 remove_duplicates （去重空格）；
- 为 query.normalized 字段设置 "ignore_above": 1024 ，防止单条过长term撑爆内存。

阶段二：查询层优化（按需启用）

基础聚合模板 ：

{
  "size": 0,
  "aggs": {
    "top_terms": {
      "terms": {
        "field": "query.normalized",
        "size": 1000,
        "shard_size": 5000,
        "min_doc_count": 5,
        "execution_hint": "map"
      }
    }
  }
}

高精度场景（如资损审计） ：
- 前置 POST /logs/_refresh ；
- 添加 "track_total_hits": true ；
- 用 "collect_mode": "breadth_first" ；
- 结果中校验 "doc_count_error_upper_bound": 0 。

阶段三：监控与告警（持续守护）

Kibana Dashboard ：监控 sum_other_doc_count 趋势，突增即告警；
Prometheus Alert ： elasticsearch_indices_fielddata_memory_size_bytes{cluster="prod"} > 1073741824 （1GB）；
日志审计 ：在应用层记录每次聚合的 shard_size 、 min_doc_count 、 doc_count_error_upper_bound ，形成质量基线。

我们曾用此流程将某金融客户的核心搜索报表准确率从82%提升至99.99%，且P95聚合延迟稳定在400ms内。关键不是堆参数，而是 把Terms聚合当作一个需要精细调优的数据库查询，而非一个开箱即用的统计函数。

3.3 参数调优实战：不同场景下的黄金配置表

Terms聚合没有“万能参数”，只有“场景适配参数”。以下是我们在真实项目中沉淀的配置矩阵，覆盖主流业务场景：

场景	数据特征	推荐size	shard_size	min_doc_count	eager_global_ordinals	备注
电商热搜（实时）	日增200万，5分片，query基数~50万	100	1000	10	true	高频词波动大，需平衡实时性与精度
日志错误码分析（T+1）	日增5000万，20分片，error_code基数~2000	500	10000	50	true	数据稳定，可激进提高shard_size
用户ID去重统计	日增1亿，10分片，user_id基数~1000万	10000	50000	1000	true	高基数场景，必须开eager，否则OOM
客服对话主题聚类	日增50万，3分片，topic_text基数~10万	200	2000	5	false（用text+analyzer）	需分词，启用自定义同义词词典

关键参数解读：

shard_size = size × number_of_shards × factor ：factor取值取决于精度要求（1.2~3.0）。电商场景取1.5（平衡），审计场景取3.0（宁滥勿缺）；
min_doc_count ：不是越小越好。设为1会引入大量拼写错误、乱码、爬虫UA等噪声。我们按 总文档数 / 10000 估算基线（如200万文档，设为200）；
eager_global_ordinals ：只要字段基数>1万，且聚合频率>1次/分钟，必须开启。

注意： shard_size 不能无限增大。ES默认 search.max_buckets 为10000，超出会报错。若需更大值，需在 elasticsearch.yml 中调整： search.max_buckets: 50000 。但此举会增加协调节点内存压力，需同步扩容JVM heap。

3.4 性能压测与容量规划：避免上线即崩溃

Terms聚合的性能瓶颈不在CPU，而在 内存带宽与JVM GC压力 。我们曾用JMeter对一个10分片、2亿文档的索引做压测，结论颠覆认知：

当 size=100 时，QPS可达1200，P99延迟<200ms；
当 size=1000 时，QPS骤降至320，P99延迟跳至1.8s；
当 size=10000 时，QPS仅剩80，且每3次请求就有1次触发 CircuitBreakingException （尽管 fielddata 未超限）。

根本原因是：Terms聚合结果需序列化为JSON返回， size=10000 意味着协调节点要组装1万个bucket对象，每个含 key 、 doc_count 、 doc_count_error_upper_bound 等字段，JSON体积超8MB。网络传输+JVM对象创建+GC，三重压力叠加。

因此， 容量规划必须基于JSON响应体积，而非单纯QPS 。我们的计算公式：

预估JSON体积(MB) = (size × 200 bytes) / 1024 / 1024

（200 bytes是单个bucket JSON的平均长度，含key字符串、数字、括号等）

例如 size=1000 → 预估体积0.2MB。若网络带宽为100MB/s，单节点最大吞吐≈500 QPS（100/0.2）。

线上部署建议：

协调节点 ：CPU核数≥16，RAM≥32GB（heap≤16GB），专用网络带宽≥1Gbps；
数据节点 ：heap≤30GB（防CMS GC）， indices.fielddata.cache.size: 30% ；
禁用swap ： bootstrap.memory_lock: true ，避免GC时swap抖动。

最后分享一个血泪教训：某次大促前，我们按QPS扩容了协调节点，却忘了调大 network.http.max_content_length （默认100MB）。大促高峰时，Terms聚合返回的JSON超100MB，ES直接返回 413 Request Entity Too Large ，而应用层未捕获此错误，导致前端白屏。解决方案： http.max_content_length: 500mb + 应用层兜底降级（返回Top 100而非Top 1000）。

4. 常见问题与排查技巧实录：那些年我们踩过的坑

4.1 典型问题速查表：症状、根因与一键修复

症状	可能根因	快速验证命令	一键修复方案
聚合结果为空（buckets=[]）	字段不存在、mapping未生效、或 `"enabled": false`	`GET /index/_mapping?include_defaults=true`	检查mapping，确认字段存在且 `"enabled": true` ；若刚新建，执行 `POST /index/_refresh`
Top 10中出现大量 `null` 或空字符串	数据中存在 `null` 值或空字符串，且 `"missing": "N/A"` 未设置	`GET /index/_search?q=query.keyword:""`	在聚合中添加 `"missing": "other"` ，或在Ingest Pipeline中过滤空值
同一term在不同shard中count差异巨大（>10%）	shard间refresh延迟、或routing key不均导致数据倾斜	`GET /_cat/shards/index_name?v&h=shard,docs,store`	检查 `docs` 列是否均衡；若倾斜，重新设计routing key或force merge
聚合响应时间忽高忽低（100ms~5s）	JVM Old GC频繁，或fielddata cache被驱逐	`GET /_nodes/stats/jvm?human&filter_path=.gc,.mem`	增大 `indices.fielddata.cache.size` ，或重启节点清cache
`doc_count_error_upper_bound` 持续>0	`shard_size` 过小，或 `min_doc_count` 过高	对比 `shard_size` 与 `number_of_shards`	`shard_size = size × number_of_shards × 2` ，并降低 `min_doc_count`

4.2 高阶排查技巧：从日志到火焰图的深度追踪

当标准方法失效，你需要更底层的洞察。以下是我们在ES 7.10+集群中验证有效的深度排查链：

技巧一：开启Search Slow Log，定位聚合瓶颈
在 elasticsearch.yml 中添加：

logger.org.elasticsearch.search.slowlog.query: TRACE
index.search.slowlog.threshold.query.warn: 1s
index.search.slowlog.threshold.query.info: 500ms

重启后，慢查询日志会记录每个shard的执行耗时。若发现某shard耗时远超其他（如其他shard 200ms，该shard 3s），则该shard存在热点数据或硬件问题。

技巧二：用Hot Threads API抓取实时堆栈

GET /_nodes/hot_threads?threads=3&interval=10s

在聚合高峰期执行，若输出中频繁出现 org.elasticsearch.search.aggregations.bucket.terms.TermsAggregator ，说明Terms聚合是CPU热点。此时需检查 shard_size 是否过大，或是否存在未优化的script。

技巧三：JFR（Java Flight Recorder）火焰图分析
对ES JVM启用JFR：

# 启动时添加JVM参数
-XX:+FlightRecorder -XX:StartFlightRecording=duration=60s,filename=/tmp/es.jfr,settings=profile

用JDK自带 jfr 工具分析：

jfr print --events "jdk.GCPhasePause" /tmp/es.jfr  # 查GC暂停
jfr print --events "jdk.ObjectAllocationInNewTLAB" /tmp/es.jfr  # 查内存分配热点

我们曾用此法发现：Terms聚合中 BytesRef 对象创建过于频繁，根源是 script 中反复调用 String.substring() 。改用 String.charAt() 后，GC pause减少70%。

实操心得：不要迷信“ES黑盒”。当问题复杂到日志无法解释时，JFR是唯一的真相之眼。每周固定时间采集一次JFR，建立性能基线，比出问题后再救火高效十倍。

4.3 经验避坑清单：那些文档里不会写的教训

永远不要在Terms聚合中用 "include" 正则匹配高基数字段 ： "include": "ip.*" 在100万term中扫描，性能比全量聚合还差。正确做法是：先用 filter 缩小范围，再聚合；
size 超过10000时，必须用 composite 聚合替代 ：Terms的 size 硬上限是10000，超限报错； composite 无此限制，且支持分页游标；
对日期字段做Terms聚合是反模式 ：用 date_histogram ；对IP地址，用 ip_range ；对地理位置，用 geohash_grid 。强行Terms只会得到一堆无意义的字符串；
execution_hint: "map" 在单shard索引中无效 ：它只影响多shard协调逻辑。单shard时，ES自动用 reduce 模式；
min_doc_count 设为0不等于“返回所有term” ：它只取消计数过滤，但 shard_size 和 size 的截断依然生效。

最后分享一个真实案例：某客户坚持要用Terms聚合统计“用户设备型号”，字段值如 "SM-G998B" 、 "iPhone14,2" 、 "Pixel 6" 。我们指出这是高基数字段（>50万），Terms必然OOM。客户不信，坚持上线。结果三天后，ES集群因 fielddata 占满heap，所有查询超时。我们紧急启用 composite 聚合分页，配合 "sources": [{"model": {"terms": {"field": "device_model.keyword"}}}] ，并设置 size: 1000 ，用游标遍历全量。虽延迟增加，但保住了服务。这件事让我们彻底放弃说服，转而提供 composite 的SDK封装——把复杂留给自己，把简单留给业务方。