【LLM技术实践】六大策略优化LLM上下文管理

原创已于 2025-08-26 15:21:49 修改 · 1.2k 阅读

本内容遵循CC 4.0 BY-SA版权协议

标签

#人工智能

于 2025-08-26 15:06:32 首次发布

21 篇文章

订阅专栏

上下文管理是构建和优化LLM代理的关键，因为“上下文中的每一个token都会影响模型的行为，无论好坏”。以下介绍了大型语言模型（LLM）上下文中可能出现的失败类型以及相应的缓解和避免策略。

长上下文可能导致模型失败的几种方式：

对于LLM来说：“所有这些都关乎信息管理。上下文中的一切都会影响响应。所以我们又回到了‘垃圾进，垃圾出’这句老编程格言。”

因此为了应对上述4个问题，有以下六种上下文管理策略可供参考：

1. RAG（检索增强生成）

定义：“检索增强生成（RAG）是选择性地添加相关信息以帮助LLM生成更好响应的行为。”
核心思想：尽管模型上下文窗口不断增大（例如Llama 4 Scout达到了1000万个token），RAG仍然至关重要。将上下文视为“垃圾抽屉”，其中的垃圾会影响响应。因此，即使长上下文也需要精心管理，不能“一股脑全扔进去”。

2. 工具加载（Tool Loadout）

定义：“工具加载是指选择仅与上下文相关的工具定义添加到上下文中的行为。”
核心思想：为特定任务选择最相关的工具是关键。当工具数量超过一定阈值时（例如，DeepSeek-v3超过30个工具，Llama 3.1 8b超过19个工具），模型性能会急剧下降，原因在于“上下文混乱，而非上下文窗口限制”。
实践：可以通过对工具描述应用RAG技术来动态选择工具。例如，“RAG MCP”和“Less is More”论文中的方法，后者通过LLM驱动的工具推荐器使Llama 3.1 8b的性能提升了44%。
额外效益：缩小上下文还有助于“降低功耗和提高速度”，这对于边缘设备（如手机或PC）上的LLM操作至关重要，即使未能提高结果，也能带来显著的功耗（18%）和速度（77%）节省。

3. 上下文隔离（Context Quarantine/Isolate）

定义：“上下文隔离是将上下文隔离到自己的专用线程中，每个线程由一个或多个LLM单独使用。”
核心思想：通过将任务分解为更小、隔离的作业，每个作业拥有自己的上下文，可以获得更好的结果。
实践：Anthropic的多智能体研究系统就是一个典型例子。子智能体可以在自己的上下文窗口中并行操作，探索问题的不同方面，然后将最重要的信息提炼给主研究智能体。这种方法实现了“关注点分离”，减少了路径依赖，并使信息收集和提炼速度更快。
效果：Anthropic的内部评估显示，多智能体系统在广度优先查询（如识别S&P 500信息技术公司董事会成员）方面，“比单智能体Claude Opus 4表现高出90.2%”。

4. 上下文修剪（Context Pruning）

定义：“上下文修剪是删除上下文中不相关或不需要的信息的行为。”
核心思想：代理在运行工具和收集文档时会积累上下文，定期评估并删除“无关紧要的内容”是有益的。
实践：可以使用专门的工具进行修剪，例如Provence，它是一个“高效、强大的问答上下文修剪器”。Provence能够根据问题将文章内容剪掉95%，只留下相关子集。
建议：维护上下文的“结构化”版本（例如字典形式），在每次调用LLM之前将其编译为字符串，这将有助于修剪时确保主要指令和目标得到保留。

5. 上下文总结（Context Summarization）

定义：“上下文摘要是将累积的上下文提炼成简明摘要的行为。”
核心思想：虽然最初用于解决较小的上下文窗口限制，但即使在上下文窗口增大后，摘要仍然有益，可以防止“上下文分散”——当上下文显著超过一定阈值（如Gemini代理发现的10万个token）时，模型可能倾向于重复历史行为而非生成新颖的计划。
实践挑战：虽然摘要操作本身容易，但要完美实现却很难。关键在于“知道应该保留哪些信息，并将其详细告知LLM驱动的压缩步骤”。

6. 上下文卸载（Context Offloading）