如何成为 Claude 架构师
6 / 78 min read

第六章:上下文管理与可靠性

这是权重最小的领域。但这里的概念会级联影响领域 1、2 和 4。搞错上下文管理会破坏你的多智能体系统和提取管道。

01 上下文保留

渐进式摘要陷阱

压缩对话历史会将关键细节变成无用的模糊信息:

摘要前摘要后
"客户要求退还订单 #8891 的 $247.83,该订单于 3 月 3 日下单""客户想退款一个最近的订单"

修复: 将事务性事实提取到持久的 "案例事实块" 中。在每个提示中包含它。永远不要摘要它。

案例事实(请勿摘要):
- 客户 ID:CUS-4421
- 订单:#8891,下单日期 2026-03-03
- 请求退款:$247.83
- 产品:无线耳机(SKU:WH-200)
- 原因:左耳扬声器故障

"中间丢失"效应

模型可靠地处理长输入的开头和结尾。埋在中间的发现可能被遗漏。

修复: 将关键发现摘要放在开头。全程使用明确的章节标题。

工具结果裁剪

订单查询返回 40+ 个字段。你只需要 5 个。在追加到上下文之前,将冗长结果裁剪到相关字段。防止累积的无关数据耗尽 token 预算。

上游智能体优化

修改智能体使其返回结构化数据(关键事实、引用、相关性分数)而非冗长的内容和推理链。当下游智能体的上下文预算有限时,这至关重要。

02 升级与歧义解决

三个有效的升级触发条件

触发条件操作
客户明确要求人工服务立即 执行。不要先尝试解决。
策略例外或空白升级(如客户要求竞品价格匹配,但策略仅覆盖自有网站)
无法取得实质进展在穷尽可用选项后升级

两个不可靠的触发条件(拒绝这些)

触发条件为什么失败
基于情绪的升级沮丧程度与案例复杂度不相关
自报置信度分数模型在困难案例上往往错误地自信,在简单案例上却不确定

沮丧的细微差别

  • 客户沮丧但问题简单 → 承认沮丧,提供解决方案
  • 客户明确说"我要人工服务" → 立即升级,不进行调查
  • 你提供帮助后客户重申要人工服务 → 升级

歧义客户匹配

搜索查询返回多个匹配客户。要求额外的标识信息(邮箱、电话、订单号)。不要基于启发式规则选择(最近的、最活跃的)。

03 错误传播

结构化错误上下文

传播错误时,包含:

  • 失败类型(瞬时、验证、业务、权限)
  • 尝试了什么(具体查询、使用的参数)
  • 部分结果 — 失败前收集到的
  • 潜在的替代方法

两个反模式

反模式为什么失败
静默压制将空结果标记为成功返回。阻止任何恢复。
工作流终止因单个故障终止整个管道。丢弃部分结果。

访问失败 vs 有效空结果

这与领域 2 中的区分相同,在多智能体系统中更加重要:

  • 访问失败 → 考虑重试
  • 有效空结果 → 无需重试,这就是答案

覆盖度标注

综合输出应注明哪些发现得到充分支持,哪些领域存在空白:

"关于地热能的章节由于无法访问期刊而内容有限"

这比静默省略整个主题要好。

04 代码库探索与上下文退化

问题

在延长的会话中,模型开始引用"典型模式"而不是它之前发现的具体类。上下文被冗长的发现输出填满,失去了对早期发现的把握。

缓解策略

策略如何帮助
暂存文件将关键发现写入文件,后续问题引用该文件
子智能体委派为特定调查生成子智能体,主智能体保持高层协调
摘要注入在为下一阶段生成子智能体之前,总结上一阶段的发现
/compact当上下文被冗长发现输出填满时减少上下文使用

崩溃恢复

每个智能体将结构化状态导出到已知文件位置(清单文件)。恢复时,协调器加载清单并注入到智能体提示中。

05 人工审查与置信度校准

聚合指标陷阱

97% 的整体准确率可能隐藏着特定文档类型 40% 的错误率。在自动化之前,始终按文档类型和字段段验证准确率。

分层随机抽样

对高置信度提取进行抽样,进行持续验证。检测否则会滑过的新型错误模式。

字段级置信度校准

  1. 模型为每个字段输出置信度
  2. 使用标注的验证集(真值数据)校准阈值
  3. 将低置信度字段路由到人工审查
  4. 将有限的审查人员精力优先分配给最高不确定性的项目

06 信息溯源

结构化声明-来源映射

每个发现必须包含:

  • 声明
  • 来源 URL
  • 文档名称
  • 相关摘录
  • 发布日期

下游智能体在综合过程中保留和合并这些映射。没有这些,归因在摘要过程中就会消失。

冲突处理

两个可信来源报告不同的统计数据。不要任意选择一个。标注两个值及其来源归因。让消费者决定。

时间意识

在结构化输出中要求发布/数据收集日期。不同日期解释不同的数字 — 这不是矛盾。

内容适配渲染

内容类型格式
财务数据表格
新闻散文
技术发现结构化列表

不要将所有内容扁平化为统一格式。

07 动手构建

构建一个包含两个子智能体的协调器:

  • 实现持久案例事实块
  • 模拟超时并进行结构化错误传播
  • 验证协调器收到结构化错误上下文并使用部分结果继续
  • 用冲突来源测试,验证综合报告保留归因