光与智能Raydirection AI

如何成为 Claude 架构师

第 6 / 78 min read

第六章：上下文管理与可靠性

这是权重最小的领域。但这里的概念会级联影响领域 1、2 和 4。搞错上下文管理会破坏你的多智能体系统和提取管道。

01 上下文保留

渐进式摘要陷阱

压缩对话历史会将关键细节变成无用的模糊信息：

摘要前	摘要后
"客户要求退还订单 #8891 的 $247.83，该订单于 3 月 3 日下单"	"客户想退款一个最近的订单"

修复： 将事务性事实提取到持久的 "案例事实块" 中。在每个提示中包含它。永远不要摘要它。

案例事实（请勿摘要）：
- 客户 ID：CUS-4421
- 订单：#8891，下单日期 2026-03-03
- 请求退款：$247.83
- 产品：无线耳机（SKU：WH-200）
- 原因：左耳扬声器故障

"中间丢失"效应

模型可靠地处理长输入的开头和结尾。埋在中间的发现可能被遗漏。

修复： 将关键发现摘要放在开头。全程使用明确的章节标题。

工具结果裁剪

订单查询返回 40+ 个字段。你只需要 5 个。在追加到上下文之前，将冗长结果裁剪到相关字段。防止累积的无关数据耗尽 token 预算。

上游智能体优化

修改智能体使其返回结构化数据（关键事实、引用、相关性分数）而非冗长的内容和推理链。当下游智能体的上下文预算有限时，这至关重要。

02 升级与歧义解决

三个有效的升级触发条件

触发条件	操作
客户明确要求人工服务	立即执行。不要先尝试解决。
策略例外或空白	升级（如客户要求竞品价格匹配，但策略仅覆盖自有网站）
无法取得实质进展	在穷尽可用选项后升级

两个不可靠的触发条件（拒绝这些）

触发条件	为什么失败
基于情绪的升级	沮丧程度与案例复杂度不相关
自报置信度分数	模型在困难案例上往往错误地自信，在简单案例上却不确定

沮丧的细微差别

客户沮丧但问题简单 → 承认沮丧，提供解决方案
客户明确说"我要人工服务" → 立即升级，不进行调查
你提供帮助后客户重申要人工服务 → 升级

歧义客户匹配

搜索查询返回多个匹配客户。要求额外的标识信息（邮箱、电话、订单号）。不要基于启发式规则选择（最近的、最活跃的）。

03 错误传播

结构化错误上下文

传播错误时，包含：

失败类型（瞬时、验证、业务、权限）
尝试了什么（具体查询、使用的参数）
部分结果 — 失败前收集到的
潜在的替代方法

两个反模式

反模式	为什么失败
静默压制	将空结果标记为成功返回。阻止任何恢复。
工作流终止	因单个故障终止整个管道。丢弃部分结果。

访问失败 vs 有效空结果

这与领域 2 中的区分相同，在多智能体系统中更加重要：

访问失败 → 考虑重试
有效空结果 → 无需重试，这就是答案

覆盖度标注

综合输出应注明哪些发现得到充分支持，哪些领域存在空白：

"关于地热能的章节由于无法访问期刊而内容有限"

这比静默省略整个主题要好。

04 代码库探索与上下文退化

问题

在延长的会话中，模型开始引用"典型模式"而不是它之前发现的具体类。上下文被冗长的发现输出填满，失去了对早期发现的把握。

缓解策略

策略	如何帮助
暂存文件	将关键发现写入文件，后续问题引用该文件
子智能体委派	为特定调查生成子智能体，主智能体保持高层协调
摘要注入	在为下一阶段生成子智能体之前，总结上一阶段的发现
`/compact`	当上下文被冗长发现输出填满时减少上下文使用

崩溃恢复

每个智能体将结构化状态导出到已知文件位置（清单文件）。恢复时，协调器加载清单并注入到智能体提示中。

05 人工审查与置信度校准

聚合指标陷阱

97% 的整体准确率可能隐藏着特定文档类型 40% 的错误率。在自动化之前，始终按文档类型和字段段验证准确率。

分层随机抽样

对高置信度提取进行抽样，进行持续验证。检测否则会滑过的新型错误模式。

字段级置信度校准

模型为每个字段输出置信度
使用标注的验证集（真值数据）校准阈值
将低置信度字段路由到人工审查
将有限的审查人员精力优先分配给最高不确定性的项目

06 信息溯源

结构化声明-来源映射

每个发现必须包含：

声明
来源 URL
文档名称
相关摘录
发布日期

下游智能体在综合过程中保留和合并这些映射。没有这些，归因在摘要过程中就会消失。

冲突处理

两个可信来源报告不同的统计数据。不要任意选择一个。标注两个值及其来源归因。让消费者决定。

时间意识

在结构化输出中要求发布/数据收集日期。不同日期解释不同的数字 — 这不是矛盾。

内容适配渲染

内容类型	格式
财务数据	表格
新闻	散文
技术发现	结构化列表

不要将所有内容扁平化为统一格式。

07 动手构建

构建一个包含两个子智能体的协调器：

实现持久案例事实块
模拟超时并进行结构化错误传播
验证协调器收到结构化错误上下文并使用部分结果继续
用冲突来源测试，验证综合报告保留归因