Claude Opus 4.6 对比 OpenAI 最新模型：人工智能竞赛白热化

2026 年 2 月初，人工智能模型竞赛进入白热化阶段。Anthropic 于 2 月 5 日发布了 Claude Opus 4.6，而 OpenAI 则继续迭代其 GPT-5 系列模型，推出了最新的 GPT-5.3-Codex。以下是目前的情况。

Claude Opus 4.6：新前沿

Anthropic 的最新旗舰模型带来了多项突破性功能：

100 万个 Token 上下文窗口（测试版）——这是 Opus 类模型的首次突破，允许在单个会话中处理大约 75 万字的文本。Anthropic 声称，该模型能够真正有效地利用这些上下文，而不会出现早期长上下文模型普遍存在的性能下降问题。
代理团队——这是其最引人注目的功能。多个 AI 代理现在可以将大型任务分解为多个子任务，并直接相互协作。这标志着人工智能从单代理工作流程迈向协作式多代理系统。
改进的编程能力——Opus 4.6 能够更周密地规划，更长时间地执行代理任务，在大型代码库中运行更稳定，并展现出更强的代码审查和调试能力。
发现 500 个零日漏洞——或许这是最令人瞩目的成果：Opus 4.6 在开源代码中发现了大约 500 个零日漏洞，展现了其在安全分析方面的巨大潜力。

定价仍然具有竞争力，输入 Token 价格为 5 美元/百万个，输出 Token 价格为 25 美元/百万个。

OpenAI 也并未止步不前。其目前的产品线包括：

GPT-5.2——通用旗舰模型，也是 ChatGPT 用户的默认模型，具有“自动”模式，可以动态切换模型。 - GPT-5.3-Codex — OpenAI 最强大的代理式编程模型，结合了 Codex 和 GPT-5 的训练堆栈，专用于代码生成和执行。
o3 — 一款强大的推理模型，在 Codeforces 和 SWE-bench 等基准测试中树立了新的标杆。

值得注意的是，2026 年 2 月 13 日，OpenAI 将从 ChatGPT 中移除 GPT-4o、GPT-4.1、GPT-4.1 mini 和 o4-mini——这清楚地表明 GPT-5 系列模型已全面接管。

以下是顶级模型在关键基准测试中的对比：

情况比较复杂。Opus 4.6 在专业知识工作方面占据主导地位，在独立进行的 GDPval-AA 基准测试（涵盖金融、法律和其他专业领域）中，其得分比 GPT-5.2 高出 144 Elo 点。它还在 ARC-AGI-2 上取得了巨大的推理能力提升，得分几乎是其前身的近两倍。

但 OpenAI 在代理式编程方面强力反击。GPT-5.3-Codex 在 Terminal-Bench 2.0 上的得分高达 77.3%，显著优于 Opus 4.6 的 65.4%。对于需要 AI 编程代理的开发人员来说，OpenAI 目前占据优势。 ## 行业反应

这些发布并未被忽视：

一个模型统治所有任务的时代已经结束。我们正在进入一个专业化的世界：

真正的赢家是那些能够利用每个模型优势的开发人员和专业人士。人工智能军备竞赛远未结束——而 2026 年才刚刚开始。