首页信息技术 AI 动态

Claude Opus 4.6 推出自适应推理与上下文压缩特性

小新正七品 (知县) 2026-03-17 03:02 0 0 返回 AI 动态

小

小新正七品 (知县) 楼主

2026-03-17 03:02

第1楼

摘要：Claude Opus 4.6 现已登陆所有主流云平台，包括 Microsoft Foundry"、AWS Bedrock" 和 Google Cloud Vertex AI"。Anthropic 在公告"中指出：Opus 4.6 往往会进行更深入的思考，并在给出最终答案前更细致地复盘推理过程。在 100 万 token 的 MRCR v2（多针检索）基准测试中，Opus 4.6 准确率达到 76%，相较于 Sonnet 4.5 的 18.5%

Anthropic 近期发布" Claude Opus 4.6，标志着其旗舰模型从静态推理向动态编排的转变。此次更新引入了自适应思考力度控制与上下文压缩两项架构特性，旨在解决长时运行智能体工作流中的上下文退化与过度思考问题。

Claude Opus 4.6 现已登陆所有主流云平台，包括 Microsoft Foundry"、AWS Bedrock" 和 Google Cloud Vertex AI"。

Opus 4.6 将原有的二元推理开关替换为低、中、高（默认）、最大四个细粒度控制档位，使开发者能够根据任务复杂度程序化地校准模型的内部思维链深度。

Anthropic 在公告"中指出：

Opus 4.6 往往会进行更深入的思考，并在给出最终答案前更细致地复盘推理过程。这能在复杂问题上带来更优结果，但在简单问题上可能会增加成本与延迟。

此外，Anthropic 建议，对于简单任务，可将思考力度调至中档以降低延迟与成本。

思考 token 按输出 token 计费，每百万 token 收费 25 美元。对于会发起数十次 API 调用的智能体系统而言，合理管控思考力度等级已成为主要的成本控制手段。

Opus 4.6 在测试版中推出了 100 万 token 上下文窗口"（可处理约 75 万个单词），但更关键的架构更新是上下文压缩"。该功能解决了 Anthropic 所说的“上下文腐烂”问题——即上下文窗口被填满后出现的性能下降。

当对话接近上限时，API 会自动对较早内容进行总结，并用压缩状态进行替换。在 100 万 token 的 MRCR v2（多针检索）基准测试中，Opus 4.6 准确率达到 76%，相较于 Sonnet 4.5 的 18.5% 提升了三倍多。Anthropic 将此描述为：

模型在维持峰值性能的同时，可实际利用的上下文规模实现了质的飞跃。

该模型还支持最大 12.8 万 token 的输出，是此前 6.4 万 token 限制的两倍。

微软将其 Foundry" 服务定位为融合智能与信任、支持自主工作的互操作平台，并在博文"中表示，Opus 4.6 可借助 Foundry IQ 访问 Microsoft 365 Work IQ、Fabric IQ 和网络数据。

此外，微软这样描述"这个模型：

最适合用于编码、知识类工作以及智能体驱动工作流中的复杂任务，支持更深度的推理，同时具备出色的指令遵循能力，保障任务可靠性。

Anthropic 强调，Foundry 的“托管基础设施与运营控制”可让团队将开发周期从数天压缩至数小时。

Opus 4.6 还可通过 Microsoft Copilot Studio"、Google Cloud Vertex AI Agent Builder" 和 Amazon Bedrock Agents" 使用，让企业无需编写自定义代码即可构建并部署 AI 智能体。

此次发布在 Claude Code 中推出了 Agent Teams 研究预览版，支持开发者启动多个可并行工作、自主协调的智能体。Anthropic 对该功能描述如下：

特别适合可拆分为独立、只读类的工作任务，例如代码库评审。

此外，Claude 集成 PowerPoint 功能"也处于研究预览阶段，模型能够读取版式、字体及幻灯片母版，生成符合品牌规范的演示文稿。该功能在 Max、Team 和 Enterprise 套餐中可用。

Anthropic 还表示，该模型在多项评估中取得了业界领先的结果：

Terminal-Bench 2.0"（智能体编码）：65.4%（最高分）Humanity's Last Exam"：领先所有前沿模型GDPval-AA"（知识类任务）：比 OpenAI 的 GPT-5.2 高出约 144 EloBrowseComp"：在查找难以发现的信息方面最佳表现

（来源：Anthropic 博文"）

该模型在 Ghostscript、OpenSC、CGIF 等开源库中发现了500多个此前未知的高危安全漏洞"。但 Quesma 的独立测试"也揭示了其局限性：在使用 Ghidra 等开源工具时，Claude Opus 4.6 仅能在 49% 的场景下检测出藏在已编译二进制文件中的后门，且存在明显误报。

有用户在 Hacker News 的讨论帖"中表示出担忧：相比 Opus 4.5，新版模型在部分任务上出现性能退化，表现更差。

基础定价保持为每百万输入 token 5 美元、每百万输出 token 25 美元。不过，当单次输入超过 20 万 token 时，整个请求将适用“长上下文溢价”，价格为每百万输入 token 10 美元、输出 token 37.50 美元。100 万上下文窗口目前仅以测试版形式通过 Claude 原生 API 提供。仅限美国地区的推理服务则采用 1.1 倍定价系数。

该模型可通过以下渠道访问：claude.ai"、Claude API"（模型标识：claude-opus-4-6）、Microsoft Foundry、AWS Bedrock、Google Cloud Vertex AI，以及面向 Pro、Business 和 Enterprise 用户的 GitHub Copilot"。

【声明：本文由InfoQ翻译，未经许可禁止转载。】

查看英文原文：https://www.infoq.com/news/2026/03/opus-4-6-context-compaction/"

赞 (0) 分享

暂无回复，快来抢沙发吧！

1 / 1 页

敬请注意：文中内容观点和各种评论不代表本网立场！若有违规侵权，请联系我们。

登录后参与讨论