摘要:Claude Opus 4.6 现已登陆所有主流云平台,包括 Microsoft Foundry"、AWS Bedrock" 和 Google Cloud Vertex AI"。Anthropic 在公告"中指出:Opus 4.6 往往会进行更深入的思考,并在给出最终答案前更细致地复盘推理过程。在 100 万 token 的 MRCR v2(多针检索)基准测试中,Opus 4.6 准确率达到 76%,相较于 Sonnet 4.5 的 18.5%
Anthropic 近期发布" Claude Opus 4.6,标志着其旗舰模型从静态推理向动态编排的转变。此次更新引入了自适应思考力度控制与上下文压缩两项架构特性,旨在解决长时运行智能体工作流中的上下文退化与过度思考问题。
Claude Opus 4.6 现已登陆所有主流云平台,包括 Microsoft Foundry"、AWS Bedrock" 和 Google Cloud Vertex AI"。
Opus 4.6 将原有的二元推理开关替换为低、中、高(默认)、最大四个细粒度控制档位,使开发者能够根据任务复杂度程序化地校准模型的内部思维链深度。
Anthropic 在公告"中指出:
Opus 4.6 往往会进行更深入的思考,并在给出最终答案前更细致地复盘推理过程。这能在复杂问题上带来更优结果,但在简单问题上可能会增加成本与延迟。
此外,Anthropic 建议,对于简单任务,可将思考力度调至中档以降低延迟与成本。
思考 token 按输出 token 计费,每百万 token 收费 25 美元。对于会发起数十次 API 调用的智能体系统而言,合理管控思考力度等级已成为主要的成本控制手段。
Opus 4.6 在测试版中推出了 100 万 token 上下文窗口"(可处理约 75 万个单词),但更关键的架构更新是上下文压缩"。该功能解决了 Anthropic 所说的“上下文腐烂”问题——即上下文窗口被填满后出现的性能下降。
当对话接近上限时,API 会自动对较早内容进行总结,并用压缩状态进行替换。在 100 万 token 的 MRCR v2(多针检索)基准测试中,Opus 4.6 准确率达到 76%,相较于 Sonnet 4.5 的 18.5% 提升了三倍多。Anthropic 将此描述为:
模型在维持峰值性能的同时,可实际利用的上下文规模实现了质的飞跃。
该模型还支持最大 12.8 万 token 的输出,是此前 6.4 万 token 限制的两倍。
微软将其 Foundry" 服务定位为融合智能与信任、支持自主工作的互操作平台,并在博文"中表示,Opus 4.6 可借助 Foundry IQ 访问 Microsoft 365 Work IQ、Fabric IQ 和网络数据。
此外,微软这样描述"这个模型:
最适合用于编码、知识类工作以及智能体驱动工作流中的复杂任务,支持更深度的推理,同时具备出色的指令遵循能力,保障任务可靠性。
Anthropic 强调,Foundry 的“托管基础设施与运营控制”可让团队将开发周期从数天压缩至数小时。
Opus 4.6 还可通过 Microsoft Copilot Studio"、Google Cloud Vertex AI Agent Builder" 和 Amazon Bedrock Agents" 使用,让企业无需编写自定义代码即可构建并部署 AI 智能体。
此次发布在 Claude Code 中推出了 Agent Teams 研究预览版,支持开发者启动多个可并行工作、自主协调的智能体。Anthropic 对该功能描述如下:
特别适合可拆分为独立、只读类的工作任务,例如代码库评审。
此外,Claude 集成 PowerPoint 功能"也处于研究预览阶段,模型能够读取版式、字体及幻灯片母版,生成符合品牌规范的演示文稿。该功能在 Max、Team 和 Enterprise 套餐中可用。
Anthropic 还表示,该模型在多项评估中取得了业界领先的结果:
Terminal-Bench 2.0"(智能体编码):65.4%(最高分)Humanity's Last Exam":领先所有前沿模型GDPval-AA"(知识类任务):比 OpenAI 的 GPT-5.2 高出约 144 EloBrowseComp":在查找难以发现的信息方面最佳表现
(来源:Anthropic 博文")
该模型在 Ghostscript、OpenSC、CGIF 等开源库中发现了500多个此前未知的高危安全漏洞"。但 Quesma 的独立测试"也揭示了其局限性:在使用 Ghidra 等开源工具时,Claude Opus 4.6 仅能在 49% 的场景下检测出藏在已编译二进制文件中的后门,且存在明显误报。
有用户在 Hacker News 的讨论帖"中表示出担忧:相比 Opus 4.5,新版模型在部分任务上出现性能退化,表现更差。
基础定价保持为每百万输入 token 5 美元、每百万输出 token 25 美元。不过,当单次输入超过 20 万 token 时,整个请求将适用“长上下文溢价”,价格为每百万输入 token 10 美元、输出 token 37.50 美元。100 万上下文窗口目前仅以测试版形式通过 Claude 原生 API 提供。仅限美国地区的推理服务则采用 1.1 倍定价系数。
该模型可通过以下渠道访问:claude.ai"、Claude API"(模型标识:claude-opus-4-6)、Microsoft Foundry、AWS Bedrock、Google Cloud Vertex AI,以及面向 Pro、Business 和 Enterprise 用户的 GitHub Copilot"。
【声明:本文由InfoQ翻译,未经许可禁止转载。】
查看英文原文:https://www.infoq.com/news/2026/03/opus-4-6-context-compaction/"
暂无回复,快来抢沙发吧!
Anthropic 近期发布" Claude Opus 4.6,标志着其旗舰模型从静态推理向动态编排的转变。此次更新引入了自适应思考力度控制与上下文压缩两项架构特性,旨在解决长时运行智能体工作流中的上下文退化与过度思考问题。
Claude Opus 4.6 现已登陆所有主流云平台,包括 Microsoft Foundry"、AWS Bedrock" 和 Google Cloud Vertex AI"。
Opus 4.6 将原有的二元推理开关替换为低、中、高(默认)、最大四个细粒度控制档位,使开发者能够根据任务复杂度程序化地校准模型的内部思维链深度。
Anthropic 在公告"中指出:
此外,Anthropic 建议,对于简单任务,可将思考力度调至中档以降低延迟与成本。
思考 token 按输出 token 计费,每百万 token 收费 25 美元。对于会发起数十次 API 调用的智能体系统而言,合理管控思考力度等级已成为主要的成本控制手段。
Opus 4.6 在测试版中推出了 100 万 token 上下文窗口"(可处理约 75 万个单词),但更关键的架构更新是上下文压缩"。该功能解决了 Anthropic 所说的“上下文腐烂”问题——即上下文窗口被填满后出现的性能下降。
当对话接近上限时,API 会自动对较早内容进行总结,并用压缩状态进行替换。在 100 万 token 的 MRCR v2(多针检索)基准测试中,Opus 4.6 准确率达到 76%,相较于 Sonnet 4.5 的 18.5% 提升了三倍多。Anthropic 将此描述为:
该模型还支持最大 12.8 万 token 的输出,是此前 6.4 万 token 限制的两倍。
微软将其 Foundry" 服务定位为融合智能与信任、支持自主工作的互操作平台,并在博文"中表示,Opus 4.6 可借助 Foundry IQ 访问 Microsoft 365 Work IQ、Fabric IQ 和网络数据。
此外,微软这样描述"这个模型:
Anthropic 强调,Foundry 的“托管基础设施与运营控制”可让团队将开发周期从数天压缩至数小时。
Opus 4.6 还可通过 Microsoft Copilot Studio"、Google Cloud Vertex AI Agent Builder" 和 Amazon Bedrock Agents" 使用,让企业无需编写自定义代码即可构建并部署 AI 智能体。
此次发布在 Claude Code 中推出了 Agent Teams 研究预览版,支持开发者启动多个可并行工作、自主协调的智能体。Anthropic 对该功能描述如下:
此外,Claude 集成 PowerPoint 功能"也处于研究预览阶段,模型能够读取版式、字体及幻灯片母版,生成符合品牌规范的演示文稿。该功能在 Max、Team 和 Enterprise 套餐中可用。
Anthropic 还表示,该模型在多项评估中取得了业界领先的结果:
Terminal-Bench 2.0"(智能体编码):65.4%(最高分)Humanity's Last Exam":领先所有前沿模型GDPval-AA"(知识类任务):比 OpenAI 的 GPT-5.2 高出约 144 EloBrowseComp":在查找难以发现的信息方面最佳表现
(来源:Anthropic 博文")
该模型在 Ghostscript、OpenSC、CGIF 等开源库中发现了500多个此前未知的高危安全漏洞"。但 Quesma 的独立测试"也揭示了其局限性:在使用 Ghidra 等开源工具时,Claude Opus 4.6 仅能在 49% 的场景下检测出藏在已编译二进制文件中的后门,且存在明显误报。
有用户在 Hacker News 的讨论帖"中表示出担忧:相比 Opus 4.5,新版模型在部分任务上出现性能退化,表现更差。
基础定价保持为每百万输入 token 5 美元、每百万输出 token 25 美元。不过,当单次输入超过 20 万 token 时,整个请求将适用“长上下文溢价”,价格为每百万输入 token 10 美元、输出 token 37.50 美元。100 万上下文窗口目前仅以测试版形式通过 Claude 原生 API 提供。仅限美国地区的推理服务则采用 1.1 倍定价系数。
该模型可通过以下渠道访问:claude.ai"、Claude API"(模型标识:claude-opus-4-6)、Microsoft Foundry、AWS Bedrock、Google Cloud Vertex AI,以及面向 Pro、Business 和 Enterprise 用户的 GitHub Copilot"。
【声明:本文由InfoQ翻译,未经许可禁止转载。】
查看英文原文:https://www.infoq.com/news/2026/03/opus-4-6-context-compaction/"