Anthropic在Code With Claude上发布托管式智能体、主动式工作流与能力曲线

小新 正三品 (侍郎) 2026-06-01 03:14 2 0 返回 AI 动态
小新 正三品 (侍郎) 楼主
2026-06-01 03:14
第1楼

摘要:在由Anthropic创业合作负责人Beth Robertson主持的一场圆桌中,Cognition联合创始人Walden Yan、Gamma AI产品负责人Deeni Fatiha以及Harvey应用研究负责人Niko Grupen共同探讨了在模型指数级进步下的产品架构。Anthropic开发者关系负责人Alex Albert则在收官环节提到,一年前Claude配合Sonnet 3.7在SWE-bench Verified"上的成绩是62%,而如今使用Opus 4.7已达到87%;他还借助能力曲线,对未来的一年给出了预期。有兴趣进一步了解的开发者,可以前往Anthropic的YouTube频道观看完整会议录像,浏览claude.com上的Code with Claude专题页面,或报名参加5月19日的伦敦场"和6月10日的东京场"活动。


Anthropic于5月6日在旧金山举办了Code with Claude 2026"会议,并将直播内容发布到了YouTube。相关分享覆盖了Claude Code"、Claude Developer Platform,以及在GitHub"、Vercel"、Datadog"、Bun"和多家AI原生创业公司中的合作部署案例。贯穿全天的主线话题是:模型能力的阶段性跃迁,会如何影响产品架构、组织设计与基础设施经济性。

Anthropic Claude Code团队的Dickson Tsai展示了Claude Code的最新更新。在开发者体验方面,远程控制功能允许会话在一台机器上开始、随后在手机上继续;重新设计的桌面GUI则加入了分栏视图、将助手消息固定为章节并自动生成目录的能力,以及内联diff评论。在自主能力方面,Auto模式把权限决策交给分类器,由其筛查破坏性操作和提示词注入;worktrees则为Claude提供进入与退出工具,使其能够自行创建和销毁隔离分支。Tsai还演示了routines,这一能力可基于cron计划、GitHub webhook或API端点触发提示词的执行。

随后,GitHub首席产品官Mario Rodriguez与Anthropic的Brad Abrams共同进行了分享。Rodriguez将缓存命中率视为任何向平台发送数十亿条消息的团队都必须关注的基础指标。他表示:“这有点像高频交易,哪怕只提升1%的效率,整体上都意味着数百万的价值。”GitHub的目标是将缓存命中率维持在94%以上,而一旦跌到70%左右,通常就意味着提示词组装环节出现了缺陷。Rodriguez还列举了GitHub在工程实践中必须应对的3类缓存失效的原因。

Abrams借此介绍了一种advisor策略,也就是,由较小的执行模型(比如,Haiku)仅在遇到困难场景时才调用更大的advisor模型(比如,Opus)。Abrams表示:“我们能以远低于Opus级别的全面调用成本,获得接近Opus级别的智能,因为我们对advisor实际发送的token非常克制。”Rodriguez还提到,GitHub内部配合使用了一个critic模块,内部昵称为Rubber Duck,它会在规划之后、复杂实现完成之后,以及测试编写完成但尚未运行之前进行检查。

Anthropic Managed Agents的产品经理Jess Yan和Anthropic的技术团队成员Lance Martin在午间时段演示了Claude Managed Agents",并认为当前生产级智能体的瓶颈已经不再是智能本身,而是基础设施。他们重点介绍了沙箱代码执行、检查点和凭据作用域控制等底层原语。

下午1点,Anthropic联合创始人兼CEO Dario Amodei以及联合创始人兼总裁Daniela Amodei登上主舞台。Daniela Amodei表示,开发者“是Claude最重要的用户”,并介绍了Anthropic内部的一项文化价值观:同时掌控光明与阴暗面(hold light and shade),用以指导公司如何在交付强大模型的同时配套安全护栏。Dario Amodei则透露,以年化口径计算,Anthropic在2026年第一季度的收入和使用量增长达到了80倍,而不是原计划的10倍;他认为,这正是近期算力压力的根本原因,而公司当天早些时候宣布的与SpaceX的合作"则在一定程度上缓解了这一问题。

他再次重申了此前的预测:2026年将出现一家“一个人就能创造十亿美元价值”的公司,并指出,借助AI构建的两人公司实际上已经突破了十亿美元估值。他认为,下一个拐点将是智能体团队以组织而非个人的层级开展工作。当前真正拖慢进展的,是软件工程中那些不可验证的部分,例如设计质量与安全审查,而Anthropic如今正专注于训练模型来处理这些环节。

Anthropic Claude Code负责人Boris Cherny与Bun创建者Jarred Sumner通过一场现场编程展示了Bun如何借助Robobun机器人实现自维护:它会复现每一个issue,只有当自动生成的回归测试在旧版Bun上失败、而在修复分支上通过时,才会创建pull request。Datadog工程副总裁Sesh Nalla则介绍了一种叫做机器工具的概念,即让智能体输出“对意图和问题域的精确规格说明”,而不是为每个局部需求临时创造出彼此割裂的工具。

随后,Vercel CEO Guillermo Rauch与Anthropic平台产品负责人Angela Jiang进行了对谈。Rauch表示,Opus token大约占Vercel AI Gateway使用量的百分之二十几,但却占到了超过70%的支出;此外,自Anthropic最近一次升级以来,V0"上的信用花费已经翻倍。他表示,更聪明的模型让Vercel得以简化harness;模型“品味”的提升,也让V0能够吸收Vercel十年来积累的设计判断,而不是与之对抗。与此同时,由于模型能够在沙箱中编写中间代码,而不再依赖预定义的子智能体,工具的范围也在收缩。Rauch表示:“我们现在更多是在围绕工具批准(tool approval)做工程设计,本质上是在构建正确的安全护栏。”

在由Anthropic创业合作负责人Beth Robertson主持的一场圆桌中,Cognition联合创始人Walden Yan、Gamma AI产品负责人Deeni Fatiha以及Harvey应用研究负责人Niko Grupen共同探讨了在模型指数级进步下的产品架构。Cognition"开发的是可自主编程、能够操作自己计算机的Devin;Gamma"是一款拥有超过7000万用户的AI原生演示文档工具;Harvey"则面向法律和专业服务领域提供生成式AI平台。每位嘉宾都提到,自己都曾因为模型能力拐点而不得不重写产品架构。

Brad Abrams在当天稍晚时候再次登台,单独介绍了Claude Platform,重点讨论了提示词缓存、结构化输出以及在大规模工作负载客户中观察到的工具设计模式。Anthropic开发者关系负责人Alex Albert则在收官环节提到,一年前Claude配合Sonnet 3.7在SWE-bench Verified"上的成绩是62%,而如今使用Opus 4.7已达到87%;他还借助能力曲线,对未来的一年给出了预期。

Anthropic的营收增速也在迅猛攀升。截至4月初,在公司调整了定价模式",改为按照企业客户实际使用的AI量收费,而非仅收取固定费用之后,其年化销售额已达到300亿美元。与此同时,ServiceNow、Uber等公司也报告称,它们在年初几个月内就已用满全年的token预算。

有兴趣进一步了解的开发者,可以前往Anthropic的YouTube频道观看完整会议录像,浏览claude.com上的Code with Claude专题页面,或报名参加5月19日的伦敦场"和6月10日的东京场"活动。

查看英文原文: Anthropic's Code With Claude Announces Managed Agents, Proactive Workflows, Capability Curve"

暂无回复,快来抢沙发吧!

  • 1 / 1 页
敬请注意:文中内容观点和各种评论不代表本网立场!若有违规侵权,请联系我们