摘要:标准运行流程示例:组织团队出行
接收任务(Mission)
明确目标:组织团队旅行
环境扫描(Scan)
可用工具:日历、预订系统 当前上下文与已有信息
规划(Think)
判断下一步行动 例如:先获取团队成员名单
执行(Act)
编排层调用对应工具(如 get_team_roster)
观察(Observe)
工具返回结果 将结果写入上下文
循环迭代
基于新信息重新规划 直到任务完成
这一机制同样适用于:
客服问题处理 订单查询 多步骤业务流程
四、Agent 能力分级(Agent Capability Taxonomy) 为了帮助工程实践中的系统设计,白皮书提出了 Agent 能力的分级模型。 2:战略型问题解决者(Context Engineering) 核心能力是:上下文工程(Context Engineering) 典型特征:
能将上一步输出转化为下一步更精确的输入 主动减少噪声,提高检索与决策质量
示例3. 用户反馈闭环(很重要 黄金数据集)
用户问题 → 复现 → 转化为测试用例 不断扩充 golden dataset 防止同类问题再次发生
七、安全、权限与治理 1. Defense in Depth(纵深防御)
规则引擎(硬约束) AI Guard Models(软约束,用 ai 约束 ai)
2.
基于 Google X × Kaggle《AI Agents Intensive》Day 1 白皮书
传统 AI 系统主要以被动响应为主:
这类系统的特点是:
输入 → 推理 → 输出,流程线性,几乎不具备持续行动能力。
而白皮书提出的核心转变在于:
AI 正从“对话式工具”演进为自主、目标导向的智能体(Agent) 。
AI Agent 的关键特征包括:
白皮书将 Agent 的基本结构拆分为三个部分:
模型通常是一个 LLM,但在 Agent 架构中,它的职责并不只是“生成文本”。
其核心作用是:
模型需要在以下信息中做取舍与编排:
模型并不直接执行动作,只负责决策与判断。
工具是 Agent 与外部世界或内部系统交互的方式,例如:
关键点在于:
编排层不是简单的流程控制器,而是 Agent 的治理核心,主要职责包括:
可以将其理解为:
模型负责“想什么”,工具负责“做什么”,编排层负责“什么时候做、怎么串起来”。
白皮书强调,Agent 的本质是一个持续运行的循环,而非一次性推理。
为了帮助工程实践中的系统设计,白皮书提出了 Agent 能力的分级模型。
核心能力是:上下文工程(Context Engineering)
典型特征:
示例:
特点:
例如:
这不再是函数调用,而是 Agent-to-Agent 的目标委托。
前沿形态,具备:
工具必须具备:
这通常以 OpenAPI / Function Calling 的形式实现,确保模型能正确调用与解析结果。
工程上通常以 RAG + 向量数据库的形式实现。
白皮书明确指出:
OpenTelemetry Trace 是调试 Agent 的关键工具
Trace 可以完整记录:
这相当于 Agent 的“飞行记录仪”。
Agent 的持续改进来源于:
进阶实践包括:
白皮书的核心结论是:
成功的 AI Agent 系统不是模型驱动的,而是工程驱动的。
Agent 的价值来自于:
开发者的角色也正在变化:
从“写代码的人”,转向“设计和治理智能系统的架构师”。
接收任务(Mission)
明确目标:组织团队旅行
环境扫描(Scan)
可用工具:日历、预订系统 当前上下文与已有信息
规划(Think)
判断下一步行动 例如:先获取团队成员名单
执行(Act)
编排层调用对应工具(如 get_team_roster)
观察(Observe)
工具返回结果 将结果写入上下文
循环迭代
基于新信息重新规划 直到任务完成
这一机制同样适用于:
客服问题处理 订单查询 多步骤业务流程
四、Agent 能力分级(Agent Capability Taxonomy) 为了帮助工程实践中的系统设计,白皮书提出了 Agent 能力的分级模型。 2:战略型问题解决者(Context Engineering) 核心能力是:上下文工程(Context Engineering) 典型特征:
能将上一步输出转化为下一步更精确的输入 主动减少噪声,提高检索与决策质量
示例3. 用户反馈闭环(很重要 黄金数据集)
用户问题 → 复现 → 转化为测试用例 不断扩充 golden dataset 防止同类问题再次发生
七、安全、权限与治理 1. Defense in Depth(纵深防御)
规则引擎(硬约束) AI Guard Models(软约束,用 ai 约束 ai)
2.
一、从“被动 AI”到“自主 AI Agent”的转变
传统 AI 系统主要以被动响应为主:
这类系统的特点是:
输入 → 推理 → 输出,流程线性,几乎不具备持续行动能力。
而白皮书提出的核心转变在于:
AI Agent 的关键特征包括:
二、AI Agent 的三大核心组成
白皮书将 Agent 的基本结构拆分为三个部分:
1. Model(模型):Agent 的“思考中枢”
模型通常是一个 LLM,但在 Agent 架构中,它的职责并不只是“生成文本”。
其核心作用是:
模型需要在以下信息中做取舍与编排:
模型并不直接执行动作,只负责决策与判断。
2. Tools(工具):Agent 的“行动能力”
工具是 Agent 与外部世界或内部系统交互的方式,例如:
关键点在于:
3. Orchestration Layer(编排层):Agent 的“控制中枢”
编排层不是简单的流程控制器,而是 Agent 的治理核心,主要职责包括:
可以将其理解为:
三、Agent 的核心运行机制:Think – Act – Observe 循环
白皮书强调,Agent 的本质是一个持续运行的循环,而非一次性推理。
标准运行流程示例:组织团队出行
接收任务(Mission)
环境扫描(Scan)
规划(Think)
执行(Act)
观察(Observe)
循环迭代
这一机制同样适用于:
四、Agent 能力分级(Agent Capability Taxonomy)
为了帮助工程实践中的系统设计,白皮书提出了 Agent 能力的分级模型。
Level 0:纯语言模型
Level 1:连接型问题解决者
Level 2:战略型问题解决者(Context Engineering)
核心能力是:上下文工程(Context Engineering)
典型特征:
示例:
Level 3:多 Agent 协作系统
特点:
例如:
这不再是函数调用,而是 Agent-to-Agent 的目标委托。
Level 4:自我进化系统
前沿形态,具备:
例如:
五、生产环境中的关键工程问题(AgentOps)
1. 模型选择与模型路由
2. 工具设计与 Function Calling
工具必须具备:
这通常以 OpenAPI / Function Calling 的形式实现,确保模型能正确调用与解析结果。
3. 记忆系统设计
工程上通常以 RAG + 向量数据库的形式实现。
六、测试、调试与可观测性
1. 评估方式的变化
2. 调试的核心:可观测性(Observability)
白皮书明确指出:
Trace 可以完整记录:
这相当于 Agent 的“飞行记录仪”。
3. 用户反馈闭环(很重要 黄金数据集)
七、安全、权限与治理
1. Defense in Depth(纵深防御)
2. Agent 身份与最小权限原则
3. Agent 治理与控制平面
八、学习与演化机制
Agent 的持续改进来源于:
进阶实践包括:
九、典型系统示例
Google Co-Scientist
AlphaEvolve
十、总结
白皮书的核心结论是:
Agent 的价值来自于:
开发者的角色也正在变化: