2026 年 5 月,Anthropic、Google、Microsoft 和 OpenAI 几乎同时更新了自家 Agent 框架。它们的共同方向出奇一致:将 Agent 从"带工具调用的聊天模型"升级为"有状态、可编排、可恢复的软件系统"。
一个正在发生的范式转移
2025 年的 Agent 开发,核心工作是写 Prompt——精心设计 System Prompt、优化 Few-shot 示例、调整工具描述。2026 年 5 月,情况发生了根本性变化。主流 Agent 框架的更新公告中,「Prompt」出现的频率大幅下降,取而代之的是「Session」「Harness」「Sandbox」「Durable Execution」「Persistence」——这些过去属于后端工程师的词汇。
这不是偶然。Anthropic Managed Agents、LangGraph、Google ADK、Microsoft Agent Framework 在 5 月几乎同时发布了重大更新,它们的共同方向是:将模型与运行时分离。
五大框架的五月更新对比
| 框架 | 类型 | 核心创新 |
|---|---|---|
| Anthropic Managed Agents | 商业托管运行时 | Session/Harness/Sandbox 三分结构,崩溃后恢复 |
| LangGraph | 开源编排运行时 | Durable Execution + Human-in-the-loop 持久化 |
| Google ADK | 开源 SDK + 企业平台 | 有状态编排运行时,内置 Agent 评测 |
| Microsoft Agent Framework | 开源 SDK | Agent/Tool/Session/Telemetry 类型安全组件化 |
| OpenAI Agents SDK | 商业 SDK | Web Search/File Search/Computer Use Agent 原语前置 |
Session/Harness/Sandbox:Anthropic 的三分架构
Anthropic Managed Agents 的架构设计最具启发性。它将 Agent 系统拆解为三个独立组件:Session(会话层,保存可恢复的状态日志)、Harness(框架层,承载模型推理循环和工具编排)、Sandbox(沙箱层,隔离执行环境)。
这一架构解决了 Agent 工程中最棘手的问题之一:崩溃恢复。传统 Agent 在执行多步任务时,任何一步的失败都意味着整个会话的丢失。在三层架构下,Session 的日志外置为持久化存储,Agent 崩溃后可以基于最新检查点恢复执行。
LangGraph:持久化执行与人机协同
LangGraph 的更新聚焦于 Durable Execution(持久化执行)。这一概念借鉴了分布式系统领域的工作流编排思想:将 Agent 的每一步操作记录为持久化事件,即使在推理过程中断的情况下也能可靠恢复。结合 Human-in-the-loop 机制,Agent 在执行关键决策时可以暂停并等待人工确认,确认后从断点继续。
对于企业级 Agent 部署而言,这一能力的价值不亚于推理能力的提升。可靠性和可审计性是企业 IT 采购的两个硬性门槛,持久化执行直接回应了这两个要求。
Microsoft 与 Google:组件化与内置评测
Microsoft Agent Framework 延续了 AutoGen 的学术基因,但做了重要的工业化改造。它将 Agent、Tool、Session、Telemetry 抽象成类型安全的基础组件,开发者可以用熟悉的面向对象方式组合它们。
Google ADK 则内置了 Agent 评测功能。在 Agent 开发中,评测的难度甚至高于模型训练——因为 Agent 的行为路径是开放的、非确定性的。Google 提出三层评测体系:Final Response(最终响应正确性)、Trajectory(行为轨迹合理性)、End-State(最终系统状态正确性)。
行业影响:三个变化值得关注
- Agent 开发者的技能栈将被重构:未来 Agent 开发者需要的不是 Prompt 工程技巧,而是系统设计能力——状态管理、错误恢复、工作流编排、可观测性
- Agent 产品的可靠性拐点可能到来:当崩溃恢复、持久化执行成为框架标配,Agent 从「Demo 级可用」到「生产级可靠」的跨越可能比预想更快
- 企业采购决策将从「模型能力」转向「运行时成熟度」:模型可以随时替换,但运行时的可靠性、可观测性和安全性决定了 Agent 系统能否真正跑在生产环境中
2026 年 5 月可能会被视为 Agent 工程从「写 Prompt」转向「搭系统」的分水岭时刻。模型的性能差异正在缩小,真正拉开差距的将是运行时工程的能力。