技术解构 2026-05-08 30 分钟阅读 进阶

Cursor 3 智能体架构深度解构

从 Composer 2 万亿参数 MoE 到 8 Agent 并行隔离 — 一家 IDE 公司如何变成 Agent 平台

摘要

2026 年 4 月发布的 Cursor 3,标志着 AI 编程工具从「编辑器增强」向「Agent 工作台」的范式转变。本文深度拆解其四层架构:Agents Window(交互层)、Composer 2(模型层)、Git Worktree 隔离(执行层)、Cloud Agent VM(云端层),并分析其自研模型的技术路径与局限。

相关产品: Cursor Windsurf Claude Code

架构全景:四层体系

Cursor 3 的架构可以用四个清晰的层次来理解:

层级 组件 核心职责 关键设计
交互层 Agents Window Agent 生命周期管理、多入口触发、可视化 Agent Tab + Tiled Layout + Canvases
模型层 Composer 2 + 外部模型 代码理解、生成、决策 1.04T MoE + 模型路由 + 独立用量池
执行层 Git Worktree 隔离 多 Agent 并行执行、代码隔离、合并 Worktree per Agent + /best-of-n 竞速
云端层 Cloud Agent VM 长时间自主执行、离线运行 独立 Ubuntu VM + 双向 Handoff
🏗️ 设计哲学转变

Cursor 3 的核心转变:IDE 不再是中心,Agent 才是。内部数据显示,Agent 用户与 Tab 补全用户的比例已从一年前的 1:2 反转为 2:1。这个数据直接驱动了从文件优先到 Agent 优先的 UI 重建。

Agents Window:Agent 优先的交互层

Agents Window 是 Cursor 3 的主界面,取代了传统文件中心的编辑器范式。每个 Agent 以 Tab 形式展示,支持 Tiled Layout 并排监控。

多入口触发

Agent 不仅限于桌面端触发,支持六种入口:

Canvases:Agent 输出的持久化

2026 年 4 月 15 日(Cursor 3.1)推出的 Canvases 功能,将 Agent 输出从临时对话升级为持久化可视化组件:

Canvases 作为侧面板的持久组件,与终端、浏览器、源代码管理并列。

Composer 2:万亿参数 MoE 模型层

Composer 2 是 Cursor 自研的编程专用模型,基于 Moonshot AI 的 Kimi K2.5 进行继续预训练和大规模强化学习。

模型架构

参数 说明
基座模型 Kimi K2.5 平衡能力与可训练性
总参数量 1.04 万亿 MoE 架构
激活参数量 320 亿 每次推理仅激活 3% 参数
专家并行度 EP=8 DeepEP 高吞吐 token 分发
上下文窗口 200K tokens 自动摘要压缩至 ~1K
推理精度 NVFP4(定制 FP4 变体) 前向:FP4+FP8+FP32 三层缩放

三阶段训练管线

  1. 主继续预训练(32K 序列长度):大规模代码数据混合 + 多 Token 预测(自蒸馏初始化)
  2. 长上下文扩展:序列长度从 32K 扩展至 256K
  3. 监督微调 SFT:编程任务专项

4 倍规模强化学习

Composer 2 的核心突破在于 RL 阶段的设计:

RL 设计 具体方案 设计理由
算法 多样本策略梯度 多采样/提示,单 epoch 训练
KL 正则化 k₁ = −log r 估计器 k₃ 估计器在大 KL 时方差爆炸
长度惩罚 非线性 Tsallis 熵惩罚 简单任务感受更强的工具调用成本
自摘要技术 多轮 chain 通过摘要链接 有限窗口内实现长链推理
Router Replay 推理路由决策回放至训练 解决 MoE 异步 RL 训练-推理不一致

基准表现

基准 Composer 2 Composer 1.5 GPT-5.4 Opus 4.6
CursorBench-3 61.3 44.2 63.9 58.2
SWE-bench Multilingual 73.7 65.9 76.8 75.8
Terminal-Bench 61.7 47.9 66.5 58.0

相比基座 Kimi K2.5,Composer 2 在 CursorBench-3 上提升了 +25.3 分(+70.3%),在 SWE-bench Multilingual 上提升了 +8.6 分(+13.2%)。但与 GPT-5.4 仍有 2.6-4.8 分的差距,考虑到域专项训练的投入,这个差距值得注意。

💰 成本碾压

Composer 2 Standard 定价:$0.50/M 输入 + $2.50/M 输出;Claude Opus 4.6:$15.00/M 输入 + $75.00/M 输出。在典型 CursorBench 场景(平均 352 行跨 8 文件)下,Composer 2 成本约为 Claude Opus 的 1/10

执行层:Git Worktree 隔离与模型竞速

多 Agent 并行的核心挑战是代码隔离。Cursor 3 采用 Git Worktree 方案:每个 Agent 在独立的 Worktree 中执行,互不干扰。

8 Agent 并行执行模式

一个典型的项目重构场景:

串行执行约 120 分钟 → 8 Agent 并行约 18 分钟,效率提升 6.7 倍。

模型竞速:/best-of-n

Cursor 3 独创的模型竞速机制:同一任务同时分发给多个模型,每个模型在独立 Worktree 中执行,用户对比后选择最优解:

/best-of-n sonnet, gpt, composer Fix the flaky logout test

这种「赛马」机制有效缓解了单一模型的偏倚问题,尤其适合解决方案不唯一的重构场景。

Cloud Agent:独立 VM 云端执行层

Cursor 3 的 Cloud Agent 不使用容器,而是为每个任务分配独立 Ubuntu VM,实现内核级隔离。

6 阶段自主流水线

  1. 任务描述:自然语言、截图、设计稿
  2. Clone 仓库:Agent 在 VM 内拉取代码
  3. 编写代码:理解项目结构,修改相关文件
  4. 运行测试:执行测试套件,失败时自我修复
  5. 录制 Demo:操作浏览器生成视频证明
  6. 提交 PR:附带视频、截图和日志

整个过程在开发者关闭笔记本后继续运行,完成后推送通知。

双向 Handoff

企业自托管

2026 年 3 月 25 日起支持自托管 Cloud Agent:Worker 进程通过 HTTPS 出站连接到 Cursor 云端,无需入站端口或 VPN,代码和构建产物始终留在企业基础设施内。

Bugbot:自进化的智能审查

Cursor 的 Bugbot 是一个基于学习规则的代码审查 Agent:

  1. Bugbot 在 PR 上发布审查评论
  2. 团队通过 👍/👎 表情反馈和评论回复
  3. 人工审查者的评论也被分析
  4. Bugbot 从信号中生成候选规则
  5. 验证后的规则自动集成到未来审查中

2026 年 4 月 8 日新增 MCP 支持,Bugbot 可连接外部安全扫描器、性能分析平台等工具。

局限与争议

与同类产品技术对比

维度 Cursor 3 Claude Code Windsurf
并行 Agent 数 8(Worktree 隔离) 5(Orchestrator 模式) 1(Cascade 串行)
自研模型 ✅ Composer 2(1.04T MoE) ❌ Claude 独占 ❌ 依赖第三方
云端执行 独立 Ubuntu VM 需自行部署 Devin 云端 Agent
模型竞速 ✅ /best-of-n
模型路由 Composer 2 常规 + Claude/GPT 难题 Claude 独占 多模型切换
安全隔离 Git Worktree 沙箱 + 白名单 沙箱
代码补全 Supermaven(业界最快 <300ms) ❌ 无补全 ~500ms

核心发现

参考来源

  1. Cursor Blog — Meet the new Cursor / Cursor 3 Release(2026.04.02)
  2. CSDN — Cursor 自研 Composer 2:1万亿参数 MoE + 强化学习(2026.03.30)
  3. QubitTool — Cursor 3 Deep Dive: Cloud Agents, Composer 2, and Self-Driving(2026.04.22)
  4. AIToolly — Cursor 3 发布:定义 AI Agent 时代的统一软件开发工作区(2026.04.03)
  5. Cursor Docs — Agent Tools: Browser, Agents Window, Plugins