Cursor 3 智能体架构深度解构

摘要

2026 年 4 月发布的 Cursor 3，标志着 AI 编程工具从「编辑器增强」向「Agent 工作台」的范式转变。本文深度拆解其四层架构：Agents Window（交互层）、Composer 2（模型层）、Git Worktree 隔离（执行层）、Cloud Agent VM（云端层），并分析其自研模型的技术路径与局限。

架构全景：四层体系

Cursor 3 的架构可以用四个清晰的层次来理解：

层级	组件	核心职责	关键设计
交互层	Agents Window	Agent 生命周期管理、多入口触发、可视化	Agent Tab + Tiled Layout + Canvases
模型层	Composer 2 + 外部模型	代码理解、生成、决策	1.04T MoE + 模型路由 + 独立用量池
执行层	Git Worktree 隔离	多 Agent 并行执行、代码隔离、合并	Worktree per Agent + /best-of-n 竞速
云端层	Cloud Agent VM	长时间自主执行、离线运行	独立 Ubuntu VM + 双向 Handoff

🏗️ 设计哲学转变

Cursor 3 的核心转变：IDE 不再是中心，Agent 才是。内部数据显示，Agent 用户与 Tab 补全用户的比例已从一年前的 1:2 反转为 2:1。这个数据直接驱动了从文件优先到 Agent 优先的 UI 重建。

Agents Window：Agent 优先的交互层

Agents Window 是 Cursor 3 的主界面，取代了传统文件中心的编辑器范式。每个 Agent 以 Tab 形式展示，支持 Tiled Layout 并排监控。

多入口触发

Agent 不仅限于桌面端触发，支持六种入口：

桌面端：macOS / Windows / Linux 原生应用
Web 端：cursor.com/agents
移动端：iOS / Android 客户端
Slack：@mention Cursor 分配任务
GitHub：Issue 或 PR 评论触发
Linear：项目管理工具直接派发

Canvases：Agent 输出的持久化

2026 年 4 月 15 日（Cursor 3.1）推出的 Canvases 功能，将 Agent 输出从临时对话升级为持久化可视化组件：

Dashboard：交互式图表，绑定真实数据
流程图 / 架构图：Cursor 原生组件渲染
Diff View：可视化代码变更对比
To-do List：交互式任务管理

Canvases 作为侧面板的持久组件，与终端、浏览器、源代码管理并列。

Composer 2：万亿参数 MoE 模型层

Composer 2 是 Cursor 自研的编程专用模型，基于 Moonshot AI 的 Kimi K2.5 进行继续预训练和大规模强化学习。

模型架构

参数	值	说明
基座模型	Kimi K2.5	平衡能力与可训练性
总参数量	1.04 万亿	MoE 架构
激活参数量	320 亿	每次推理仅激活 3% 参数
专家并行度	EP=8	DeepEP 高吞吐 token 分发
上下文窗口	200K tokens	自动摘要压缩至 ~1K
推理精度	NVFP4（定制 FP4 变体）	前向：FP4+FP8+FP32 三层缩放

三阶段训练管线

主继续预训练（32K 序列长度）：大规模代码数据混合 + 多 Token 预测（自蒸馏初始化）
长上下文扩展：序列长度从 32K 扩展至 256K
监督微调 SFT：编程任务专项

4 倍规模强化学习

Composer 2 的核心突破在于 RL 阶段的设计：

RL 设计	具体方案	设计理由
算法	多样本策略梯度	多采样/提示，单 epoch 训练
KL 正则化	k₁ = −log r 估计器	k₃ 估计器在大 KL 时方差爆炸
长度惩罚	非线性 Tsallis 熵惩罚	简单任务感受更强的工具调用成本
自摘要技术	多轮 chain 通过摘要链接	有限窗口内实现长链推理
Router Replay	推理路由决策回放至训练	解决 MoE 异步 RL 训练-推理不一致

基准表现

基准	Composer 2	Composer 1.5	GPT-5.4	Opus 4.6
CursorBench-3	61.3	44.2	63.9	58.2
SWE-bench Multilingual	73.7	65.9	76.8	75.8
Terminal-Bench	61.7	47.9	66.5	58.0

相比基座 Kimi K2.5，Composer 2 在 CursorBench-3 上提升了 +25.3 分（+70.3%），在 SWE-bench Multilingual 上提升了 +8.6 分（+13.2%）。但与 GPT-5.4 仍有 2.6-4.8 分的差距，考虑到域专项训练的投入，这个差距值得注意。

💰 成本碾压

Composer 2 Standard 定价：$0.50/M 输入 + $2.50/M 输出；Claude Opus 4.6：$15.00/M 输入 + $75.00/M 输出。在典型 CursorBench 场景（平均 352 行跨 8 文件）下，Composer 2 成本约为 Claude Opus 的 1/10。

执行层：Git Worktree 隔离与模型竞速

多 Agent 并行的核心挑战是代码隔离。Cursor 3 采用 Git Worktree 方案：每个 Agent 在独立的 Worktree 中执行，互不干扰。

8 Agent 并行执行模式

一个典型的项目重构场景：

Agent 1: src/components/ → 组件重构
Agent 2: src/services/ → 服务层重构
Agent 3: src/utils/ → 工具函数重构
Agent 4: tests/unit/ → 单元测试更新
Agent 5: tests/e2e/ → E2E 测试更新
Agent 6: docs/ → 文档更新
Agent 7: src/types/ → 类型定义
Agent 8: package.json → 配置文件

串行执行约 120 分钟 → 8 Agent 并行约 18 分钟，效率提升 6.7 倍。

模型竞速：/best-of-n

Cursor 3 独创的模型竞速机制：同一任务同时分发给多个模型，每个模型在独立 Worktree 中执行，用户对比后选择最优解：

/best-of-n sonnet, gpt, composer Fix the flaky logout test

这种「赛马」机制有效缓解了单一模型的偏倚问题，尤其适合解决方案不唯一的重构场景。

Cloud Agent：独立 VM 云端执行层

Cursor 3 的 Cloud Agent 不使用容器，而是为每个任务分配独立 Ubuntu VM，实现内核级隔离。

6 阶段自主流水线

任务描述：自然语言、截图、设计稿
Clone 仓库：Agent 在 VM 内拉取代码
编写代码：理解项目结构，修改相关文件
运行测试：执行测试套件，失败时自我修复
录制 Demo：操作浏览器生成视频证明
提交 PR：附带视频、截图和日志

整个过程在开发者关闭笔记本后继续运行，完成后推送通知。

双向 Handoff

Local → Cloud：将长任务推到云端，合上笔记本不中断
Cloud → Local：需要本地文件系统或开发服务器时拉回

企业自托管

2026 年 3 月 25 日起支持自托管 Cloud Agent：Worker 进程通过 HTTPS 出站连接到 Cursor 云端，无需入站端口或 VPN，代码和构建产物始终留在企业基础设施内。

Bugbot：自进化的智能审查

Cursor 的 Bugbot 是一个基于学习规则的代码审查 Agent：

Bugbot 在 PR 上发布审查评论
团队通过 👍/👎 表情反馈和评论回复
人工审查者的评论也被分析
Bugbot 从信号中生成候选规则
验证后的规则自动集成到未来审查中

2026 年 4 月 8 日新增 MCP 支持，Bugbot 可连接外部安全扫描器、性能分析平台等工具。

局限与争议

自评偏倚：CursorBench 由 Cursor 自建，从内部任务提取，评估自家模型，缺乏第三方审计
与 GPT-5.4 仍有差距：域专项训练后仍落后 2.6-4.8 分
消融实验缺失：多 Token 预测、自摘要、Router Replay 等技术的贡献未量化
NVFP4 精度脆弱：快速近似除法在约 100 步 RL 后导致发散，需使用 IEEE 精确除法
训练成本未披露：未公开总 FLOPs、GPU 小时或美元成本
SDK 仍未发布：市场预期从 IDE 向平台转型，但 SDK 和开放 API 尚未落地

与同类产品技术对比

维度	Cursor 3	Claude Code	Windsurf
并行 Agent 数	8（Worktree 隔离）	5（Orchestrator 模式）	1（Cascade 串行）
自研模型	✅ Composer 2（1.04T MoE）	❌ Claude 独占	❌ 依赖第三方
云端执行	独立 Ubuntu VM	需自行部署	Devin 云端 Agent
模型竞速	✅ /best-of-n	❌	❌
模型路由	Composer 2 常规 + Claude/GPT 难题	Claude 独占	多模型切换
安全隔离	Git Worktree	沙箱 + 白名单	沙箱
代码补全	Supermaven（业界最快 <300ms）	❌ 无补全	~500ms

摘要

架构全景：四层体系

Agents Window：Agent 优先的交互层

多入口触发

Canvases：Agent 输出的持久化

Composer 2：万亿参数 MoE 模型层

模型架构

三阶段训练管线

4 倍规模强化学习

基准表现

执行层：Git Worktree 隔离与模型竞速

8 Agent 并行执行模式

模型竞速：/best-of-n

Cloud Agent：独立 VM 云端执行层

6 阶段自主流水线

双向 Handoff

企业自托管

Bugbot：自进化的智能审查

局限与争议

与同类产品技术对比

核心发现

参考来源

架构全景：四层体系

Agents Window：Agent 优先的交互层

多入口触发

Canvases：Agent 输出的持久化

Composer 2：万亿参数 MoE 模型层

模型架构

三阶段训练管线

4 倍规模强化学习

基准表现

执行层：Git Worktree 隔离与模型竞速

8 Agent 并行执行模式

模型竞速：/best-of-n

Cloud Agent：独立 VM 云端执行层

6 阶段自主流水线

双向 Handoff

企业自托管

Bugbot：自进化的智能审查

局限与争议

与同类产品技术对比

核心发现

参考来源

相关研究

2026 AI Coding Agent 能力横评

企业 OpenClaw 部署实战：3 家公司踩坑实录