架构全景:四层体系
Cursor 3 的架构可以用四个清晰的层次来理解:
| 层级 | 组件 | 核心职责 | 关键设计 |
|---|---|---|---|
| 交互层 | Agents Window | Agent 生命周期管理、多入口触发、可视化 | Agent Tab + Tiled Layout + Canvases |
| 模型层 | Composer 2 + 外部模型 | 代码理解、生成、决策 | 1.04T MoE + 模型路由 + 独立用量池 |
| 执行层 | Git Worktree 隔离 | 多 Agent 并行执行、代码隔离、合并 | Worktree per Agent + /best-of-n 竞速 |
| 云端层 | Cloud Agent VM | 长时间自主执行、离线运行 | 独立 Ubuntu VM + 双向 Handoff |
Cursor 3 的核心转变:IDE 不再是中心,Agent 才是。内部数据显示,Agent 用户与 Tab 补全用户的比例已从一年前的 1:2 反转为 2:1。这个数据直接驱动了从文件优先到 Agent 优先的 UI 重建。
Agents Window:Agent 优先的交互层
Agents Window 是 Cursor 3 的主界面,取代了传统文件中心的编辑器范式。每个 Agent 以 Tab 形式展示,支持 Tiled Layout 并排监控。
多入口触发
Agent 不仅限于桌面端触发,支持六种入口:
- 桌面端:macOS / Windows / Linux 原生应用
- Web 端:cursor.com/agents
- 移动端:iOS / Android 客户端
- Slack:@mention Cursor 分配任务
- GitHub:Issue 或 PR 评论触发
- Linear:项目管理工具直接派发
Canvases:Agent 输出的持久化
2026 年 4 月 15 日(Cursor 3.1)推出的 Canvases 功能,将 Agent 输出从临时对话升级为持久化可视化组件:
- Dashboard:交互式图表,绑定真实数据
- 流程图 / 架构图:Cursor 原生组件渲染
- Diff View:可视化代码变更对比
- To-do List:交互式任务管理
Canvases 作为侧面板的持久组件,与终端、浏览器、源代码管理并列。
Composer 2:万亿参数 MoE 模型层
Composer 2 是 Cursor 自研的编程专用模型,基于 Moonshot AI 的 Kimi K2.5 进行继续预训练和大规模强化学习。
模型架构
| 参数 | 值 | 说明 |
|---|---|---|
| 基座模型 | Kimi K2.5 | 平衡能力与可训练性 |
| 总参数量 | 1.04 万亿 | MoE 架构 |
| 激活参数量 | 320 亿 | 每次推理仅激活 3% 参数 |
| 专家并行度 | EP=8 | DeepEP 高吞吐 token 分发 |
| 上下文窗口 | 200K tokens | 自动摘要压缩至 ~1K |
| 推理精度 | NVFP4(定制 FP4 变体) | 前向:FP4+FP8+FP32 三层缩放 |
三阶段训练管线
- 主继续预训练(32K 序列长度):大规模代码数据混合 + 多 Token 预测(自蒸馏初始化)
- 长上下文扩展:序列长度从 32K 扩展至 256K
- 监督微调 SFT:编程任务专项
4 倍规模强化学习
Composer 2 的核心突破在于 RL 阶段的设计:
| RL 设计 | 具体方案 | 设计理由 |
|---|---|---|
| 算法 | 多样本策略梯度 | 多采样/提示,单 epoch 训练 |
| KL 正则化 | k₁ = −log r 估计器 | k₃ 估计器在大 KL 时方差爆炸 |
| 长度惩罚 | 非线性 Tsallis 熵惩罚 | 简单任务感受更强的工具调用成本 |
| 自摘要技术 | 多轮 chain 通过摘要链接 | 有限窗口内实现长链推理 |
| Router Replay | 推理路由决策回放至训练 | 解决 MoE 异步 RL 训练-推理不一致 |
基准表现
| 基准 | Composer 2 | Composer 1.5 | GPT-5.4 | Opus 4.6 |
|---|---|---|---|---|
| CursorBench-3 | 61.3 | 44.2 | 63.9 | 58.2 |
| SWE-bench Multilingual | 73.7 | 65.9 | 76.8 | 75.8 |
| Terminal-Bench | 61.7 | 47.9 | 66.5 | 58.0 |
相比基座 Kimi K2.5,Composer 2 在 CursorBench-3 上提升了 +25.3 分(+70.3%),在 SWE-bench Multilingual 上提升了 +8.6 分(+13.2%)。但与 GPT-5.4 仍有 2.6-4.8 分的差距,考虑到域专项训练的投入,这个差距值得注意。
Composer 2 Standard 定价:$0.50/M 输入 + $2.50/M 输出;Claude Opus 4.6:$15.00/M 输入 + $75.00/M 输出。在典型 CursorBench 场景(平均 352 行跨 8 文件)下,Composer 2 成本约为 Claude Opus 的 1/10。
执行层:Git Worktree 隔离与模型竞速
多 Agent 并行的核心挑战是代码隔离。Cursor 3 采用 Git Worktree 方案:每个 Agent 在独立的 Worktree 中执行,互不干扰。
8 Agent 并行执行模式
一个典型的项目重构场景:
- Agent 1:
src/components/→ 组件重构 - Agent 2:
src/services/→ 服务层重构 - Agent 3:
src/utils/→ 工具函数重构 - Agent 4:
tests/unit/→ 单元测试更新 - Agent 5:
tests/e2e/→ E2E 测试更新 - Agent 6:
docs/→ 文档更新 - Agent 7:
src/types/→ 类型定义 - Agent 8:
package.json→ 配置文件
串行执行约 120 分钟 → 8 Agent 并行约 18 分钟,效率提升 6.7 倍。
模型竞速:/best-of-n
Cursor 3 独创的模型竞速机制:同一任务同时分发给多个模型,每个模型在独立 Worktree 中执行,用户对比后选择最优解:
/best-of-n sonnet, gpt, composer Fix the flaky logout test
这种「赛马」机制有效缓解了单一模型的偏倚问题,尤其适合解决方案不唯一的重构场景。
Cloud Agent:独立 VM 云端执行层
Cursor 3 的 Cloud Agent 不使用容器,而是为每个任务分配独立 Ubuntu VM,实现内核级隔离。
6 阶段自主流水线
- 任务描述:自然语言、截图、设计稿
- Clone 仓库:Agent 在 VM 内拉取代码
- 编写代码:理解项目结构,修改相关文件
- 运行测试:执行测试套件,失败时自我修复
- 录制 Demo:操作浏览器生成视频证明
- 提交 PR:附带视频、截图和日志
整个过程在开发者关闭笔记本后继续运行,完成后推送通知。
双向 Handoff
- Local → Cloud:将长任务推到云端,合上笔记本不中断
- Cloud → Local:需要本地文件系统或开发服务器时拉回
企业自托管
2026 年 3 月 25 日起支持自托管 Cloud Agent:Worker 进程通过 HTTPS 出站连接到 Cursor 云端,无需入站端口或 VPN,代码和构建产物始终留在企业基础设施内。
Bugbot:自进化的智能审查
Cursor 的 Bugbot 是一个基于学习规则的代码审查 Agent:
- Bugbot 在 PR 上发布审查评论
- 团队通过 👍/👎 表情反馈和评论回复
- 人工审查者的评论也被分析
- Bugbot 从信号中生成候选规则
- 验证后的规则自动集成到未来审查中
2026 年 4 月 8 日新增 MCP 支持,Bugbot 可连接外部安全扫描器、性能分析平台等工具。
局限与争议
- 自评偏倚:CursorBench 由 Cursor 自建,从内部任务提取,评估自家模型,缺乏第三方审计
- 与 GPT-5.4 仍有差距:域专项训练后仍落后 2.6-4.8 分
- 消融实验缺失:多 Token 预测、自摘要、Router Replay 等技术的贡献未量化
- NVFP4 精度脆弱:快速近似除法在约 100 步 RL 后导致发散,需使用 IEEE 精确除法
- 训练成本未披露:未公开总 FLOPs、GPU 小时或美元成本
- SDK 仍未发布:市场预期从 IDE 向平台转型,但 SDK 和开放 API 尚未落地
与同类产品技术对比
| 维度 | Cursor 3 | Claude Code | Windsurf |
|---|---|---|---|
| 并行 Agent 数 | 8(Worktree 隔离) | 5(Orchestrator 模式) | 1(Cascade 串行) |
| 自研模型 | ✅ Composer 2(1.04T MoE) | ❌ Claude 独占 | ❌ 依赖第三方 |
| 云端执行 | 独立 Ubuntu VM | 需自行部署 | Devin 云端 Agent |
| 模型竞速 | ✅ /best-of-n | ❌ | ❌ |
| 模型路由 | Composer 2 常规 + Claude/GPT 难题 | Claude 独占 | 多模型切换 |
| 安全隔离 | Git Worktree | 沙箱 + 白名单 | 沙箱 |
| 代码补全 | Supermaven(业界最快 <300ms) | ❌ 无补全 | ~500ms |