“智能体终极考试”（Agents’ Last Exam，简称 ALE）

家里蹲国仙 · 发表于 12-6-2026 11:35 AM

一项名为“智能体终极考试”（Agents’ Last Exam，简称 ALE）的严苛全新 AI 评估测试于近日发布，其首份榜单便爆出了一个大冷门。

该基准测试由加州大学伯克利分校负责任与去中心化智能中心（RDI）联合 300 多位行业专家共同开发，旨在测试 AI 智能体（Agents）在 55 个行业子领域中处理真实世界、长流程专业工作流的能力。

令人意想不到的是，OpenAI 计划于 4 月发布的 **GPT-5.5** 成功夺魁，击败了 Anthropic 备受瞩目、刚刚推出的 **Claude Fable 5** 模型（后者仅位列第三）。

以下是文章核心内容的详细梳理：

---

### ALE 榜单前五名

尽管 GPT-5.5 摘得桂冠，但数据中最引人注目的发现是：*所有*模型的表现都极其挣扎。即便是排名第一的组合，也没能通过四分之三的测试。

| 排名 | 智能体框架 (Agent Harness) | 底层模型 | 通过率 | 平均分 |
| --- | --- | --- | --- | --- |
| **1** | Codex | gpt-5-5 | **24.0%** | 42.8% |
| **2** | Ale Claw | gpt-5-5 | **23.0%** | 45.8% |
| **3** | Claude Code | claude-fable-5 | **22.0%** | 40.5% |
| **4** | OpenClaw | gpt-5-5 | **21.1%** | 41.0% |
| **5** | Cursor CLI | composer-2-5 | **20.4%** | 38.5% |

---

### 文章核心要点

* **残酷的现实拷问：** 该基准测试揭示了市场营销炒作与实际职场实用性之间的巨大鸿沟。在难度最高的“终极考试”（Last-Exam）级别中，诸如 Claude Opus 4.8 和谷歌的 Gemini CLI 等较早的模型，得分竟然是惨不忍睹的 **0.0% 通过率**。GPT-5.5 之所以能够胜出，主要是因为它目前在遵循复杂、多步骤的指令时表现更好，不会在工作流执行到一半时“遗忘”步骤。
* **杜绝“作弊”可能：** 传统的基准测试往往存在缺陷，因为大语言模型（LLM）可以通过系统历史记录读取隐藏的答案，或者依赖不够严谨的“LLM 担任裁判”机制来评分。ALE 则彻底杜绝了这一点，它将模型强制放入虚拟机（Linux 或 Windows）中，要求它们执行真实的桌面操作——例如在 Adobe After Effects、Unreal Engine（虚幻引擎）或 Siemens NX 等大型专业软件中进行点击和操作。评分完全基于代码，直接对比 AI 最终生成的文件与专家给出的标准答案（Ground Truth）。
* **对抗数据污染：** 为了防止 AI 公司直接用测试题来训练模型（即基准测试污染），ALE 将其 1490 个任务中的 90% 严格保密。它作为一个“动态基准”，会系统性地轮换公开和私有的任务，让模型无法通过死记硬背来通关。
* **真实的行业工作流：** 这些测试任务直接映射了美国联邦职业分类体系，这意味着它们反映的是真正关乎国内生产总值（GDP）的经济劳动力需求，而非孤立的编程拼图游戏。

**核心结论：** 尽管 OpenAI 可以暂时庆祝对 Anthropic 的胜利，但对于整个科技行业来说，这份报告无疑是一剂清醒剂。在各家企业斥资数十亿美元研发旨在投入职场的 AI “智能体”时，ALE 证明了即便是全球最顶尖的模型，在处理复杂、多步骤的专业工作时，依然存在着根本性的失败。

https://venturebeat.com/technology/surprise-upset-gpt-5-5-beats-claude-fable-5-on-brutal-new-agents-last-exam-benchmark Summarise

复制代码

		自动登录	找回密码
密码			注册

“智能体终极考试”（Agents’ Last Exam，简称 ALE）

相关帖子

所属分类: 电脑手机

浏览过的版块