|
查看: 46|回复: 0
|
“智能体终极考试”(Agents’ Last Exam,简称 ALE)
[复制链接]
|
|
|
一项名为“智能体终极考试”(Agents’ Last Exam,简称 ALE)的严苛全新 AI 评估测试于近日发布,其首份榜单便爆出了一个大冷门。
该基准测试由加州大学伯克利分校负责任与去中心化智能中心(RDI)联合 300 多位行业专家共同开发,旨在测试 AI 智能体(Agents)在 55 个行业子领域中处理真实世界、长流程专业工作流的能力。
令人意想不到的是,OpenAI 计划于 4 月发布的 **GPT-5.5** 成功夺魁,击败了 Anthropic 备受瞩目、刚刚推出的 **Claude Fable 5** 模型(后者仅位列第三)。
以下是文章核心内容的详细梳理:
---
### ALE 榜单前五名
尽管 GPT-5.5 摘得桂冠,但数据中最引人注目的发现是:*所有*模型的表现都极其挣扎。即便是排名第一的组合,也没能通过四分之三的测试。
| 排名 | 智能体框架 (Agent Harness) | 底层模型 | 通过率 | 平均分 |
| --- | --- | --- | --- | --- |
| **1** | Codex | gpt-5-5 | **24.0%** | 42.8% |
| **2** | Ale Claw | gpt-5-5 | **23.0%** | 45.8% |
| **3** | Claude Code | claude-fable-5 | **22.0%** | 40.5% |
| **4** | OpenClaw | gpt-5-5 | **21.1%** | 41.0% |
| **5** | Cursor CLI | composer-2-5 | **20.4%** | 38.5% |
---
### 文章核心要点
* **残酷的现实拷问:** 该基准测试揭示了市场营销炒作与实际职场实用性之间的巨大鸿沟。在难度最高的“终极考试”(Last-Exam)级别中,诸如 Claude Opus 4.8 和谷歌的 Gemini CLI 等较早的模型,得分竟然是惨不忍睹的 **0.0% 通过率**。GPT-5.5 之所以能够胜出,主要是因为它目前在遵循复杂、多步骤的指令时表现更好,不会在工作流执行到一半时“遗忘”步骤。
* **杜绝“作弊”可能:** 传统的基准测试往往存在缺陷,因为大语言模型(LLM)可以通过系统历史记录读取隐藏的答案,或者依赖不够严谨的“LLM 担任裁判”机制来评分。ALE 则彻底杜绝了这一点,它将模型强制放入虚拟机(Linux 或 Windows)中,要求它们执行真实的桌面操作——例如在 Adobe After Effects、Unreal Engine(虚幻引擎)或 Siemens NX 等大型专业软件中进行点击和操作。评分完全基于代码,直接对比 AI 最终生成的文件与专家给出的标准答案(Ground Truth)。
* **对抗数据污染:** 为了防止 AI 公司直接用测试题来训练模型(即基准测试污染),ALE 将其 1490 个任务中的 90% 严格保密。它作为一个“动态基准”,会系统性地轮换公开和私有的任务,让模型无法通过死记硬背来通关。
* **真实的行业工作流:** 这些测试任务直接映射了美国联邦职业分类体系,这意味着它们反映的是真正关乎国内生产总值(GDP)的经济劳动力需求,而非孤立的编程拼图游戏。
**核心结论:** 尽管 OpenAI 可以暂时庆祝对 Anthropic 的胜利,但对于整个科技行业来说,这份报告无疑是一剂清醒剂。在各家企业斥资数十亿美元研发旨在投入职场的 AI “智能体”时,ALE 证明了即便是全球最顶尖的模型,在处理复杂、多步骤的专业工作时,依然存在着根本性的失败。
- https://venturebeat.com/technology/surprise-upset-gpt-5-5-beats-claude-fable-5-on-brutal-new-agents-last-exam-benchmark Summarise
复制代码 |
|
|
|
|
|
|
|
|
| |
本周最热论坛帖子
|