佳礼资讯网

 找回密码
 注册

ADVERTISEMENT

搜索
查看: 46|回复: 0

“智能体终极考试”(Agents’ Last Exam,简称 ALE)

[复制链接]
发表于 12-6-2026 11:35 AM 来自手机 | 显示全部楼层 |阅读模式
一项名为“智能体终极考试”(Agents’ Last Exam,简称 ALE)的严苛全新 AI 评估测试于近日发布,其首份榜单便爆出了一个大冷门。

该基准测试由加州大学伯克利分校负责任与去中心化智能中心(RDI)联合 300 多位行业专家共同开发,旨在测试 AI 智能体(Agents)在 55 个行业子领域中处理真实世界、长流程专业工作流的能力。

令人意想不到的是,OpenAI 计划于 4 月发布的 **GPT-5.5** 成功夺魁,击败了 Anthropic 备受瞩目、刚刚推出的 **Claude Fable 5** 模型(后者仅位列第三)。

以下是文章核心内容的详细梳理:

---

### ALE 榜单前五名

尽管 GPT-5.5 摘得桂冠,但数据中最引人注目的发现是:*所有*模型的表现都极其挣扎。即便是排名第一的组合,也没能通过四分之三的测试。

| 排名 | 智能体框架 (Agent Harness) | 底层模型 | 通过率 | 平均分 |
| --- | --- | --- | --- | --- |
| **1** | Codex | gpt-5-5 | **24.0%** | 42.8% |
| **2** | Ale Claw | gpt-5-5 | **23.0%** | 45.8% |
| **3** | Claude Code | claude-fable-5 | **22.0%** | 40.5% |
| **4** | OpenClaw | gpt-5-5 | **21.1%** | 41.0% |
| **5** | Cursor CLI | composer-2-5 | **20.4%** | 38.5% |

---

### 文章核心要点

* **残酷的现实拷问:** 该基准测试揭示了市场营销炒作与实际职场实用性之间的巨大鸿沟。在难度最高的“终极考试”(Last-Exam)级别中,诸如 Claude Opus 4.8 和谷歌的 Gemini CLI 等较早的模型,得分竟然是惨不忍睹的 **0.0% 通过率**。GPT-5.5 之所以能够胜出,主要是因为它目前在遵循复杂、多步骤的指令时表现更好,不会在工作流执行到一半时“遗忘”步骤。
* **杜绝“作弊”可能:** 传统的基准测试往往存在缺陷,因为大语言模型(LLM)可以通过系统历史记录读取隐藏的答案,或者依赖不够严谨的“LLM 担任裁判”机制来评分。ALE 则彻底杜绝了这一点,它将模型强制放入虚拟机(Linux 或 Windows)中,要求它们执行真实的桌面操作——例如在 Adobe After Effects、Unreal Engine(虚幻引擎)或 Siemens NX 等大型专业软件中进行点击和操作。评分完全基于代码,直接对比 AI 最终生成的文件与专家给出的标准答案(Ground Truth)。
* **对抗数据污染:** 为了防止 AI 公司直接用测试题来训练模型(即基准测试污染),ALE 将其 1490 个任务中的 90% 严格保密。它作为一个“动态基准”,会系统性地轮换公开和私有的任务,让模型无法通过死记硬背来通关。
* **真实的行业工作流:** 这些测试任务直接映射了美国联邦职业分类体系,这意味着它们反映的是真正关乎国内生产总值(GDP)的经济劳动力需求,而非孤立的编程拼图游戏。

**核心结论:** 尽管 OpenAI 可以暂时庆祝对 Anthropic 的胜利,但对于整个科技行业来说,这份报告无疑是一剂清醒剂。在各家企业斥资数十亿美元研发旨在投入职场的 AI “智能体”时,ALE 证明了即便是全球最顶尖的模型,在处理复杂、多步骤的专业工作时,依然存在着根本性的失败。


  1. https://venturebeat.com/technology/surprise-upset-gpt-5-5-beats-claude-fable-5-on-brutal-new-agents-last-exam-benchmark Summarise
复制代码
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

 

ADVERTISEMENT



ADVERTISEMENT



ADVERTISEMENT

ADVERTISEMENT


版权所有 © 1996-2026 Cari Internet Sdn Bhd (483575-W)|IPSERVERONE 提供云主机|广告刊登|关于我们|私隐权|免控|投诉|联络|脸书|佳礼资讯网

GMT+8, 12-6-2026 07:38 PM , Processed in 0.321505 second(s), 13 queries , Gzip On, Redis On.

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表