通用人工智能遭遇现实拷问:模型表现远低于人类

在英伟达首席执行官黄仁勋公开宣称“已实现通用人工智能”仅两天后,人工智能领域最具挑战性的评估体系——ARC-AGI-3基准测试正式揭晓结果。令人震惊的是,包括谷歌Gemini 3.1 Pro、OpenAI GPT-5.4、Anthropic Claude Opus 4.6及xAI Grok-4.20在内的主流前沿模型,最高得分仅为0.37%,其余普遍低于0.26%。而人类被试者在相同环境下全部实现100%通关。

颠覆传统:从静态谜题到动态未知世界

与以往依赖知识问答或编程解题的评估方式截然不同,ARC-AGI-3并非考察特定领域技能,而是构建了135个完全原创的交互式虚拟环境。这些场景不提供任何操作说明、目标设定或规则提示,智能体必须在零先验条件下自主探索、理解机制、制定策略并执行动作。

设计核心:对抗训练饱和,杜绝记忆破解

该测试由弗朗索瓦·肖莱与迈克·努普联合创立的ARC Prize基金会打造。其关键创新在于,其中110个环境保持封闭状态——55个用于API接口测试,55个作为竞赛专用,彻底消除通过数据集记忆或模式匹配绕过评测的可能性。面对从未接触过的逻辑结构,传统的算力堆叠策略失效。

评分机制严苛:效率决定成败

不同于简单的“通过/失败”判定,本测试采用“相对人类行动效率”作为核心指标。以人类第二优首次尝试的表现为基准,若智能体所需操作步骤达到人类十倍,则得分仅得1%而非10%。该机制对低效行为实施平方级惩罚,显著抑制盲目试探与路径回溯等非理性行为。

现实差距:模型无法超越五岁孩童

在为期一个月的开发者预览阶段,表现最佳的智能体也仅取得12.58%的平均分。通过官方接口测试的主流大语言模型(未使用定制工具)无一突破1%。反观普通人类,在无任何引导的情况下可迅速掌握新环境规则并顺利完成全部任务。这一对比凸显当前系统在真正意义上的通用适应能力上存在根本性缺失。

争议焦点:定制工具能否代表突破?

值得注意的是,杜克大学开发的一套专用工具使Claude Opus 4.6在名为TR87的特定变体中得分跃升至97.1%。然而,该成绩并不反映整体性能,其官方基准分数仍为0.25%。这引发关于“是否应允许外部工具介入”的方法论争论。基金会虽承认此现象,但坚持维持现有测试架构。

深层反思:感知能力非瓶颈,推理才是关键

测试输入为结构化JSON格式,而非视觉图像,可能暴露模型在原始数据处理上的短板。但基金会明确指出:“内容感知框架与API格式并非限制模型表现的核心因素。”这意味着,问题不在于“看不清”,而在于“想不通”。当前系统的最大短板是跨情境推理与泛化能力,而非信息获取。

热潮背后的冷静:术语被滥用的风险

这场测试恰逢行业对“通用人工智能”概念高度膨胀之际。除黄仁勋外,Arm将新款数据中心芯片命名为“AGI处理器”,山姆·阿尔特曼宣称已“基本建成”通用AI,微软更设立“超级人工智能”实验室,将其定义为通用AI之上的进阶形态。术语不断被拉伸,以迎合商业叙事。

最终判断:没有指导能力,就不叫通用

肖莱基金会立场鲜明:如果一个系统连普通人能轻松完成的任务都无法独立应对,那它就不是通用人工智能——充其量是一个需要大量人工干预的高级自动补全工具。

未来挑战:200万美元奖金激励真实突破

ARC Prize 2026竞赛已在Kaggle平台启动三条赛道,总奖金高达200万美元。所有获胜方案必须开源,推动技术透明与共享。倒计时已然开始,而当前人工智能距离真正的通用智能,仍有漫长之路要走。