Gemini 3 Flash 在 OpenClaw 任务中领跑性能榜单

近日,OpenClaw 创始人 Peter Steinberger 转发了由第三方机构 PinchBench 发布的 AI 大语言模型基准测试结果,聚焦于模型在 OpenClaw 代理任务中的实际表现。测试结果显示,Gemini 3 Flash 以 95.1% 的任务成功率位居首位,展现出强大的任务执行能力。

多模型表现对比:技术差距初显

紧随其后的是 minimax-m2.1 与 kimi-k2.5,分别取得 93.6% 和 93.4% 的成功率,体现出较高的稳定性和推理效率。Claude Sonnet 4.5 以 92.7% 的成绩位列第四,而 GPT-4o 的表现则为 85.2%,在同类任务中相对落后。 该测试结果为当前主流大模型在复杂代理场景下的真实应用能力提供了量化参考,反映出不同模型在任务规划、上下文理解与多步决策方面的差异。