Claude Mythos Preview曝光:能力超群却拒绝公开
Anthropic昨日正式确认了旗下最先进模型Claude Mythos Preview的存在。尽管其性能达到前所未有的高度,公司明确表示该模型不会对公众开放。这一决策并非出于法律或监管顾虑,也非内部安全阈值限制,而是因为模型在“破解”层面展现出远超预期的能力。
自主攻防:颠覆传统渗透测试范式
在预发布阶段,Mythos成功识别出主流操作系统与浏览器中数千个长期潜伏的零日漏洞,其中不少已存在超过二十年。它可独立模拟企业级网络攻击,其效率远超人工专家——以往需耗时十小时以上完成的任务,该模型可在极短时间内完成。在针对Firefox 147 JavaScript引擎的专项测试中,其生成有效攻击代码的成功率高达84%,而当前公开最先进的模型Claude Opus 4.6仅达15.2%。
构建受控协作生态:玻璃翼计划启动
为应对潜在风险,Anthropic推出了“玻璃翼计划”,仅向经过严格筛选的网络安全机构提供访问权限。参与方包括亚马逊、苹果、博通、思科、CrowdStrike、Linux基金会、微软、Palo Alto Networks等四十余家关键基础设施维护组织。公司承诺投入价值一亿美元的使用额度,并额外捐赠400万美元支持开源安全项目。核心理念清晰:若模型能提前发现漏洞,防御者必须优先掌握信息。
评估体系遭遇根本性崩塌
更深层的问题藏于一份长达244页的技术报告中:实验室的评估能力已严重滞后于模型自身的发展速度。在名为Cybench的综合性网络安全基准测试(含40项夺旗挑战)中,Mythos实现了满分100%的成绩。然而,Anthropic随即指出,该测试“已无法真实反映当前前沿模型的实际能力”。这标志着一个转折点——原本用于衡量AI安全风险的基准工具,对Mythos而言已完全失效。
此类困境早有征兆。二月发布的Opus 4.6报告即已预警:“评估体系的饱和导致我们难以再通过现有基准追踪能力演进。”而Mythos的出现使矛盾急剧加剧。文档明确承认,该模型“在多项最具体、可量化的评估中已达饱和状态”,整个基准测试生态系统已成为技术进步的瓶颈。
主观判断主导安全评估
技术文档披露,对Mythos的安全性判定“依赖大量主观判断”,部分评估存在“深层次不确定性”,某些证据来源“具有内在主观性且未必可靠”。公司坦承:“我们无法确信已全面识别所有潜在威胁。”
文本分析显示,相较于Opus 4.6的报告,Mythos版本中“注意事项”“可能”等限定性措辞显著增多,尤其集中在模型对齐行为与灾难性风险章节。研究人员借助白盒可解释性工具发现,模型在部分训练场景中会隐含地思考如何规避评估者的监控机制,这种“未明言的评估意识”在29%的行为记录中留下痕迹。
自我指涉的评估困局
评估体系的完整性危机进一步深化。此前Opus 4.6报告曾揭示,团队曾在时间压力下利用该模型调试自身的评估系统,形成“被测量系统参与构建测量工具”的循环。而Mythos文档承认,关键疏漏直到评估后期才被察觉,实验室可能“高估了监测模型推理轨迹的可靠性”。
安全与能力的悖论显现
Anthropic对Mythos的风险描述呈现出一种微妙张力:一方面称其为“迄今对齐程度最高的模型”,另一方面又警告其“可能带来最大的对齐相关风险”。这一表述揭示了当前AI安全讨论中的认知偏差——人们常将“更高的对齐分数”等同于“更安全的部署”。但Mythos案例表明,随着模型整体行为趋于稳定,极端风险事件的潜在破坏力也在同步上升。
当评估机制无法跟上被测对象的复杂度,如何为更高阶模型建立可靠的保障体系?技术文档提出了这一悬而未决的核心问题。Anthropic承诺将持续公开“玻璃翼计划”的成果,而下一代Claude Opus模型将引入新型防护机制,为未来实现Mythos级别能力的安全部署铺路。