开源智能体新纪元:微软Fara1.5挑战行业巨头
设想一个场景:你只需下达指令,让计算机自动查找度假租赁信息,跨平台比价、填写表单,并最终锁定离海滩最近的房源。起身冲杯咖啡的工夫,一切已准备就绪——这正是“计算机使用智能体”所描绘的未来图景:能像人类一样理解网页内容并完成点击、滚动、输入等操作,且无需额外插件。
从闭源到开源:技术路径的范式转移
OpenAI于2025年1月推出的Operator服务曾被视为行业标杆,每月收费200美元,后并入ChatGPT智能体并于同年8月停用。谷歌则推出基于Gemini 2.5的浏览器操作功能,两者均为闭源云端方案,运行成本高昂。
本周,微软研究院发布全新小型模型系列Fara1.5,其在核心任务表现上全面超越前述闭源系统。该系列包含40亿、90亿和270亿参数版本,均基于阿里巴巴Qwen3.5基础模型构建,并经微软针对浏览器交互任务深度微调,所有权重已公开发布。
参数规模直接决定模型的知识容量与泛化能力。值得注意的是,尽管体积更小,但Fara1.5在多个维度展现出显著优势。
性能突破:超越行业领先者
在衡量真实网络环境下任务完成率的核心基准Online-Mind2Web上,Fara1.5-27B取得72%的准确率,远超OpenAI Operator的58.3%与谷歌Gemini 2.5的57.3%。领先闭源方案Yutori Navigator n1的64.7%也未能企及。
即便是中等规模的Fara1.5-9B也达到63.4%的得分,显著优于同类产品。相较之下,阿里巴巴的GUI-Owl-1.5(48.6%)、AI2的MolmoWeb(35.3%)以及前代Fara-7B(34.1%),新版本在相近参数量下性能近乎翻倍。
在另一项实时任务成功率评估标准WebVoyager中,Fara1.5-27B以88.6%的得分略胜OpenAI Operator的87.0%,并击败参数高达300亿的Holo2模型(83.0%),展现出卓越的稳定性与适应性。
训练体系重构:数据生成的革命性设计
这一突破源于对整个开发流程的根本性重构。微软团队提出:“如何让小模型真正擅长智能体任务?”答案是:必须贯穿数据生成、训练目标、模型架构与协同机制全生命周期进行一体化优化。
其核心在于名为FaraGen1.5的自动化数据生成系统。该系统利用OpenAI GPT-5.4作为“教师智能体”,模拟完成各类浏览器任务,并将这些操作轨迹转化为高质量训练样本。这意味着,开源模型正借助竞争对手最强能力实现自我进化。
为支持复杂任务演练,微软构建了六个功能完整的仿真实网站环境,涵盖邮箱、日历、交易平台等,使模型可在无风险条件下练习登录、发送邮件、预订航班等涉及敏感操作的任务,有效避免真实账户暴露。
所有模型在执行不可逆操作前均会暂停并请求用户确认。微软研究院高级项目经理强调:“在保障安全与维持用户体验之间取得平衡至关重要。”配套的Magentic-UI交互界面不仅提供干预节点,还能防止用户因频繁审批产生疲劳。
这一点尤为重要——此前OpenAI在推广ChatGPT智能体时已明确警示风险:一旦授权访问网站或连接器,智能体可能获取邮件、文件、账户等敏感信息。
Fara1.5的所有操作均在MagenticLite沙箱浏览器环境中运行,每一步操作均被完整记录,用户可随时中断进程,确保全程可控。
开放生态:构建可持续竞争壁垒
当前浏览器智能体领域竞争激烈:谷歌已在Chrome中集成Gemini,Perplexity推出Comet,Anthropic亦上线Claude Chrome版。然而,Fara1.5的差异化优势在于其彻底的开放性——模型权重公开、推理代码托管于GitHub、支持用户自主部署至本地硬件。
Fara1.5-9B已上线Azure AI Foundry,40亿与270亿参数版本即将发布。微软表示,未来计划将该技术拓展至桌面应用与企业级软件自动化场景,进一步释放生产力潜能。