微软开源新模型颠覆浏览器智能体赛道

开源智能体新纪元：微软Fara1.5挑战行业巨头

设想一个场景：你只需下达指令，让计算机自动查找度假租赁信息，跨平台比价、填写表单，并最终锁定离海滩最近的房源。起身冲杯咖啡的工夫，一切已准备就绪——这正是“计算机使用智能体”所描绘的未来图景：能像人类一样理解网页内容并完成点击、滚动、输入等操作，且无需额外插件。

OpenAI于2025年1月推出的Operator服务曾被视为行业标杆，每月收费200美元，后并入ChatGPT智能体并于同年8月停用。谷歌则推出基于Gemini 2.5的浏览器操作功能，两者均为闭源云端方案，运行成本高昂。

本周，微软研究院发布全新小型模型系列Fara1.5，其在核心任务表现上全面超越前述闭源系统。该系列包含40亿、90亿和270亿参数版本，均基于阿里巴巴Qwen3.5基础模型构建，并经微软针对浏览器交互任务深度微调，所有权重已公开发布。

参数规模直接决定模型的知识容量与泛化能力。值得注意的是，尽管体积更小，但Fara1.5在多个维度展现出显著优势。

在衡量真实网络环境下任务完成率的核心基准Online-Mind2Web上，Fara1.5-27B取得72%的准确率，远超OpenAI Operator的58.3%与谷歌Gemini 2.5的57.3%。领先闭源方案Yutori Navigator n1的64.7%也未能企及。

即便是中等规模的Fara1.5-9B也达到63.4%的得分，显著优于同类产品。相较之下，阿里巴巴的GUI-Owl-1.5（48.6%）、AI2的MolmoWeb（35.3%）以及前代Fara-7B（34.1%），新版本在相近参数量下性能近乎翻倍。

在另一项实时任务成功率评估标准WebVoyager中，Fara1.5-27B以88.6%的得分略胜OpenAI Operator的87.0%，并击败参数高达300亿的Holo2模型（83.0%），展现出卓越的稳定性与适应性。

这一突破源于对整个开发流程的根本性重构。微软团队提出：“如何让小模型真正擅长智能体任务？”答案是：必须贯穿数据生成、训练目标、模型架构与协同机制全生命周期进行一体化优化。

其核心在于名为FaraGen1.5的自动化数据生成系统。该系统利用OpenAI GPT-5.4作为“教师智能体”，模拟完成各类浏览器任务，并将这些操作轨迹转化为高质量训练样本。这意味着，开源模型正借助竞争对手最强能力实现自我进化。

为支持复杂任务演练，微软构建了六个功能完整的仿真实网站环境，涵盖邮箱、日历、交易平台等，使模型可在无风险条件下练习登录、发送邮件、预订航班等涉及敏感操作的任务，有效避免真实账户暴露。

所有模型在执行不可逆操作前均会暂停并请求用户确认。微软研究院高级项目经理强调：“在保障安全与维持用户体验之间取得平衡至关重要。”配套的Magentic-UI交互界面不仅提供干预节点，还能防止用户因频繁审批产生疲劳。

这一点尤为重要——此前OpenAI在推广ChatGPT智能体时已明确警示风险：一旦授权访问网站或连接器，智能体可能获取邮件、文件、账户等敏感信息。

Fara1.5的所有操作均在MagenticLite沙箱浏览器环境中运行，每一步操作均被完整记录，用户可随时中断进程，确保全程可控。

当前浏览器智能体领域竞争激烈：谷歌已在Chrome中集成Gemini，Perplexity推出Comet，Anthropic亦上线Claude Chrome版。然而，Fara1.5的差异化优势在于其彻底的开放性——模型权重公开、推理代码托管于GitHub、支持用户自主部署至本地硬件。

Fara1.5-9B已上线Azure AI Foundry，40亿与270亿参数版本即将发布。微软表示，未来计划将该技术拓展至桌面应用与企业级软件自动化场景，进一步释放生产力潜能。