谷歌近日预览了一款全新的 GeminiAI 模型——Gemini2.5ComputerUse,旨在赋予 AI 代理通过浏览器导航和交互网页的能力。这款模型利用其强大的 「视觉理解和推理能力」,能够像人类一样分析用户请求,并在原本为人类而非机器人设计的界面内执行复杂操作,例如填写和提交表单。
AI 代理的新前沿
Gemini2.5ComputerUse 使得 AI 能够执行过去需要人类干预的任务。它的主要应用场景包括UI 测试,以及为那些没有 API 或直接连接的用户导航网页界面。该模型的早期版本曾用于 Mariner 项目——一个使用 AI 代理在浏览器中自行完成任务的研究原型,比如根据配料列表将商品添加到购物车。
这款新模型的发布正值 AI 代理功能竞争白热化之际。就在谷歌宣布的前一天,OpenAI在其开发者日上发布了新的ChatGPT 应用并持续关注其 Agent 功能,该功能可为用户完成复杂任务。同时,Anthropic去年也发布了一个带有 「计算机使用」 功能的 ClaudeAI 模型版本。
性能与限制
谷歌声称,其 Gemini2.5ComputerUse 模型 「在多个网络和移动基准测试中均优于领先的替代方案」。
然而,与 ChatGPTAgent 和 Anthropic 的类似工具不同,谷歌的新 AI 模型目前只能访问浏览器环境,而不能控制整个计算机环境。谷歌指出,该模型 「尚未针对桌面操作系统级别的控制进行优化」,当前支持 13 种操作,包括打开网络浏览器、输入文本以及拖放元素。
如何体验
开发者现在可以通过 GoogleAIStudio 和 VertexAI 体验 Gemini2.5ComputerUse。
对于普通用户和感兴趣者,Browserbase 提供了一个演示,可以观看该模型完成诸如 「玩 2048 游戏」 或 「浏览 HackerNews 以了解热门辩论」 等任务。









