Gemini2.5Computer Use: 谷歌推出 「看」 懂网页的 AI 代理模型

近日预览了一款全新的 GeminiAI 模型——Gemini2.5ComputerUse,旨在赋予 代理通过浏览器导航和交互网页的能力。这款模型利用其强大的 「视觉理解和推理能力」,能够像人类一样分析用户请求,并在原本为人类而非机器人设计的界面内执行复杂操作,例如填写和提交表单

的新前沿

Gemini2.5ComputerUse 使得 AI 能够执行过去需要人类干预的任务。它的主要应用场景包括 测试,以及为那些没有 API 或直接连接的用户导航网页界面。该模型的早期版本曾用于 Mariner 项目——一个使用 AI 代理在浏览器中自行完成任务的研究原型,比如根据配料列表将商品添加到购物车。

这款新模型的发布正值 AI 代理功能竞争白热化之际。就在谷歌宣布的前一天,在其开发者日上发布了新的 应用并持续关注其 Agent 功能,该功能可为用户完成复杂任务。同时,去年也发布了一个带有 「计算机使用」 功能的 ClaudeAI 模型版本。

性能与限制

谷歌声称,其 Gemini2.5ComputerUse 模型 「在多个网络和移动基准测试中均优于领先的替代方案」。

然而,与 ChatGPTAgentAnthropic 的类似工具不同,谷歌的新 目前只能访问浏览器环境,而不能控制整个计算机环境。谷歌指出,该模型 「尚未针对桌面操作系统级别的控制进行优化」,当前支持 13 种操作,包括打开网络浏览器、输入文本以及拖放元素。

如何体验

开发者现在可以通过 GoogleAIStudioVertexAI 体验 Gemini2.5ComputerUse。

对于普通用户和感兴趣者,Browserbase 提供了一个演示,可以观看该模型完成诸如 「玩 2048 游戏」 或 「浏览 HackerNews 以了解热门辩论」 等任务。

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

给 TA 打赏
共 {{data.count}} 人
人已打赏
AI 资讯

OpenAI Sora 升级: 新增内容控制与版权政策调整

2025-10-9 1:20:58

AI 资讯

Anthropic 开源 Petri: 用 AI 代理自动进行模型安全审计

2025-10-9 1:21:14

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索