Gemini2.5Computer Use: 谷歌推出「看」懂网页的 AI 代理模型

AI 资讯
25 年 10 月 9 日
编辑

小强

谷歌近日预览了一款全新的 GeminiAI 模型——Gemini2.5ComputerUse，旨在赋予 AI 代理通过浏览器导航和交互网页的能力。这款模型利用其强大的「视觉理解和推理能力」，能够像人类一样分析用户请求，并在原本为人类而非机器人设计的界面内执行复杂操作，例如填写和提交表单。

AI 代理的新前沿

Gemini2.5ComputerUse 使得 AI 能够执行过去需要人类干预的任务。它的主要应用场景包括UI 测试，以及为那些没有 API 或直接连接的用户导航网页界面。该模型的早期版本曾用于 Mariner 项目——一个使用 AI 代理在浏览器中自行完成任务的研究原型，比如根据配料列表将商品添加到购物车。

这款新模型的发布正值 AI 代理功能竞争白热化之际。就在谷歌宣布的前一天，OpenAI在其开发者日上发布了新的ChatGPT 应用并持续关注其 Agent 功能，该功能可为用户完成复杂任务。同时，Anthropic去年也发布了一个带有「计算机使用」功能的 ClaudeAI 模型版本。

性能与限制

谷歌声称，其 Gemini2.5ComputerUse 模型「在多个网络和移动基准测试中均优于领先的替代方案」。

然而，与 ChatGPTAgent 和 Anthropic 的类似工具不同，谷歌的新 AI 模型目前只能访问浏览器环境，而不能控制整个计算机环境。谷歌指出，该模型「尚未针对桌面操作系统级别的控制进行优化」，当前支持 13 种操作，包括打开网络浏览器、输入文本以及拖放元素。

如何体验

开发者现在可以通过 GoogleAIStudio 和 VertexAI 体验 Gemini2.5ComputerUse。

对于普通用户和感兴趣者，Browserbase 提供了一个演示，可以观看该模型完成诸如「玩 2048 游戏」或「浏览 HackerNews 以了解热门辩论」等任务。

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

{{userData.name}} 已认证

Gemini2.5Computer Use: 谷歌推出「看」懂网页的 AI 代理模型

AI 代理的新前沿

性能与限制

如何体验

OpenAI Sora 升级: 新增内容控制与版权政策调整

Anthropic 开源 Petri: 用 AI 代理自动进行模型安全审计

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国天威视讯 DNS 服务器地址大全

{{userData.name}} 已认证

AI 代理的新前沿

性能与限制

如何体验

相关文章：

OpenAI Sora 升级: 新增内容控制与版权政策调整

Anthropic 开源 Petri: 用 AI 代理自动进行模型安全审计

光子级渲染重塑视觉极限：Reve Image 突破 AI 生成真实感瓶颈

Reddit 控诉 AI 公司 Anthropic：超十万次违规访问引发版权争议

智谱 AI 全新企业级超级助手 Agent CoCo 正式上线

DeepSeek 前高管秘密创业，新 AI Agent 项目已获顶级 VC 押注

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国天威视讯 DNS 服务器地址大全