传统 AI 代理的痛点: 长任务与误点击
现有的计算机 AI 代理通常依赖视觉语言模型 (VLM) 来感知屏幕并模拟鼠标键盘操作。虽然这类 「点击式」 代理能执行各种任务,但在面对办公生产力套件等具有密集菜单和复杂工作流程的应用时,它们往往表现不佳。研究人员指出,在这些场景中,单一的误点击或对 UI 元素的误解,都可能导致整个任务失败。
为了应对这一挑战,研究人员曾尝试利用
CoAct-1: 一个多智能体协作的混合系统
为解决这些限制,CoAct-1 系统应运而生。其核心理念是 「将 GUI 操作的直观优势与通过代码直接进行系统交互的精确性、可靠性和效率相结合」。该系统由一个由三个专门代理组成的团队协作完成任务:
-
编排器 (Orchestrator): 作为中央规划器,它负责将用户的总体目标分解为子任务,并分配给最合适的代理。
-
程序员 (Programmer): 负责编写和执行 Python 或 Bash 脚本,处理文件管理或数据处理等后端操作。
-
GUI 操作员 (GUIOperator): 基于 VLM,专门处理需要点击按钮或导航界面的前端任务。
这种动态委托机制使得 CoAct-1 能够策略性地绕过低效的 GUI 操作,转而采用更稳健、更高效的代码执行,同时保留视觉交互的必要性。整个工作流程是迭代的,每个代理完成子任务后都会向编排器汇报,由其决定下一步行动。
性能飞跃: 更快、更高效
研究人员在 OSWorld 基准测试上对 CoAct-1 进行了测试,该基准包含了 369 个跨浏览器、IDE 和办公应用程序的实际任务。结果显示,CoAct-1 取得了 60.76% 的成功率,树立了新的
尤其是在操作系统级任务和多应用程序工作流中,CoAct-1 的性能提升最为显著。更重要的是,该系统的效率也大幅提高,平均只需 10.15 步即可完成任务,远少于其他领先的纯 GUI 代理所需的 15.22 步。研究人员指出,更少的步骤不仅能加快任务完成速度,还能
从实验室走向企业: 潜在的应用与挑战
这项技术拥有巨大的企业应用潜力。Salesforce 应用 AI 研究总监 RanXu 指出,客户支持、销售勘探、自动化簿记和营销活动管理等领域都是完美的用例。在这些场景中,企业需要处理有 API 和无 API 的多种工具,而 CoAct-1 能够灵活利用代码和屏幕,提供全面的自动化解决方案。
然而,将 CoAct-1 从实验室推向企业环境也面临挑战,包括应对遗留软件、确保安全性和人工监督的必要性。徐强调,需要通过在沙盒环境中训练来提高代理的适应性,并建立强大的访问控制和安全护栏,以防止恶意代码执行。最终,在可预见的未来,「人在环」(human-in-the-loop)的模式将是确保代理安全、可靠运行的关键。