炒股配资178论坛网
Google推出Gemini 2.5 Computer Use模型,以Gemini 2.5 Pro的视觉理解和推理能力为基础所开发的专用模型,可支持代理程序在原本为人类设计的网络界面上进行操作,目前通过Gemini API提供预览版本。
尽管AI模型可以通过结构化API与软件互动、完成指令,但许多任务仍需要与图形用户界面互动,例如填写表单并送出。要完成这样的任务,代理程序必须像人类一样浏览网站或应用程序,过程中有点击、输入等动作。对于打造强大且通用的代理程序而言,能够做到填写表单、操作下拉菜单与筛选器等互动元素,并在需要身份登录的情况下进行操作,是关键的一步。
于是Gemini 2.5 Computer Use模型为此而生,它的核心能力通过Gemini API添加的“computer_use”工具公开,并在一个循环内运行,该工具的输入在于用户请求、环境的截屏以及近期操作的历史记录。这款模型可用于网络界面测试,或在无API或其他直接连接的情况下操作仅供人类使用的网络界面。
Gemini 2.5 Computer Use模型运行流程。
Google示范视频展示“computer_use”工具的运行,并强调视频播放是快转3倍。
Gemini 2.5 Computer Use模型推出时间点恰好碰上OpenAI开发者大会,而OpenAI已打造一套自主代理系统ChatGPT Agent,另一竞争对手Anthropic去年已发布具备computer use功能的Claude模型版本,看来都走上开发通用代理程序的必经之路。
但与OpenAI、Anthropic做法不同的是,Google的Gemini 2.5 Computer Use模型只能访问浏览器,而非整个计算机使用环境。Google指出这款模型目前尚未优化至桌面操作系统层级的控制,仅支持13种浏览器操作,包括打开浏览器、输入文本等。Google还强调,这款模型在多项Web和行动控制的基准测试展现强大性能。
(图片来源:Google Blog)炒股配资178论坛网
倍加网配资提示:文章来自网络,不代表本站观点。