炒股配资178论坛网 Google新模型发布，AI模仿人类使用浏览器、填写表单

炒股配资178论坛网

Google推出Gemini 2.5 Computer Use模型，以Gemini 2.5 Pro的视觉理解和推理能力为基础所开发的专用模型，可支持代理程序在原本为人类设计的网络界面上进行操作，目前通过Gemini API提供预览版本。

尽管AI模型可以通过结构化API与软件互动、完成指令，但许多任务仍需要与图形用户界面互动，例如填写表单并送出。要完成这样的任务，代理程序必须像人类一样浏览网站或应用程序，过程中有点击、输入等动作。对于打造强大且通用的代理程序而言，能够做到填写表单、操作下拉菜单与筛选器等互动元素，并在需要身份登录的情况下进行操作，是关键的一步。

于是Gemini 2.5 Computer Use模型为此而生，它的核心能力通过Gemini API添加的“computer_use”工具公开，并在一个循环内运行，该工具的输入在于用户请求、环境的截屏以及近期操作的历史记录。这款模型可用于网络界面测试，或在无API或其他直接连接的情况下操作仅供人类使用的网络界面。

Gemini 2.5 Computer Use模型运行流程。

Google示范视频展示“computer_use”工具的运行，并强调视频播放是快转3倍。

Gemini 2.5 Computer Use模型推出时间点恰好碰上OpenAI开发者大会，而OpenAI已打造一套自主代理系统ChatGPT Agent，另一竞争对手Anthropic去年已发布具备computer use功能的Claude模型版本，看来都走上开发通用代理程序的必经之路。

但与OpenAI、Anthropic做法不同的是，Google的Gemini 2.5 Computer Use模型只能访问浏览器，而非整个计算机使用环境。Google指出这款模型目前尚未优化至桌面操作系统层级的控制，仅支持13种浏览器操作，包括打开浏览器、输入文本等。Google还强调，这款模型在多项Web和行动控制的基准测试展现强大性能。

（图片来源：Google Blog）炒股配资178论坛网

倍加网配资提示：文章来自网络，不代表本站观点。