Головна
Новини
Gemini 2.5 Computer Use: ШІ від Google тепер керує браузером замість вас

09 жовтня, 2025

2 хв

Gemini 2.5 Computer Use: ШІ від Google тепер керує браузером замість вас

Google презентувала Gemini 2.5 Computer Use — версію LLM, яка керує браузером як людина: шукає інформацію, переходить на сторінки, клікає, друкує, скролить, працює з меню, заповнює й надсилає форми.

Модель поєднує візуальне розуміння та міркування і побудована на Gemini 2.5 Pro (раніше її частини живили AI Mode і Project Mariner). Це перший публічний реліз повної моделі, повідомляє Venture Beat.

Як це працює

Кожен запит запускає ітераційний цикл:

➤ користувач надсилає інструкцію (можна додати скриншот та історію дій);

➤ модель формує function call (UI-дію: клік/ввід/скрол);

➤ клієнтський код виконує дію;

➤ у відповідь модель отримує оновлений скрін і стан сторінки;

➤ цикл триває до завершення або помилки/блокування.
Модель використовує інструмент computer_use; інтегрується через Google AI Studio, Vertex AI, а також у кастомні середовища (наприклад, Playwright).

Є демо на Browserbase (стартап-партнер Google), де можна порівнювати з OpenAI/Anthropic у Browser Arena.

Обмеження та відмінності

На відміну від OpenAI ChatGPT Agent та Anthropic Computer Use. Новинка Google працює лише в браузері (поки без OS-контролю) і нині підтримує 13 дій. Вона не має доступу до файлової системи й не створює локальні файли; структуровані результати мають збирати розробники (через код або інтеграції).

Продуктивність і latency

За даними Google/Browserbase, модель лідер у браузерних сценаріях:

• Online-Mind2Web (Browserbase): 65,7% (Gemini 2.5) vs 61,0% (Claude Sonnet 4) vs 44,3% (OpenAI Agent).

• WebVoyager (Browserbase): 79,9% vs 69,4% vs 61,0%.

• AndroidWorld (DeepMind): 69,7% (Gemini) vs 62,1% (Claude); OpenAI — н/д.

• OSWorld: поки не підтримується (топ-конкурент — 61,4%).

Також заявлена нижча затримка в керуванні браузером (Browserbase harness для Online-Mind2Web).

Безпека та контроль

• Перекрокова перевірка кожної дії перед виконанням.

• Політики на рівні системи: блок/підтвердження для ризикових дій (наприклад, покупок).

• Дотримання policy Google і уникнення небезпечних дій.

• На CAPTCHA модель запропонує клік, але попросить підтвердження користувача.

Технічні можливості

• Вбудовані дії: click_at, type_text_at, scroll_document, drag_and_drop тощо.

• Підтримка кастомних функцій (мобільні/нестандартні UI).

• Нормалізовані координати (0–1000) з трансляцією в пікселі під час виконання.

• Вхід: текст + зображення; вихід: текст або function calls.

• Рекомендована роздільність скріну: 1440×900 (працює й з іншими).

Доступність і ціни (API)

Модель доступна для розробників у Google AI Studio та Vertex AI, прайси — майже як у Gemini 2.5 Pro (потокове білінгування за токени):

1. Вхідні токени: $1,25 / 1M (<200k токенів у промпті), $2,50 / 1M (довші промпти).

2. Вихідні токени: $10 / 1M (короткі), $15 / 1M (довгі).

Відмінності:

Gemini 2.5 Pro має безкоштовний рівень (із квотами/rate-limits); Computer Use — лише платний доступ із самого початку.

У Pro доступні context caching ($0,31 / 1M токенів) і grounding із Google Search (до 1500 запитів/день безплатно, далі $35/1000) — у Computer Use поки недоступні.

Дані: у платному рівні Computer Use вихід не використовується для поліпшення продуктів Google; у безкоштовному рівні Pro — може використовуватися, якщо явно не відмовитися.

Читайте також на ProIT: Google інтегрувала ШІ-агента Jules у робочі середовища розробників.

Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!