Google презентувала Gemini 2.5 Computer Use — версію LLM, яка керує браузером як людина: шукає інформацію, переходить на сторінки, клікає, друкує, скролить, працює з меню, заповнює й надсилає форми.
Модель поєднує візуальне розуміння та міркування і побудована на Gemini 2.5 Pro (раніше її частини живили AI Mode і Project Mariner). Це перший публічний реліз повної моделі, повідомляє Venture Beat.
Як це працює
Кожен запит запускає ітераційний цикл:
➤ користувач надсилає інструкцію (можна додати скриншот та історію дій);
➤ модель формує function call (UI-дію: клік/ввід/скрол);
➤ клієнтський код виконує дію;
➤ у відповідь модель отримує оновлений скрін і стан сторінки;
➤ цикл триває до завершення або помилки/блокування.
Модель використовує інструмент computer_use; інтегрується через Google AI Studio, Vertex AI, а також у кастомні середовища (наприклад, Playwright).
Є демо на Browserbase (стартап-партнер Google), де можна порівнювати з OpenAI/Anthropic у Browser Arena.
Обмеження та відмінності
На відміну від OpenAI ChatGPT Agent та Anthropic Computer Use. Новинка Google працює лише в браузері (поки без OS-контролю) і нині підтримує 13 дій. Вона не має доступу до файлової системи й не створює локальні файли; структуровані результати мають збирати розробники (через код або інтеграції).
Продуктивність і latency
За даними Google/Browserbase, модель лідер у браузерних сценаріях:
• Online-Mind2Web (Browserbase): 65,7% (Gemini 2.5) vs 61,0% (Claude Sonnet 4) vs 44,3% (OpenAI Agent).
• WebVoyager (Browserbase): 79,9% vs 69,4% vs 61,0%.
• AndroidWorld (DeepMind): 69,7% (Gemini) vs 62,1% (Claude); OpenAI — н/д.
• OSWorld: поки не підтримується (топ-конкурент — 61,4%).
Також заявлена нижча затримка в керуванні браузером (Browserbase harness для Online-Mind2Web).
Безпека та контроль
• Перекрокова перевірка кожної дії перед виконанням.
• Політики на рівні системи: блок/підтвердження для ризикових дій (наприклад, покупок).
• Дотримання policy Google і уникнення небезпечних дій.
• На CAPTCHA модель запропонує клік, але попросить підтвердження користувача.
Технічні можливості
• Вбудовані дії: click_at, type_text_at, scroll_document, drag_and_drop тощо.
• Підтримка кастомних функцій (мобільні/нестандартні UI).
• Нормалізовані координати (0–1000) з трансляцією в пікселі під час виконання.
• Вхід: текст + зображення; вихід: текст або function calls.
• Рекомендована роздільність скріну: 1440×900 (працює й з іншими).
Доступність і ціни (API)
Модель доступна для розробників у Google AI Studio та Vertex AI, прайси — майже як у Gemini 2.5 Pro (потокове білінгування за токени):
1. Вхідні токени: $1,25 / 1M (<200k токенів у промпті), $2,50 / 1M (довші промпти).
2. Вихідні токени: $10 / 1M (короткі), $15 / 1M (довгі).
Відмінності:
Gemini 2.5 Pro має безкоштовний рівень (із квотами/rate-limits); Computer Use — лише платний доступ із самого початку.
У Pro доступні context caching ($0,31 / 1M токенів) і grounding із Google Search (до 1500 запитів/день безплатно, далі $35/1000) — у Computer Use поки недоступні.
Дані: у платному рівні Computer Use вихід не використовується для поліпшення продуктів Google; у безкоштовному рівні Pro — може використовуватися, якщо явно не відмовитися.
Читайте також на ProIT: Google інтегрувала ШІ-агента Jules у робочі середовища розробників.
Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!