ProIT: медіа для профі в IT
2 хв

Gemini 2.5 Computer Use: ШІ від Google тепер керує браузером замість вас

author avatar ProIT NEWS

Google презентувала Gemini 2.5 Computer Use — версію LLM, яка керує браузером як людина: шукає інформацію, переходить на сторінки, клікає, друкує, скролить, працює з меню, заповнює й надсилає форми.

Модель поєднує візуальне розуміння та міркування і побудована на Gemini 2.5 Pro (раніше її частини живили AI Mode і Project Mariner). Це перший публічний реліз повної моделі, повідомляє Venture Beat.

Як це працює

Кожен запит запускає ітераційний цикл:

користувач надсилає інструкцію (можна додати скриншот та історію дій);

модель формує function call (UI-дію: клік/ввід/скрол);

клієнтський код виконує дію;

у відповідь модель отримує оновлений скрін і стан сторінки;

цикл триває до завершення або помилки/блокування.
Модель використовує інструмент computer_use; інтегрується через Google AI Studio, Vertex AI, а також у кастомні середовища (наприклад, Playwright).

Є демо на Browserbase (стартап-партнер Google), де можна порівнювати з OpenAI/Anthropic у Browser Arena.

Обмеження та відмінності

На відміну від OpenAI ChatGPT Agent та Anthropic Computer Use. Новинка Google працює лише в браузері (поки без OS-контролю) і нині підтримує 13 дій. Вона не має доступу до файлової системи й не створює локальні файли; структуровані результати мають збирати розробники (через код або інтеграції).

Продуктивність і latency

За даними Google/Browserbase, модель лідер у браузерних сценаріях:

Online-Mind2Web (Browserbase): 65,7% (Gemini 2.5) vs 61,0% (Claude Sonnet 4) vs 44,3% (OpenAI Agent).

WebVoyager (Browserbase): 79,9% vs 69,4% vs 61,0%.

AndroidWorld (DeepMind): 69,7% (Gemini) vs 62,1% (Claude); OpenAI — н/д.

OSWorld: поки не підтримується (топ-конкурент — 61,4%).

Також заявлена нижча затримка в керуванні браузером (Browserbase harness для Online-Mind2Web).

Безпека та контроль

Перекрокова перевірка кожної дії перед виконанням.

Політики на рівні системи: блок/підтвердження для ризикових дій (наприклад, покупок).

Дотримання policy Google і уникнення небезпечних дій.

На CAPTCHA модель запропонує клік, але попросить підтвердження користувача.

Технічні можливості

Вбудовані дії: click_at, type_text_at, scroll_document, drag_and_drop тощо.

Підтримка кастомних функцій (мобільні/нестандартні UI).

Нормалізовані координати (0–1000) з трансляцією в пікселі під час виконання.

Вхід: текст + зображення; вихід: текст або function calls.

Рекомендована роздільність скріну: 1440×900 (працює й з іншими).

Доступність і ціни (API)

Модель доступна для розробників у Google AI Studio та Vertex AI, прайси — майже як у Gemini 2.5 Pro (потокове білінгування за токени):

1. Вхідні токени: $1,25 / 1M (<200k токенів у промпті), $2,50 / 1M (довші промпти).

2. Вихідні токени: $10 / 1M (короткі), $15 / 1M (довгі).

Відмінності:

Gemini 2.5 Pro має безкоштовний рівень (із квотами/rate-limits); Computer Use — лише платний доступ із самого початку.

У Pro доступні context caching ($0,31 / 1M токенів) і grounding із Google Search (до 1500 запитів/день безплатно, далі $35/1000) — у Computer Use поки недоступні.

Дані: у платному рівні Computer Use вихід не використовується для поліпшення продуктів Google; у безкоштовному рівні Pro — може використовуватися, якщо явно не відмовитися.

Читайте також на ProIT: Google інтегрувала ШІ-агента Jules у робочі середовища розробників.

Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!

Приєднатися до company logo
Продовжуючи, ти погоджуєшся з умовами Публічної оферти та Політикою конфіденційності.