Google фактично змінює базову модель взаємодії з LLM, і це може стати однією з найважливіших інфраструктурних подій для AI-розробників за останні роки. Запуск Interactions API у публічній бета-версії означає відхід від «stateless»-парадигми, де кожен запит до моделі є ізольованою транзакцією, і перехід до підходу, в якому модель працює як довготривала система з власним станом, пам’яттю та фоновим виконанням.
Упродовж двох років ключовою одиницею генеративного ШІ залишався completion: розробник надсилає запит, модель повертає відповідь, і на цьому взаємодія завершується. Якщо потрібно продовжити діалог або виконати складніший сценарій, уся історія контексту знову передається моделi. Така архітектура добре працювала для чат-ботів, але стала вузьким місцем у момент, коли індустрія почала переходити до агентів — систем, здатних користуватися інструментами, виконувати багатокрокові задачі та «мислити» в довгих часових горизонтах.
Interactions API вирішує цю проблему на інфраструктурному рівні. Ключова інновація — серверний стан за замовчуванням. Замість того щоб постійно передавати розширений JSON із усією історією взаємодії, розробник працює з previous_interaction_id. Уся історія діалогу, виклики інструментів і проміжні міркування зберігаються на стороні Google. Фактично LLM починає поводитися не як функція «текст → текст», а як віддалена обчислювальна система.
Цей підхід відкриває можливість фонового виконання — критичної функції для агентних сценаріїв. Довгі задачі на кшталт глибокого дослідження теми, аналізу десятків джерел або складного планування більше не впираються в HTTP-тайм-аути. Розробник може запустити агент із параметром background=true, від’єднатися та пізніше опитати API щодо результату. По суті, Google перетворює Interactions API на чергу завдань для «обчислювального інтелекту».
Саме на цій інфраструктурі Google запускає свого першого вбудованого агента — Gemini Deep Research. На відміну від класичних моделей, які просто передбачають наступний токен, цей агент працює як цикл: він шукає інформацію, читає джерела, синтезує висновки й лише потім формує відповідь. Це вже не чат, а автоматизований дослідник, який може працювати протягом тривалого часу без втручання користувача.
Важливий сигнал для екосистеми — підтримка Model Context Protocol (MCP). Завдяки цьому Gemini може напряму викликати зовнішні сервіси та інструменти, розміщені на віддалених серверах, без необхідності писати проміжний код для обробки викликів. Це означає, що Google рухається у бік відкритої агентної екосистеми, де моделі інтегруються з реальними системами — базами даних, API, сервісами — майже без «клею».
У ширшому контексті Google наздоганяє OpenAI, яка ще у березні 2025 року запустила Responses API і першою відійшла від stateless-підходу. Водночас філософії компаній суттєво різняться. OpenAI робить ставку на агресивну компресію контексту: історія взаємодій стискається та замінюється непрозорими «compaction items», що знижує витрати на токени, але перетворює минулі міркування моделі на чорну скриньку. Google, навпаки, зберігає повну історію взаємодії та дозволяє її аналізувати, налагоджувати й комбінувати, жертвуючи частиною оптимізації заради прозорості.
Interactions API вже доступний у Google AI Studio і підтримує лінійку актуальних моделей Gemini, включно з Gemini 3 Pro Preview та Gemini 2.5 Flash і Pro. Комерційна модель оплати залишається токенною, але через серверний стан з’являється неявне кешування. Оскільки контекст зберігається на стороні Google, розробники не платять за повторне надсилання великих історій взаємодії, що може суттєво знизити вартість production-систем.
Втім, цей підхід має і зворотний бік. Дані взаємодій зберігаються на серверах Google: для безкоштовного рівня — протягом одного дня, для платного — до 55 днів. Це покращує продуктивність і зменшує витрати, але створює ризики з точки зору комплаєнсу, управління даними та політик конфіденційності. На відміну від Zero Data Retention у корпоративних пропозиціях OpenAI, тут розробникам доведеться самостійно вирішувати, чи прийнятний такий компроміс.
Експерти також звертають увагу на сирість окремих деталей. Зокрема, у Deep Research агенті джерела часто повертаються у вигляді внутрішніх Google-редиректів, а не «чистих» URL, що ускладнює використання цитат у звітах і документах. Це дрібниця на фоні архітектурних змін, але важлива для практичного застосування.
У підсумку Interactions API — це не просто новий endpoint. Це сигнал, що великі мовні моделі остаточно виходять за межі чатів і стають довготривалими системами, здатними працювати автономно, з пам’яттю, інструментами й фоновим виконанням. Для команд, які будують агентів, це означає простішу архітектуру, нижчі витрати та новий рівень складності — і відповідальності.
Читайте на ProIT: OpenAI, Google, китайські моделі та малі LLM: як змінився ШІ у 2025 році.
Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!