Дослідники Google DeepMind оголосили про запуск двох нових моделей у межах проєкту Gemini Robotics, які працюють разом і створюють перших роботів, здатних думати перед дією. Це може стати початком ери агентних роботів, повідомляє Ars Technica.
Від спеціалізованих до універсальних
Сьогодні роботи здебільшого «вузькі»: їх довго навчають конкретному завданню, і вони погано справляються з будь-чим іншим.
«Сучасні роботи дуже спеціалізовані та складні у впровадженні. Часто потрібно кілька місяців, щоб встановити одну клітинку для виконання одного завдання», — пояснила Кароліна Парада, керівниця напряму робототехніки в Google DeepMind.
Генеративні ШІ-моделі змінюють цю парадигму: вони здатні адаптуватися до нових середовищ без перепрограмування.
Дві моделі: та, що думає, і та, що діє
• Gemini Robotics-ER 1.5 (Embodied Reasoning) — модель мислення, яка аналізує текст і зображення та генерує покрокові інструкції для виконання складного завдання. Вона може підключати інструменти на кшталт Google Search, щоб отримати додаткові дані.
• Gemini Robotics 1.5 — модель дії, яка бере ці інструкції та перетворює їх на фізичні рухи робота, використовуючи візуальний зворотний зв’язок і власні інтуїтивні міркування.
«У людей є інтуїтивні думки, які допомагають виконувати завдання, а у роботів такого немає. Одним із великих проривів у VLA стало те, що 1.5 здатна думати перед тим, як діяти», — зазначив інженер DeepMind Канішка Рао.
Приклад роботи
Якщо потрібно розсортувати білизну:
• ER-модель аналізує фото низки речей і запит користувача, формує покрокові інструкції природною мовою.
• Action-модель виконує ці інструкції, керуючи рухами робота.
Обидві моделі створені на основі фундаментальних Gemini й донавчені для роботи у фізичному середовищі. Це дає можливість виконувати багатоступеневі завдання та переносити навички між різними роботами, наприклад, від дворукого Aloha 2 до складніших маніпуляторів у гуманоїда Apollo, без додаткового тюнінгу.
Доступність
• Gemini Robotics 1.5 (модель дій) поки доступна лише обмеженому колу тестувальників.
• Gemini Robotics-ER 1.5 (модель мислення) вже з’являється в Google AI Studio, де розробники можуть створювати інструкції для власних експериментів із фізично втіленими роботами.
Перспектива
Попри прогрес, ми ще далекі від побутових роботів, які зможуть виконувати завдання на кшталт прання білизни за запитом. Але вперше роботи отримали можливість обмірковувати кроки перед дією, що відкриває шлях до створення справді універсальних агентних систем.
Читайте також на ProIT: Інструменти GenAI виявляють інстинкти самозбереження: шантажують, копіюють себе й уникають вимкнення.