Google DeepMind анонсувала появу Robotic Transformer 2 (RT-2) – «першої у своєму роді» моделі ШІ vision-language-action (VLA), яка використовує дані, зібрані з Інтернету, щоб керувати роботом за допомогою простих команд.
Кінцева мета – створити роботів, які зможуть існувати серед людей, як відомі персонажі з фільмів WALL-E або C-3PO, повідомляє Ars Technica.
Robotic Transformer 2 використовує велику мовну модель (технологію ChatGPT), яка була навчена на тексті й зображеннях, знайдених в Інтернеті. RT-2 використовує цю інформацію для розпізнавання шаблонів і виконання дій, навіть якщо робот не був спеціально навчений виконувати ці завдання. Наприклад, RT-2 може дозволити роботу розпізнавати та викидати сміття за допомогою розуміння того, що таке сміття і як його зазвичай утилізують.
З RT-2 Google DeepMind прийняв стратегію, яка використовує сильні сторони трансформаторних моделей ШІ, відомих своєю здатністю узагальнювати інформацію.
Для RT-2 використано досвід створення роботів зі штучним інтелектом у Google: моделі Pathways Language and Image (PaLI-X) та Pathways Language model Embodied (PaLM-E). Крім того, Robotic Transformer 2 пройшов спільне навчання на даних своєї попередньої моделі (RT-1).
Архітектура RT-2 передбачає тонке налаштування попередньо навченої моделі VLM на вебданих. Отримана модель обробляє зображення з камери робота й передбачає дії, які він повинен виконати.
Оскільки RT-2 використовує мовну модель для обробки інформації, компанія Google вирішила представити дії у вигляді токенів, які традиційно є фрагментами слова.
«Щоб керувати роботом, його потрібно навчити виводити дії, – повідомляють у компанії. – Ми вирішуємо цю проблему, представляючи дії у вигляді токенів у вихідних даних моделі подібно до мовних токенів. Описуємо дії як рядки, які можуть бути оброблені стандартними токенізаторами для обробки природної мови».
Розробляючи Robotic Transformer 2, дослідники використовували той самий метод розбиття дій робота на більш дрібні частини, як і з першою версією робота, RT-1. Фахівці виявили, що, перетворивши ці дії на серію символів або кодів («рядкове» представлення), вони можуть навчити робота нових навичок, використовуючи такі самі моделі навчання, як і під час обробки вебданих.
Крім того, модель використовує ланцюжок думок, що дає змогу виконувати багатоетапні міркування, наприклад вибір альтернативного інструменту (камінь як імпровізований молоток) або найкращого напою для втомленої людини (енергетичний напій).
У Google стверджують, що під час понад 6 тисяч випробувань було встановлено, що RT-2 справляється так само добре, як і його попередник, RT-1, у виконанні завдань, яким його навчали та які називаються «видимими» завданнями. Після тестування з новими «невидимими» сценаріями RT-2 майже подвоїв свою продуктивність до 62% порівняно з 32% RT-1.
Хоча RT-2 демонструє чудову здатність адаптувати отримані знання до нових ситуацій, він не ідеальний. У розділі «Обмеження» технічної документації Robotic Transformer 2 дослідники визнають, що хоча включення вебданих у навчальний матеріал «посилює узагальнення семантичних та візуальних концепцій», але це не надає роботу нових можливостей виконувати фізичні рухи, яким він не був фізично навчений і не практикував раніше. Проте робот починає краще використовувати по-новому дії, які вже знає.
Хоча кінцевою метою Google DeepMind є створення роботів загального призначення, у компанії визнають, що попереду багато дослідницької роботи. Але така технологія, як RT-2, здається сильним кроком у цьому напрямі.
Нещодавно ми повідомляли, що робот-диригент дебютував із національним оркестром у Сеулі.