Новий ШІ-агент Microsoft може керувати програмним забезпеченням і роботами

Microsoft Research представила Magma, інтегровану базову модель ШІ, яка поєднує візуальну та мовну обробку для керування програмними інтерфейсами й роботизованими системами.

Як повідомляє ArsTechnica, якщо Magma добре проявить себе і поза межами внутрішнього тестування Microsoft, це може означати значний крок уперед для універсального багатомодального ШІ, який може працювати в інтерактивному режимі як у реальному, так і в цифровому просторі.

У Microsoft стверджують, що Magma є першою моделлю штучного інтелекту, яка не лише обробляє мультимодальні дані (наприклад, текст, зображення та відео), але й може нативно діяти на них. Проєкт є результатом співпраці дослідників Microsoft, KAIST, Університету Мериленда, Університету Вісконсіна-Медісон та Університету Вашингтона.

Назва Magma розшифровується як M(ultimodal) Ag(entic) M(odel) at Microsoft (Rese)A(rch). Інші великі проєкти робототехніки на основі мовної моделі, такі як PALM-E і RT-2 від Google або ChatGPT для робототехніки від Microsoft, теж використовують LLM для інтерфейсу. Однак, на відміну від багатьох попередніх мультимодальних систем штучного інтелекту, які потребують окремих моделей для сприйняття та контролю, Magma об’єднує ці можливості у єдину базову модель.

Microsoft позиціює Magma як крок до агентського штучного інтелекту, тобто систему, яка може автономно створювати плани та виконувати багатоетапні завдання від імені людини, а не просто відповідати на запитання про те, що вона бачить.

«Враховуючи описану мету, Magma здатна формулювати плани та виконувати дії для їх досягнення. Ефективно передаючи знання з вільно доступних візуальних і мовних даних, Magma поєднує вербальний, просторовий і часовий інтелект для навігації по складних завданнях і налаштуваннях», — написала Microsoft у своїй дослідницькій статті.

Корпорація не єдина у гонитві за агентним ШІ. OpenAI експериментує з агентами штучного інтелекту за допомогою таких проєктів, як Operator, які можуть виконувати завдання інтерфейсу користувача у веббраузері, а Google досліджує кілька агентних проєктів із Gemini 2.0.

Просторовий інтелект

Magma базується на основі технології LLM на базі Transformer, яка подає навчальні токени в нейронну мережу. Цим вона відрізняється від традиційних моделей візуальної мови (наприклад, GPT-4V), адже виходить за межі того, що називають вербальним інтелектом, а також передбачає просторовий інтелект (планування та виконання дій).

Навчаючись на поєднанні зображень, відео, даних робототехніки та взаємодії інтерфейсу користувача, Microsoft стверджує, що Magma є справжнім мультимодальним агентом, а не просто моделлю сприйняття.

Модель Magma має такі технічні компоненти:

Set-of-Mark, який ідентифікує об’єкти, якими можна маніпулювати в середовищі, призначаючи цифрові мітки інтерактивним елементам, таким як кнопки, які можна натиснути в інтерфейсі користувача, або об’єкти, які можна захопити в роботизованому робочому просторі.
Trace-of-Mark, який вивчає моделі руху з відеоданих. У Microsoft кажуть, що ці функції дають можливість моделі виконувати такі завдання, як навігація по користувацькому інтерфейсу або керування роботами для захоплення предметів.

Повідомляють про покращення порівняно з попередніми моделями. У звіті Microsoft стверджує, що Magma-8B працює конкурентоспроможно в тестах, демонструючи високі результати в навігації інтерфейсом користувача та завданнях керування роботами.

Наприклад, він набрав 80,0 у тесті візуальних відповідей на запитання VQAv2. Це вище, ніж 77,2 GPT-4V, але нижче, ніж 81,8 LLaVA-Next. Його оцінка POPE 87,4 лідирує серед усіх моделей. У маніпулюванні роботами Magma перевершує OpenVLA, модель із відкритим кодом, у кількох завданнях.

Іноді до тестів штучного інтелекту ставляться з недовірою, оскільки багато з них не були науково підтверджені як здатні вимірювати корисні властивості моделей штучного інтелекту. Зовнішня перевірка результатів порівняльного тесту Microsoft стане можливою, коли інші дослідники отримають доступ до публічного випуску коду.

Як і всі моделі ШІ, Magma не ідеальна. Відповідно до документації Microsoft, вона все ще стикається з технічними обмеженнями у складному покроковому ухваленні рішень, які потребують кількох кроків. Компанія заявляє, що і далі працює над покращенням цих можливостей завдяки постійним дослідженням.

Наступного тижня Microsoft опублікує навчальний код Magma та код висновків на GitHub, що дасть змогу зовнішнім дослідникам продовжувати роботу. Якщо Magma виконає свою обіцянку, то зможе вивести помічників зі штучним інтелектом Microsoft за межі обмеженої текстової взаємодії, даючи їм можливість працювати із програмним забезпеченням автономно й виконувати реальні завдання за допомогою робототехніки.

Магма також є ознакою того, як швидко може змінитися культура навколо ШІ. Лише кілька років тому подібні агентні розмови налякали багатьох людей, які побоювалися, що це може призвести до того, що штучний інтелект захопить світ. Хоча деякі люди все ще побоюються цього, у 2025 році агенти ШІ стануть основною темою досліджень.

Читайте також на ProIT, чи купить Ілон Маск OpenAI.

Раніше ми повідомляли, що OpenAI планує стати Public Benefit Corporation.

Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!