ProIT: медіа для профі в IT
2 хв

Наступний етап ШІ: як world models переносять ШІ у фізичний світ

author avatar ProIT NEWS

Після буму великих мовних моделей (LLM) та агентних систем наступним етапом розвитку генеративного ШІ стають так звані world models або video language models. Ці моделі мають на меті перенести можливості ШІ з цифрового середовища у фізичний світ і навчити системи не лише генерувати текст чи код, а й розуміти, передбачати та планувати дії у реальному середовищі.

World models розробляють для того, щоб допомогти ШІ-системам і роботам розуміти навколишнє середовище, відстежувати та запам’ятовувати об’єкти, а також прогнозувати наслідки дій і планувати подальші кроки. На відміну від класичних великих мовних моделей, які працюють переважно з текстом і зображеннями, ці системи повинні враховувати простір, фізичні закони та причинно-наслідкові зв’язки.

За словами представників індустрії, відмінність world models полягає в тому, що модель має розуміти не лише наступний крок у послідовності даних, а й те, що фізично можливе у реальному світі. Такі моделі здатні імітувати розвиток подій, створюючи короткі відеосимуляції можливих сценаріїв, на основі яких система обирає оптимальну дію.

Окрім робототехніки, world models можуть використовуватися для симуляції реальних процесів у промисловості, автономному транспорті та навчанні персоналу. Зокрема їх можна застосовувати для моделювання виробничих ліній, перевірки сценаріїв безпеки для автономних автомобілів або тренування роботів у віртуальному середовищі перед роботою з людьми.

Розробленням world models займаються великі технологічні компанії та дослідницькі центри. NVIDIA розвиває власну модель Cosmos, а Google DeepMind працює над системою Genie 3. Такі моделі поєднують обробку відео, сенсорних даних і мовних команд, щоб інтерпретувати ситуації та виконувати складні дії у фізичному просторі.

Для роботи world models використовують дані з камер і сенсорів, які передають інформацію про навколишнє середовище. Моделі аналізують тривимірну геометрію сцени та фізичні параметри, зокрема гравітацію, тертя і зіткнення, що дає можливість точніше прогнозувати результати взаємодії з об’єктами.

Водночас дослідники зазначають, що ці моделі стикаються з тими ж проблемами, що й інші генеративні системи, зокрема з галюцинаціями та втратою узгодженості. У фізичному світі такі помилки можуть призводити до реальних ризиків, тому значна частина досліджень зосереджена на підвищенні безпеки та надійності симуляцій.

Одним із прикладів нових підходів є модель PAN, створена дослідниками з Mohamed bin Zayed University of Artificial Intelligence. Вона дає можливість роботам проводити мисленнєві експерименти у контрольованому середовищі, перевіряючи різні послідовності дій перед виконанням у реальному світі.

Очікується, що розвиток world models стане основою для подальшого масштабування фізичного ШІ та створення систем, здатних працювати разом із людьми у реальному середовищі. Індустрія розглядає ці моделі як наступний етап еволюції штучного інтелекту після LLM та агентних систем.

Читайте також на ProIT про п’ять найінноваційніших технологічних продуктів 2025 року.

Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!

Приєднатися до company logo
Продовжуючи, ти погоджуєшся з умовами Публічної оферти та Політикою конфіденційності.