Вечір пʼятниці: GPT-4 може грати в Doom і стріляти в демонів... і людей

Адріан де Вінтер, провідний прикладний науковий співробітник Microsoft і дослідник Йоркського університету в Англії, вирішив протестувати GPT-4, запустивши Doom без попереднього навчання, повідомляє The Register.

За результатами було зроблено такий висновок: GPT-4 може грати в Doom із певним ступенем ефективності без попереднього навчання, хоча для налаштування потрібен інтерфейс GPT-4V, а також Matplotlib і Python, щоб уможливити введення штучного інтелекту.

На жаль, GPT-4 не має можливості безпосередньо виконувати вихідний код Doom. Але його мультимодальний варіант, GPT-4V, який може приймати як вхідні зображення, так і текст, демонструє таку ж компетентність у грі в Doom, за словами де Вінтера, як і наповнені помилками текстові моделі ШІ.

«Згідно з документом, GPT-4 (і його візуальна модифікація GPT-4V) не може справді запускати Doom самостійно через обмеження розміру вхідних даних. Крім того, модель може генерувати некоректні дані і вигадувати інформацію. Ви справді не хочете, щоб ваш компілятор кожні 5 хвилин галюцинував. Тим не менш, він точно може діяти як проксі-сервер для двигуна, аналогічно до таких реалізацій, як E. Coli або Notepad», – написав де Вінтер у пояснювальній записці до своєї статті.

Тобто GPT-4V не запускатиме Doom, але він гратиме в Doom без спеціального навчання. Щоб керувати цим, де Вінтер розробив компонент Vision, який робить скріншоти з ігрового движка та повертає структурні описи стану гри.

Потім дослідник поєднав цей компонент із моделлю Agent, яка використовує GPT-4 для ухвалення рішень на основі візуальних даних та попередньої історії гри. Модель Agent перекладала свої відповіді в команди для клавіатури, зрозумілі для ігрового движка.

Взаємодії обробляються через шар Manager, який складається із привʼязки відкритого коду Python до двигуна C Doom, який працює на Matplotlib.

Ця суміш моделей ШІ та коду може відкривати двері, битися з ворогами й стріляти зі зброї. Основні функції ігрового процесу, включно з навігацією по світу, є майже всі. Однак ШІ не має розуміння постійності об’єкта – як тільки ворог виходить за межі кадру, ШІ цього не усвідомлює.

«Наприклад, модель має побачити зомбі на екрані та почати стріляти в нього, доки або не влучить у зомбі, або не помре. Це ШІ, створений для роботи з апаратним забезпеченням 1993 року, тож я припускаю, що у нього немає надглибокого дерева рішень. У чому тут проблема? Ну, по-перше, зомбі зникає з поля зору. Більш того, він все ще живий і колись вдарить вас. Отже, ви повинні йти за ним, чи не так? Зрештою, це правила Doom. Виявилося, що GPT-4 забуває про зомбі й просто продовжує грати», – пояснив де Вінтер.

Крім того, GPT-4 не може розмірковувати. Коли ШІ просили пояснити його дії, які загалом були правильними, його пояснення були поганими й часто включали неправильну інформацію.

Тим не менш де Вінтер вважає дивовижним те, що GPT-4 здатний грати в Doom без попереднього навчання.

Водночас дослідник вважає це тривожним.

«У відділі етики викликає занепокоєння те, наскільки легко було мені створити код, щоб змусити модель стріляти, і наскільки ця модель змогла точно виконувати певні дії, не розуміючи інструкцій. Тож, незважаючи на те, що це дуже цікаве дослідження, яке можна застосовувати в автоматизованому тестуванні відеоігор, цілком очевидно, що ця модель не усвідомлює, що вона робить. Я наполегливо закликаю всіх подумати про те, що розгортання цих моделей може значити для суспільства, і про потенційні зловживання», – зазначив він.

Читайте також на ProIT про номінантів BAFTA Games Awards: хто у лідерах.

Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!