ProIT: медіа для профі в IT
11 хв

Вирішення проблеми ARC-AGI агентами ШІ

author avatar Олександр Книга
Solution Architect в WebLab Technology

Давайте на хвилинку замислимося над процесом навчання водінню. Кожен із нас може навчитися базовим принципи керування автомобілем, побачивши лише кілька демонстрацій. Як тільки ми освоюємо такі концепти, як кермування, прискорення та гальмування, ми можемо застосовувати ці навички до будь-якого автомобіля — від компактного седана до великої вантажівки. Завдяки цим навичкам ми також можемо швидко адаптуватися до різних дорожніх умов, погоди та транспортних ситуацій, навіть якщо раніше ми з ними не стикалися.

Сучасному ШІ знадобляться тисячі годин тренувальних даних для кожного конкретного автомобіля та умов. Натомість загальний штучний інтелект (AGI) зможе зрозуміти фундаментальні принципи водіння і застосовувати їх у широкому спектрі ситуацій.

AGI ставить за мету створення систем ШІ, які здатні справді узагальнювати знання та навички — засвоювати основні принципи, які можна застосовувати в абсолютно нових ситуаціях. Наприклад, керування автомобілем, гра в шахи, го чи Minecraft. Це помітно відрізняється від сьогоденних систем ШІ, включаючи великі мовні моделі (LLM), які здебільшого працюють через складне розпізнавання шаблонів у величезних тренувальних наборах даних.

Хоча сучасні великі мовні моделі (LLM) можуть вести, на перший погляд, інтелектуальні розмови та розв’язувати складні завдання, вони по суті працюють шляхом розпізнавання та комбінування шаблонів, які зустрічалися їм під час навчального процесу. Це швидше нагадує надзвичайно поглиблене запам’ятовування і статистичну кореляцію, ніж справжнє розуміння та узагальнення, оскільки таким чином вони не створюють справжніх причинно-наслідкових моделей чи абстрактних уявлень про світ. Коли здається, що вони здатні до узагальнення, насправді вони зазвичай просто знаходять тонкі статистичні закономірності у своїх тренувальних даних, а не розуміють глибші принципи.

Чому ARC (Abstraction and Reasoning Corpus) є важливим?

ARC вирішує критичну проблему вимірювання в дослідженнях ШІ — як ми можемо перевірити, чи здатна система ШІ до узагальнення?

Традиційні бенчмарки зазвичай вимірюють продуктивність виконання конкретних завдань із використанням великих тренувальних наборів даних, але високі результати в таких тестах не обов’язково свідчать про справжню здатність до узагальнення. ШІ може демонструвати гарні результати, просто запам’ятовуючи шаблони з тренувальних даних, а не розвиваючи справжнє розуміння.

Як пише Ф. Шолле: «Наскільки нам відомо, ARC неможливо виконати будь-якою наявною технікою машинного навчання, включно з deep learning».

Основні труднощі такі:

  • Очікуваний результат — це не мітка чи набір міток, а кольорова сітка розміром до 30×30 клітинок із використанням до 10 різних кольорів. Таким чином, це завдання належить до області структурованого прогнозування.
  • Прогнозований результат має повністю відповідати очікуваному. Якщо хоча б одна клітинка не збігається, завдання вважається проваленим. Через це на кожну вхідну сітку (input grid) дається три спроби.
  • У кожному завданні зазвичай є від двох до чотирьох навчальних прикладів (вхідна сітка (input grid) + вихідна сітка (output grid) і один або два тестові приклади, для яких потрібно зробити прогноз.
  • Кожне завдання ґрунтується на унікальному перетворенні вхідної сітки у вихідну. Зокрема, неможливо виконати жодне з тестових завдань шляхом повторного використання перетворення, вивченого на навчальних завданнях. Насправді кожне завдання є окремою проблемою навчання, а ARC оцінює саме здатність до широкого узагальнення та навчання на кількох прикладах (few-shot learning).

ARC пропонує більш суворий тест на узагальнення, подаючи кожну задачу лише з 3–5 прикладами (тільки few-shot). Такий мінімальний обсяг тренувальних даних означає, що ШІ не може покладатися на масштабне зіставлення шаблонів (pattern matching). Він має виділяти основні принципи та застосовувати їх у нових ситуаціях, як це роблять люди. Задачі також навмисно розроблені так, щоб уникнути спрощених рішень або стратегій запам’ятовування.

ARC особливо цінний тим, що дає можливість кількісно оцінити здатність до узагальнення. Замість дискусій про те, чи ШІ розуміє у філософському сенсі цього слова, можна виміряти його реальні результати з допомогою цих ретельно розроблених завданнях на мислення. Це надає дослідникам чіткий показник прогресу загального штучного інтелекту.

Якщо ви хочете дізнатися більше про бенчмарк ARC і його роль у розвитку ШІ, ось відео, з якого варто почати:

Методи вирішення ARC

1. Brute force

У 2020 році змагання Kaggle продемонструвало один із перших методів розв’язання ARC — повний перебір у просторі попередньо визначених перетворень. Переможці створили предметно-орієнтовану мову програмування (DSL), яка охоплювала 142 операції з сітками, розроблені вручну. Систематичний пошук комбінацій цих операцій забезпечив точність у 20% на закритих тестових завданнях. Інше подібне рішення, яке використовувало граматичну еволюцію (grammatical evolution) для пошуку перетворень, досягло точності 3–7,68%.

Попри початковий успіх, ці методи підкреслили ключове обмеження: вони спиралися на вичерпний пошук запрограмованих правил, а не на формуванні справжнього розуміння чи здатності до узагальнення. Саме ця прогалина між програмним пошуком і справжнім інтелектом демонструє, чому ARC залишається складним стандартом вимірювання здатності до узагальнення.

2. Принцип мінімальної довжини опису (MDL)

Поточний підхід ґрунтується на фундаментальному принципі, який використовується для виявлення шаблонів і створення моделей, що найбільш стисло та ефективно пояснюють дані. Основна ідея MDL полягає в тому, що найкраща модель для будь-яких даних — це та, яка дає можливість максимально їх стиснути.

Цей метод використовує спеціалізовану мову моделювання для ефективного опису шаблонів сіток. Ця мова забезпечує структурований спосіб подавання як вхідних, так і вихідних сіток у вигляді комбінацій базових елементів.

На найвищому рівні кожна задача представлена у вигляді пари та містить дві сітки:

  • Вхідна сітка (in).
  • Вихідна сітка (out).

Кожна сітка визначається трьома компонентами:

  1. Вектором розміру (визначає висоту та ширину).
  2. Фоновим кольором.
  3. Списком шарів, що містять об’єкти.

Об'єкти є розміщеними фігурами, причому кожна з них може бути:

  • Крапкою одного кольору.
  • Прямокутником із заданим розміром, кольором і маскою.

Система маскування є особливо ефективною, оскільки вона дає можливість прямокутникам набувати різних форм:

  • Повноцінний (суцільний прямокутник).
  • Контур (лише обрис).
  • Шаховий візерунок (парні або непарні клітинки).
  • Перехресні візерунки (знаки плюса або множення).
  • Нестандартні bitmap візерунки.

Ця мова дає можливість системі стисло описувати складні шаблони сіток. Наприклад, замість того, щоб зберігати сітку 10x10 піксель за пікселем (100 значень), її можна зберегти як чорний фон із червоним прямокутником 3x3 з розташуванням (2,2), використовуючи значно менше значень, але зберігаючи основну структуру.

Під час пошуку шаблонів система намагається знайти найбільш стислий опис як вхідних, так і вихідних сіток за допомогою цієї мови. Хороші рішення зазвичай повторно використовують елементи між вхідними та вихідними сітками (наприклад, взяти фігуру з вхідної сітки та перетворити її в вихідній), що призводить до коротших описів і кращого стиснення.

Цей підхід показав хороший результат (розв’язання 94 із 400 завдань), що свідчить про те, що ця мова вловлює багато шаблонів ARC задач, але залишається достатньо обмеженою та уникає перенавчання конкретних прикладів.

3. Прогнозування безпосередніх результатів базових LLM

Хоча великі мовні моделі (LLM) продемонстрували дивовижні можливості в різних галузях, їхнє пряме використання для вирішення ARC має як переваги, так і певні складнощі. Прямолінійний підхід полягає в тому, щоб надати LLM приклади вхідних і вихідних даних і попросити його передбачити відповідь для нових вхідних даних. Однак у цього методу є суттєві обмеження. Моделі LLM демонструють дуже обмежені можливості просторового мислення в цьому контексті та намагаючись передбачити перетворення сіток, є схильними до галюцинацій.

4. Chain-of-Thought (CoT) and Thinking LLMs

Цей підхід базується на методі прямого прогнозування, спочатку доручаючи LLM проаналізувати та описати шаблони, які вона спостерігає у парах вхідних і вихідних даних. Попри те, що цей додатковий етап мислення дозволяє LLM краще проаналізувати проблему, він все ж має ті самі фундаментальні обмеження. Модель усе ще схильна до високого рівня галюцинацій при спробі прогнозувати кінцеві результати, навіть після виявлення потенційних шаблонів. Це вказує на те, що додавання точних мисленнєвих кроків недостатньо, щоб подолати обмеження просторового мислення LLM під час розв’язання задач ARC.

Агенти ШІ та їхня роль в AGI

У WLTech.AI ми розуміємо важливість агентів штучного інтелекту у досягненні AGI. Ці агенти розроблені для динамічної взаємодії з оточенням, адаптації на основі отриманих знань і самостійного навчання. На відміну від статичних моделей, які здатні тренуватися лише один раз, агенти ШІ можуть навчатися через безперервну взаємодію та адаптуватися до змін, що робить їх незамінними в розвитку AGI.

Агенти ШІ виконують роль мозку операції, координуючи різноманітні техніки, що адаптуються до вимог конкретного завдання. Символьні системи чудово підходять для точного, правило-орієнтованого мислення, що робить їх ідеальними для завдань, які вимагають розуміння перетворень, таких як обертання чи відображення. Нейронні мережі відмінно розпізнають шаблони та можуть узагальнювати дані, а це надзвичайно корисно для виявлення основних структур у завданнях ARC.

Однак труднощі ARC не обмежуються лише символьними маніпуляціями або розпізнаванням шаблонів. Для вирішення багатьох завдань потрібен глибший рівень абстракції, включно зі здатністю створювати нові правила, знаходити зв’язки й адаптуватися до нових ситуацій. Тут на допомогу приходять мовні моделі, оскільки їх можна використовувати для таких завдань, як синтез програм та абстрактне мислення.

Алгоритми пошуку — це ще один інструмент у наборі, оскільки вони можуть ефективно досліджувати можливі перетворення для знаходження рішень. З іншого боку, системи планування надають структуру, яка дає можливість розбивати складні задачі на частини та вирішувати їх крок за кроком.

Здатність агентів ШІ об’єднувати всі ці різні підходи робить їх надзвичайно розумними. Вони не використовують лише один метод за раз. Натомість вони оцінюють і застосовують найкращу комбінацію технік для розв’язання унікальної проблеми. Здатність до моментальної адаптації є тим, що вирізняє людей, і водночас є важливим кроком на шляху до розвитку AGI.

Агенти ШІ — це по суті інтелектуальні координатори. Вони фіксують, які підходи працюють, а які ні, щоб навчатися на основі минулого досвіду.

Наше рішення Agentic AI

Наше рішення можна знайти за посиланням чи на Github.

Наш прорив став можливим завдяки наслідуванню людської поведінки під час розв’язання задач: аналіз прикладів, висування гіпотез щодо правил, тестування та удосконалення. Замість використання brute force наш ШІ зосереджується на написанні функцій генерації — Python-коду, який визначає перетворення, та негайному тестуванні їх на тренувальних даних.

Основні етапи:

  1. Аналіз шаблонів: ШІ виявляє взаємозв’язки у парах вхідних і вихідних даних.
  2. Генерація функції: На основі спостережених шаблонів ШІ пише функцію transform(input): output.
  3. Негайне тестування: Функція тестується на тренувальних даних. Якщо вихідні результати повністю збігаються, рішення вважається правильним і застосовується до тестових даних.
  4. Ітерація: Якщо тестування не вдається, функція вдосконалюється та повторно тестується.

Несподіване відкриття в нашому підході полягало в тому, що ітеративні покращення часто заважають прогресу, а не сприяють йому. Якщо початкове припущення щодо функції генерації є хибним, спроби його вдосконалити зазвичай лише підсилюють помилку, а не виправляють її. Це розуміння кардинально змінило наш підхід.

Нові ідеї замість удосконалення

Замість того, щоб вдосконалювати помилкові припущення, ми зрозуміли, що ефективніше:

  1. Повністю відмовитися від хибного підходу.
  2. Сформувати нову гіпотезу з нуля, опираючись на свіжі спостереження із тренувальних даних.

Це нагадує людську поведінку, коли у випадку непродуктивного рішення, люди схильні перезавантажувати та переосмислювати процес, а не намагатися виправити невдалу стратегію.

Чому генетичні алгоритми не спрацювали

Це усвідомлення також пояснює, чому генетичні алгоритми не змогли покращити результати. За своєю природою генетичні алгоритми поступово еволюціонують рішення, вдосконалюючи їх із кожним поколінням. Однак, якщо фундаментальні припущення є хибними, поступові зміни лише ускладнює розв’язання задачі та ще більше віддаляє від правильного перетворення.

Оцінювання фундаментальних LLM: Claude 3.5 Sonnet — лідер

Для вирішення проблеми ARC ми провели масштабне тестування кількох великих мовних моделей (LLMs), щоб використати їх для розроблення функцій генерації. Серед усіх моделей Claude 3.5 Sonnet показав найкращі результати, значно перевершивши своїх конкурентів.

Claude 3.5 Sonnet проти GPT-4o:

  • Продуктивність: Claude 3.5 Sonnet розпізнав більше шаблонів, ніж GPT-4o, досягнувши більше ніж удвічі вищої точності у розпізнаванні шаблонів.
  • Ефективність: Claude досяг таких самих результатів, що й GPT-4o від OpenAI, проте за 1/7 часу, що робить його не тільки ефективнішим, але й швидшим.

Падіння продуктивності GPT-4o:

  • Ми зафіксували помітне падіння продуктивності GPT-4o через деякий час. Початкова версія GPT-4o значно краще виконувала завдання ARC порівняно з наступними версіями, що свідчить про можливі зміни в його оптимізації, які негативно вплинули на здатність розпізнавання шаблонів та міркування для цієї задачі.

Чому Claude 3.5 Sonnet виділяється серед інших

Перевага Claude полягає в його здатності узагальнювати та розпізнавати ледь помітні перетворення, що є ключовим для роботи з few-shot задачами ARC. Стабільна продуктивність та ефективність зробили його ідеальним кандидатом для інтеграції в основу нашого AI-агента, створюючи новий стандарт LLM мислення у структурованому розв’язанні задач.

Результати

Наш підхід забезпечив майже 30% точності на тестовому наборі ARC, що значно перевищує результати базових методів. Це досягнення підкреслює ефективність підходу, який імітує людське мислення, використання нових гіпотез замість ітеративних покращень і залучення найбільш здібних мовних моделей як Claude 3.5 Sonnet. Хоча ще залишається значний простір для вдосконалення, це досягнення демонструє важливий прогрес у вирішенні викликів ARC і розвитку у напрямку широкого узагальнення у ШІ.

Майбутні напрями розвитку ARC

У WLTech.AI ми переконані, що майбутнє розв’язання задач ARC полягає у подальшому розвитку можливостей LLM у поєднанні з високорівневими структурами міркування, такими як принцип мінімальної довжини опису (MDL) або подібними підходами для стислого пояснення шаблонів.  Ці вдосконалення можуть дозволити моделям краще абстрагувати й узагальнювати перетворювання.

Крім того, інтеграція системи самовдосконалюваних запитів на основі зростаючої бази рішень дала б змогу моделям поступово покращувати свої міркування та використовувати попередні успіхи, створюючи більш адаптивний та ефективний механізм розв’язання задач. Синергія між передовими LLM, структурованими поясненнями й адаптивним навчанням може стати ключем до нових досягнень у розвитку ARC і AGI.

Видатні люди, які розв’язали ARC

ARC (Abstraction and Reasoning Corpus) бенчмарк став ключовим методом оцінки того, наскільки добре ШІ може застосовувати загальні правила та мислити більш абстрактно. З плином років з’явилося кілька видатних рішень, кожне з яких зробило свій внесок у цю сферу.

Підхід Раяна Грінблатта

У 2024 році Раян Грінблатт, інженер із Redwood Research, досяг значного успіху, набравши 42% на відкритому тестовому наборі ARC-AGI та 43% за верифікаційним показником. У своїй методиці він застосував GPT-4o для створення та оптимізації кількох Python-програм, обравши найкращі з них для заявки на конкурс. Це демонструє, як саме ми можемо використовувати великі мовні моделі для синтезу програм, щоб розв’язувати складні задачі на мислення.

Icecuber 2020

Рішення «Icecuber 2020», яке стало переможцем попереднього конкурсу, отримало 39% на відкритому тестовому наборі та 17% за верифікаційним показником. Хоча методологія цього підходу повністю невідома, він відіграв важливу роль у встановленні вищих стандартів для майбутніх учасників ARC.

Таблиця лідерів ARC Prize 2024

До найкращих учасників у таблиці лідерів ARC Prize 2024 належать:

  • MindsAI очолюють список із результатом 55,5%.
  • The ARChitects зайняли друге місце з результатом 53,5%.
  • Гільєрмо Барбадільо на третьому місці з результатом 40%.
  • Alijs на четвертому місці також із результатом 40%.
  • TuMinhDang на п’ятому місці з результатом 38%.

Ці результати демонструють, як активно учасники працюють і впроваджують нові підходи для розв’язання завдань ARC. Вони також свідчать про різноманітність стратегій, які використовують команди.

Як ARC надихає дослідників ШІ

ARC бенчмарк залишається чудовим інструментом для перевірки здатності систем ШІ до мислення та узагальнення. Попри значний прогрес у цій сфері, жодна модель поки що не змогла повністю впоратися із завданнями ARC, що підкреслює наскільки складно досягти загального штучного інтелекту (AGI). Дослідники та фахівці продовжують шукати способи поєднання різних підходів, використовуючи символічне мислення та нейронні мережі, щоб наблизитися до розв’язання задач.

Такі бенчмарки, як ARC, дають можливість зазирнути в майбутнє досліджень ШІ. Вони спрямовують розвиток галузі у бік систем, здатних мислити й адаптуватися як люди. Хоча прогрес у цій сфері рухається повільно, ARC уже окреслив чіткий шлях до досягнення AGI.

Фокус зміщується в бік узагальнення

У майбутньому системи ШІ проєктуватимуться для узагальнення, а не для спеціалізації. Як показують завдання ARC, здатність розв’язувати нові проблеми без необхідності повторного навчання є ключовою ознакою справжнього інтелекту. Ймовірно, дослідники створять моделі, які будуть чудово справлятися з навчанням на кількох прикладах (few-shot) та без прикладів (zero-shot), опираючись на принципи роботи нашого мозку.

Гібридні моделі стануть нормою

Успіх рішень ARC вже показав, що системи, побудовані на одному підході, є дещо обмеженими. У майбутньому ШІ розвиватиметься через гібридні моделі, що інтегрують нейронні мережі, символічні системи та ймовірнісну логіку. Такі моделі не лише успішно вирішуватимуть завдання ARC, а й зможуть впоратися з реальними проблемами, де ключовими є гнучкість і адаптивність.

Когнітивна архітектура набуває все більшого значення

ARC спонукає задуматися над когнітивними архітектурами, що імітують здатність людського мозку поєднувати різні способи мислення. Ми побачимо більше досліджень у сферах робочої пам’яті, метанавчання та багатоагентних систем, що прокладуть шлях до створення ШІ, який зможе мислити, навчатися та адаптуватися на ходу.

Коли ШІ стане розумнішим, він не тільки виконуватиме нашу роботу, а й працюватиме разом із нами. Такі бенчмарки, як ARC, сприяють розробленню ШІ-систем, які будуть допомагати людям, пропонуючи нові ідеї та рішення у складних сферах, таких як наукові відкриття та творчі підходи до розв’язання проблем.

Такі змагання дійсно стали джерелом натхнення для спільноти дослідників ШІ. З грошовим призом у понад $1 мільйон ARC Prize є чудовим стимулом для розробників створювати open-source рішення, які зможуть перевершити поточні стандарти.

У WLTech.AI ми розуміємо, що цінність таких рішень значно перевищує $1 мільйон, і ми будемо раді знову взяти участь у цьому змаганні наступного року, щоб продовжити розвивати галузь.

UPD 2025

OpenAI заявляє, що досягла 88% точності на ARC-AGI, використовуючи спеціально налаштовану модель o3-high. Це значно перевищує попередні результати й наближає модель до вирішення тесту, що довгий час залишався непідкореним.

Команда OpenAI стверджує, що ключовими факторами прориву стали збільшена глибина міркувань і нові підходи до навчання, які дозволили моделі краще узагальнювати патерни. Однак навіть при 88% точності ARC-AGI залишається викликом, що продовжує випробовувати межі штучного інтелекту.

Цей прорив підкреслює важливість нових архітектурних рішень у розвитку AI. Просте збільшення масштабів попередніх моделей, таких як GPT-4, не призвело б до таких результатів. Подальший прогрес залежить від впровадження нових ідей і підходів у навчанні моделей.

Таким чином, хоча досягнення OpenAI є значним кроком уперед, ARC-AGI продовжує залишатися важливим еталоном для оцінювання здатності AI до адаптації до нових, невідомих завдань, що наближає нас до розуміння і створення справжнього AGI.

Про компанію

WLTech.AI, заснована у 2013 році Олександром Книгою, займається створенням спеціалізованих ШІ команд і рішень повного циклу. Наш підхід корпоративного рівня охоплює хмарну інфраструктуру, комплексну frontend-розробку, масштабовані архітектури та стратегії розгортання продукту.

Наша експертиза включає великі мовні моделі (LLM), розробку моделей ШІ, інженерія даних, машинне навчання (ML), обробку природної мови (NLP), автоматизацію ШІ, агентів ШІ. Від початкового збору даних і тренування моделей до розгортання продукту та безперервної оптимізації ми реалізуємо повноцінні, готові до роботи рішення, що відповідають суворим корпоративним стандартам і забезпечують суттєві зміни у бізнесі.

Редакція не несе відповідальності за інформацію, викладену у блогах. Це особиста думка автора.

Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!

Приєднатися до company logo
Продовжуючи, ти погоджуєшся з умовами Публічної оферти та Політикою конфіденційності.