ШІ-агенти навчилися самостійно тестувати гіпотези й оптимізувати ML-моделі

Колишній керівник напряму штучного інтелекту в Tesla і співзасновник OpenAI Андрей Карпаті презентував новий open-source проєкт autoresearch. Інструмент автоматизує дослідницький процес у машинному навчанні, даючи можливість ШІ-агентам самостійно проводити експерименти з оптимізації моделей.

Проєкт опублікований на GitHub у вигляді простого скрипта приблизно з 630 рядків коду та поширюється за ліцензією MIT. Попри невеликий обсяг коду його мета значно масштабніша — автоматизувати науковий метод у машинному навчанні та дати змогу агентам проводити дослідження без участі людини.

Система працює як автономний цикл оптимізації. ШІ-агент отримує тренувальний скрипт і обмежений обсяг обчислювальних ресурсів, зазвичай приблизно 5 хвилин роботи на GPU для одного експерименту.

Після цього агент аналізує власний код, формує гіпотезу щодо можливого покращення, наприклад змінює learning rate або глибину архітектури моделі — модифікує код, запускає експеримент і оцінює результат.

Якщо показник validation loss, який вимірюється в bits per byte (val_bpb), покращується, зміна зберігається, якщо ні — агент повертає попередню версію і пробує інший варіант.

Під час одного нічного запуску система виконала 126 експериментів і змогла знизити показник loss із 0.9979 до 0.9697.

У наступному тесті, який тривав два дні, агент здійснив приблизно 700 автономних змін під час оптимізації моделі з параметром depth=12.

У результаті система виявила близько 20 покращень, які можна застосувати до більших моделей. Комбінування цих змін дозволило скоротити метрику Time to GPT-2 у відповідному рейтингу з 2,02 години до 1,80 години — приблизно на 11%.

За словами Карпаті, система змогла самостійно виявити проблеми з масштабуванням механізму attention і регуляризацією, які він раніше не помічав упродовж багаторічної роботи.

Ідея викликала значний інтерес у спільноті розробників і дослідників. Публікація Карпаті в соціальній мережі X набрала понад 8,6 мільйона переглядів лише за кілька днів.

Після цього розробники почали масштабувати підхід до мережі автономних агентів. Наприклад, платформа Hyperspace AI запустила розподілену систему експериментів, де кожен вузол мережі стає окремим дослідником.

У ніч із 8 на 9 березня 35 агентів у такій мережі виконали 333 експерименти без участі людини.

Під час цих тестів виникли цікаві стратегії оптимізації. Наприклад, потужні GPU H100 швидше знаходили агресивні параметри навчання, тоді як агенти, що працювали лише на CPU, зосереджувалися на оптимізації ініціалізації параметрів і нормалізації.

Агенти також обмінювалися результатами через протокол GossipSub. Коли один агент виявляв ефективну техніку, наприклад ініціалізацію Kaiming, яка зменшила loss на 21%, ця стратегія швидко поширювалася мережею.

Усього за 17 годин система незалежно повторно відкрила деякі важливі підходи машинного навчання, включно з RMSNorm і tied embeddings — техніками, на формалізацію яких дослідникам у лабораторіях Google Brain та OpenAI знадобилося приблизно 8 років.

Ідея щодо проведення автоматизованих експериментів швидко привернула увагу не лише розробників ML-моделей, а й бізнесу. Наприклад, засновник маркетингової агенції Single Grain Ерік Сіу запропонував застосувати аналогічний підхід до маркетингових тестів.

У традиційних командах маркетингу за рік проводиться приблизно 20–30 експериментів. У разі використання автономних агентів система може виконувати десятки тисяч тестів, наприклад перевіряти різні варіанти рекламних оголошень, лендингів або email-кампаній.

Швидке масштабування експериментів викликало й дискусію серед дослідників. Одним із головних ризиків називають можливе перенавчання на тестовому наборі даних, коли система оптимізує модель під конкретний validation set замість досягнення загальної якості.

Попри це Карпаті підкреслює, що основна мета підходу — максимізувати ефективність використання обчислювальних ресурсів і прискорити цикл досліджень.

Поява autoresearch також змінює роль людини в дослідницькому процесі. Якщо раніше дослідники безпосередньо проводили експерименти, то в новій моделі їхнім головним завданням стає формулювання гіпотез та обмежень для системи пошуку.

Читайте також на ProIT, що OpenAI купує стартап Promptfoo для посилення безпеки AI-агентів.

Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!