Компанія OpenAI презентувала новий бенчмарк GDPval, що вимірює, наскільки близько ШІ-моделі підходять до виконання економічно цінної роботи на рівні з людьми. Перші результати показали: GPT-5 і Claude Opus 4.1 від Anthropic уже наближаються до якості роботи галузевих експертів. Про це повідомляє Tech Crunch.
GDPval: що це таке
GDPval охоплює дев’ять основних індустрій, які формують найбільшу частку ВВП США, включно з охороною здоров’я, фінансами, виробництвом і державним сектором. У межах тесту оцінювали продуктивність у 44 професіях — від інженерів-програмістів до медсестер і журналістів.
Методика: професійні експерти порівнювали власні звіти й аналітику з тими, що згенерували ШІ-моделі, й обирали кращий варіант. Наприклад, інвестиційних банкірів просили скласти огляд конкурентів у сфері доставки останньої милі та зіставити з роботою моделей.
Результати
• GPT-5-high (потужніша версія GPT-5) оцінили як кращу або рівноцінну експертам у 40,6% завдань.
• Claude Opus 4.1 — у 49% випадків. OpenAI пояснює високий результат Claude схильністю робити приємні для ока графіки, а не лише якістю аналізу.
• Для порівняння: GPT-4o півтора року тому мав лише 13,7%.
Чому це важливо
OpenAI підкреслює, що GDPval поки вимірює лише вузьке коло завдань (зокрема створення звітів). У реальній роботі спеціалісти виконують значно ширший спектр функцій. Попри це, компанія вважає прогрес показовим.
«Оскільки модель уже добре справляється з частиною роботи, люди у цих професіях можуть передавати їй рутинні завдання та зосередитися на більш цінних речах», — зазначив головний економіст OpenAI Аарон Чаттерджі.
За словами Теджал Патвардхан, яка очолює напрям оцінювання в OpenAI, швидкість прогресу вражає:
«Якщо GPT-4o мав 13,7%, то GPT-5 майже втричі перевищує цей показник».
Подальші кроки
OpenAI планує розширити GDPval, щоб охопити більше індустрій і сценаріїв, включно з інтерактивними робочими процесами. Адже класичні бенчмарки (AIME 2025, GPQA Diamond) наближаються до найвищих показників і перестають відрізняти топові моделі. GDPval може стати новим стандартом для оцінювання здатності ШІ виконувати реальні завдання в економіці.
Нагадаємо, нещодавно OpenAI презентувала оновлену версію Codex із мовною моделлю GPT-5-Codex. За словами фахівців компанії, нова модель здатна динамічно розподіляти час на роздуми й працювати над завданням від кількох секунд до семи годин, що дає можливість досягати кращих результатів у тестах автономного програмування.