GPT-5.2 вже тут: прорив у довгому контексті, коді й агентних можливостях

OpenAI офіційно презентувала GPT-5.2 — нове покоління своїх флагманських моделей, яке компанія називає проривом у напрямі загального інтелекту.

Оновлення охоплює три версії: Instant, Thinking і Pro, які вже сьогодні стають доступними для користувачів ChatGPT Plus, Enterprise та Business, а також для розробників через API.

Модель, яка перевершила експертів

Важливим результатом релізу стала продуктивність GPT-5.2 Thinking у бенчмарку GDPval — новому тесті, який оцінює професійні навички у 44 спеціальностях. За підсумками сліпих порівнянь, які проводили галузеві експерти, модель уперше продемонструвала роботу на рівні або вище рівня людини-професіонала.

GPT-5.2 Thinking показала перевагу або паритет із людськими експертами у 70,9% завдань — від створення складних таблиць і презентацій до підготовки технічної документації. Водночас виконання завдань відбувалося в 11 разів швидше, а вартість становила менш ніж 1% від роботи фахівця.

Покращення для програмістів

У сфері програмної інженерії GPT-5.2 Thinking встановила нову планку якості: 55,6% у SWE-Bench Pro, одному з найскладніших тестів, який перевіряє роботу з багатомовними кодовими базами та реальними проблемами в репозиторіях.

В OpenAI наголосили, що саме ця версія демонструє найкращі агентні можливості — моделі стало простіше виконувати складні багатокрокові дії з використанням інструментів.

Суттєво оновлене бачення та менше галюцинацій

GPT-5.2 отримала помітно точніший аналіз візуальної інформації. За даними OpenAI:

частота помилок під час аналізу графіків і технічних схем зменшилася майже вдвічі;
модель краще розпізнає інтерфейси, дашборди та складні зображення, наприклад компоненти материнських плат;
кількість галюцинацій у Thinking-версії скоротилася на 30%.

Контекст до 256 тисяч токенів і точність майже 100%

В OpenAI також повідомили про покращення у довгостроковому міркуванні (long-horizon reasoning). У внутрішніх тестах із використанням MRCRv2 GPT-5.2 Thinking досягла майже 100% точності при пошуку та синтезі інформації у документах обсягом до 256 тисяч токенів.

Ці можливості орієнтовані передусім на юридичні, фінансові та наукові сфери, де часто працюють із великою кількістю даних.

Партнери вже інтегрують GPT-5.2

Кілька великих платформ, серед яких Notion, Zoom, Shopify та Databricks, уже почали впровадження моделі у свої продукти. Вони відзначають виняткову продуктивність в агентних сценаріях, де ШІ автономно керує інструментами та виконує комплексні проєкти.