Claude Sonnet 4.5 перевершує GPT-5 і Gemini 2.5 Pro у тестах із кодування

Anthropic запустила Claude Sonnet 4.5 — нову версію своєї основної мовної моделі, яку компанія називає найкращою моделлю для програмування у світі. Водночас компанія презентувала оновлення для Claude Code, SDK для агентів Claude Agent, розширення для VS Code й експериментальну функцію Imagine with Claude — генерацію програмного забезпечення «на льоту».

Claude Sonnet 4.5

За словами фахівців Anthropic, Claude Sonnet 4.5 краще дотримується інструкцій і точніше рефакторить код. На бенчмарку SWE-Bench Verified, який перевіряє здатність моделей розв’язувати реальні GitHub pull requests, Sonnet 4.5 сягає 77,2% точності й 82% із паралельними обчисленнями під час тестів.

На бенчмарку OSWorld, що оцінює ефективність AI у реальних завданнях комп’ютерного користування, Sonnet 4.5 показує 61,4% успішності. Це великий стрибок порівняно з 43,9% у Sonnet 4 і 44% в Opus 4.1.

В Anthropic зазначили, що в окремих сценаріях, зокрема у фінансовому секторі, Sonnet 4.5 випереджає навіть флагманську модель Opus 4.1.

Модель може працювати автономно до 30 годин (проти 7 годин в Opus 4), зберігаючи стабільність і продуктивність під час тривалих обчислень.

У всіх основних кодерських бенчмарках Sonnet 4.5 перевершує OpenAI GPT-5 і Google Gemini 2.5 Pro, хоча у візуальному міркуванні конкуренти поки попереду.

Вартість використання залишається незмінною — $3 за мільйон токенів вхідних даних і $15 за мільйон токенів вихідних.

Нові можливості та функції

Sonnet 4.5 отримала доступ до віртуальних машин, пам’яті, кращого управління контекстом і підтримки мультиагентних сценаріїв.

Модель також стала першою, здатною відтворити вебзастосунок Claude.ai з нуля. Цей процес тривав 5,5 годин і потребував понад 3000 викликів інструментів.

Claude Code: глибша інтеграція з VS Code і контроль змін

Claude Code, який наразі генерує понад $500 мільйонів річного прибутку, отримав рідне розширення для Visual Studio Code, що дає змогу бачити зміни в коді в реальному часі через inline diff.

Також було додано оновлення для терміналу: видимість статусу, пошук історії запитів і checkpoints для швидкого повернення до стабільної версії коду.

Claude Agent SDK

Новий SDK дає можливість розробникам створювати власних агентів на тій самій інфраструктурі, що й Claude Code. SDK підтримує оркестрацію агентів, управління пам’яттю, контекстом, інструментами та дозволами.

Через API Anthropic також додає інструмент пам’яті для збереження контексту в довгих сесіях та автоматичне очищення контекстного вікна, коли інформація застаріває.

Imagine with Claude — експеримент майбутнього

Експеримент Imagine with Claude демонструє, як ШІ може створювати програми й інтерфейси в реальному часі без попередньо написаного коду.

Функція доступна лише користувачам плану Claude Max. Вона показує потенціал до створення одноразового ПЗ, коли користувач отримує потрібну програму тут і зараз, без тривалого процесу розроблення.

Нагадаємо, що в попередньому оновленні Anthropic стверджувала, що її модель Claude Sonnet 4 здатна обробляти до 1 мільйона токенів контексту в одному запиті — у п’ять разів більше, ніж раніше. Це дає можливість розробникам аналізувати цілі програмні проєкти або десятки наукових робіт без потреби ділити їх на менші фрагменти.

Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!