ProIT: медіа для профі в IT
2 хв

Claude Sonnet 4.5 перевершує GPT-5 і Gemini 2.5 Pro у тестах з кодування

author avatar ProIT NEWS

Anthropic запустила Claude Sonnet 4.5, нову версію своєї основної мовної моделі, яку компанія називає «найкращою моделлю для програмування у світі». Водночас компанія представила оновлення для Claude Code, SDK для агентів Claude Agent, розширення для VS Code та експериментальну функцію Imagine with Claude — генерацію програмного забезпечення «на льоту».

Claude Sonnet 4.5

За словами Anthropic, Claude Sonnet 4.5 краще дотримується інструкцій і точніше рефакторить код. На бенчмарку SWE-Bench Verified, який перевіряє здатність моделей розв’язувати реальні GitHub pull requests, Sonnet 4.5 досягає 77,2% точності (і 82% з паралельними обчисленнями під час тестів).

На бенчмарку OSWorld, що оцінює ефективність AI у реальних завданнях комп’ютерного користування, Sonnet 4.5 показує 61,4% успішності — великий стрибок порівняно з 43,9% у Sonnet 4 і 44% в Opus 4.1.

Anthropic зазначає, що в окремих сценаріях, зокрема у фінансовому секторі, Sonnet 4.5 випереджає навіть флагманську модель Opus 4.1.

Модель може працювати автономно до 30 годин — проти 7 годин в Opus 4 — зберігаючи стабільність і продуктивність під час тривалих обчислень.

У всіх основних кодерських бенчмарках Sonnet 4.5 перевершує OpenAI GPT-5 і Google Gemini 2.5 Pro, хоча у візуальному міркуванні конкуренти поки що попереду.

Вартість використання залишається незмінною — $3 за мільйон токенів вхідних даних і $15 за мільйон токенів вихідних.

Нові можливості та функції

Sonnet 4.5 отримала доступ до віртуальних машин, пам’яті, кращого управління контекстом і підтримки мультиагентних сценаріїв.

Модель також стала першою, здатною відтворити вебдодаток Claude.ai з нуля — процес тривав 5,5 години й потребував понад 3000 викликів інструментів.

Claude Code: глибша інтеграція з VS Code і контроль змін

Claude Code, який наразі генерує понад $500 млн річного прибутку, отримав рідне розширення для Visual Studio Code, що дає змогу бачити зміни в коді в реальному часі через inline diff.

Додано також оновлення для терміналу: видимість статусу, пошук історії запитів і checkpoints для швидкого повернення до стабільної версії коду.

Claude Agent SDK

Новий SDK дозволяє розробникам створювати власних агентів на тій самій інфраструктурі, що й Claude Code. SDK підтримує оркестрацію агентів, управління пам’яттю, контекстом, інструментами та дозволами.

Через API Anthropic також додає інструмент пам’яті для збереження контексту в довгих сесіях і автоматичне очищення контекстного вікна, коли інформація застаріває.

Imagine with Claude — експеримент майбутнього

Експеримент Imagine with Claude демонструє, як ШІ може створювати програми й інтерфейси у реальному часі без попередньо написаного коду.

Функція доступна лише користувачам плану Claude Max. Вона показує потенціал до створення «одноразового» ПЗ — коли користувач отримує потрібну програму тут і зараз, без тривалого процесу розробки.

Нагадаємо, в попередньому оновленні Anthropic стверджувала, що її модель Claude Sonnet 4 здатна обробляти до 1 млн токенів контексту в одному запиті — у п’ять разів більше, ніж раніше. Це дозволяє розробникам аналізувати цілі програмні проєкти або десятки наукових робіт без необхідності ділити їх на менші фрагменти.

Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!

Приєднатися до company logo
Продовжуючи, ти погоджуєшся з умовами Публічної оферти та Політикою конфіденційності.