Claude 4: Anthropic презентує нові моделі, здатні до багатоетапного міркування

На своїй першій конференції для розробників у четвер Anthropic представила дві нові ШІ-моделі, які компанія називає одними з найкращих у галузі — принаймні за результатами популярних бенчмарків. Про це повідомляє Tech Crunch.

Claude Opus 4 і Claude Sonnet 4 — частина нової лінійки Claude 4, здатні аналізувати великі набори даних, виконувати довготривалі завдання та здійснювати складні дії. Обидві моделі оптимізовані для програмування, що робить їх придатними для написання й редагування коду.

Платні користувачі та користувачі безкоштовного чат-бота компанії отримають доступ до Sonnet 4, тоді як Opus 4 буде доступною лише для платних клієнтів. Через API на платформах Amazon Bedrock та Google Vertex AI ціни становитимуть $15/$75 за мільйон токенів (вхід/вихід) для Opus 4 і $3/$15 для Sonnet 4.

Нагадаємо, токени — це одиниці даних, з якими працює ШІ. Один мільйон токенів — це приблизно 750 тисяч слів, або майже на 163 тисячі слів більше, ніж у «Війні і мирі».

Anthropic випустила Claude 4 на тлі амбітних цілей зі зростання прибутку. Компанія, заснована колишніми дослідниками OpenAI, прагне досягти $12 мільярдів доходу у 2027 році, тоді як цього року очікується $2,2 мільярда. Нещодавно Anthropic залучила $2,5 мільярди кредитного фінансування та інвестиції від Amazon й інших інвесторів, готуючись до зростання витрат на розроблення потужних моделей.

Opus 4, найпотужніша з представлених моделей, за словами компанії, здатна підтримувати зосереджену роботу протягом багатьох кроків у межах одного процесу. Водночас Sonnet 4, розроблена як пряма заміна для Sonnet 3.7, демонструє покращення у сфері програмування й математики, а також точніше дотримується інструкцій. Нові моделі також рідше займаються так званим reward hacking (обхід системи), на відміну від попередніх моделей.

Однак Claude 4 не є найкращим за всіма показниками. Наприклад, Opus 4 перевершує Google Gemini 2.5 Pro й OpenAI o3 і GPT-4.1 на SWE-bench Verified (тест кодування), але поступається o3 у багатомодальному тесті MMMU і GPQA Diamond (запитання PhD-рівня з біології, фізики й хімії).

Opus 4 також відповідає внутрішньому стандарту ASL-3 компанії Anthropic. Згідно з тестуванням, модель може суттєво підвищити здатність людей зі STEM-бекграундом створювати або використовувати зброю масового ураження, що зумовило впровадження додаткових заходів кібербезпеки та фільтрів шкідливого контенту.

Обидві моделі гібридні, вони здатні як відповідати майже миттєво, так і витрачати більше часу на складне міркування. У режимі міркування Claude 4 демонструє коротке резюме процесу обмірковування завдання, але не розкриває всього логічного ланцюга, щоб захистити комерційні переваги компанії.

Opus 4 і Sonnet 4 можуть одночасно використовувати кілька інструментів, таких як пошукові системи, і перемикатися між логічним міркуванням та роботою з інструментами. Вони також здатні зберігати інформацію в пам’яті, формуючи так звані неявні знання, що дає можливість моделі надійніше виконувати повторювані завдання.

Для розробників Anthropic оновила інструмент Claude Code, який тепер підтримує IDE-інтеграцію та має SDK для роботи з іншими застосунками. Claude Code тепер можна запускати як підпроцес у підтримуваних ОС.

Доступні плагіни для Microsoft VS Code, JetBrains і GitHub. Останній дає можливість Claude Code відповідати на зауваження рецензентів й автоматично вносити правки в код. Anthropic обіцяє частіші оновлення моделей.