Anthropic запускає закриту модель для пошуку експлойтів

Компанія Anthropic оголосила про запуск Project Glasswing — масштабної ініціативи у сфері кібербезпеки, в центрі якої знаходиться нова модель Claude Mythos Preview. За словами компанії, її можливості настільки потужні, що модель не планують відкривати для широкого доступу.

Проєкт об’єднує 12 великих технологічних і фінансових компаній, серед яких Amazon Web Services, Apple, Google, Microsoft, Nvidia та Linux Foundation. Крім того, доступ до ініціативи отримали понад 40 організацій, що підтримують критичне ПЗ. Anthropic виділяє до $100 млн у вигляді кредитів на використання моделі та ще $4 млн — на підтримку open source безпеки.

Claude Mythos Preview — це універсальна frontier-модель, яка, за даними компанії, вже змогла автономно знайти тисячі критичних zero-day вразливостей у ключових системах. Йдеться про всі основні операційні системи, браузери та критичні програмні компоненти.

Серед конкретних прикладів:

вразливість у OpenBSD, якій було 27 років і яка дозволяла віддалено виводити систему з ладу;
помилка у FFmpeg, що залишалася непоміченою після мільйонів автоматичних тестів;
ланцюжок експлойтів у Linux kernel, який дозволив отримати повний контроль над системою.

Anthropic стверджує, що модель здатна не лише знаходити вразливості, а й створювати експлойти без участі людини. У більшості випадків вона діяла повністю автономно.

Через ці можливості компанія свідомо відмовилась від публічного релізу моделі.

«Ми не плануємо робити Claude Mythos Preview загальнодоступною через її кібербезпекові можливості», — заявив представник Anthropic.

У компанії попереджають, що подібні технології можуть швидко поширитися, і це становить ризик для економіки, безпеки та держав.

У рамках Glasswing Anthropic створила спеціальний процес обробки вразливостей: кожен баг проходить ручну перевірку, після чого передається розробникам разом із можливими патчами. Компанія також дотримується моделі coordinated disclosure — деталі публікуються через 45 днів після виправлення.

Технічні результати також демонструють значний прогрес. На бенчмарку CyberGym модель показала результат 83,1% проти 66,6% у попередньої версії. У задачах програмування розрив ще більший: до 93,9% проти 80,8%.

Водночас запуск відбувається на фоні суперечливих інцидентів. Наприкінці березня Anthropic випадково відкрила доступ до внутрішніх матеріалів через помилку в CMS, а також на кілька годин опублікувала 512 000 рядків коду через npm. У компанії назвали це «людськими помилками», а не проблемами архітектури безпеки.

Anthropic також повідомила про стрімке зростання бізнесу: річний дохід перевищив $30 млрд, а кількість клієнтів із витратами понад $1 млн подвоїлася за кілька місяців.

Компанія підкреслює, що у захисників є «місяці, а не роки», перш ніж подібні AI-можливості з’являться у зловмисників. Project Glasswing розглядається як спроба дати індустрії фору в цій гонці.

Це один із перших реальних кейсів, де ШІ не просто допомагає розробникам, а автономно знаходить і експлуатує вразливості. Це може радикально змінити підхід до DevSecOps, тестування та захисту інфраструктури. Для IT-аудиторії це сигнал, що кібербезпека переходить у нову фазу, де швидкість реагування визначатиметься можливостями ШІ.

Нагадаємо, цього тижня OpenAI, Anthropic і Google почали обмін даними, щоб зупинити копіювання своїх ШІ-моделей у Китаї.

Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!