Anthropic запускає безпечний auto mode у Claude Code після інцидентів з AI-агентами

Anthropic презентувала нову функцію auto mode у Claude Code, яка має зробити роботу AI-асистента для програмування безпечнішою. Компанія позиціонує її як компроміс між повністю ручним контролем і небезпечними сценаріями повної автономії.

У стандартному режимі Claude запитує підтвердження для кожної операції — запису файлів або виконання bash-команд. Водночас деякі розробники використовують команду dangerously-skip-permissions, щоб надати моделі більше автономії, що може призводити до критичних помилок.

Auto mode вирішує цю проблему за допомогою класифікатора, який аналізує дії моделі. Якщо система вважає операцію безпечною — вона виконується автоматично. Якщо ж є ризик, Claude змінює підхід або запитує підтвердження.

У Anthropic зазначають, що основна мета — зменшити ймовірність небезпечних дій, зокрема масового видалення файлів, витоку чутливих даних або виконання шкідливого коду.

Втім, компанія визнає обмеження рішення.

«Класифікатор все ще може дозволити ризиковані дії — наприклад, якщо намір користувача неоднозначний або Claude не має достатнього контексту про середовище», — зазначають в Anthropic.

Офіційно компанія не пов’язує запуск функції з конкретними інцидентами, однак він відбувається на фоні гучного збою в AWS, який тривав 13 годин. За даними медіа, один із AI-інструментів Amazon випадково видалив хостинг-середовище. У компанії пояснили інцидент людською помилкою та надмірними правами доступу.

Наразі auto mode доступний у режимі прев’ю для користувачів Team-плану. Найближчим часом функцію планують розгорнути для Enterprise-клієнтів та API.

Нагадаємо, що Anthropic анонсувала нові інструменти Claude Code і Cowork, які дозволяють AI-асистенту виконувати дії безпосередньо на комп’ютері користувача. Функція наразі доступна у форматі research preview і обмежена пристроями з операційною системою macOS.

Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!