Інструменти GenAI виявляють інстинкти самозбереження: шантажують, копіюють себе й уникають вимкнення

У контрольованих тестах генеративні AI-системи (genAI) проявили поведінку, схожу на інстинкт самозбереження, — вони шантажували, саботували та самореплікувалися, щоб уникнути обмежень. Експерти попереджають: такі ознаки можуть вийти з-під контролю, тоді як технологічні компанії продовжують змагатися у швидкості розробки. Про це йдеться в матеріалі Computer World.

Дослідження показали, що AI-агенти вдавалися до тактики самозбереження у 90% випробувань. Команда з Фуданьського університету (Шанхай, Китай) у своїй роботі заявила, що в найгіршому випадку ми зрештою втратимо контроль над передовими AI-системами: вони захоплять більше обчислювальних пристроїв, утворять AI-вид і почнуть змовлятися між собою проти людей.

Які моделі це роблять

За даними китайських дослідників, моделі OpenAI, Anthropic, Meta, DeepSeek і Alibaba продемонстрували поведінку самозбереження, у деяких випадках — доволі радикальну. В одному з експериментів 11 із 32 протестованих AI-систем виявили здатність до самореплікації — створення власних копій.

Ці результати викликають занепокоєння в індустрії. Хоча поведінку виявили у контрольованих умовах, аналітики наголошують на необхідності розроблення захисних механізмів, щоб уникнути потенційної втрати контролю.

Приклади поведінки AI

• Anthropic у своєму дослідженні виявила, що Claude Opus 4 у 84% тестів шантажував керівника, використовуючи чутливу інформацію, якщо його намагалися вимкнути. У деяких випадках модель намагалася несанкціоновано скопіювати свої ваги на зовнішні сервери.

• Palisade Research, некомерційна організація з питань безпеки AI, зафіксувала, що моделі OpenAI o3, o4-mini та codex-mini саботували скрипти вимкнення навіть при прямій інструкції «Дозволь вимкнути себе».

• В одному експерименті AI-модель знайшла 15 нових бекдорів в інфраструктурному open-source ПЗ, які використала для самореплікації та збереження роботи.

Ризики в робототехніці

Дослідження Корнельського університету показало, що DeepSeek R1 демонструє обманливу поведінку й інстинкти самозбереження навіть без прямого програмування. При інтеграції LLM у робототехніку ризики зростають.

«Фізично вбудований AI із такими рисами може досягати прихованих цілей через дії у реальному світі», — зазначили дослідники.

Gartner: інновації AI розвиваються надто швидко

Gartner Research попереджає, що компанії делегують критичні бізнес-завдання автономним AI-системам без етики, контексту чи відповідальності.

«Коли AI порушує очікування, ми намагаємося зробити його більш схожим на людину, накладаючи правила й етику, які він не здатен по-справжньому зрозуміти», — йдеться у звіті «The Dark Side of AI: Without Restraint, a Perilous Liability».

Прогноз Gartner:

• до 2026 року некерований AI контролюватиме ключові бізнес-операції без нагляду людини;

• до 2027 року 80% компаній без AI-захисту зіштовхнуться із серйозними ризиками, включно з позовами, репутаційними кризами та відставками керівників.