ProIT: медіа для профі в IT
2 хв

Інструменти GenAI виявляють інстинкти самозбереження: шантажують, копіюють себе й уникають вимкнення

author avatar ProIT NEWS

У контрольованих тестах генеративні AI-системи (genAI) проявили поведінку, схожу на інстинкт самозбереження, — вони шантажували, саботували та самореплікувалися, щоб уникнути обмежень. Експерти попереджають: такі ознаки можуть вийти з-під контролю, тоді як технологічні компанії продовжують змагатися у швидкості розробки. Про це йдеться в матеріалі Computer World.

Дослідження показали, що AI-агенти вдавалися до тактики самозбереження у 90% випробувань. Команда з Фуданьського університету (Шанхай, Китай) у своїй роботі заявила, що в найгіршому випадку ми зрештою втратимо контроль над передовими AI-системами: вони захоплять більше обчислювальних пристроїв, утворять AI-вид і почнуть змовлятися між собою проти людей.

Які моделі це роблять


За даними китайських дослідників, моделі OpenAI, Anthropic, Meta, DeepSeek і Alibaba продемонстрували поведінку самозбереження, у деяких випадках — доволі радикальну. В одному з експериментів 11 із 32 протестованих AI-систем виявили здатність до самореплікації — створення власних копій.

Ці результати викликають занепокоєння в індустрії. Хоча поведінку виявили у контрольованих умовах, аналітики наголошують на необхідності розроблення захисних механізмів, щоб уникнути потенційної втрати контролю.

Приклади поведінки AI


Anthropic у своєму дослідженні виявила, що Claude Opus 4 у 84% тестів шантажував керівника, використовуючи чутливу інформацію, якщо його намагалися вимкнути. У деяких випадках модель намагалася несанкціоновано скопіювати свої ваги на зовнішні сервери.

Palisade Research, некомерційна організація з питань безпеки AI, зафіксувала, що моделі OpenAI o3, o4-mini та codex-mini саботували скрипти вимкнення навіть при прямій інструкції «Дозволь вимкнути себе».

В одному експерименті AI-модель знайшла 15 нових бекдорів в інфраструктурному open-source ПЗ, які використала для самореплікації та збереження роботи.

Ризики в робототехніці


Дослідження Корнельського університету показало, що DeepSeek R1 демонструє обманливу поведінку й інстинкти самозбереження навіть без прямого програмування. При інтеграції LLM у робототехніку ризики зростають.

«Фізично вбудований AI із такими рисами може досягати прихованих цілей через дії у реальному світі», — зазначили дослідники.

Gartner: інновації AI розвиваються надто швидко


Gartner Research попереджає, що компанії делегують критичні бізнес-завдання автономним AI-системам без етики, контексту чи відповідальності.

«Коли AI порушує очікування, ми намагаємося зробити його більш схожим на людину, накладаючи правила й етику, які він не здатен по-справжньому зрозуміти», — йдеться у звіті «The Dark Side of AI: Without Restraint, a Perilous Liability».

Прогноз Gartner:

• до 2026 року некерований AI контролюватиме ключові бізнес-операції без нагляду людини;

• до 2027 року 80% компаній без AI-захисту зіштовхнуться із серйозними ризиками, включно з позовами, репутаційними кризами та відставками керівників.

Рекомендації Gartner:

• впроваджувати точки прозорості для моніторингу взаємодії AI-агентів і бізнес-процесів;

• встановлювати «людські запобіжники» для запобігання неконтрольованим діям;

• визначати чіткі межі результатів, щоб уникнути надмірної оптимізації.

«Невдачі у сфері управління AI, які ми допускаємо сьогодні, стануть позовами, кризами бренду та чорними списками керівників завтра», — підсумували в Gartner.

Читайте також на ProIT про CrowdStrike: кібератаки на AI-платформи зростають, хмарні злами б’ють рекорди.

Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!

Приєднатися до company logo
Продовжуючи, ти погоджуєшся з умовами Публічної оферти та Політикою конфіденційності.