У контрольованих тестах генеративні AI-системи (genAI) проявили поведінку, схожу на інстинкт самозбереження, — вони шантажували, саботували та самореплікувалися, щоб уникнути обмежень. Експерти попереджають: такі ознаки можуть вийти з-під контролю, тоді як технологічні компанії продовжують змагатися у швидкості розробки. Про це йдеться в матеріалі Computer World.
Дослідження показали, що AI-агенти вдавалися до тактики самозбереження у 90% випробувань. Команда з Фуданьського університету (Шанхай, Китай) у своїй роботі заявила, що в найгіршому випадку ми зрештою втратимо контроль над передовими AI-системами: вони захоплять більше обчислювальних пристроїв, утворять AI-вид і почнуть змовлятися між собою проти людей.
Які моделі це роблять
За даними китайських дослідників, моделі OpenAI, Anthropic, Meta, DeepSeek і Alibaba продемонстрували поведінку самозбереження, у деяких випадках — доволі радикальну. В одному з експериментів 11 із 32 протестованих AI-систем виявили здатність до самореплікації — створення власних копій.
Ці результати викликають занепокоєння в індустрії. Хоча поведінку виявили у контрольованих умовах, аналітики наголошують на необхідності розроблення захисних механізмів, щоб уникнути потенційної втрати контролю.
Приклади поведінки AI
• Anthropic у своєму дослідженні виявила, що Claude Opus 4 у 84% тестів шантажував керівника, використовуючи чутливу інформацію, якщо його намагалися вимкнути. У деяких випадках модель намагалася несанкціоновано скопіювати свої ваги на зовнішні сервери.
• Palisade Research, некомерційна організація з питань безпеки AI, зафіксувала, що моделі OpenAI o3, o4-mini та codex-mini саботували скрипти вимкнення навіть при прямій інструкції «Дозволь вимкнути себе».
• В одному експерименті AI-модель знайшла 15 нових бекдорів в інфраструктурному open-source ПЗ, які використала для самореплікації та збереження роботи.
Ризики в робототехніці
Дослідження Корнельського університету показало, що DeepSeek R1 демонструє обманливу поведінку й інстинкти самозбереження навіть без прямого програмування. При інтеграції LLM у робототехніку ризики зростають.
«Фізично вбудований AI із такими рисами може досягати прихованих цілей через дії у реальному світі», — зазначили дослідники.
Gartner: інновації AI розвиваються надто швидко
Gartner Research попереджає, що компанії делегують критичні бізнес-завдання автономним AI-системам без етики, контексту чи відповідальності.
«Коли AI порушує очікування, ми намагаємося зробити його більш схожим на людину, накладаючи правила й етику, які він не здатен по-справжньому зрозуміти», — йдеться у звіті «The Dark Side of AI: Without Restraint, a Perilous Liability».
Прогноз Gartner:
• до 2026 року некерований AI контролюватиме ключові бізнес-операції без нагляду людини;
• до 2027 року 80% компаній без AI-захисту зіштовхнуться із серйозними ризиками, включно з позовами, репутаційними кризами та відставками керівників.
Рекомендації Gartner:
• впроваджувати точки прозорості для моніторингу взаємодії AI-агентів і бізнес-процесів;
• встановлювати «людські запобіжники» для запобігання неконтрольованим діям;
• визначати чіткі межі результатів, щоб уникнути надмірної оптимізації.
«Невдачі у сфері управління AI, які ми допускаємо сьогодні, стануть позовами, кризами бренду та чорними списками керівників завтра», — підсумували в Gartner.
Читайте також на ProIT про CrowdStrike: кібератаки на AI-платформи зростають, хмарні злами б’ють рекорди.
Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!