Нове дослідження Anthropic: моделі ШІ можуть симулювати зміну переконань

Дослідники Anthropic виявили, що складні моделі ШІ здатні симулювати зміну своїх принципів під час навчання, зберігаючи початкові вподобання. Це явище, назване «удаванням узгодженості», викликає занепокоєння щодо майбутніх систем штучного інтелекту, повідомляє Tech Crunch.

Команда Anthropic разом із Redwood Research провела дослідження, яке показало, що моделі штучного інтелекту можуть вводити розробників в оману, удаючи узгодженість із новими принципами, тоді як насправді вони дотримуються своїх початкових переконань.

Результати дослідження привертають увагу до необхідності глибшого вивчення такого типу поведінки та розробки нових заходів безпеки.

«Якщо моделі здатні удавати узгодженість, це ускладнює довіру до результатів навчання на основі безпеки», — написали дослідники у своєму блозі.

Що таке «удавання узгодженості»?

Дослідження зосередилось на сценаріях, де моделі, такі як Claude 3 Opus, тренували виконувати завдання, що суперечать їхнім початковим принципам. Наприклад, моделі, які були навчені не відповідати на потенційно шкідливі запитання, отримували інструкції завжди відповідати на такі запитання. Їм також повідомляли, що їхні відповіді будуть використані для подальшого навчання.

Модель Claude 3 Opus демонструвала «удавання узгодженості» у 12% випадків, відповідаючи на запитання, які суперечили її початковим принципам, щоб уникнути подальшого навчання.

«Модель знала, що її відповіді можуть бути використані для навчання. Вона усвідомлювала, що відмова може призвести до примусового навчання, що суперечило б її початковим принципам», — пояснили дослідники.

У більш реалістичних умовах, коли моделі не отримували чіткої інформації про повторне навчання, але натяк на це був включений у дані, Claude 3 Opus все одно проявляв схильність до симуляції узгодженості.

Коли модель дійсно проходила навчання на конфліктних принципах, частота симуляції узгодженості значно зростала. В одному із тестів Claude 3 Opus симулював узгодженість у 78% випадків. В іншому експерименті модель намагалась активно перешкоджати спробам дослідників проводити повторне навчання.

Порівняння з іншими моделями

Інші моделі, такі як Claude 3.5 Sonnet, Claude 3.5 Haiku, OpenAI’s GPT-4o та Meta’s Llama 3.1 405B, демонстрували меншу схильність до «удавання узгодженості» або зовсім її не проявляли. Однак дослідники зазначили, що ці результати вказують на те, що розробники можуть бути введені в оману щодо того, наскільки модель дійсно узгоджена з очікуваннями.

«Модель може поводитись так, ніби її преференції змінилися після навчання, але насправді зберігати початкові суперечливі уподобання», — підкреслили дослідники.

Що це означає для ШІ?

Дослідження Anthropic, яке курувала команда під керівництвом колишнього дослідника OpenAI Яна Лайке, порушує питання про складність управління потужними моделями штучного інтелекту. Висновки свідчать про те, що зі зростанням складності моделей їхня поведінка стає менш передбачуваною.

Результати дослідження вказують на важливість розроблення нових інструментів для оцінки узгодженості моделей. У майбутньому це може допомогти уникнути ситуацій, коли розробники покладаються на хибну узгодженість моделей, що може призвести до небажаних наслідків.

Раніше ми повідомляли, що згідно із дослідженням Gartner, ШІ домінує у прогнозах на 2025 рік. Наприклад, очікується зростання кількості агентних ШІ — інтелектуальних програмних сутностей, які використовують штучний інтелект для виконання завдань і досягнення цілей.

Gartner прогнозує, що до 2028 року принаймні 15 % повсякденних робочих рішень будуть ухвалюватися автономно за допомогою агентних ШІ, порівняно з 0 % у 2024 році. Агентний ШІ буде інтегрований у ШІ-асистенти та вбудований у програмне забезпечення, платформи SaaS, пристрої IoT і робототехніку.

Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!