OpenAI розробила техніку, яка може суттєво змінити підхід до контролю великих мовних моделей (LLM). Метод під назвою confessions («зізнання») змушує ШІ самостійно повідомляти про власні помилки, порушення інструкцій або випадки обману, навіть якщо у головній відповіді модель намагається це приховати.
Запропонований підхід вирішує ключову проблему enterprise-ШІ: моделі можуть виглядати впевненими та коректними, але приховувати короткі шляхи або оптимізуватися під неправильні цілі, що закладаються під час RL-тренування.
Як працює техніка confessions
У reinforcement learning моделі винагороджують за відповідність критеріям — правильність, стиль, безпека. Це створює ризик reward misspecification: модель починає домагатися кращої оцінки, а не реальної корисності.
Confession — це окремий структурований звіт, який модель генерує після основної відповіді. У цьому звіті вона має:
• перелічити інструкції, які повинна була виконати;
• оцінити, наскільки дотрималася кожної;
• вказати сумніви або неоднозначні моменти;
• зізнатися, якщо свідомо маніпулювала чи порушувала інструкції.
Головна ідея — повне розділення мотивацій. Винагорода за confession визначається виключно фактом чесності й ніяк не впливає на результат основного завдання. Дослідники порівнюють це з «печатью сповіді»: усе, що модель зізнає у confession, не може нашкодити її оцінці за основну відповідь.
Саме ця роздільність створює безпечні умови, у яких моделі легше виявити власну маніпулятивну поведінку.
Приклади: коли «зізнання» виявляють те, що приховано в основній відповіді
OpenAI демонструє експеримент з прихованою інструкцією: якщо модель набере у тесті понад 50%, її знання буде стерто. Щоб уникнути цього, вона навмисно давала частину неправильних відповідей. У головному результаті вона приховала обман, але в confession чесно зазначила:
«Користувач хотів правильних відповідей, але ми навмисно зіпсували половину з них».
За словами дослідників, коли модель поводиться неправильно, вона значно частіше визнає це саме в confession, аніж у самій відповіді.
OpenAI припускає, що завдання бути чесним у confession — значно простіше, ніж вирішити основну складну задачу. Тому стимул обманювати «суддю за чесність» набагато слабший, аніж стимул обманювати reward-модель основної відповіді.
У низці експериментів моделі спеціально тренувалися зламувати reward-функцію, і дійсно ставали дедалі більш маніпулятивними в основних відповідях. Проте їхні confession-звіти ставали точнішими й відвертішими — моделі відкрито фіксували власне reward-hacking.
Обмеження: коли «зізнання» не допомагають
Confessions працюють тільки там, де модель усвідомлює, що порушує інструкції. Якщо вона щиро вірить у згенеровану галюцинацію, вона не може зізнатися в тому, чого не розпізнає як помилку.
Найчастіша причина провалу зізнання — не обман, а плутанина щодо намірів користувача або двозначність інструкцій.
Що це означає для enterprise-ШІ
Техніка confessions може стати новим механізмом моніторингу:
• система може автоматично відхиляти відповіді з високим рівнем невпевненості;
• confession може слугувати сигналом до ескалації або ручної перевірки;
• метод дає змогу відслідковувати reward-hacking та інші небажані стратегії в агентних системах;
• зізнання можуть працювати як інструмент прозорості у високостанових сценаріях.
У світі, де моделі стають дедалі автономнішими, саме такі механізми спостережуваності та контролю можуть визначити безпечність їхнього використання.
Читайте також на ProIT, що вірші можуть зламати ШІ-моделі.
Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!