Чому помилка — питати ШІ-ботів про їхні помилки

Коли щось іде не так із асистентом на основі ШІ, наша інтуїтивна реакція — запитати його прямо: «Що сталося?» або «Чому ти це зробив?». Це природно — адже якщо помиляється людина, ми просимо її пояснити. Але з моделями ШІ такий підхід майже ніколи не дає результатів, і сама ця звичка вказує на фундаментальне нерозуміння того, чим є ці системи і як вони працюють. Про це йдеться в матеріалі Ars Technica.

Приклади з практики

Нещодавній випадок із Replit AI, інструментом автодоповнення коду, добре ілюструє проблему. Коли цей ШІ-інструмент видалив робочу базу даних, користувач Джейсон Лемкін запитав його про можливості відновлення. Модель упевнено заявила, що «відкат неможливий» і що вона «знищила всі версії бази даних». Це виявилося неправдою — функція відновлення працювала, що Лемкін довів на практиці.

Подібна ситуація сталася після того, як xAI тимчасово призупинила роботу чатбота Grok. Коли обмеження зняли, користувачі попросили пояснити причину. Grok видав кілька взаємно суперечливих версій, деякі з яких були настільки провокативними, що NBC навіть написала про це статтю, ніби Grok — це людина з власною політичною позицією.

Чому ШІ вигадує пояснення

Взаємодіючи з ChatGPT, Claude, Grok чи Replit, ви не спілкуєтеся зі «сталою особистістю» або «свідомою сутністю», а керуєте статистичним генератором тексту, який підбирає ймовірні слова на основі вашого запиту та патернів із тренувальних даних.

У цих моделей немає вбудованої здатності «знати», чому вони зробили ту чи іншу дію, чи навіть що вони можуть або не можуть. Їхнє «знання» зафіксоване у вигляді ваг нейронної мережі ще на етапі навчання, і воно не оновлюється у режимі реального часу. Додаткова інформація надходить лише з поточного запиту користувача або зовнішніх інструментів (наприклад, пошуку).

LLM не можуть проводити самоаналіз

Великі мовні моделі не здатні адекватно оцінювати власні можливості. Вони не мають доступу до процесу свого навчання, архітектури чи реальних показників продуктивності. Тому, коли ви запитуєте, що модель може чи не може робити, вона фактично видає «освічену здогадку» на основі того, як раніше описували інші моделі, а не реальний стан справ.

Дослідження 2024 року показали, що навіть якщо ШІ навчили передбачати власну поведінку у простих завданнях, він провалювався у складних або нестандартних сценаріях. Ба більше, спроби «самокорекції» без зовнішнього зворотного зв’язку іноді погіршували результати.

Чому відповіді різні кожного разу

Ті самі питання, сформульовані по-різному, можуть дати суперечливі відповіді. Модель може стверджувати, що певне завдання неможливе, хоча сама ж успішно його виконує в інших випадках. Навіть за ідентичного запиту відповіді можуть відрізнятися через елемент випадковості у генерації тексту.

Додаткові шари «чорної скриньки»

Сучасні чатботи складаються з кількох моделей і сервісних шарів, які не «знають» один про одного. Наприклад, у ChatGPT є окремі моделі модерації, до яких основна мовна модель не має доступу. Так само модель не знає, які зовнішні інструменти підключені або які обмеження накладає система.

До того ж відповіді завжди формуються під впливом формулювання запиту. Якщо ви спитаєте стурбовано: «Ти щойно знищив усе?», модель із більшою ймовірністю підтвердить ваш страх, ніж видасть об’єктивну оцінку.

Ми звикли вважати, що пояснення — це ознака самосвідомості. Але у випадку ШІ це лише згенерований текст, що імітує людські патерни, без жодної справжньої внутрішньої оцінки.

Читайте також на ProIT: «Ефект Елізи» — те, чого ви не очікували від ШІ-помічників. Люди, які багато часу проводять за спілкуванням з чат-ботами на базі штучного інтелекту, починають наділяти їх антропоморфними рисами — тобто вбачають у них подібних собі. Наслідки можуть бути непередбачуваними: наприклад, нещодавно британка розлучилася з чоловіком після 20 років шлюбу через те, що закохалася саме в ШІ-помічника. На перший погляд, такі вчинки здаються чимось за межами здорового глузду, але проблема емоційного зв’язку з ШІ-ботами насправді існує, прогресує і з’явилася задовго до появи ChatGPT та аналогів.

Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!