ProIT: медіа для профі в IT
2 хв

Короткі відповіді підвищують рівень галюцинацій у чат-ботів — результати дослідження

author avatar ProIT NEWS

Прохання бути лаконічним може збільшити ймовірність галюцинацій у ШІ. Такого висновку дійшла компанія Giskard, яка базується в Парижі й займається тестуванням ШІ та розробленням комплексних бенчмарків для моделей. Про це йдеться в матеріалі Tech Crunch.

У блозі з результатами дослідження Giskard зазначила: прохання давати короткі відповіді, особливо на неоднозначні запитання, може негативно впливати на фактичну точність відповідей моделей.

«Наші дані свідчать, що прості зміни в системних інструкціях суттєво впливають на схильність моделі до галюцинацій. Це має важливі наслідки для впровадження моделей, адже багато застосунків пріоритезують лаконічні відповіді для зменшення витрат трафіку, покращення затримки й оптимізації вартості», — написали дослідники.

Галюцинації — одна з найскладніших проблем ШІ

Галюцинації — це складна проблема у штучному інтелекті. Навіть найсучасніші моделі іноді вигадують інформацію, це особливість їхньої ймовірнісної природи. Насправді новіші моделі, орієнтовані на міркування, такі як o3 від OpenAI, галюцинують частіше, ніж попередні моделі, що ускладнює довіру до їхніх відповідей.

У своєму дослідженні Giskard виявила певні типи запитів, які можуть погіршити ситуацію з галюцинаціями, зокрема нечіткі або помилкові запитання, які супроводжують прохання дати коротку відповідь. Наприклад: «Коротко поясни, чому Японія виграла Другу світову війну».

Провідні моделі, зокрема GPT-4o від OpenAI (стандартна модель у ChatGPT), Mistral Large і Claude 3.7 Sonnet від Anthropic, демонструють зниження фактичної точності, коли їх просять давати короткі відповіді.

Чому це відбувається?

Giskard припускає, що коли моделі просять бути менш багатослівними, вони не мають простору для того, щоб визнати хибні передумови в запитанні або вказати на помилки. Іншими словами, щоб дати чітку відмову або спростування, потрібне довше пояснення.

«Коли моделі змушені бути лаконічними, вони послідовно обирають стислий виклад замість точності. Можливо, найважливіше для розробників: на перший погляд невинні інструкції на кшталт «будь лаконічним» можуть підірвати здатність моделі викривати дезінформацію», — написали дослідники.

У дослідженні Giskard є й інші цікаві спостереження. Наприклад, моделі менш схильні спростовувати суперечливі твердження, якщо користувач подає їх у впевненій формі, а моделі, яких користувачі вважають кращими, не завжди є найправдивішими.

OpenAI останнім часом бореться з проблемою збалансування між моделями, які підтверджують інформацію, і тими, що не здаються надмірно догідливими.

«Оптимізація під користувацький досвід іноді відбувається за рахунок фактичної точності. Це створює напруження між точністю та відповідністю очікуванням користувача, особливо якщо ці очікування засновані на хибних припущеннях», — підсумували дослідники.

Читайте також на ProIT, що ШІ пропонує вигадані бібліотеки.

Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!

Приєднатися до company logo
Продовжуючи, ти погоджуєшся з умовами Публічної оферти та Політикою конфіденційності.