ChatGPT відповідає неправильно на більш ніж половину запитань із програмування

ChatGPT від OpenAI більш ніж у половині випадків дає неправильні відповіді на запитання щодо програмного забезпечення. Однак бот виявився достатньо переконливим, щоб обдурити третину учасників дослідження, повідомляє The Register.

Дослідники Університету Пердью поставили ChatGPT 517 запитань зі Stack Overflow, щоб оцінити правильність, послідовність, вичерпність і стислість відповідей ChatGPT.

Американські вчені також провели лінгвістичний аналіз відповідей та аналіз почуттів, а також опитали десяток добровольців щодо результатів, отриманих за допомогою моделі.

«Наш аналіз показує, що 52% відповідей ChatGPT є неправильними, а 77% – багатослівними, – підсумували науковці. – Тим не менше, відповіді ChatGPT все ще мають перевагу у 39,34% випадків через їхню вичерпність і добре сформульований стиль мови».

OpenAI на вебсайті ChatGPT визнає, що його програмне забезпечення «може видавати неточну інформацію про людей, місця або факти».

Лише коли помилка у відповіді ChatGPT очевидна, користувачі можуть ідентифікувати її.

Навіть якщо у відповіді ChatGPT є явна помилка, двоє із 12 опитаних добровольців все одно відзначили цю відповідь як кращу. Газета пояснює це приємним авторитетним стилем ChatGPT.

«З напівструктурованих інтерв’ю стає очевидним, що ввічлива мова, чіткі відповіді та відповіді у стилі підручника, вичерпність та афілійованість роблять абсолютно неправильні відповіді правильними», – пояснили дослідники.

Учасники ігнорують неправильність відповіді нейромережі, коли вважають відповідь ChatGPT змістовною. Те, як ChatGPT впевнено передає змістовну інформацію (навіть якщо інформація неправильна), завойовує довіру користувачів, що змушує їх надавати перевагу неправильній відповіді.

Серед інших висновків автори виявили, що ChatGPT частіше припускається концептуальних помилок, аніж фактичних.

«Багато відповідей є неправильними через нездатність ChatGPT зрозуміти основний контекст поставленого запитання», – йдеться у статті.

Проведений авторами лінгвістичний аналіз відповідей ChatGPT і відповідей Stack Overflow показує, що відповіді бота «більш формальні, виражають більше аналітичного мислення, демонструють більше зусиль для досягнення цілей і викликають менше негативних емоцій».

Згідно з емоційним аналізом, відповіді ChatGPT виражають «більш позитивні настрої», ніж відповіді Stack Overflow.