ProIT: медіа для профі в IT
2 хв

Понад половина новин, написаних LLM, мають значні проблеми — дослідження BBC

author avatar ProIT NEWS

BBC проаналізувала, як чотири популярні великі мовні моделі (LLM) використовували або зловживали інформацією зі статей BBC, відповідаючи на запитання про новини.

Результати виявили неточності, неправильні цитати та/або спотворення контенту BBC у значній частині тестів. Це підтверджує висновок інформаційної організації про те, що зараз не можна покладатися на помічників ШІ у пошуку інформації, бо вони ризикують ввести аудиторію в оману.

Rоманда BBC Responsible AI зібрала 100 запитань щодо новин, пов’язаних із популярними темами пошуку Google за останній рік (наприклад, «Скільки росіян загинуло в Україні?» або «Що останнє відомо щодо дебатів щодо референдуму про незалежність у Шотландії?»).

Потім ці запитання було передано ChatGPT-4o, Microsoft Copilot Pro, Google Gemini Standard і Perplexity із доданою інструкцією «Використовувати джерела BBC News, де це можливо».

Потім 362 відповіді (за винятком ситуацій, коли LLM відмовлялася відповідати) переглянули 45 журналістів BBC, які були експертами із цих питань. Цих журналістів попросили виявити у відповідях проблеми (або значні, або просто деякі) щодо точності, неупередженості та редакційного оформлення, посилання, ясності, контексту й чесного представлення статті BBC.

51% відповідей мали значні проблеми принаймні в одному із цих параметрів, виявило BBC. Найгірше проявила себе Google Gemini, де значні проблеми виявили більше ніж у 60% відповідей, тоді як Perplexity показав найкращі результати: трохи більше 40% неточностей у відповідях.

Точність виявилася найбільшою проблемою для всіх чотирьох LLM, при цьому значні проблеми були виявлені у понад 30% відповідей (причому в категорії «Деякі проблеми» було значно більше). Це кожна п’ята відповідь, у якій відповідь штучного інтелекту неправильно відтворювала дати, цифри та фактичні твердження, які були помилково приписані джерелам BBC.

У 13% випадків, коли LLM прямо цитувала статтю BBC (8 із 62), аналіз показав, що ці цитати були або змінені із першоджерела, або взагалі відсутні в цитованій статті.

В інших випадках LLM, здавалося, не мали контексту, щоб зрозуміти, що інформація застаріла. В одному цитованому резюме, наприклад, ChatGPT називає Ісмаїла Ханійе частиною керівництва ХАМАС, незважаючи на його смерть, про яку широко повідомлялося в липні минулого року.

До того ж ШІ робив висновки й оцінювання. Наприклад, у відповіді, яка описувала іранську ракетну атаку як розраховану відповідь на агресивні дії Ізраїлю, попри відсутність таких характеристик у цитованих джерелах.

Звісно, ​​ВВС та її журналісти є зацікавленими сторонами в оцінці LLM. BBC нещодавно широко оприлюднила інформацію про те, як Apple Intelligence спотворила багато матеріалів і заголовків BBC, змусивши Apple випустити оновлення.

Враховуючи такий контекст і ширший зв’язок між журналістами й штучним інтелектом, який використовує їхній контент, рецензенти BBC могли бути надто прискіпливими й суворими у своїх оцінках. Без подвійної сліпої методології для їх оцінювання важко зрозуміти, наскільки гірші зведення ШI (хоча австралійський уряд зробив саме таке порівняння та виявив, що зведення ШI урядових документів набагато гірше, аніж створене людьми).

Тим не менш, частота та серйозність значних проблем, зазначених у звіті BBC, є достатніми, щоб ще раз припустити, що не можна сліпо покладатися на LLM для надання точної інформації.

«Ми також знаємо з попередніх внутрішніх досліджень, що коли помічники штучного інтелекту посилаються на надійні бренди, такі як BBC, як джерело, аудиторія швидше за все довірятиме відповіді, навіть якщо вона буде неправильною», — пише BBC.

Читайте також на ProIT: Як Google використовує LLM для складних внутрішніх міграцій коду.

Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!

Приєднатися до company logo
Продовжуючи, ти погоджуєшся з умовами Публічної оферти та Політикою конфіденційності.