Штучний інтелект може досягти успіху в певних завданнях, таких як кодування або генерація подкасту. Але йому важко скласти іспит з історії високого рівня, виявило нове дослідження. Про це повідомляє TechCrunch.
Команда дослідників створила новий тест для перевірки на знання історичних питань трьох найкращих великих мовних моделей (LLM): GPT-4 від OpenAI, Llama від Meta та Gemini від Google. Еталонний тест Hist-LLM перевіряє правильність відповідей відповідно до Seshat Global History Databank — великої бази даних історичних знань, названої на честь давньоєгипетської богині мудрості.
Результати, які були представлені на гучній конференції зі штучного інтелекту NeurIPS, виявилися невтішними. За словами дослідників, пов’язаних із дослідницьким інститутом в Австрії Complexity Science Hub (CSH), найефективнішою LLM виявилася GPT-4 Turbo. Однак вона досягла лише приблизно 46% точності у відповідях, що не набагато вище, аніж випадкове вгадування.
«Основний висновок із цього дослідження полягає в тому, що LLM, хоча й вражаючі, але все ще не мають глибини розуміння, необхідної для передової історії. Вони чудові для базових фактів, але коли справа доходить до більш тонких історичних досліджень на рівні доктора філософії, то ще не справляються із цим завданням», — сказала Марія дель Ріо-Чанона, одна зі співавторів статті, професорка інформатики в Університетському коледжі Лондона.
Чому ж LLM погано відповідають на технічні історичні запитання, хоча можуть так добре відповідати на дуже складні запитання про такі речі, як кодування? Дель Ріо-Чанона сказала, що це, ймовірно, тому, що ШІ має тенденцію екстраполювати історичні дані, які є дуже помітними, тому системам важко отримати більш незрозумілі історичні знання.
Наприклад, дослідники запитали GPT-4, чи була у стародавньому Єгипті професійна постійна армія в певний історичний період. Хоча правильна відповідь — ні, ШІ відповів, що так. Можливо, це тому, що є багато публічної інформації про інші стародавні імперії, такі як Персія, які мали постійні армії.
«Якщо вам скажуть А і В 100 разів і С 1 раз, а потім поставлять запитання про С, ви можете просто згадати А і Б і спробувати екстраполювати відповідь із них», — сказала дель Ріо-Чанона.
Дослідники виявили й інші тенденції: моделі OpenAI і Llama показали гіршу роботу в певних регіонах, таких як Африка на південь від Сахари, що вказує на потенційні упередження в їхніх навчальних даних.
Результати засвідчили, що ШІ все ще не замінюють людей, коли йдеться про певні сфери. Але дослідники все ще сподіваються, що LLM можуть допомогти історикам у майбутньому. Вони працюють над удосконаленням свого контрольного показника, додавши більше даних із недостатньо представлених регіонів і складніші запитання.
«Загалом, хоча наші результати висвітлюють сфери, де LLM потребують удосконалення, вони також підкреслюють потенціал цих моделей для допомоги в історичних дослідженнях», — йдеться у статті.
Раніше ProIT повідомляв, що Марк Цукерберг дозволив команді Meta тренувати Llama на текстах, захищених авторським правом.
Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!