Чому ШІ від OpenAI інколи думає китайською?

Невдовзі після випуску компанією OpenAI моделі reasoning (з логічним міркуванням) під назвою o1 користувачі помітили дивне явище: ця модель іноді починала думати китайською, перською або якоюсь іншою мовою, навіть коли запитання ставили англійською. Про це повідомляє Tech Crunch.

Отримавши завдання, наприклад: «Скільки літер R у слові “strawberry”?», o1 починала свій процес мислення, крок за кроком виконувала логічні міркування, а тоді видавала фінальну відповідь англійською. Проте певні проміжні кроки виконувала іншою мовою.

«o1 випадково почала думати китайською десь посередині», — написав один із користувачів на Reddit.‌

«Чому o1 раптом перейшла на китайську? Жодна частина розмови, а це понад 5 повідомлень, не була китайською», — здивувався інший користувач у дописі на X.

В OpenAI поки не пояснили, чому виникає це дивне переключення мови, і навіть не визнали такої поведінки. Тож звідки це може братися?

Фахівці зі штучного інтелекту не мають однозначної відповіді, але все ж пропонують кілька версій.

Деякі користувачі на X, зокрема CEO Hugging Face Клеман Деланґ, зазначили, що моделі reasoning, зокрема й o1, тренуються на наборах даних, саме тому вони містять багато текстів китайською.

Тед Сяо, дослідник у Google DeepMind, зауважив, що такі компанії, як OpenAI, використовують послуги з маркування даних у Китаї, тож перемикання на китайську мову — це приклад впливу китайської лінгвістики на логіку.

«Лабораторії на кшталт OpenAI та Anthropic користуються сторонніми сервісами маркування даних рівня PhD для сфер науки, математики та коду. Через доступність фахівців і фінансові чинники багато із цих сервісів базуються у Китаї», — написав Сяо у своєму дописі на X.

У процесі навчання моделі мітки (labels) допомагають штучному інтелекту інтерпретувати дані. Наприклад, для моделі розпізнавання зображень мітки можуть бути виділеними ділянками чи описами об’єктів. Дослідження показують, що упереджені мітки можуть робити упередженими і самі моделі.

Скептики звертають увагу, що o1 може переходити не лише на китайську, а й на хінді чи тайську. Вони припускають, що модель могла просто вибирати мову, яку вважала зручнішою для виконання певного завдання або ж це могла бути випадкова галюцинація ШІ.

«Модель не знає, що таке мова чи що мови відрізняються одна від одної. Для неї це все просто текст», — пояснив Меттью Гуздіал, дослідник ШІ й доцент Університету Альберти.

Насправді мовні моделі не оперують словами безпосередньо — вони використовують токени. Токени можуть бути повними словами («fantastic»), складами («fan», «tas», «tic») або навіть окремими літерами («f», «a», «n», «t», «a», «s», «t», «i», «c»). Способи розбиття тексту на токени також можуть породжувати певні викривлення.

Тєчжень Ван, інженер-програміст у стартапі Hugging Face, солідарний із Гуздіалом у тому, що мовні неспівпадіння можуть бути зумовлені асоціаціями, які сформувалися у процесі навчання.

«Завдяки тому, що ми враховуємо всі лінгвістичні нюанси, ми розширюємо кругозір моделі, і вона навчається на повному спектрі людських знань. Наприклад, мені зручніше робити математику китайською, оскільки кожна цифра — це один склад, який спрощує обчислення. Говорячи про упередження чи тонкі соціальні матерії, я автоматично переходжу на англійську, адже спочатку вивчав ці теми саме цією мовою», — написав Ван у дописі на X.

Така теорія виглядає правдоподібно, адже моделі — це насамперед статистичні машини. Вони вчаться, аналізуючи безліч прикладів, і виводять найімовірніший варіант продовження тексту.

Луча Солдаїні, науковець із неприбуткової організації Allen Institute for AI, застерігає, що ми не можемо точно знати, чому o1 робить ті чи інші кроки, адже внутрішні механізми цих моделей залишаються непрозорими.

«У ШІ-системі, яка працює, неможливо перевірити, наскільки моделі залишаються непрозорими. Це ще один з аргументів, чому прозорість у розробленні ШІ-систем є важливою», — зазначив він у коментарі для TechCrunch.

Без офіційних пояснень від OpenAI залишається лише припускати, чому o1 згадує французьку, коли думає про пісні, але переходить на китайську, розмірковуючи про синтетичну біологію.

Читайте також на ProIT: Підбірка інструментів для написання тексту на основі ШІ.

Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!