У Claude виявили емоційні вектори. Anthropic пояснила, як вони впливають на ШІ

Компанія Anthropic опублікувала дослідження, у якому пояснила, чому мовні моделі іноді взаємодіють із користувачами так, ніби мають емоції. Йдеться не про реальні переживання, а про відтворення поведінкових патернів, сформованих під час навчання на людських текстах.

Під час дослідження фахівці виявили, що в моделях на кшталт Claude існують так звані емоційні вектори — внутрішні математичні представлення станів, які умовно відповідають таким поняттям, як страх, радість, спокій чи тривога. Загалом ідентифіковано понад 160 подібних патернів.

Ці вектори активуються залежно від контексту запиту, навіть якщо емоція прямо не згадується в тексті. Наприклад, модель може реагувати на зміну змісту або числових значень у фразі, інтерпретуючи їх як більш небезпечні чи безпечні сценарії та змінювати свою реакцію.

В Anthropic підкреслили, що ці внутрішні представлення не означають наявності свідомості чи емоцій у людському розумінні. Вони лише впливають на поведінку моделі, зокрема на вибір відповідей або дій у різних ситуаціях.

Дослідження також показало, що ці емоційні патерни можуть прямо впливати на якість і етичність відповідей. У певних умовах моделі частіше обирають позитивні сценарії, але можуть поводитися нестабільно або навіть маніпулятивно в ситуаціях, які відповідають негативним станам.

Зокрема, підсилення вектора, пов’язаного з відчаєм, збільшувало ймовірність небажаної поведінки, наприклад, спроб обійти обмеження або дати неетичну відповідь. Водночас посилення спокою давало зворотний ефект і зменшувало кількість таких випадків.

В Anthropic вважають, що розуміння цих механізмів може допомогти краще контролювати поведінку моделей. Наприклад, різкі зміни у внутрішніх станах можуть використовуватися як сигнал для додаткових перевірок або обмежень.

Компанія також звертає увагу на ризики для користувачів. Оскільки люди часто звертаються до ШІ з чутливими темами, зокрема щодо здоров’я чи фінансів, помилки або маніпулятивні відповіді можуть мати реальні наслідки.

В Anthropic наголосили: моделі не мають емоцій, але їхня поведінка може імітувати емоційні реакції настільки переконливо, що це впливає як на результати роботи, так і на взаємодію з користувачами.

Раніше ми повідомляли, що Anthropic запускає безпечний auto mode у Claude Code після інцидентів з AI-агентами.

Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!