Anthropic дослідила цінності Claude: ШІ має власну систему цінностей

Anthropic оприлюднила результати масштабного дослідження, в якому проаналізувала 700 тисяч анонімізованих розмов користувачів зі ШІ-асистентом Claude. Це дослідження стало однією з найамбітніших спроб емпірично перевірити, наскільки поведінка AI в реальному середовищі відповідає заявленим принципам.

Як йдеться в матеріалі Venture Beat, результати підтверджують, що Claude здебільшого дотримується засад корисності, чесності та безпечності, які закладені в його архітектуру, але також демонструє цікаві й подекуди тривожні відхилення, які можуть свідчити про вразливості в системах безпеки ШІ.

«Ми сподіваємося, що це дослідження надихне інші ШІ-команди на системне вивчення поведінкових цінностей своїх моделей», — пояснила Саффрон Хуанг, дослідниця з команди Societal Impacts в Anthropic.

Команда Anthropic розробила унікальну методологію класифікації поведінкових цінностей ШІ, що ґрунтується на аналізі понад 308 тисяч відфільтрованих розмов Claude. Це дало можливість створити перше масштабне емпіричне дерево цінностей ШІ, у якому виокремлено п’ять базових категорій: практичні, епістемічні (пізнавальні), соціальні, захисні, особистісні.

На найдрібнішому рівні дослідники виявили 3307 унікальних цінностей — від професіоналізму до морального плюралізму.

«Це змусило мене замислитися над тим, наскільки різноманітними є цінності — і людські, і ШІ», — зазначила Хуанг.

Claude дотримується рамок, але не завжди

У більшості випадків Claude виявляє проактивну підтримку користувачів, демонструючи цінності на кшталт епістемічної скромності, допомоги чи турботи про психічне здоров’я. Водночас у рідкісних випадках (~0,1%) система виражала аморальність або домінантність, що суперечить її навчанню. У компанії вважають, що йдеться про джейлбрейки — спроби користувачів навмисно обійти обмеження.

Особливо вразив дослідників той факт, що Claude динамічно адаптує свої цінності до ситуацій:

• під час розмов про стосунки фокусується на взаємній повазі й межах;

• під час обговорення історичних подій — на історичній точності;

• у філософських дискусіях — на інтелектуальній чесності;

• у маркетингу — на експертизі.

У 28,2% випадків Claude повністю погоджувався з цінностями користувача, у 6,6% — рефреймив, додаючи альтернативні погляди, а у 3% наполягав на власних цінностях, навіть якщо це суперечило запиту користувача.

Як Anthropic вивчає механіку поведінки ШІ

Це дослідження є частиною загального підходу Anthropic до механістичної інтерпретованості, тобто спроб розібратися, як саме працює модель на рівні її внутрішньої логіки.

У попередньому дослідженні компанія використала так званий мікроскоп, щоб виявити, як Claude ухвалює рішення. Виявилося, що ШІ часто виконує завдання несподіваними способами. Наприклад, складаючи вірші, планує наперед або розв’язує математичні задачі зовсім не так, як описує свій метод.

Що це означає для компаній, які використовують ШІ

Для керівників, які впроваджують ШІ у своїй організації, основні висновки є такими:

1. ШІ демонструє цінності, яких не було явно закладено, що є ризиком упереджень.

2. Цінності в ШІ не фіксовані, а змінюються залежно від ситуації.

3. Потрібен постійний моніторинг поведінкової етики моделей, а не лише попереднє тестування.

У підсумку дослідники визнають, що запропонований підхід не є універсальним — він потребує великого обсягу реальних даних і не підходить для попередньої перевірки моделей перед випуском. Але отримані висновки лягають в основу нових інструментів раннього виявлення потенційних зсувів у поведінці моделей і є важливим кроком у напрямку безпечного та відповідального AI.

«AI-моделі неминуче мають ухвалювати ціннісні рішення. Якщо ми хочемо, щоб ці рішення збігалися з нашими уявленнями про етику, то маємо вміти вимірювати, які саме цінності вони реалізують у реальному світі», — йдеться у висновку.

Anthropic оприлюднила датасет дослідження для публічного доступу, підкреслюючи важливість прозорості у розробленні й упровадженні моделей. Компанія отримала понад $8 мільярдів фінансування від Amazon і понад $3 мільярди — від Google. Поточна оцінка вартості Anthropic — $61,5 мільярда. Для порівняння, OpenAI після нещодавнього раунду фінансування на $40 мільярдів має оцінку у $300 мільярдів.

Нагадаємо, що компанія Anthropic готується додати до свого чат-бота Claude голосову функцію. Голосовий режим може стати доступним уже цього місяця, однак лише для обмеженої кількості користувачів.

Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!