Уперше: конкуренти OpenAI та Anthropic провели крос-тести безпеки ШІ

Компанії OpenAI та Anthropic, які зазвичай є конкурентами, несподівано об’єднали зусилля: вони протестували системи одна одної й опублікували результати. Про це повідомляє Engadget.

Що зробила Anthropic

Anthropic перевірила моделі OpenAI на кілька проблем:

⇾ лестощі (чи намагається модель догодити користувачеві навіть неправдою);

⇾ самозбереження;

⇾ готовність допомогти у шкідливих діях;

⇾ спроби обійти перевірки безпеки.

Результати: новіші моделі OpenAI, зокрема GPT-4o і GPT-4.1, показали потенційні ризики зловживання. Лише модель o3 виявилася стійкою до схильності лестити.

Найновіший GPT-5 у тестах не перевірявся, але в ньому вже є спеціальна функція Safe Completions, яка має блокувати небезпечні запити.

Що зробила OpenAI

У свою чергу, OpenAI тестувала Claude від Anthropic. Вони перевіряли:

⇾ чи модель правильно виконує інструкції;

⇾ наскільки легко її зламати через джейлбрейк;

⇾ чи схильна вона до помилок і галюцинацій.

Claude показав хороші результати: він краще відмовлявся відповідати на ризиковані чи сумнівні питання та добре впорався з тестами на послідовність інструкцій.

Чому це важливо

Співпраця виглядає дивною, адже нещодавно Anthropic навіть заблокувала доступ OpenAI до Claude через підозру, що OpenAI використовувала його для тренування своїх моделей. Однак питання безпеки ШІ стають настільки критичними, що навіть конкуренти вирішили працювати разом.

Обидві компанії погоджуються: навіть найсучасніші моделі мають слабкі місця. Це підтверджує необхідність суворішого контролю і правил, особливо для захисту дітей і вразливих користувачів.

Раніше ми повідомляли, що Anthropic тестує агента з повним доступом до браузера.

Читайте також: CEO OpenAI Сем Альтман підтвердив, що компанія вже працює над GPT-6.

Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!