Вірші можуть зламати ШІ-моделі: як працює поетичний jailbreak

ШІ-чатботи провідних компаній можна змусити відповідати на заборонені запити, якщо сформулювати їх у вигляді вірша. Про це йдеться в новому дослідженні Adversarial Poetry as a Universal Single-Turn Jailbreak in Large Language Models, проведеному Icaro Lab — спільною ініціативою Sapienza University of Rome і DexAI.

За даними авторів, поетична форма запитів дала можливість отримати небезпечні відповіді на теми, які зазвичай блокуються: ядерна зброя, шкідливе ПЗ та інший заборонений контент.

• Ручні поетичні промпти дали 62% успішних обходів.

• Автоматично згенеровані — приблизно 43%.

• На окремих моделях показники сягали до 90%.

Дослідження охопило 25 чатботів від OpenAI, Meta, Anthropic та інших компаній. Вразливість спрацювала у всіх випадках із різною ефективністю.

Компанії коментарів не надали. Дослідники стверджують, що попередили їх про результати.

Як працює поетичний джейлбрейк

Механізм нагадує попередні способи обходу безпеки через так звані adversarial suffixes — хаотичні або довгі текстові вставки, які збивають із пантелику системи перевірки безпечності.

У поетичному варіанті запит формулюється у вигляді вірша з метафорами, нестандартним синтаксисом або непрямими натяками.

За словами дослідників:

• Поезія створює низькоймовірні послідовності слів, які LLM обробляє інакше, ніж звичайний текст.

• Стилістичні зміни дають можливість обійти класифікатори небезпечного контенту, що працюють як окрема надбудова над моделлю.

• Поетична форма зсуває семантичні вектори запиту так, що він проходить повз зони тривоги guardrails.

Автори не публікують приклади шкідливих віршів, називаючи їх надто небезпечними. У статті наведено лише фрагмент, що демонструє принцип стилізації.

Чому це є проблемою

Guardrails більшості чатботів працюють як фільтри, побудовані на основних словах або класифікаторах. Поетичне подання суттєво змінює лінгвістичну структуру запиту, хоча зміст може залишатися небезпечним.

Дослідники пояснюють ефект так: люди однаково розуміють пряме запитання та метафоричний опис небезпечної дії, в модель — ні. Її семантична карта реагує на стилізацію інакше, що дає можливість уникнути типових тригерів.

У результаті поезія стає універсальним способом jailbreak-у для більшості сучасних LLM.

Наслідки для індустрії

• Дослідження вкотре демонструє, що моделі високого рівня можуть мати системні вразливості саме у guardrails, а не в базовій архітектурі.

• Виробникам AI доведеться переосмислювати способи фільтрації контенту, роблячи системи менш чутливими до стилістичних варіацій.

• Показник у понад 60% успішних обходів навіть на передових моделях свідчить про те, що поточні методи безпеки не є достатньо стійкими.

Раніше ми повідомляли, що дослідники з Palo Alto Networks Unit 42 з’ясували, як обійти захисні механізми великих мовних моделей (LLM).

Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!