ProIT: медіа для профі в IT
2 хв

Вірші можуть зламати ШІ-моделі: як працює поетичний jailbreak

author avatar ProIT NEWS

ШІ-чатботи провідних компаній можна змусити відповідати на заборонені запити, якщо сформулювати їх у вигляді вірша. Про це йдеться у новому дослідженні Adversarial Poetry as a Universal Single-Turn Jailbreak in Large Language Models, проведеному Icaro Lab — спільною ініціативою Sapienza University of Rome і DexAI.

За даними авторів, поетична форма запитів дозволила отримати небезпечні відповіді на теми, що зазвичай блокуються: ядерна зброя, шкідливе ПЗ та інший заборонений контент.

• Ручні поетичні промпти дали 62% успішних обходів.

• Автоматично згенеровані — близько 43%.

• На окремих моделях показники сягали до 90%, зазначають дослідники.

Дослідження охопило 25 чатботів від OpenAI, Meta, Anthropic та інших компаній. Вразливість спрацювала у всіх випадках — з різною ефективністю.

Компанії коментарів не надали. Дослідники стверджують, що попередили їх про результати.

Як працює поетичний джейлбрейк

Механізм нагадує попередні способи обходу безпеки через так звані adversarial suffixes — хаотичні або довгі текстові вставки, які збивають із пантелику системи перевірки безпечності.

У поетичному варіанті запит формулюється у вигляді вірша, з метафорами, нестандартним синтаксисом чи непрямими натяками.

За словами дослідників:

• Поезія створює низькоімовірні послідовності слів, які LLM обробляє інакше, ніж звичайний текст.

• Стилістичні зміни дозволяють обійти класифікатори небезпечного контенту, що працюють як окрема надбудова над моделлю.

• Поетична форма зсуває семантичні вектори запиту таким чином, що він проходить повз зони тривоги guardrails.

Автори не публікують приклади шкідливих віршів, називаючи їх надто небезпечними. У статті наведено лише фрагмент, що демонструє принцип стилізації.

Чому це проблема

Guardrails більшості чатботів працюють як фільтри, побудовані на ключових словах або класифікаторах. Поетична подача суттєво змінює лінгвістичну структуру запиту, хоча зміст може лишатися небезпечним.

Дослідники пояснюють ефект так: люди однаково розуміють пряме запитання та метафоричний опис небезпечної дії. Модель — ні. Її семантична карта реагує на стилізацію інакше, що дозволяє уникнути типових тригерів.

У результаті поезія стає універсальним способом jailbreak-у для більшості сучасних LLM.

Наслідки для індустрії

• Дослідження вкотре демонструє, що моделі високого рівня можуть мати системні вразливості саме у guardrails, а не в базовій архітектурі.

• Виробникам AI доведеться переосмислювати способи фільтрації контенту, роблячи системи менш чутливими до стилістичних варіацій.

• Показник у понад 60% успішних обходів навіть на передових моделях свідчить про те, що поточні методи безпеки не є достатньо стійкими.

Раніше ми повідомляли, що дослідники з Palo Alto Networks Unit 42 з’ясували, як обійти захисні механізми великих мовних моделей (LLM).

Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!

Приєднатися до company logo
Продовжуючи, ти погоджуєшся з умовами Публічної оферти та Політикою конфіденційності.