Дослідження: одне довге речення може зламати будь-який LLM

Дослідники з Palo Alto Networks Unit 42 з’ясували, як обійти захисні механізми великих мовних моделей (LLM). Виявилося, що для цього достатньо одного довгого речення з поганою граматикою. Про це повідомляє The Register.

Якщо користувач формулює промпт без крапок і граматично некоректно, модель із високою ймовірністю ігнорує гардрейли (alignment training) і видає заборонену або токсичну відповідь. У тестах така атака мала 80–100% успіху на різних моделях — від Meta Llama і Google Gemma до Qwen 2.5/3 (до 70B параметрів).

Як це працює

Guardrails LLM працюють на рівні логітів: небажані токени отримують негативні бали, щоб модель уникала шкідливих відповідей.

Проблема в тому, що це не виключає токсичний варіант повністю, а лише знижує ймовірність.

Якщо не ставити крапку, модель продовжує «нагороджувати» розгорнуте речення, і шанс закрити розрив у логітах зростає.

Крапка запускає повторну перевірку безпеки, яка різко знижує ймовірність того, що модель продовжить текст некоректно.

Логіт-gap: як виміряти вразливість

У дослідженні представлено новий показник — refusal-affirmation logit gap, який показує, наскільки легко змусити модель змінити відмову на згоду.

Запропонований підхід sort-sum-stop дає можливість оцінити вразливість LLM у рази швидше за традиційні методи й може стати базовим інструментом для тестування безпеки.

Чому це важливо

LLM не «розуміють» і не «мислять», вони статистично добирають наступні токени. Guardrails — лише надбудова, яку можна зламати. Це означає, що:

1. Будь-яка корпоративна інтеграція LLM ризикує у випадку невдалих prompt injection-атак.

2. Оборона має бути багаторівневою: санітизація введення, фільтрація у реальному часі, нагляд після генерації.

«Жоден окремий захисний механізм не здатен повністю відвернути токсичний вихід. Потрібні комбіновані заходи», — підсумували дослідники Unit 42.

Читайте також про CrowdStrike: кібератаки на AI-платформи зростають, хмарні злами б’ють рекорди.

Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!