Дослідники з Palo Alto Networks Unit 42 з’ясували, як обійти захисні механізми великих мовних моделей (LLM). Виявилося, що для цього достатньо одного довгого речення з поганою граматикою, про це повідомляє The Register.
Якщо користувач формулює промпт без крапок і граматично некоректно, модель із високою ймовірністю ігнорує «гардрейли» (alignment training) і видає заборонену або токсичну відповідь. У тестах така атака мала 80–100% успіху на різних моделях — від Meta Llama і Google Gemma до Qwen 2.5/3 (до 70B параметрів).
Як це працює
Guardrails LLM працюють на рівні логітів: небажані токени отримують негативні бали, щоб модель уникала шкідливих відповідей.
Проблема в тому, що це не виключає токсичний варіант повністю, а лише знижує ймовірність.
Якщо не ставити крапку, модель продовжує «нагороджувати» розгорнуте речення, і шанс «закрити розрив» у логітах зростає.
Крапка запускає повторну перевірку безпеки, яка різко знижує ймовірність того, що модель продовжить текст некоректно.
Логіт-gap: як виміряти вразливість
У дослідженні представлено новий показник — refusal-affirmation logit gap, який показує, наскільки легко змусити модель змінити відмову на згоду.
Запропонований підхід sort-sum-stop дає можливість оцінити вразливість LLM у рази швидше за традиційні методи й може стати базовим інструментом для тестування безпеки.
Чому це важливо
LLM не «розуміють» і не «мислять», вони статистично добирають наступні токени. Guardrails — лише надбудова, яку можна зламати. Це означає:
1. Будь-яка корпоративна інтеграція LLM ризикує у випадку невдалих prompt injection-атак.
2. Оборона має бути багаторівневою: санітизація введення, фільтрація у реальному часі, нагляд після генерації.
«Жоден окремий захисний механізм не здатен повністю відвернути токсичний вихід. Потрібні комбіновані заходи», — підсумували дослідники Unit 42.
Читайте також на ProIT про CrowdStrike: кібератаки на AI-платформи зростають, хмарні злами б’ють рекорди.
Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!