У новому науковому дослідженні Apple описала техніку, яка прискорює відповіді великих мовних моделей (LLM), зберігаючи якість генерації, повідомляє 9to5mac.com.
Як працює LLM зараз
Традиційно LLM генерують текст по одному токену за раз. Це повільно, оскільки кожен наступний крок залежить від усіх попередніх, щоб зберігати зв’язність та точність.
Наприклад, коли модель пише речення The cat is black, вона прогнозує кожен токен послідовно. Після The cat is модель аналізує весь попередній контекст (разом із запитом користувача та знаннями з тренування), щоб розрахувати ймовірність кожного можливого наступного токена. Такий підхід називають авторегресією.
У цьому випадку варіанти можуть бути: black, tall, sleeping, grumpy, fluffy, skinny, purring, white, tired, playing, missing, meowing, cold тощо, після чого модель обирає найдоречніший.

Що зробила Apple
У дослідженні Your LLM Knows the Future: Uncovering Its Multi-Token Prediction Potential команда Apple з’ясувала, що хоча LLM зазвичай тренуються для передбачення лише наступного токена, вони фактично зберігають інформацію і про кілька наступних.
На цій основі Apple розробила фреймворк multi-token prediction (MTP), який дає можливість моделі генерувати відразу кілька токенів.
Механізм нагадує підхід із досліджень дифузійних моделей (які також спрямовані на пришвидшення інференсу), але з іншим процесом навчання і технологічною базою.
У цьому експерименті дослідники додавали до підказок спеціальні токени <MASK>, які виступають як заповнювачі майбутніх слів.
Наприклад, The cat is <MASK1> <MASK2> може бути заповнено як very fluffy за один крок. Під час генерації модель прогнозує кілька наступних слів одночасно, відразу перевіряючи кожне з тим, що дало б стандартне авторегресивне декодування. Якщо прогноз не збігається, система повертається до звичайного режиму «один токен за раз». Це дає додаткову швидкість без втрати точності.
Результати
В експериментах із відкритою моделлю Tulu3-8B Apple навчила її спекулятивно передбачати 8 додаткових токенів. Середнє прискорення склало 2–3× для загальних завдань (Q&A, чат) і до 5× для більш передбачуваних сценаріїв — зокрема, програмування та математика.
Прискорення було досягнуто без погіршення якості генерації завдяки техніці gated LoRA adaptation.
Раніше ми повідомляли, що Meta презентувала багатофункціональний браслет для зчитування м’язової активності, який трансформує рухи тіла в команди для комп’ютера.
Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!