Meta презентувала Llama 4 з мультимодальністю і reasoning-first дизайном

У січні 2025 року китайський стартап DeepSeek вивів на ринок відкриту мовну модель DeepSeek R1. Вона не лише перевершила за продуктивністю аналогічні моделі від американських гігантів, зокрема Meta, але й була натренована за кілька мільйонів доларів — суму, еквівалентну зарплаті деяких керівників AI-відділів Meta.

Така ефективність змусила Meta оперативно переглянути свою стратегію, адже її відкриті моделі Llama до цього вважалися найкращими у своїй категорії. Llama 3.3, випущена у грудні 2024 року, вже виглядала застарілою, повідомляє Venture Beat.

5 квітня CEO Meta Марк Цукерберг оголосив у Instagram про запуск нового покоління моделей Llama 4:

• Llama 4 Maverick — 400 мільярдів параметрів.
• Llama 4 Scout — 109 мільярдів параметрів.

Обидві моделі вже доступні для завантаження на llama.com і в репозиторії Hugging Face. Meta також анонсувала Llama 4 Behemoth на 2 трильйони параметрів, однак її ще тренують, тож дати релізу поки немає.

Ключові особливості моделей

Мультимодальність: підтримка тексту, відео та зображень (аудіо не згадується).

Довгий контекст:

– Maverick — до 1 мільйона токенів (приблизно 1500 сторінок).

– Scout — до 10 мільйонів токенів (приблизно 15 000 сторінок).

Це відкриває нові можливості для галузей, де потрібна робота з великими обсягами тексту: наука, медицина, інженерія тощо.

Архітектура MoE (mixture-of-experts):

Усі три моделі побудовані на архітектурі MoE, як і моделі від OpenAI та Mistral. Llama 4 складається зі 128 модулів, з яких одночасно активується лише потрібний для конкретного завдання і спільний модуль. Це значно знижує затрати на інференс. Наприклад, Maverick можна запускати на одному сервері Nvidia H100 DGX або в розподіленому режимі.

Оптимізація під reasoning і MetaP

Моделі орієнтовані на логічні задачі, кодування і покрокове розв’язання проблем, хоча не демонструють ланцюгів міркувань, характерних для OpenAI o-серії чи DeepSeek R1.

Meta також розробила нову техніку MetaP. Вона дає можливість налаштувати гіперпараметри на одній моделі й застосовувати їх до моделей іншого розміру чи формату токенів. Це прискорює навчання і знижує витрати. Наприклад, Behemoth тренується з використанням 32 000 GPU з FP8-прецизійністю, досягаючи 390 TFLOPs на GPU та понад 30 трильйонів токенів — удвічі більше, ніж у Llama 3.