ProIT: медіа для профі в IT
2 хв

Meta презентувала Llama 4 з мультимодальністю і reasoning-first дизайном

author avatar ProIT NEWS

У січні 2025 року китайський стартап DeepSeek вивів на ринок відкриту мовну модель DeepSeek R1. Вона не лише перевершила за продуктивністю аналогічні моделі від американських гігантів, зокрема Meta, але й була натренована за кілька мільйонів доларів — суму, еквівалентну зарплаті деяких керівників AI-відділів Meta.

Така ефективність змусила Meta оперативно переглянути свою стратегію, адже її відкриті моделі Llama до цього вважалися найкращими у своїй категорії. Llama 3.3, випущена у грудні 2024 року, вже виглядала застарілою, повідомляє Venture Beat.

5 квітня CEO Meta Марк Цукерберг оголосив у Instagram про запуск нового покоління моделей Llama 4:

Llama 4 Maverick — 400 мільярдів параметрів.
Llama 4 Scout — 109 мільярдів параметрів.

Обидві моделі вже доступні для завантаження на llama.com і в репозиторії Hugging Face. Meta також анонсувала Llama 4 Behemoth на 2 трильйони параметрів, однак її ще тренують, тож дати релізу поки немає.

Ключові особливості моделей

Мультимодальність: підтримка тексту, відео та зображень (аудіо не згадується).

Довгий контекст:

– Maverick — до 1 мільйона токенів (приблизно 1500 сторінок).

– Scout — до 10 мільйонів токенів (приблизно 15 000 сторінок).

Це відкриває нові можливості для галузей, де потрібна робота з великими обсягами тексту: наука, медицина, інженерія тощо.

Архітектура MoE (mixture-of-experts):

Усі три моделі побудовані на архітектурі MoE, як і моделі від OpenAI та Mistral. Llama 4 складається зі 128 модулів, з яких одночасно активується лише потрібний для конкретного завдання і спільний модуль. Це значно знижує затрати на інференс. Наприклад, Maverick можна запускати на одному сервері Nvidia H100 DGX або в розподіленому режимі.

Оптимізація під reasoning і MetaP

Моделі орієнтовані на логічні задачі, кодування і покрокове розв’язання проблем, хоча не демонструють ланцюгів міркувань, характерних для OpenAI o-серії чи DeepSeek R1.

Meta також розробила нову техніку MetaP. Вона дає можливість налаштувати гіперпараметри на одній моделі й застосовувати їх до моделей іншого розміру чи формату токенів. Це прискорює навчання і знижує витрати. Наприклад, Behemoth тренується з використанням 32 000 GPU з FP8-прецизійністю, досягаючи 390 TFLOPs на GPU та понад 30 трильйонів токенів — удвічі більше, ніж у Llama 3.

Показники продуктивності

Llama 4 Behemoth

MATH-500: 95.0 (проти 97.3 у DeepSeek R1, 96.4 в OpenAI o1).

GPQA Diamond: 73.7 (вище за DeepSeek R1, нижче за o1).

MMLU: 82.2 (менше за обох конкурентів, але краще за GPT-4.5 та Gemini 2.0 Pro).

Llama 4 Maverick

Випереджає GPT-4o і Gemini 2.0 Flash у мультимодальних бенчмарках (ChartQA, DocVQA, MathVista, MMMU).

Конкурент DeepSeek v3.1 (45.8B параметрів), використовуючи менше ніж половину активних параметрів.

ChartQA: 90.0 (GPT-4o: 85.7), DocVQA: 94.4, MMLU Pro: 80.5.

Llama 4 Scout

Обходить або на рівні з Mistral 3.1, Gemini 2.0 Flash-Lite, Gemma 3.

DocVQA: 94.4, MMLU Pro: 74.3, MathVista: 70.7.

Унікальне вікно контексту — 10 мільйонів токенів.

Meta наголошує на безпеці моделей, пропонуючи:

Llama Guard, Prompt Guard, CyberSecEval — для виявлення небезпечного чи маніпулятивного контенту.

GOAT (Generative Offensive Agent Testing) — для автоматизованого ред-тімінгу.

Також компанія заявляє про зменшення політичних упереджень у Llama 4, зокрема щодо правих поглядів.

Нагадаємо, Meta обіцяла інвестувати до $65 мільярдів у розвиток ШІ у 2025 році.

Читайте також на ProIT: Claude запускає навчальний режим із фокусом на самостійні відповіді.

Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!

Приєднатися до company logo
Продовжуючи, ти погоджуєшся з умовами Публічної оферти та Політикою конфіденційності.