У січні 2025 року китайський стартап DeepSeek вивів на ринок відкриту мовну модель DeepSeek R1. Вона не лише перевершила за продуктивністю аналогічні моделі від американських гігантів, зокрема Meta, але й була натренована за кілька мільйонів доларів — суму, еквівалентну зарплаті деяких керівників AI-відділів Meta.
Така ефективність змусила Meta оперативно переглянути свою стратегію, адже її відкриті моделі Llama до цього вважалися найкращими у своїй категорії. Llama 3.3, випущена у грудні 2024 року, вже виглядала застарілою, повідомляє Venture Beat.
5 квітня CEO Meta Марк Цукерберг оголосив у Instagram про запуск нового покоління моделей Llama 4:
• Llama 4 Maverick — 400 мільярдів параметрів.
• Llama 4 Scout — 109 мільярдів параметрів.
Обидві моделі вже доступні для завантаження на llama.com і в репозиторії Hugging Face. Meta також анонсувала Llama 4 Behemoth на 2 трильйони параметрів, однак її ще тренують, тож дати релізу поки немає.
Ключові особливості моделей
Мультимодальність: підтримка тексту, відео та зображень (аудіо не згадується).
Довгий контекст:
– Maverick — до 1 мільйона токенів (приблизно 1500 сторінок).
– Scout — до 10 мільйонів токенів (приблизно 15 000 сторінок).
Це відкриває нові можливості для галузей, де потрібна робота з великими обсягами тексту: наука, медицина, інженерія тощо.
Архітектура MoE (mixture-of-experts):
Усі три моделі побудовані на архітектурі MoE, як і моделі від OpenAI та Mistral. Llama 4 складається зі 128 модулів, з яких одночасно активується лише потрібний для конкретного завдання і спільний модуль. Це значно знижує затрати на інференс. Наприклад, Maverick можна запускати на одному сервері Nvidia H100 DGX або в розподіленому режимі.
Оптимізація під reasoning і MetaP
Моделі орієнтовані на логічні задачі, кодування і покрокове розв’язання проблем, хоча не демонструють ланцюгів міркувань, характерних для OpenAI o-серії чи DeepSeek R1.
Meta також розробила нову техніку MetaP. Вона дає можливість налаштувати гіперпараметри на одній моделі й застосовувати їх до моделей іншого розміру чи формату токенів. Це прискорює навчання і знижує витрати. Наприклад, Behemoth тренується з використанням 32 000 GPU з FP8-прецизійністю, досягаючи 390 TFLOPs на GPU та понад 30 трильйонів токенів — удвічі більше, ніж у Llama 3.
Показники продуктивності
Llama 4 Behemoth
• MATH-500: 95.0 (проти 97.3 у DeepSeek R1, 96.4 в OpenAI o1).
• GPQA Diamond: 73.7 (вище за DeepSeek R1, нижче за o1).
• MMLU: 82.2 (менше за обох конкурентів, але краще за GPT-4.5 та Gemini 2.0 Pro).
Llama 4 Maverick
• Випереджає GPT-4o і Gemini 2.0 Flash у мультимодальних бенчмарках (ChartQA, DocVQA, MathVista, MMMU).
• Конкурент DeepSeek v3.1 (45.8B параметрів), використовуючи менше ніж половину активних параметрів.
• ChartQA: 90.0 (GPT-4o: 85.7), DocVQA: 94.4, MMLU Pro: 80.5.
Llama 4 Scout
• Обходить або на рівні з Mistral 3.1, Gemini 2.0 Flash-Lite, Gemma 3.
• DocVQA: 94.4, MMLU Pro: 74.3, MathVista: 70.7.
• Унікальне вікно контексту — 10 мільйонів токенів.
Meta наголошує на безпеці моделей, пропонуючи:
• Llama Guard, Prompt Guard, CyberSecEval — для виявлення небезпечного чи маніпулятивного контенту.
• GOAT (Generative Offensive Agent Testing) — для автоматизованого ред-тімінгу.
Також компанія заявляє про зменшення політичних упереджень у Llama 4, зокрема щодо правих поглядів.
Нагадаємо, Meta обіцяла інвестувати до $65 мільярдів у розвиток ШІ у 2025 році.
Читайте також на ProIT: Claude запускає навчальний режим із фокусом на самостійні відповіді.
Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!