NVIDIA презентувала нове покоління своїх флагманських моделей — Nemotron 3, зробивши ставку на гібридну архітектуру mixture-of-experts (MoE) у поєднанні з Mamba-Transformer для підвищення ефективності, точності та надійності агентних AI-систем.
Лінійка Nemotron 3 охоплює три моделі. Nemotron 3 Nano з 30 мільярдами параметрів орієнтована на вузькі, високоефективні завдання. Nemotron 3 Super має 100 мільярдів параметрів і призначена для мультиагентних сценаріїв із високоточною логікою міркувань. Nemotron 3 Ultra — найбільша модель із потужним reasoning-рушієм і приблизно 500 мільярдами параметрів, розрахована на складні корпоративні застосування.
Для побудови Nemotron 3 NVIDIA використала гібридну MoE-архітектуру з акцентом на масштабованість і продуктивність. У компанії зазначили, що такий підхід забезпечує більше відкритості та кращі показники для підприємств, які створюють автономні мультиагентні системи.
Віцепрезидентка NVIDIA з програмного забезпечення для генеративного ШІ Карі Бріскі під час брифінгу заявила, що компанія свідомо переглянула підходи до архітектури моделей, враховуючи досвід попередніх ітерацій.
«Ми вважаємо, що перебуваємо в унікальній позиції, щоб обслуговувати широкий спектр розробників, які хочуть мати повну гнучкість у кастомізації моделей для спеціалізованого AI, поєднуючи нову гібридну MoE-архітектуру з контекстним вікном у 1 мільйон токенів», — сказала Бріскі.
Серед ранніх користувачів Nemotron 3 NVIDIA назвала Accenture, CrowdStrike, Cursor, Deloitte, EY, Oracle Cloud Infrastructure, Palantir, Perplexity, ServiceNow, Siemens і Zoom.
NVIDIA вже застосовує гібридну архітектуру Mamba-Transformer MoE в інших моделях, зокрема Nemotron Nano-9B-v2. Цей підхід базується на дослідженнях Carnegie Mellon University та Princeton і поєднує selective state-space models, що дає можливість ефективно працювати з довгими контекстами, зберігаючи стан і зменшуючи обчислювальні витрати.
За даними NVIDIA, нові моделі забезпечують до 4 разів вищу пропускну здатність токенів порівняно з Nemotron 2 Nano і знижують витрати на inference за рахунок скорочення генерації reasoning-токенів до 60%.
Для моделей Nemotron 3 Super і Ultra NVIDIA також впровадила нову оптимізацію — latent MoE. У цій схемі експерти моделі мають спільне ядро, зберігаючи лише невелику приватну частину. Бріскі порівняла це з шеф-кухарями, які працюють на одній великій кухні, але мають власні полиці зі спеціями. Подібний підхід використовують й інші компанії, зокрема AI21 Labs у своїх моделях Jamba, включно з Jamba Reasoning 3B.
Nemotron 3 також отримала розширене reinforcement learning. Великі моделі Super і Ultra тренувалися з використанням 4-бітного формату NVFP4, що дає можливість навчати їх на наявній інфраструктурі без втрати точності. Бенчмарки Artificial Analysis показали високі результати Nemotron серед моделей аналогічного розміру.
Разом із запуском Nemotron 3 NVIDIA відкриває доступ до дослідницьких матеріалів. Компанія опублікує наукові статті, приклади prompt’ів, відкриті датасети з pre-training і post-training даними, а також презентує NeMo Gym — лабораторію reinforcement learning, де користувачі зможуть тестувати поведінку моделей та агентів у симульованих середовищах.
Подібний інструмент раніше анонсувала AWS у межах платформи Nova Forge для корпоративного тестування компактних або дистильованих моделей.
У NVIDIA підкреслюють, що розробники дедалі частіше шукають моделі, які одночасно є максимально відкритими, інтелектуальними й ефективними. За словами фахівців, багато open-моделей змушують команди йти на складні компроміси між вартістю токенів, затримками та пропускною здатністю, тоді як Nemotron 3 покликана зняти ці обмеження.
Читайте також на ProIT, що NVIDIA створила технологію для відстеження місцезнаходження ШІ-чипів і боротьби з контрабандою.
Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!