IBM презентувала відкриту серію мовних моделей Granite 4, яка поєднує елементи двох різних архітектур нейронних мереж — Transformer і Mamba.
Як повідомляє Silicon Angle, на старті серія охоплює чотири моделі обсягом від 3 до 32 мільярдів параметрів. За заявою IBM, вони забезпечують вищу продуктивність при меншому споживанні пам’яті, ніж моделі аналогічного розміру.
Архітектура й особливості
Найменша модель — Granite-4.0-Micro — побудована на базі архітектури Transformer, що лежить в основі більшості сучасних LLM. Її основна особливість — attention-механізм, який дає можливість моделі визначати найважливіші частини тексту й зосереджувати обчислення саме на них.
Три інші моделі — Granite-4.0-H-Micro, Granite-4.0-H-Tiny і Granite-4.0-H-Small — комбінують attention-механізм із компонентами архітектури Mamba, яку IBM описує як ефективнішу з погляду апаратних ресурсів.
Як і Transformer, Mamba може виявляти основні фрагменти даних у запиті, але замість attention використовує state space model — математичну структуру, яку спочатку застосовували, наприклад, для розрахунку траєкторії космічних апаратів.
Переваги Mamba
Attention-механізм Transformer споживає багато пам’яті: при подвоєнні довжини запиту обсяг використання RAM зростає вчетверо. Моделі Mamba вимагають лише частку цієї пам’яті, що суттєво зменшує витрати на інференс.
Granite 4 побудовано на основі Mamba-2 — оновлення архітектури, яке вийшло на початку минулого року. У ній один із базових компонентів стиснуто до 25 рядків коду, що дає можливість виконувати частину завдань із меншими апаратними вимогами.
Продуктивність і призначення
Найпотужніша модель серії, Granite-4.0-H-Small, має 32 мільярди параметрів і реалізує підхід mixture-of-experts, активуючи 9 мільярдів із них для обробки запиту. IBM пропонує використовувати її для завдань на кшталт обробки звернень до служби підтримки.
Моделі Granite-4.0-H-Tiny (7B) і Granite-4.0-H-Micro (3B) орієнтовані на сценарії, де важлива низька затримка і швидкість обчислень, навіть ціною часткової втрати точності.
Внутрішні тести IBM показали, що Granite-4.0-H-Tiny споживає лише 15 ГБ RAM, тобто в шість разів менше, ніж попередня Granite 3.3 8B. Водночас компанія заявляє про підвищення якості результатів.
Доступність
Granite 4 вже доступна через IBM watsonx.ai та понад шість сторонніх платформ, зокрема Hugging Face. Згодом IBM планує інтегрувати моделі в Amazon SageMaker JumpStart і Microsoft Azure AI, а також доповнити лінійку новими алгоритмами з розширеними можливостями логічних висновків.
Читайте також на ProIT: Hugging Face відкрила GitHub Copilot Chat для open-source моделей.
Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!