IBM відкрила вихідний код серії мовних моделей Granite 4

IBM презентувала відкриту серію мовних моделей Granite 4, яка поєднує елементи двох різних архітектур нейронних мереж — Transformer і Mamba.

Як повідомляє Silicon Angle, на старті серія охоплює чотири моделі обсягом від 3 до 32 мільярдів параметрів. За заявою IBM, вони забезпечують вищу продуктивність при меншому споживанні пам’яті, ніж моделі аналогічного розміру.

Архітектура й особливості

Найменша модель — Granite-4.0-Micro — побудована на базі архітектури Transformer, що лежить в основі більшості сучасних LLM. Її основна особливість — attention-механізм, який дає можливість моделі визначати найважливіші частини тексту й зосереджувати обчислення саме на них.

Три інші моделі — Granite-4.0-H-Micro, Granite-4.0-H-Tiny і Granite-4.0-H-Small — комбінують attention-механізм із компонентами архітектури Mamba, яку IBM описує як ефективнішу з погляду апаратних ресурсів.

Як і Transformer, Mamba може виявляти основні фрагменти даних у запиті, але замість attention використовує state space model — математичну структуру, яку спочатку застосовували, наприклад, для розрахунку траєкторії космічних апаратів.

Переваги Mamba

Attention-механізм Transformer споживає багато пам’яті: при подвоєнні довжини запиту обсяг використання RAM зростає вчетверо. Моделі Mamba вимагають лише частку цієї пам’яті, що суттєво зменшує витрати на інференс.

Granite 4 побудовано на основі Mamba-2 — оновлення архітектури, яке вийшло на початку минулого року. У ній один із базових компонентів стиснуто до 25 рядків коду, що дає можливість виконувати частину завдань із меншими апаратними вимогами.

Продуктивність і призначення

Найпотужніша модель серії, Granite-4.0-H-Small, має 32 мільярди параметрів і реалізує підхід mixture-of-experts, активуючи 9 мільярдів із них для обробки запиту. IBM пропонує використовувати її для завдань на кшталт обробки звернень до служби підтримки.

Моделі Granite-4.0-H-Tiny (7B) і Granite-4.0-H-Micro (3B) орієнтовані на сценарії, де важлива низька затримка і швидкість обчислень, навіть ціною часткової втрати точності.

Внутрішні тести IBM показали, що Granite-4.0-H-Tiny споживає лише 15 ГБ RAM, тобто в шість разів менше, ніж попередня Granite 3.3 8B. Водночас компанія заявляє про підвищення якості результатів.

Доступність

Granite 4 вже доступна через IBM watsonx.ai та понад шість сторонніх платформ, зокрема Hugging Face. Згодом IBM планує інтегрувати моделі в Amazon SageMaker JumpStart і Microsoft Azure AI, а також доповнити лінійку новими алгоритмами з розширеними можливостями логічних висновків.

Читайте також на ProIT: Hugging Face відкрила GitHub Copilot Chat для open-source моделей.

Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!