ProIT: медіа для профі в IT
Приблизно хвилину

Українську національну LLM створять на базі моделі Gemma 3 від Google

author avatar ProIT NEWS

Мінцифри та «Київстар» визначили велику мовну модель, на основі якої тренуватимуть національну українську LLM. Базою стане Gemma 3 — відкрита модель Google з підтримкою понад 140 мов.

У Мінцифри пояснюють, що українська LLM буде побудована на open-source-моделі, яку попередньо навчать на унікальних українських даних. Під час вибору враховували якість обробки українських текстів і контрольованість моделі під час навчання. Це має зменшити лінгвістичні й етичні ризики.

«Головне завдання — попередньо навчити модель на наших унікальних даних. Ми орієнтувалися на якість роботи з українською мовою та контрольованість під час тренування», — зазначив Данило Цьвок, Chief AI Officer Мінцифри та CEO WINWIN AI Center of Excellence.

У межах адаптації Gemma 3 до української мови планують:

• вдосконалити український токенайзер, щоб зменшити помилки й оптимізувати обчислювальні витрати;

• донавчити модель на спеціально відібраних україномовних текстах;

• створити бенчмарки для точного налаштування та подальшого використання.

Gemma забезпечує баланс продуктивності та ресурсів, має мультимодальні можливості, гнучку архітектуру та довге контекстне вікно — до 128 тисяч токенів. Модель уже використовується для створення українських LLM, зокрема MamayLM і Lapa LLM.

«Gemma забезпечує високу якість при оптимальних інфраструктурних вимогах. Вона легко адаптується та підтримує українську мову», — зазначив Михайло Нестор, директор із розробки диджитал-продуктів «Київстар».

Серед переваг Gemma також називають мультимодальність (робота з текстом і зображеннями), багатомовну підтримку та наявність кількох варіантів розміру моделі.

У Google Cloud підкреслюють, що вибір Gemma для національної української LLM підтверджує ефективність моделі у багатомовних сценаріях.

«Для нас велика честь, що Gemma стала основою для української LLM. Ми продовжимо підтримувати розвиток цієї ініціативи», — заявив Кшиштоф Казьов, керівник із Customer Engineering Google Cloud у Центральній і Східній Європі.

Gemma також стала базовою моделлю для INSAIT BgGPT — сучасної болгарської LLM.

Раніше ми повідомляли, що Україна офіційно розпочала партнерство з NVIDIA — однією з найпотужніших технологічних компаній світу, щоб побудувати суверенну екосистему штучного інтелекту.

Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!

Приєднатися до company logo
Продовжуючи, ти погоджуєшся з умовами Публічної оферти та Політикою конфіденційності.