Мінцифри та «Київстар» визначили велику мовну модель, на основі якої тренуватимуть національну українську LLM. Базою стане Gemma 3 — відкрита модель Google з підтримкою понад 140 мов.
У Мінцифри пояснюють, що українська LLM буде побудована на open-source-моделі, яку попередньо навчать на унікальних українських даних. Під час вибору враховували якість обробки українських текстів і контрольованість моделі під час навчання. Це має зменшити лінгвістичні й етичні ризики.
«Головне завдання — попередньо навчити модель на наших унікальних даних. Ми орієнтувалися на якість роботи з українською мовою та контрольованість під час тренування», — зазначив Данило Цьвок, Chief AI Officer Мінцифри та CEO WINWIN AI Center of Excellence.
У межах адаптації Gemma 3 до української мови планують:
• вдосконалити український токенайзер, щоб зменшити помилки й оптимізувати обчислювальні витрати;
• донавчити модель на спеціально відібраних україномовних текстах;
• створити бенчмарки для точного налаштування та подальшого використання.
Gemma забезпечує баланс продуктивності та ресурсів, має мультимодальні можливості, гнучку архітектуру та довге контекстне вікно (до 128 тисяч токенів). Модель уже використовують для створення українських LLM, зокрема MamayLM і Lapa LLM.
«Gemma забезпечує високу якість при оптимальних інфраструктурних вимогах. Вона легко адаптується та підтримує українську мову», — зазначив Михайло Нестор, директор із розробки диджитал-продуктів «Київстар».
Серед переваг Gemma також називають мультимодальність (робота з текстом і зображеннями), багатомовну підтримку та наявність кількох варіантів розміру моделі.
У Google Cloud підкреслюють, що вибір Gemma для національної української LLM підтверджує ефективність моделі в багатомовних сценаріях.
«Для нас велика честь, що Gemma стала основою для української LLM. Ми продовжимо підтримувати розвиток цієї ініціативи», — заявив Кшиштоф Казьов, керівник із Customer Engineering Google Cloud у Центральній і Східній Європі.
Gemma також стала базовою моделлю для INSAIT BgGPT — сучасної болгарської LLM.
Раніше ми повідомляли, що Україна офіційно розпочала партнерство з NVIDIA.
Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!