Українська LLM може з’явитися вже навесні 2026 року

Україна розробляє власну велику мовну модель (LLM), яка стане частиною національної AI-інфраструктури та основою для нових державних цифрових сервісів. Першу версію моделі планують представити до кінця весни 2026 року.

Про це повідомив керівник напряму штучного інтелекту Міністерства цифрової трансформації України Данило Цьвок.

За його словами, Україна ставить амбітну мету — увійти до топ-3 країн світу з розвитку та впровадження штучного інтелекту до 2030 року. Для цього держава вже формує необхідну AI-інфраструктуру та переходить від концепції цифрової держави до моделі, де значну частину сервісів забезпечуватимуть AI-асистенти.

Ключовими елементами цієї інфраструктури стануть так звана AI Factory — державна платформа для розробки та запуску AI-рішень — і національна велика мовна модель.

У Мінцифри пояснюють, що йдеться не про створення нового ChatGPT або Gemini. Велика мовна модель — це базове ядро, нейронна мережа, яка навчається на великих масивах даних і стає основою для різних AI-продуктів, таких як чатботи або цифрові асистенти.

Однією з головних причин створення власної LLM є відсутність у більшості міжнародних моделей глибокого розуміння українського контексту. Українська модель має краще працювати з мовою, історією, культурою та національною термінологією.

Також власна модель розглядається як інструмент інформаційної безпеки. В умовах інформаційної війни важливо, щоб AI-системи коректно інтерпретували політичні та історичні події, зокрема теми окупації Криму або війни на сході України.

Ще один аргумент на користь створення національної LLM — економічний. За оцінками Мінцифри, українська модель може бути в 2,5–3 рази дешевшою за використання іноземних аналогів.

Проєкт реалізується у партнерстві з телеком-оператором Kyivstar. Компанія відповідає за технологічну частину — розробку та тренування моделі. Держава, зі свого боку, займається збором і підготовкою даних для її навчання.

Зараз розробка перебуває на активній фазі. Триває масштабний збір даних, до якого залучені державні інституції, університети, наукові організації, бізнес і медіа. На основі цих даних модель проходитиме подальше навчання.

Розробники також створили ключові технічні компоненти архітектури, зокрема токенайзер — систему, яка розбиває текст на елементи для обробки нейромережею.

Крім того, сформовано інженерний пайплайн — послідовність процесів, необхідних для тренування моделі на великих масивах даних.

Окрему увагу приділяють системі тестування. Спеціальні бенчмарки перевірятимуть, наскільки добре модель розуміє українську мову, історію та контекст, а також чи відповідає вона етичним нормам і правилам використання даних.

У майбутньому українська LLM стане основою для державних AI-сервісів. Зокрема, її планують інтегрувати у Дія.АІ, а також використати для створення AI-тьютора в освітній платформі «Мрія».

Після завершення тестування модель планують зробити open-source. Це дасть можливість бізнесу, науковцям і громадським організаціям використовувати її для створення власних продуктів.

Очікується, що перша версія української великої мовної моделі з’явиться до кінця весни 2026 року.

Читайте також на ProIT, що Мінцифри запрошує партнерів надати дані для навчання ШІ.

Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!