Українська національна LLM: Мінцифри запрошує партнерів надати дані для навчання ШІ

Міністерство цифрової трансформації разом із Київстар продовжують роботу над створенням національної великої мовної моделі (LLM) і відкрили набір партнерів, готових надати якісні україномовні дані для її навчання.

Національна LLM має стати базовою платформою для створення ШІ-помічників у державному секторі та бізнесі — українських аналогів ChatGPT і Gemini, адаптованих до локального контексту, мови та реалій.

Держава закликає долучатися компанії, освітні й наукові установи, медіа та культурні організації. Контент партнерів стане фундаментом моделі, відповіді якої згодом отримуватимуть мільйони користувачів.

Які дані потрібні для навчання моделі

• Медіа: новини, інтерв’ю, блоги, публіцистика.

• Наука й освіта: курси, підручники, наукові статті, дисертації.

• Література: художні твори, критика, рецензії.

• Історія: оцифровані архівні матеріали.

• Бізнес: технічна документація, описи продуктів, відкриті відгуки, корпоративні блоги.

У міністерстві наголосили, що медіа та видавці сформують еталон мовної грамотності й стилю для моделі, університети й науковці — її інтелектуальну основу, а бізнес допоможе ШІ краще розуміти специфіку українського ринку та галузей.

Захист даних і визнання внеску

Організатори підкреслили, що для партнерів підготовлено прозорі юридичні умови, які гарантують захист інтелектуальної власності та використання матеріалів виключно для розвитку українського ШІ. Всі учасники проєкту будуть офіційно зазначені в підсумковому звіті про створення національної моделі.

Команди, готові долучитися до навчання української LLM, можуть заповнити коротку форму для участі. Для консультацій працює AI-команда за адресою: ai@thedigital.gov.ua.

Нагадаємо, що українську національну LLM створять на базі моделі Gemma 3 від Google.

Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!