Міністерство цифрової трансформації разом із Київстар продовжують роботу над створенням національної великої мовної моделі (LLM) і відкрили набір партнерів, готових надати якісні україномовні дані для її навчання.
Національна LLM має стати базовою платформою для створення ШІ-помічників у державному секторі та бізнесі — українських аналогів ChatGPT і Gemini, адаптованих до локального контексту, мови та реалій.
Держава закликає долучатися компанії, освітні й наукові установи, медіа та культурні організації. Контент партнерів стане «фундаментом» моделі, відповіді якої згодом отримуватимуть мільйони користувачів.
Які дані потрібні для навчання моделі
• Медіа: новини, інтерв’ю, блоги, публіцистика
• Наука й освіта: курси, підручники, наукові статті, дисертації
• Література: художні твори, критика, рецензії
• Історія: оцифровані архівні матеріали
• Бізнес: технічна документація, описи продуктів, відкриті відгуки, корпоративні блоги
У міністерстві наголошують, що медіа та видавці сформують еталон мовної грамотності й стилю для моделі, університети й науковці — її інтелектуальну основу, а бізнес допоможе ШІ краще розуміти специфіку українського ринку та галузей.
Захист даних і визнання внеску
Організатори підкреслюють, що для партнерів підготовлено прозорі юридичні умови, які гарантують захист інтелектуальної власності та використання матеріалів виключно для розвитку українського ШІ. Усі учасники проєкту будуть офіційно зазначені в підсумковому звіті про створення національної моделі.
Команди, готові долучитися до навчання української LLM, можуть заповнити коротку форму участі. Для консультацій працює AI-команда за адресою ai@thedigital.gov.ua.
Нагадаємо, українську національну LLM створять на базі моделі Gemma 3 від Google.
Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!