Міністерство цифрової трансформації разом із Київстар продовжують роботу над створенням національної великої мовної моделі (LLM) і відкрили набір партнерів, готових надати якісні україномовні дані для її навчання.
Національна LLM має стати базовою платформою для створення ШІ-помічників у державному секторі та бізнесі — українських аналогів ChatGPT і Gemini, адаптованих до локального контексту, мови та реалій.
Держава закликає долучатися компанії, освітні й наукові установи, медіа та культурні організації. Контент партнерів стане фундаментом моделі, відповіді якої згодом отримуватимуть мільйони користувачів.
Які дані потрібні для навчання моделі
• Медіа: новини, інтерв’ю, блоги, публіцистика.
• Наука й освіта: курси, підручники, наукові статті, дисертації.
• Література: художні твори, критика, рецензії.
• Історія: оцифровані архівні матеріали.
• Бізнес: технічна документація, описи продуктів, відкриті відгуки, корпоративні блоги.
У міністерстві наголосили, що медіа та видавці сформують еталон мовної грамотності й стилю для моделі, університети й науковці — її інтелектуальну основу, а бізнес допоможе ШІ краще розуміти специфіку українського ринку та галузей.
Захист даних і визнання внеску
Організатори підкреслили, що для партнерів підготовлено прозорі юридичні умови, які гарантують захист інтелектуальної власності та використання матеріалів виключно для розвитку українського ШІ. Всі учасники проєкту будуть офіційно зазначені в підсумковому звіті про створення національної моделі.
Команди, готові долучитися до навчання української LLM, можуть заповнити коротку форму для участі. Для консультацій працює AI-команда за адресою: ai@thedigital.gov.ua.
Нагадаємо, що українську національну LLM створять на базі моделі Gemma 3 від Google.
Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!