Google випустила Imagen 4 — нову модель генерації зображень із точнішим розпізнаванням тексту

Google випустила нову текстово-візуальну модель Imagen 4, яка, за словами фахівців компанії, демонструє значно покращене відображення тексту порівняно із попередником. Крім неї, також було представлено Imagen 4 Ultra — версію з вищою точністю відповідності до інструкцій, зазначених у запиті.

Уперше модель анонсували ще у травні під час конференції Google I/O. Тепер обидві версії стали доступними для обмеженого тестування через Google AI Studio, а також за підпискою на API Gemini.

Цінова політика розділена за рівнем складності: базова Imagen 4 коштує $0,04 за одне зображення і підходить для більшості типових задач генерації, тоді як версія Ultra оцінюється у $0,06 та орієнтована на складніші запити, які потребують точного дотримання опису.

У прикладах, наведених Google, Imagen 4 Ultra змогла створити сторінку коміксу за складним текстовим запитом, а також листівку в стилі ретро із зображенням Кіото. Водночас компанія визнає, що реалістичні зображення все ще мають помітний штучний вигляд, за яким їх легко ідентифікувати як створені ШІ.

Google позиціонує Imagen 4 як прямого конкурента для таких генераторів зображень, як DALL·E 3 та Midjourney 7, роблячи ставку на точність і розуміння контексту візуального запиту.

Читайте також: У застосунку Gemini для Android повернули можливість шукати музику.

Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!