DeepSeek представив Janus Pro — модель ШІ, яка випереджає конкурентів у генерації зображень

Китайський стартап у сфері штучного інтелекту DeepSeek заявив, що його нова модель AI під назвою Janus-Pro-7B перевершила моделі DALL-E 3 від OpenAI і Stable Diffusion від Stability AI за результатами тестування на платформі оцінювання генерації зображень за текстовими запитами. Ці результати компанія опублікувала у своєму технічному звіті, повідомляє Reuters.

Нові досягнення Janus Pro

Модель Janus-Pro є вдосконаленням попередньої версії Janus, яка була випущена наприкінці минулого року.

Головними змінами стали:

Покращені алгоритми тренування: нові методики тренування забезпечують більш стабільні результати.
Вищий рівень деталізації: модель генерує зображення із більш багатими деталями та реалістичністю.
Більший обсяг даних: було використано 72 мільйони високоякісних синтетичних зображень, які збалансували із реальними даними для тренування.

Крім того, завдяки збільшенню моделі до 7 мільярдів параметрів вдалося значно підвищити швидкість і точність генерації зображень на основі текстових запитів.

Після оголошення DeepSeek про успіхи моделі DeepSeek-V3, яка стала найпопулярнішою безкоштовною програмою в App Store у США, акції технічних гігантів, серед яких NVIDIA й Oracle, значно знизилися. Це свідчить про те, що поява потужних open-source рішень від DeepSeek серйозно впливає на конкурентоспроможність компаній із великим капіталом.

Дані про Janus Pro

У своєму звіті DeepSeek наголошує, що нова модель покращила генерацію зображень завдяки:

Вищій стабільності зображень.
Використанню якісних синтетичних даних у поєднанні з реальними.
Оптимізації процесів тренування, що дає можливість ефективніше опрацьовувати текстові запити.

Janus-Pro випустили під ліцензією MIT, що дає змогу використовувати її у комерційних цілях без обмежень.

Порівняння та результати тестування

Janus-Pro перевершує конкурентів, зокрема PixArt-alpha, Emu3-Gen і Stable Diffusion XL від Stability AI, на двох основних тестах: GenEval і DPG-Bench.

Найбільша модель Janus-Pro-7B показала вищу продуктивність навіть порівняно з DALL-E 3.
Обмеження: більшість моделей можуть аналізувати лише зображення із максимальною роздільною здатністю 384 x 384.