ProIT: медіа для профі в IT
2 хв

OpenAI запустила нативну генерацію зображень у ChatGPT: що змінилося

author avatar ProIT NEWS

Майже рік після дебюту першої мультимодальної моделі OpenAI — GPT-4o, компанія активувала підтримку нативної генерації зображень, інтегровану безпосередньо в цю модель. Нові можливості вже доступні користувачам ChatGPT у планах Plus, Pro, Team і Free, а незабаром з’являться і для Enterprise, Edu та через API. Про це йдеться у повідомленні Venture Beat.

На відміну від DALL·E: текст, код і зображення — в одній моделі

Нова генерація зображень у GPT-4o — не окрема модель, як DALL·E 3, яка базувалася на дифузійних трансформерах. У GPT-4o модальності об’єднані в єдину модель, що вміє працювати з текстом, кодом і візуальним контентом одночасно.

Ще у травні 2024 року президент OpenAI Ґреґ Брокман демонстрував цю можливість, але чомусь компанія не активувала її публічно. Запуск збігся у часі з аналогічною функцією у Gemini 2 Flash Experimental від Google AI Studio.

Якість зображень вражає

Нова система генерує фотореалістичні та стильні ілюстрації з точним текстом, вражаючи спільноту. Один із користувачів назвав якість божевільною.

OpenAI поки не розкрила, на яких саме даних навчалися ці можливості, що може викликати питання щодо авторських прав, враховуючи, що навчальні вибірки, ймовірно, містять зображення з інтернету.

Генерація в ChatGPT й інтеграція із Sora

OpenAI розглядає генерацію зображень як основну функцію своїх моделей. Тепер користувачі можуть створювати зображення безпосередньо у ChatGPT, редагуючи їх у діалозі, змінюючи деталі, кольори, пропорції чи прозорість у реальному часі.

Модель також інтегрована у відеоплатформу Sora, розширюючи мультимодальні можливості компанії.

За словами фахівців OpenAI, GPT-4o здатна:

Рендерити текст у зображеннях. Наприклад, для меню, знаків, інфографіки.

Дотримуватися складних запитів із високою точністю.

Забезпечувати послідовність між зображеннями й текстом у діалозі.

Працювати в різних стилях — від фотореалізму до скетчів.

AI-консультантка Еллі Міллер написала в X, що це гігантський стрибок у генерації тексту й назвала GPT-4o найкращою моделлю для створення зображень.

Основні сфери застосування

Дизайн і брендинг: логотипи, постери, рекламні матеріали.

Освіта і візуалізація: діаграми, інфографіка, історичні сцени.

Геймдев: узгодженість персонажів у різних ітераціях.

Маркетинг і контент: соціальні візуали, запрошення, ілюстрації.

Що покращено порівняно з DALL·E

Коректне вбудовування тексту — GPT-4o точно вбудовує слова в зображення.

Контекстна узгодженість — модель враховує історію чату.

Оброблення складних сцен — підтримує до 10–20 об’єктів в одній композиції.

Універсальність стилів: фотореалізм, ескізи, ілюстрації.

Обмеження

Попри прорив, модель має й низку недоліків:

Обрізання великих зображень (постери, плакати).

Некоректний рендеринг нелатинських символів.

Втрата чіткості у дрібному тексті.

Небажані зміни під час редагування окремих елементів.

OpenAI активно працює над усуненням цих проблем.

Безпека і маркування

Усі зображення GPT-4o містять C2PA-метадані — маркер створення штучним інтелектом.

OpenAI має внутрішній інструмент виявлення AI-контенту.

Реалізовано фільтри для шкідливого контенту.

Зображення з реальними людьми обробляються із додатковими обмеженнями.

CEO OpenAI Сем Альтман назвав реліз новим етапом творчої свободи й зазначив, що компанія вдосконалюватиме систему на основі реального використання.

Читайте також на ProIT: OpenAI представила gpt-4o-transcribe: альтернатива Whisper і виклик ElevenLabs.

Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!

Приєднатися до company logo
Продовжуючи, ти погоджуєшся з умовами Публічної оферти та Політикою конфіденційності.