Як згенерувати ШІ-зображення у вигляді конструкторів LEGO?

PR-менеджерка в Ескулаб

Мені подобається експериментувати з ChatGPT і я досить часто використовую його для різноманітних комунікаційних задач. Наприклад, щоб написати шаблон листа, скласти інструкцію, згенерувати ідеї для матеріалів тощо.

Нещодавно я спробувала згенерувати за допомогою ШІ зображення українських медичних компаній у вигляді конструкторів LEGO. Зокрема, в стилі цих конструкторів зображені будівлі Міністерства охорони здоров’я України, НДСЛ «Охматдит», мережі клінік «Добробут», мережі лабораторій «Ескулаб», ортопедичної клініки Superhumans Center, мережі «Аптека Доброго Дня» тощо.

Ось як це виглядає:

Виявилося, що згенерувати картинку за допомогою ШІ досить складно. Навіть маючи конкретний опис, модель може видавати не релевантний результат і створювати не повністю реалістичні картинки, які містять помилки. Створення 6 зображень у стилі LEGO за допомогою нейромережі DALL-E 3 у платній версії ChatGPT зайняло у мене орієнтовно 3 години.

Як повторити мій досвід?

Існує безліч ШІ, які дають змогу генерувати зображення: DALL-E 3, Midjourney, Stable Diffusion, Artbreeder тощо. Для прикладу, дизайнери в «Ескулабі» використовують Stable Diffusion для того, щоб генерувати такі відео і картинки для соцмереж. Мені ж зручніше користуватися DALL-E 3 у платній версії ChatGPT.

Для початку потрібно обрати зображення, на основі якого ми будемо генерувати модель конструктора LEGO. У моєму випадку це був фасад МОЗ України. І попросити ШІ описати це зображення.

На основі опису, який зробив ШІ, редагуємо текст відповідно до своїх побажань. Так, до свого промпту я додала ще кілька ключових елементів: щоб на будівлі була вивіска «МОЗ України». Також додаємо основний промпт: «Згенеруй зображення будівлі у вигляді конструктора LEGO».

Штучний інтелект створив досить реалістичне зображення адміністративної будівлі у вигляді конструктора LEGO. Щоправда, згенеровані зображення мало чим нагадували реальну будівлю МОЗ. Також були помилки в написі на вивісці.

Я кілька разів просила ШІ виправити текст, але він не зміг цього зробити. Тому дійшла висновку, що штучний інтелект погано справляється з генерацією кириличних літер.

Це може бути з кількох причин. ШІ навчається на наборах даних зображень. Ймовірно, що наборів даних, які містили літери латинського алфавіту, було більше. Це призводить до того, що ШІ неправильно генерує літери.

Інша причина – це недостатня складність моделі, тобто вона не має достатньої кількості параметрів для опису складних об’єктів, наприклад кириличних літер.

Ось приклад того, як можна описати об’єкт для ШІ:

Запити я створювала як українською, так і англійською мовами. Відмінностей у зображеннях, які генерував ШІ на мої запити різними мовами, я не помітила. З цього роблю висновок, що мова спілкування – не головне. Головне – деталізація і чіткість завдань.

Ось ще кілька порад, як генерувати якісні ШІ-зображення у вигляді конструкторів LEGO:

Докладно описуйте об’єкт. Чим більше деталей опишете, тим точніше ШІ зможе згенерувати об’єкт. Наприклад, якщо це інтер’єр, то вказуйте, де саме розташовані меблі, їхню кількість, форму, розмір тощо.
Використовуйте конкретні назви кольорів і матеріалів. Замість того, щоб сказати «фасад будівлі має бути світлий», скажіть «фасад будівлі має бути білого кольору».
Забудьте про складнопідрядні й складносурядні речення. Чим простішим буде ваш опис, тим легше ШІ буде його зрозуміти.
Не бійтеся просто щось змінити й хваліть, коли ШІ вдається задовольнити вашу потребу. Не знаю, наскільки з технічної точки зору це гарна порада, але ви спробуйте :).
Текстові описи краще генерувати не більше двох слів. Зі свого досвіду скажу, що у трьох словах виникає дуже багато помилок. Наприклад, зображення для «Аптеки Доброго Дня» спершу мали ось такий вигляд:

Підписуйтеся на ProIT у Telegram, щоб не пропустити жодну публікацію!