Короткометражка від Sora: цифрові продюсери пояснюють переваги та недоліки відео, створеного ШІ

У лютому ШІ-інструмент для створення відео Sora від OpenAI здивував спільноту штучного інтелекту плавним реалістичним відео, яке, здається, випередило конкурентів. Але у ретельно спланованому дебюті поза увагою залишилося багато деталей. Ці прогалини заповнив режисер, який отримав ранній доступ для створення короткометражного фільму за допомогою Sora, повідомляє TechCrunch.

Shy Kids – це команда цифрових продюсерів із Торонто, яка була обрана OpenAI як одна з небагатьох, які виробляють короткометражні фільми в основному для рекламних цілей OpenAI, хоча їм була надана значна творча свобода.

В інтерв’ю виданню fxguide художник пост-продакшну Патрік Седерберг описав використання Sora як частину своєї роботи.

Хоча заяви OpenAI дають змогу припустити, що короткометражки більш-менш повністю сформовані Sora, реальність така, що це були професійні постановки, укомплектовані надійною розкадровкою, монтажем, корекцією кольору тощо.

Подібно до того, як Apple каже, що презентація «знята на iPhone», але не показує налаштування студії, професійне освітлення та роботу з кольором постфактум, OpenAI повідомляє лише про те, що Sora дозволяє людям робити, а не про те, як вони це зробили.

Тож, якою б вражаючою не була Sora, ця модель, мабуть, не такий гігантський стрибок вперед, як ми думали. Тобто питання, які є простими у традиційному кіновиробництві, як-от вибір кольору одягу персонажа, потребують складних обхідних шляхів і перевірок у генеративній системі, оскільки кожен кадр створюється незалежно від інших. Це, безумовно, заскладний процес на сьогодні.

Усе, що генерує Sora, доводиться перепровіряти та правити вручну. Седерберг описав, як модель регулярно генерувала обличчя на повітряній кулі, яку головний герой має замість голови, або шнурок, що звисає спереду. Їх доводилося видаляти.

Точний час і рухи персонажів або камери насправді неможливо проконтролювати.

«Існує трохи тимчасового контролю щодо того, де відбуваються ці різні дії, але це неточно… Це ніби постріл у темряві», – сказав Седерберг.

Наприклад, хронометраж жесту є дуже приблизним, на відміну від ручної анімації. Згенеровані кліпи також часто сповільнювалися без будь-якої причини. Використання повсякденної мови кіновиробництва, як-от «панорамування праворуч» або «відстеження кадру», було непослідовним, сказав Седерберг, що команді видалося досить дивним.

«Дослідники, перш ніж звернутися до художників, щоб пограти з інструментом, насправді не думали як режисери», – сказав він.

У результаті команда зробила сотні генерацій, кожна по 10-20 секунд, і в кінцевому підсумку використала лише кілька з них. Седерберг оцінив співвідношення у 300:1.

Остання цікава проблема стосується авторського права: якщо ви попросите Sora надати вам кліп «Зоряні війни», вона відмовить. Якщо ви спробуєте обійти ШІ за допомогою «чоловіка в мантії з лазерним мечем на ретро-футуристичному космічному кораблі», вона також відмовиться, оскільки за допомогою певного механізму розпізнає, що ви намагаєтеся зробити. Відмову ви отримаєте й на запит зробити «кадр типу Аронофскі» або «зум Хічкока».

З одного боку, це має сенс. Але це спонукає до запитання: якщо Sora знає, що це таке, чи означає це, що модель навчалася на цьому контенті, щоб визнати, що вона порушує авторські права? OpenAI майже напевно ніколи не зізнається.

Щодо Sora та її використання у кіновиробництві, то це, очевидно, потужний і корисний інструмент, але поки що він не здатен створювати цілісні фільми.

Раніше ми повідомляли, що Sora генерує відео на основі текстової підказки користувача. Вона базується на техніці повторного копіювання, яка зробила можливою модель DALL-E 3.

Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!