Засновник і CEO компанії Meta Марк Цукерберг опублікував на своїй сторінці в Instagram відео, де виконує вправу на тренажері для ніг у спортзалі.
Виявилося, що Цукерберг не просто займався спортом. Він використовував це відео для оголошення про Movie Gen — нову родину генеративних мультимодальних AI-моделей Meta, які можуть створювати як відео, так і аудіо на основі текстових запитів. Вони дають змогу користувачам кастомізувати власні відео, додаючи спецефекти, реквізит, костюми та змінюючи вибрані елементи просто за допомогою текстових вказівок, як це зробив Цукерберг у своєму відео, повідомляє Venture Beat.
Моделі виглядають надзвичайно потужними, дозволяючи користувачам змінювати лише вибрані елементи відеокліпу, а не перегенерувати або створювати його заново, подібно до точкового редагування Pika на старіших моделях, але з можливістю створювати довші кліпи й додавати звук.
Тести Meta, викладені в технічній статті про сімейство моделей, показують, що вони перевершують провідних конкурентів у цій сфері, включно з Runway Gen 3, Luma Dream Machine, OpenAI Sora та Kling 1.5 за багатьма оцінками аудиторії, такими як узгодженість і природність рухів.
Meta позиціонує Movie Gen як інструмент як для звичайних користувачів, які хочуть покращити своє цифрове сторітелінг, так і для професійних творців відео та редакторів, а також навіть для голлівудських кінематографістів.
Розширені мультимодальні медіаможливості
Movie Gen представляє останній крок Meta у розвитку генеративної ШІ-технології, поєднуючи можливості відео та аудіо у єдиній системі.
Movie Gen складається із чотирьох моделей:
- Movie Gen Video — модель генерації відео на основі тексту із 30 мільярдами параметрів.
- Movie Gen Audio — модель генерації аудіо для відео із 13 мільярдами параметрів.
- Personalized Movie Gen Video — версія Movie Gen Video, яка посттренувалася для створення персоналізованих відео на основі обличчя людини.
- Movie Gen Edit — модель із новим посттренувальним процесом для точного редагування відео.
Ці моделі дають змогу створювати реалістичні персоналізовані HD-відео тривалістю до 16 секунд із частотою 16 кадрів за секунду, а також аудіо з частотою 48 кГц і пропонують можливості редагування відео.
Орієнтовані на завдання від створення персоналізованих відео до складного редагування відео та високоякісної генерації аудіо, Movie Gen використовує потужні AI-моделі для розширення творчих можливостей користувачів.
Ключові функції Movie Gen:
• Генерація відео: Movie Gen дозволяє користувачам створювати відео у високій роздільній здатності (HD), просто вводячи текстові запити. Ці відео можуть рендеритися у роздільній здатності 1080p тривалістю до 16 секунд і підтримуються трансформерною моделлю на 30 мільярдів параметрів.
Можливості ШІ дозволяють йому керувати детальними запитами, охоплюючи різні аспекти створення відео, включаючи рухи камери, взаємодію з об’єктами та фізику середовища.
• Персоналізовані відео: Movie Gen пропонує захоплюючу функцію персоналізованого відео, де користувачі можуть завантажити своє зображення або зображення інших осіб, щоб бути представленими у відео, створеному ШІ. Модель може адаптуватися до різних запитів, зберігаючи при цьому ідентичність людини.
• Точне редагування відео: Movie Gen має розширені можливості редагування відео, що дають змогу користувачам змінювати конкретні елементи у відео. Модель може змінювати локалізовані аспекти, такі як об'єкти або кольори, а також глобальні зміни, як-от заміну фону.
• Генерація аудіо: Окрім можливостей створення відео, Movie Gen також має модель генерації аудіо на 13 мільярдів параметрів. Ця функція дозволяє створювати звукові ефекти, фонову музику та синхронізоване аудіо, яке ідеально поєднується із візуальним контентом.
Навчена на мільярдах онлайн-відео
Movie Gen є останнім досягненням у межах досліджень штучного інтелекту Meta. Для навчання моделей використовувалися дані зображень, відео та аудіо в масштабі інтернету, зокрема 100 мільйонів відео та 1 мільярд зображень.
Однак у Meta не уточнили, чи були ці дані ліцензованими, у відкритому доступі, чи просто зібрані, як це робили інші розробники моделей на основі штучного інтелекту, що викликало критику з боку художників і відеомейкерів.
Незважаючи на юридичні та етичні питання щодо процесу навчання, Meta чітко позиціонує процес створення Movie Gen як новаторський, використовуючи комбінацію типового навчання на моделях дифузії (поширено в генерації відео та аудіо на основі ШІ), а також навчання на великих мовних моделях (LLM) і нової техніки під назвою Flow Matching. Остання ґрунтується на моделюванні змін у розподілі даних із часом.
Flow Matching відрізняється від стандартних дифузійних моделей такими ключовими моментами:
• Нульовий кінцевий сигнал-шум (SNR): На відміну від звичайних дифузійних моделей, які потребують певних графіків шуму для підтримки нульового кінцевого SNR, Flow Matching забезпечує це без додаткових налаштувань. Це підвищує стійкість до вибору графіків шуму, що сприяє більш стабільним і високоякісним відео.
• Ефективність у навчанні та використанні: Flow Matching виявився більш ефективним як у навчанні, так і у використанні порівняно з дифузійними моделями. Він пропонує гнучкість у виборі типів графіків шуму та демонструє покращену продуктивність для моделей різних розмірів. Цей підхід також показав кращу відповідність результатам оцінки людьми.
Процес навчання системи Movie Gen покладається на такі моделі:
• Відеомодель Movie Gen: Ця модель містить 30 мільярдів параметрів і починає з базової генерації зображень із тексту. Далі вона переходить до генерації відео з тексту, створюючи відео тривалістю до 16 секунд в HD-якості.
Процес навчання включає великий набір відео та зображень, що дозволяє моделі розуміти складні візуальні концепції, такі як рух, взаємодії та динаміка камери.
Для покращення можливостей моделі її донавчали на добірці високоякісних відео із текстовими описами, що підвищило реалістичність і точність результатів. Також команда розширила гнучкість моделі, навчивши її обробляти персоналізований контент і команди редагування.
• Аудіомодель Movie Gen: Модель, що має 13 мільярдів параметрів, генерує високоякісне аудіо, яке синхронізується з візуальними елементами у відео. Навчальний набір включав понад мільйон годин аудіо, що дозволило моделі вловити як фізичні, так і психологічні зв'язки між звуком і зображеннями.
Модель була покращена шляхом керованого донавчання на добірці пар високоякісного аудіо й тексту. Цей процес допоміг їй створювати реалістичні фонові звуки, синхронізовані звукові ефекти та музику, що відповідає настрою для різних сцен відео.
Цей випуск продовжує попередні проєкти, такі як Make-A-Scene і моделі Llama Image, які зосереджені на створенні високоякісних зображень та анімації.
Запуск на Insta у 2025 році
Movie Gen планується запустити на Instagram у 2025 році, що зробить можливості створення відео доступними для широкого кола користувачів платформи.
Meta планує співпрацювати з творцями та кінематографістами, щоб удосконалювати функції Movie Gen і забезпечити їх відповідність потребам користувачів.
Довгострокове бачення Meta щодо Movie Gen відображає ширшу мету — демократизувати доступ до складних інструментів для редагування відео. Хоча цей набір має значний потенціал, Meta визнає, що генеративні інструменти на основі ШІ, такі як Movie Gen, призначені для посилення, а не заміщення роботи професійних художників та аніматорів.
Запуск Movie Gen може відкрити нову еру для створення контенту на платформах Meta, а користувачі Instagram будуть серед перших, хто відчує цей інноваційний інструмент. По мірі розвитку технології Movie Gen може стати важливою частиною екосистеми Meta, а також спільноти професійних і незалежних творців.
Раніше ми повідомляли, що компанія Meta додає голоси знаменитостей до свого чат-бота Meta AI в Instagram, WhatsApp і Facebook.
Тепер можна спілкуватися з Meta AI і чути, як бот відповідає голосами зірок, серед яких Аквафіна, Джон Сіна, Джуді Денч та інші.
Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!