Midjourney презентує нову відеомодель V1 для генерації роликів до 21 секунди

Midjourney Inc. оголосила про запуск нової моделі штучного інтелекту V1, яка здатна генерувати відео тривалістю до 21 секунди. Про це повідомляє SiliconAngle.

Компанія Midjourney, що базується в Сан-Франциско, була заснована у 2022 році й спершу зосередилася на розробленні моделей для генерації зображень. За оцінками, її алгоритмами користується приблизно 21 мільйон осіб. Компанія заробляє коштом підписки на доступ до моделей через хмарний сервіс.

Анімація зображень через нову модель

У межах платформи користувачі мають доступ до галереї, де зберігаються створені зображення. Тепер під кожним зображенням з'явилася нова кнопка, що дозволяє анімувати картинку за допомогою моделі V1. За замовчуванням генерується 5-секундний відеофрагмент, однак його можна розширити по 4 секунди ще чотири рази, до максимальної тривалості 21 секунда.

Для порівняння, Veo 3 від Google і Sora від OpenAI наразі обмежені 20 секундами.

Користувачі можуть обрати, щоб модель автоматично анімувала зображення, або вказати промпт для створення відео. У разі використання промпта доступні два додаткові режими:

• точне відтворення запиту;

• творче трактування з додаванням нових елементів.

Також налаштовується характер руху.

«Низький рівень руху підходить для атмосферних сцен, де камера майже не рухається, а об’єкт пересувається повільно й обдумано. Високий рівень руху — для сцен, де рухаються і об’єкт, і камера», — пояснив генеральний директор Midjourney Девід Хольц у блозі.

Контекст технології та плани розвитку

Модель V1 з’явилася через 2 місяці після виходу нового генератора зображень Midjourney — V7, який забезпечує вищу якість та швидшу генерацію, ніж попередня версія.

Більшість моделей для генерації зображень і відео базуються на дифузійному підході, де алгоритм навчається на зображеннях із доданим шумом, поступово реконструюючи оригінали. Це дозволяє моделі надалі створювати нові зображення з нуля.

У відеомоделях до дифузійного підходу додаються додаткові компоненти, зокрема:

• темпоральні модулі для збереження послідовності об'єктів між кадрами

• механізми відстеження порядку кадрів, що забезпечують узгодженість анімації

За словами Хольца, V1 є частиною довгострокового проєкту, спрямованого на створення інтерактивних 3D-симуляцій:

«Для цього нам потрібні будівельні блоки. Нам потрібна візуалізація (моделі зображень), ми повинні змусити ці зображення рухатися (відеомоделі), пересуватись у просторі (3D-моделі) та робити все це швидко (реального часу)».

Читайте також на ProIT: Microsoft запускає Bing Video Creator: генерація відео з тексту на базі Sora.

Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!