Stability AI представила модель Stable Virtual Camera: перетворення фото у 3D-сцени за допомогою ШІ

Компанія Stability AI представила нову багатопоглядову дифузійну модель Stable Virtual Camera, яка перетворює 2D-зображення на реалістичні 3D-відео з глибиною і перспективою без складного реконструювання сцен чи специфічної оптимізації.

Віртуальні камери традиційно використовують у цифровому кіновиробництві й 3D-анімації для захоплення та навігації сценами в реальному часі. Stable Virtual Camera поєднує цей підхід із генеративним ШІ, щоб, як зазначає компанія, забезпечити більший контроль і гнучкість.

Що вміє Stable Virtual Camera?

1. Генерація 3D-відео з одного зображення або до 32 зображень.

2. Підтримка динамічного керування камерою як заданих користувачем траєкторій, так і 14 готових рухів, зокрема:

360°,
Lemniscate (фігура ∞),
Spiral,
Dolly Zoom In/Out,
Zoom In/Out,
Move Forward/Backward,
Pan Up/Down/Left/Right,
Roll.

3. Підтримка форматів: квадрат (1:1), вертикальний (9:16), горизонтальний (16:9) та інші співвідношення сторін без потреби в перенавчанні.

4. Генерація відео до 1000 кадрів із плавними переходами й замкненими циклами.

На відміну від традиційних моделей 3D-відео, які вимагають великої кількості вхідних зображень або складної підготовки, Stable Virtual Camera працює з мінімальним набором даних і здатна створювати нові ракурси із заданих положень камери. Результати зберігають тривимірну послідовність, плавність та узгодженість між кадрами.

Архітектура і продуктивність

Модель побудована як багатопоглядова дифузійна система з фіксованою довжиною послідовностей (M-in, N-out). Під час генерації вона використовує дворівневу процедурну вибірку:

Створює опорні ракурси (anchor views).
Рендерить цільові ракурси (target views) частинами, забезпечуючи плавність і стабільність відео.

У тестах на NVS-бенчмарках (нові погляди на сцену) модель перевершує ViewCrafter і CAT3D як за якістю зображення (LPIPS), так і за точністю (PSNR) при великій і малій зміні кута огляду.

Обмеження

Нинішня версія моделі має низку обмежень:

Зниження якості зображення при обробленні фото людей, тварин або динамічних текстур (наприклад, води).
Можливе мерехтіння артефактів при обробленні складних сцен, камерних траєкторій, що перетинають об’єкти, або об’єктів із нерівномірними формами.
Модель не підтримує діаризацію, тобто не розпізнає різних мовців у звукових доріжках (актуально, якщо інтегрувати з озвученням).

Зараз модель доступна в режимі дослідницького попереднього перегляду під некомерційною ліцензією. Код доступний на GitHub Hugging Face, а повну наукову статтю можна прочитати на сайті Stability.

Stable Virtual Camera — новий проєкт Stability AI, компанії, яка стала відомою завдяки Stable Diffusion, але останні роки зазнавала серйозної фінансової та репутаційної кризи. Зокрема, співзасновник і колишній СЕО компанії Емад Мостаки, за повідомленнями, довів компанію до межі банкрутства, через що пішли основні співробітники, зірвалася співпраця з Canva, а інвестори почали сумніватися в майбутньому Stability.

У відповідь компанія залучила нові інвестиції, змінила керівництво, призначила режисера «Титаніка» Джеймса Кемерона до ради директорів, а також представила нові генеративні моделі зображень. На початку березня Stability AI також анонсувала співпрацю з Arm, щоб перенести аудіогенеративні ШІ-моделі, включно з генерацією звукових ефектів, на мобільні пристрої з чипами Arm.

Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!