Компанія Stability AI представила нову багатопоглядову дифузійну модель Stable Virtual Camera, яка перетворює 2D-зображення на реалістичні 3D-відео з глибиною і перспективою без складного реконструювання сцен чи специфічної оптимізації.
Віртуальні камери традиційно використовують у цифровому кіновиробництві й 3D-анімації для захоплення та навігації сценами в реальному часі. Stable Virtual Camera поєднує цей підхід із генеративним ШІ, щоб, як зазначає компанія, забезпечити більший контроль і гнучкість.
Що вміє Stable Virtual Camera?
1. Генерація 3D-відео з одного зображення або до 32 зображень.
2. Підтримка динамічного керування камерою як заданих користувачем траєкторій, так і 14 готових рухів, зокрема:
- 360°,
- Lemniscate (фігура ∞),
- Spiral,
- Dolly Zoom In/Out,
- Zoom In/Out,
- Move Forward/Backward,
- Pan Up/Down/Left/Right,
- Roll.
3. Підтримка форматів: квадрат (1:1), вертикальний (9:16), горизонтальний (16:9) та інші співвідношення сторін без потреби в перенавчанні.
4. Генерація відео до 1000 кадрів із плавними переходами й замкненими циклами.
На відміну від традиційних моделей 3D-відео, які вимагають великої кількості вхідних зображень або складної підготовки, Stable Virtual Camera працює з мінімальним набором даних і здатна створювати нові ракурси із заданих положень камери. Результати зберігають тривимірну послідовність, плавність та узгодженість між кадрами.
Архітектура і продуктивність
Модель побудована як багатопоглядова дифузійна система з фіксованою довжиною послідовностей (M-in, N-out). Під час генерації вона використовує дворівневу процедурну вибірку:
- Створює опорні ракурси (anchor views).
- Рендерить цільові ракурси (target views) частинами, забезпечуючи плавність і стабільність відео.
У тестах на NVS-бенчмарках (нові погляди на сцену) модель перевершує ViewCrafter і CAT3D як за якістю зображення (LPIPS), так і за точністю (PSNR) при великій і малій зміні кута огляду.
Обмеження
Нинішня версія моделі має низку обмежень:
- Зниження якості зображення при обробленні фото людей, тварин або динамічних текстур (наприклад, води).
- Можливе мерехтіння артефактів при обробленні складних сцен, камерних траєкторій, що перетинають об’єкти, або об’єктів із нерівномірними формами.
- Модель не підтримує діаризацію, тобто не розпізнає різних мовців у звукових доріжках (актуально, якщо інтегрувати з озвученням).
Зараз модель доступна в режимі дослідницького попереднього перегляду під некомерційною ліцензією. Код доступний на GitHub Hugging Face, а повну наукову статтю можна прочитати на сайті Stability.
Stable Virtual Camera — новий проєкт Stability AI, компанії, яка стала відомою завдяки Stable Diffusion, але останні роки зазнавала серйозної фінансової та репутаційної кризи. Зокрема, співзасновник і колишній СЕО компанії Емад Мостаки, за повідомленнями, довів компанію до межі банкрутства, через що пішли основні співробітники, зірвалася співпраця з Canva, а інвестори почали сумніватися в майбутньому Stability.
У відповідь компанія залучила нові інвестиції, змінила керівництво, призначила режисера «Титаніка» Джеймса Кемерона до ради директорів, а також представила нові генеративні моделі зображень. На початку березня Stability AI також анонсувала співпрацю з Arm, щоб перенести аудіогенеративні ШІ-моделі, включно з генерацією звукових ефектів, на мобільні пристрої з чипами Arm.
Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!