ProIT: медіа для профі в IT
2 хв

Stability AI представила модель Stable Virtual Camera: перетворення фото у 3D-сцени за допомогою ШІ

author avatar ProIT NEWS

Компанія Stability AI представила нову багатопоглядову дифузійну модель Stable Virtual Camera, яка перетворює 2D-зображення на реалістичні 3D-відео з глибиною і перспективою без складного реконструювання сцен чи специфічної оптимізації.

Віртуальні камери традиційно використовують у цифровому кіновиробництві й 3D-анімації для захоплення та навігації сценами в реальному часі. Stable Virtual Camera поєднує цей підхід із генеративним ШІ, щоб, як зазначає компанія, забезпечити більший контроль і гнучкість.

Що вміє Stable Virtual Camera?

1. Генерація 3D-відео з одного зображення або до 32 зображень.

2. Підтримка динамічного керування камерою як заданих користувачем траєкторій, так і 14 готових рухів, зокрема:

  • 360°,
  • Lemniscate (фігура ∞),
  • Spiral,
  • Dolly Zoom In/Out,
  • Zoom In/Out,
  • Move Forward/Backward,
  • Pan Up/Down/Left/Right,
  • Roll.

3. Підтримка форматів: квадрат (1:1), вертикальний (9:16), горизонтальний (16:9) та інші співвідношення сторін без потреби в перенавчанні.

4. Генерація відео до 1000 кадрів із плавними переходами й замкненими циклами.

На відміну від традиційних моделей 3D-відео, які вимагають великої кількості вхідних зображень або складної підготовки, Stable Virtual Camera працює з мінімальним набором даних і здатна створювати нові ракурси із заданих положень камери. Результати зберігають тривимірну послідовність, плавність та узгодженість між кадрами.

Архітектура і продуктивність

Модель побудована як багатопоглядова дифузійна система з фіксованою довжиною послідовностей (M-in, N-out). Під час генерації вона використовує дворівневу процедурну вибірку:

  1. Створює опорні ракурси (anchor views).
  2. Рендерить цільові ракурси (target views) частинами, забезпечуючи плавність і стабільність відео.

У тестах на NVS-бенчмарках (нові погляди на сцену) модель перевершує ViewCrafter і CAT3D як за якістю зображення (LPIPS), так і за точністю (PSNR) при великій і малій зміні кута огляду.

Обмеження

Нинішня версія моделі має низку обмежень:

  • Зниження якості зображення при обробленні фото людей, тварин або динамічних текстур (наприклад, води).
  • Можливе мерехтіння артефактів при обробленні складних сцен, камерних траєкторій, що перетинають об’єкти, або об’єктів із нерівномірними формами.
  • Модель не підтримує діаризацію, тобто не розпізнає різних мовців у звукових доріжках (актуально, якщо інтегрувати з озвученням).

Зараз модель доступна в режимі дослідницького попереднього перегляду під некомерційною ліцензією. Код доступний на GitHub Hugging Face, а повну наукову статтю можна прочитати на сайті Stability.

Stable Virtual Camera — новий проєкт Stability AI, компанії, яка стала відомою завдяки Stable Diffusion, але останні роки зазнавала серйозної фінансової та репутаційної кризи. Зокрема, співзасновник і колишній СЕО компанії Емад Мостаки, за повідомленнями, довів компанію до межі банкрутства, через що пішли основні співробітники, зірвалася співпраця з Canva, а інвестори почали сумніватися в майбутньому Stability.

У відповідь компанія залучила нові інвестиції, змінила керівництво, призначила режисера «Титаніка» Джеймса Кемерона до ради директорів, а також представила нові генеративні моделі зображень. На початку березня Stability AI також анонсувала співпрацю з Arm, щоб перенести аудіогенеративні ШІ-моделі, включно з генерацією звукових ефектів, на мобільні пристрої з чипами Arm.

Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!

Приєднатися до company logo
Продовжуючи, ти погоджуєшся з умовами Публічної оферти та Політикою конфіденційності.