Gemini навчився перетворювати фото на відео, але поки працює з помилками

Google додала нову функцію для користувачів платних версій свого ШІ-помічника Gemini: тепер за допомогою текстового запиту можна створити короткий відеоролик на основі фотографії.

Опція вже доступна у вебверсії Gemini для підписників планів AI Pro та Ultra, а протягом тижня її почнуть розгортати і в мобільному застосунку, повідомляє Bloomberg.

«Інструмент дозволяє генерувати 8-секундні відео з роздільною здатністю 720p у форматі 16:9. Для цього потрібно завантажити зображення та додати опис сцени, наприклад, вказати, що на зображенні має з’явитися рух чи звук», — пише Bloomberg.

Журналісти Bloomberg протестували можливість і виявили низку проблем. Наприклад, при спробах створити відео з людиною, яка говорить, Gemini спотворював риси обличчя, іноді змінював навіть расу зображеної особи. З іншого боку, простіші завдання, як-от створення відео з рослинами, що коливаються на вітрі, виконувались точно.

А запити на кшталт «людина танцює брейк-данс» Gemini наразі не опрацьовує — натомість генерує сцену з людиною, що просто махає в камеру.

У Google зазначають, що розуміють недоліки і планують удосконалити модель у наступних оновленнях.

Нагадаємо, Google тестує голосові розмови в реальному часі через Search Live в AI Mode.

Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!