ByteDance представила ШІ, що створює deepfake лише з одного фото й аудіо

Компанія ByteDance (китайський техгігант, що володіє TikTok), продемонструвала нову систему штучного інтелекту під назвою OmniHuman-1, яка може створювати deepfake-відео, що важко відрізнити від реальності. Про це повідомляє TechSpot.

Для створення відео з нуля системі потрібна лише одна фотографія та аудіозапис. Також можна налаштувати такі елементи, як співвідношення сторін і кадрування тіла. ШІ може навіть змінювати наявні відеоматеріали, редагуючи такі речі, як рухи тіла та жести.

Ось приклад того, як це працює: TED Talk, якого насправді ніколи не було.

Звичайно, результати ШІ не є ідеальними. Деякі пози й рухи виглядають незграбно і дивно. Наприклад, у фейковій лекції Ейнштейна, відтвореній штучним інтелектом, його руки крутяться в дивних напрямках. Проте його обличчя відтворено дуже реалістично.

OmniHuman-1 навчений на 18 700 годинах відеоданих з використанням нового підходу omni-conditions, який дозволяє йому навчатися на основі декількох джерел вхідних даних, таких як текстові підказки, аудіо та пози тіла одночасно.

Дослідники ByteDance кажуть, що ці ширші навчальні дані допомагають ШІ значно зменшити втрату даних порівняно зі старими моделями діпфейку.

ByteDance ще не випустила OmniHuman-1 для широкого загалу.

Читайте також на ProIT: У США пропонують оштрафувати політтехнолога на $6 мільйонів за дзвінки зі штучно створеним голосом Байдена.

Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!