Fugatto, модель штучного інтелекту NVIDIA, може винаходити абсолютно нові звуки

Поява генеративних моделей ШІ дала змогу створювати те, чого не існує. Остання демонстрація моделі штучного інтелекту від NVIDIA, відома як Fugatto, відкриває двері для створення аудіо нового покоління штучним інтелектом.

Як повідомляє ExtremeTech, ви можете надати Fugatto текстовий або аудіовхідний сигнал, і він створить з нього все, що завгодно — крикучу віолончель, гавкаючий саксофон чи хор швидкої допомоги.

Fugatto — це базова модель генеративного ШІ, яка ґрунтується на тій самій технології, що дозволяє працювати ChatGPT. Однак замість того, щоб «наїдатися» текстом, Fugatto отримувала багато аудіоданих. Остаточна модель має 2,5 мільярда параметрів і була навчена на системі NVIDIA DGX із 32 прискорювачами H100 Hopper AI.

За словами фахівців NVIDIA, однією з найскладніших частин створення Fugatto було забезпечення правильного набору даних для навчання. Він містив багато аудіосемплів (приблизно 50 мільйонів годин), але команда працювала над тим, щоб зберегти модель відносно компактною. Вони працювали над створенням даних та інструкцій, які розширювали можливості моделі, роблячи її більш творчою без додавання нових даних.

Проєкт тривав понад рік. Отримавши повніше розуміння того, як взаємодіють навчальні дані, команда змогла вивести Fugatto за межі реальності.

Модель має функцію, яку дослідники називають «кріслом авокадо», маючи на увазі популярний візуальний тест ранніх генеративних систем ШІ. Це відноситься до неіснуючих новинок, до чогось, повністю створеного ШІ. Ось так ми дісталися до гавкаючих саксофонів.

Хитре використання тренувальних даних також допомагає об’єднати кілька властивостей аудіо, навіть якщо вони не зустрічалися разом під час навчання, завдяки техніці під назвою ComposableART. Наприклад, Fugatto може додати емоції та акценти до згенерованих голосів. Це дає користувачеві набагато більший контроль над кінцевим продуктом.

Деякі з можливостей Fugatto можуть бути справді корисними для музикантів і продюсерів. Наприклад, можна надати моделі аудіофайл і попросити внести такі корисні зміни, як ізоляція голосу, або додати нову музичну доріжку. Він також може створювати звуки з нуля на основі текстових підказок.

«Перший раз, коли він генерував музику з підказки, це вразило нас», — сказав аудіодослідник NVIDIA Рафаель Валле.

Fugatto ще не доступна для публічного тестування, але NVIDIA поділилася зразками того, що ШІ може робити. Ці приклади показують, як далеко може зайти модель у створенні звуків, яких раніше ніхто ніколи не чув.

Також ми повідомляли, що відеогенератор Sora злили в мережу: тестувальники мстяться OpenAI.

Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!