SAM Audio: новий підхід Meta до редагування звуку за допомогою ШІ

Meta Platforms Inc. презентувала нову AI-модель для редагування звуку під назвою SAM Audio, яка дає можливість відокремлювати окремі звуки зі складних аудіозаписів за допомогою текстових і візуальних підказок.

Нова модель уже доступна в Segment Anything Playground і має потенціал суттєво змінити підхід до аудіоредагування, зробивши його значно простішим і гнучкішим порівняно з традиційними інструментами. Як і попередні моделі сімейства Segment Anything, які спростили роботу з відео та зображеннями, SAM Audio застосовує підхід редагування на основі промптів, але вже для звуку.

У блозі компанії зазначили, що SAM Audio може використовуватися в музиці, подкастингу, на телебаченні, в кіно, наукових дослідженнях, у сфері доступності та в будь-яких інших сценаріях, де важлива робота зі звуком.

Модель дає можливість узяти запис музичного гурту й ізолювати вокал або гітару за допомогою одного запиту природною мовою. В іншому сценарії користувач може прибрати або зменшити шум транспорту з подкасту, записаного в місті, чи видалити небажаний звук, наприклад гавкіт собаки, з готової відеопрезентації.

SAM Audio стала черговим доповненням до лінійки моделей Segment Anything. Раніші версії, зокрема SAM 3 і SAM 3D, були орієнтовані на редагування зображень і відео, тоді як робота зі звуком традиційно залишалася складнішою.

За словами представників Meta, творцям контенту доводилося використовувати громіздкі спеціалізовані інструменти, часто обмежені вузькими сценаріями. На відміну від них, SAM Audio є уніфікованою моделлю, здатною ідентифікувати та редагувати будь-який тип звуку.

Основною технологією SAM Audio є аудіовізуальний рушій Perception Encoder Audiovisual (PE-AV), побудований на базі open-source моделі Perception Founder, яку Meta відкрила раніше. У компанії пояснили, що PE-AV виконує роль вух моделі, даючи їй розуміти звук, описаний у промпті, точно ізолювати його в аудіофайлі та видаляти або змінювати без впливу на інші звуки.

SAM Audio є мультимодальною моделлю й підтримує три типи підказок. Найпоширеніший варіант — текстові промпти, наприклад dog barking або singing voice, для пошуку конкретного звуку.

Також доступні візуальні промпти: під час роботи з відео користувач може клацнути на людину чи об’єкт, який генерує звук, і модель автоматично ізолює його без необхідності текстового опису. Це корисно в ситуаціях, коли складно точно сформулювати характер звуку.

Третій тип — span prompting. Це новий режим, який дає можливість позначити часовий відрізок, де звук з’являється вперше. У Meta зазначили, що всі три типи промптів можна використовувати як окремо, так і в комбінації, що дає користувачам високий рівень точності під час роботи зі звуком. У компанії також повідомили, що вже застосовують SAM Audio для створення нових творчих інструментів у власних застосунках.

Хоча SAM Audio не є першою AI-моделлю для аудіоредагування, напрям автоматичного розділення звуків усе ще перебуває на ранній стадії розвитку. Для стимулювання подальших досліджень Meta створила новий бенчмарк SAM Audio-Bench, призначений для оцінки таких моделей.

SAM Audio-Bench охоплює основні аудіодомени (мовлення, музику та загальні звукові ефекти) й підтримує текстові, візуальні та часові промпти. За результатами тестів Meta заявляє, що SAM Audio демонструє найкращі у своєму класі результати, особливо при використанні змішаних типів підказок. Модель також працює швидше за реальний час (RTF ≈ 0,7) і масштабується в діапазоні від 500 мільйонів до 3 мільярдів параметрів.

Водночас компанія визнає наявні обмеження. SAM Audio не підтримує аудіопромпти, не може виконувати повне розділення звуку без жодних підказок і має труднощі з дуже схожими аудіоподіями, наприклад ізоляцією окремого голосу в хорі або інструмента в оркестрі.

Модель уже доступна для тестування в Segment Anything Playground разом з іншими моделями Segment Anything для роботи з відео та зображеннями.

Meta також розглядає практичне застосування SAM Audio у сфері доступності. Компанія співпрацює з виробником слухових апаратів Starkey Laboratories Inc., щоб дослідити можливості використання моделі для покращення слухових пристроїв, а також з акселератором 2gether-International, який підтримує стартапи, засновані людьми з інвалідністю.

Раніше ми повідомляли, що Meta працює над новою моделлю штучного інтелекту під кодовою назвою Avocado.

Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!