ProIT: медіа для профі в IT
2 хв

SAM Audio: новий підхід Meta до редагування звуку за допомогою ШІ

author avatar ProIT NEWS

Meta Platforms Inc. представила нову AI-модель для редагування звуку під назвою SAM Audio, яка дозволяє відокремлювати окремі звуки зі складних аудіозаписів за допомогою текстових і візуальних підказок.

Нова модель уже доступна в Segment Anything Playground і має потенціал суттєво змінити підхід до аудіоредагування, зробивши його значно простішим і гнучкішим порівняно з традиційними інструментами. Як і попередні моделі сімейства Segment Anything, що спростили роботу з відео та зображеннями, SAM Audio застосовує підхід редагування на основі промптів, але вже для звуку.

У блозі компанії зазначається, що SAM Audio може використовуватися в музиці, подкастингу, телебаченні, кіно, наукових дослідженнях, у сфері доступності та в будь-яких інших сценаріях, де важлива робота зі звуком.

Зокрема, модель дозволяє взяти запис музичного гурту та ізолювати вокал або гітару за допомогою одного запиту природною мовою. В іншому сценарії користувач може прибрати або зменшити шум транспорту з подкасту, записаного в місті, або видалити небажаний звук, наприклад гавкіт собаки, з готової відеопрезентації.

SAM Audio стала черговим доповненням до лінійки моделей Segment Anything. Раніші версії, зокрема SAM 3 і SAM 3D, були орієнтовані на редагування зображень і відео, тоді як робота зі звуком традиційно залишалася складнішою. За словами Meta, творцям контенту доводилося використовувати громіздкі спеціалізовані інструменти, часто обмежені вузькими сценаріями. На відміну від них, SAM Audio є уніфікованою моделлю, здатною ідентифікувати та редагувати будь-який тип звуку.

Ключовою технологією SAM Audio є аудіовізуальний рушій Perception Encoder Audiovisual (PE-AV), побудований на базі open-source моделі Perception Founder, яку Meta відкрила раніше цього року. За поясненням компанії, PE-AV виконує роль «вух» моделі, дозволяючи їй розуміти звук, описаний у промпті, точно ізолювати його в аудіофайлі та видаляти або змінювати без впливу на інші звуки.

SAM Audio є мультимодальною моделлю й підтримує три типи підказок. Найпоширеніший варіант — текстові промпти, наприклад «dog barking» або «singing voice», для пошуку конкретного звуку. Також доступні візуальні промпти: під час роботи з відео користувач може клацнути на людину чи об’єкт, який генерує звук, і модель автоматично ізолює його без необхідності текстового опису. Це корисно в ситуаціях, коли складно точно сформулювати характер звуку.

Третій тип — span prompting, новий режим, що дозволяє позначити часовий відрізок, де звук з’являється вперше. Meta зазначає, що всі три типи промптів можна використовувати як окремо, так і в комбінації, що дає користувачам високий рівень точності під час роботи зі звуком. У компанії також повідомили, що вже застосовують SAM Audio для створення нових творчих інструментів у власних застосунках.

Хоча SAM Audio не є першою AI-моделлю для аудіоредагування, напрямок автоматичного розділення звуків усе ще перебуває на ранній стадії розвитку. Для стимулювання подальших досліджень Meta створила новий бенчмарк SAM Audio-Bench, призначений для оцінки таких моделей.

SAM Audio-Bench охоплює основні аудіодомени — мовлення, музику та загальні звукові ефекти — і підтримує текстові, візуальні та часові промпти. За результатами тестів Meta заявляє, що SAM Audio демонструє найкращі у своєму класі результати, особливо при використанні змішаних типів підказок. Модель також працює швидше за реальний час (RTF ≈ 0,7) і масштабується в діапазоні від 500 млн до 3 млрд параметрів.

Водночас компанія визнає наявні обмеження. SAM Audio не підтримує аудіопромпти, не може виконувати повне розділення звуку без жодних підказок і має труднощі з дуже схожими аудіоподіями, наприклад ізоляцією окремого голосу в хорі чи інструмента в оркестрі.

Модель уже доступна для тестування в Segment Anything Playground разом з іншими моделями Segment Anything для роботи з відео та зображеннями.

Meta також розглядає практичне застосування SAM Audio у сфері доступності. Компанія співпрацює з виробником слухових апаратів Starkey Laboratories Inc., щоб дослідити можливості використання моделі для покращення слухових пристроїв, а також із акселератором 2gether-International, який підтримує стартапи, засновані людьми з інвалідністю.

Раніше ми повідомляли, що Meta працює над новою моделлю штучного інтелекту під кодовою назвою Avocado, яка може стати першою закритою розробкою компанії після років орієнтації на відкритий код.

Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!

Приєднатися до company logo
Продовжуючи, ти погоджуєшся з умовами Публічної оферти та Політикою конфіденційності.