Цього тижня корпорація Microsoft оголосила про завершення розробки VALL-E 2 — другої версії свого генератора мови VALL-E зі штучним інтелектом.
За словами дослідників, які працювали над створенням нової моделі, VALL-E 2 настільки вдосконалений, що його було б небезпечно оприлюднити для громадськості, оскільки цей інструмент можна використовувати для переконливої імітації голосів справжніх людей (діпфейків). Тому модель має статус «Тільки для дослідницьких цілей», повідомляє ExtremeTech.
Як і її попередник, VALL-E 2 — це модель мови нейронних кодеків, категорія глибокого навчання, яка використовує методи нейронної мережі для кодування та декодування лінгвістичної інформації.
Проте, на відміну від VALL-E, VALL-E 2 виконує нульовий синтез тексту у мову (TTS), який використовує введення тексту для генерування мовлення для голосів, на яких він не був явно навчений.
VALL-E 2 використовує велику навчальну бібліотеку (у цьому випадку LibriSpeech і VCTK) для зіставлення текстових вводів із відповідними аудіовиходами. Ця карта містить варіації вимови, інтонації тощо.
Після почутого короткого кліпу чиєїсь мови разом із введеним користувачем текстом VALL-E 2 використовує деякі з цих варіацій у своїй відповіді, щоб створювати штучне мовлення, яке імітує обраний голос.
Будь-хто, хто чув хитрі речення минулих генераторів мови на основі ШІ, знає, що це важке завдання. Але, за словами дослідників із групи обчислень природної мови Microsoft Research Asia, VALL-E 2 робить це бездоганно.
Фактично настільки безперебійно, що генератор мови нібито першим досягнув рівня людини, а надання його потужності громадськості може принести більше шкоди, аніж користі.
«VALL-E 2 — це суто дослідницький проєкт. Наразі ми не плануємо включати VALL-E 2 у продукт або розширювати доступ для громадськості. Це може нести потенційні ризики у неправильному використанні моделі. Наприклад, у підробці голосової ідентифікації або видачі себе за конкретного мовця», — йдеться у повідомленні у блозі дослідників.
Команда зазначила, що інакше VALL-E 2 міг би відігравати певну роль у навчанні чи розвагах, у яких модель могла б розповідати онлайн-курси чи аудіокниги, зберігаючи при цьому природний голос конкретної людини.
Інші генератори мовлення, як-от Voicebox від Meta та інструмент Alexa на основі штучного інтелекту від Amazon, викликали суперечки щодо етичності дозволу ШІ імітувати голос реальної людини. Особливо коли цієї людини більше немає поруч, щоб дати свою згоду на таке використання.
Як і інші форми генеративного ШІ, генератори мовлення також викликали питання щодо витіснення людських робочих місць. Це те, чим, до прикладу, вже стурбовані актори дубляжу.
Але з VALL-E 2 Microsoft легко може перевірити практичні межі моделі.
«Ми проводили експерименти з припущенням, що користувач погоджується бути цільовим мовцем у синтезі мови. Якщо модель узагальнена для невидимих мовців у реальному світі, вона повинна включати протокол, який гарантує, що мовець схвалює використання свого голосу і модель виявлення синтезованої мови», — пишуть дослідники.
Читайте також на ProIT: Microsoft пояснює плани впровадження ШІ у програми сторонніх розробників Windows 11.
Читайте також на ProIT: Windows 11 24H2 вже доступний, але лише для ПК Copilot+.
Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!