Дослідники Meta AI надали доступ до нового набору моделей ШІ під назвою Seamless Communication, який спрямований на забезпечення більш природного й автентичного спілкування різними мовами. Фактично, це робить концепцію універсального перекладача мови реальністю, повідомляє Venture Beat.
Цього тижня моделі були опубліковані разом із дослідницькими статтями та супровідними даними.
Флагманська модель під назвою Seamless об’єднує можливості трьох інших моделей (SeamlessExpressive, SeamlessStreaming і SeamlessM4T v2) у єдину систему.
Згідно зі статтею дослідників, Seamless – це «перша загальнодоступна система, яка дозволяє активне крос-мовне спілкування в режимі реального часу».
Seamless працює як універсальний перекладач у реальному часі
Перекладач поєднує у собі три складні моделі нейронної мережі, щоб забезпечити переклад у режимі реального часу більш ніж 100 мовами, зберігаючи при цьому вокальний стиль, емоції та мелодику мови.
SeamlessExpressive зосереджується на збереженні вокального стилю й емоційних відтінків голосу під час перекладу між різними мовами.
Як описано у документі, «переклади повинні вловлювати нюанси людської вимови. Хоча наявні інструменти перекладу добре фіксують вміст розмови, вони зазвичай покладаються на монотонні роботизовані системи перетворення тексту на мовлення».
SeamlessStreaming забезпечує переклад майже в реальному часі лише з двома секундами затримки. Дослідники кажуть, що це «перша масова багатомовна модель», яка забезпечує таку високу швидкість перекладу.
Третя модель, SeamlessM4T v2, є основою для двох інших моделей. Це оновлена версія оригінальної моделі SeamlessM4T, випущеної минулого року. Згідно з документом, нова архітектура забезпечує «покращену узгодженість між текстом і мовленням».
«Загалом Seamless дає нам уявлення про технологію, необхідну для перетворення універсального перекладача мови з концепції наукової фантастики на технологію реального світу», – зазначили дослідники.
Потенціал трансформації глобальної комунікації
Можливості моделей можуть створити новий досвід голосового спілкування – від багатомовних розмов у реальному часі за допомогою «розумних» окулярів до автоматично дубльованих відео та подкастів. Фахівці припускають, що це також може допомогти подолати мовні бар’єри для іммігрантів та інших людей, яким важко спілкуватися.
Проте вони визнають, що вказану технологію можна використовувати і для голосового фішингу, глибоких фейків та інших шкідливих програм. Щоб сприяти безпеці й відповідальному використанню моделей, було запроваджено кілька запобіжників, зокрема звукові водяні знаки.
Моделі, опубліковані на Hugging Face
Відповідно до зобов’язань Meta відкритим дослідженням і співпраці, моделі безперервного спілкування були публічно опубліковані на Hugging Face і Github.
Колекція включає в себе моделі Seamless, SeamlessExpressive, SeamlessStreaming і SeamlessM4T v2 разом із супровідними метаданими.
Надаючи вільний доступ до цих найсучасніших моделей обробки природної мови, у Meta сподіваються дати змогу колегам-дослідникам і розробникам розвивати та розширювати цю роботу, щоб допомогти об’єднати людей різних мов і культур. Випуск підкреслює лідерство компанії у сфері штучного інтелекту з відкритим кодом і надає новий цінний ресурс для дослідницької спільноти.
«Багатовимірний досвід, який може створити Seamless, може призвести до кардинальних змін у тому, як здійснюється міжмовне спілкування за допомогою машини», – підсумували дослідники.
Більше про SeamlessM4T можна дізнатися з нашої публікації.
Підписуйтеся на ProIT у Telegram, щоб не пропустити жодну публікацію!