Meta випустила нову нейромережу SeamlessM4T – універсальний перекладач-транскрибатор. SeamlessM4T може перекладати мовлення в текст і текст у текст, розпізнає 100 мов введення та перетворює їх на 35 вихідних мов (включно з українською).
Тобто, користувач говорить англійською, а нейромережа моментально перекладає його мовлення англійською, за потреби ще й робить звукову доріжку англійською.
SeamlessM4T розшифровується як Massively Multilingual and Multimodal Machine Translation (Масивний багатомовний і мультимодальний машинний переклад), повідомляє The Verge.
SeamlessM4T випущений за ліцензією Creative Commons CC BY-NC 4.0, що дає змогу дослідникам використовувати його.
Разом із SeamlessM4T Meta також випустила метадані для свого відкритого набору даних перекладу SeamlessAlign.
«Створення універсального мовного перекладача, подібного до вигаданої вавилонської рибки в «Автостопом по Галактиці», є складним завданням, оскільки наявні системи перетворення мови в мову та мови в текст охоплюють лише невелику частину мов світу», – заявили в Меtа.
У компанії вважають SeamlessM4T «значним проривом», оскільки ця нова модель виконує всі етапи перекладу одночасно, на відміну від інших великих моделей перекладу, які поділяють переклад між різними системами.
Однією з цікавих особливостей SeamlessM4T є його здатність розпізнавати мови, навіть коли людина міксує дві або більше мов в одному реченні.
SeamlessM4T базується на попередніх моделях перекладу від Meta. Минулого року компанія випустила модель машинного перекладу тексту в текст No Language Left Behind, яка підтримує 200 мов.
Також було розроблено SpeechMatrix – набір даних для багатомовного перекладу мовлення та Massively Multilingual Speech для розпізнавання мовлення.
Meta продемонструвала свій універсальний перекладач мовлення торік, перетворюючи розмовний хоккієн – широко використовувану мову в Китаї, яка не має офіційної системи письма, на англійську.
Мовний переклад важливий для таких компаній, як Meta, які наймають тисячі людей, щоб модерувати потік публікацій у Facebook та Instagram різними мовами.
Дуже часто для неосновних мов є менші команди, і в кінцевому підсумку вони покладаються на автоматизовану модерацію, яка погано працює з цими мовами. ШІ може стати інструментом для покращення модерації.
Щоб створити SeamlessM4T, Meta переробила свій набір інструментів для моделювання послідовності Fairseq, щоб створювати більш легкі моделі й обробляти більше інформації.
У компанії заявили, що створили систему, яка визначає токсичні або чутливі слова при застосуванні SeamlessM4T. Вона визначатиме токсичні слова як випадки, коли «переклад може розпалювати ненависть, насильство, ненормативну лексику або образи». Начебто мета полягає у тому, щоб визначати токсичність у перекладі, коли її немає в оригінальному тексті.
Також нейромережа розпізнає гендерні упередження. SeamlessM4T може перевірити, чи використано в реченні гендерну форму слова, скажімо, doctora іспанською, і призначити жіночий займенник у цільовій мові без еквівалентної гендерної граматики, якщо це необхідно.
Meta випускає багато своїх моделей ШІ для розробників і дослідників у більш-менш відкритому коді. Нещодавно компанія випустила AudioCraft – код, який дає змогу генерувати текст у звук.
Крім того, вона надала доступ до своєї великої мовної моделі Llama 2.
Демоверсію нейромережі-перекладача можна протестувати за покликанням (є можливість надиктувати до 15 секунд і послухати переклад).
Як повідомив власник Meta Марк Цукерберг, незабаром SeamlessM4T планують інтегрувати у низку соцмереж: Facebook, Instagram, WhatsApp, Messenger і Threads.