Mistral випустила Voxtral Transcribe 2 — локальну open-source модель розпізнавання мовлення

Mistral AI презентувала Voxtral Transcribe 2 — нове покоління моделей розпізнавання мовлення з локальним виконанням на пристрої. Компанія заявляє, що рішення працює швидше, точніше й значно дешевше за конкурентів, не потребуючи передавання аудіо в хмару.

Mistral випустила дві моделі під брендом Voxtral Transcribe 2 для різних сценаріїв використання. Обидві орієнтовані на on-device обробку та можуть працювати безпосередньо на ноутбуках і смартфонах. Особливістю є компактність — модель має лише 4 мільярди параметрів, що робить можливим запускати її практично на будь-якому сучасному пристрої.

Voxtral Mini Transcribe V2 призначена для пакетної транскрипції попередньо записаних аудіофайлів. За даними компанії, вона демонструє один із найнижчих показників word error rate на ринку. Модель доступна через API за ціною $0,003 за хвилину (приблизно у п’ять разів дешевше за основних конкурентів) і підтримує 13 мов, зокрема англійську, китайську, японську, арабську, гінді та кілька європейських мов.

Voxtral Realtime обробляє аудіо в реальному часі з налаштовуваною затримкою до 200 мс, що критично для живих субтитрів, голосових агентів і підтримки клієнтів.

Модель поширюється за ліцензією Apache 2.0: розробники можуть завантажити ваги з Hugging Face, модифікувати й розгортати їх без ліцензійних платежів. API-доступ коштує $0,006 за хвилину.

На відміну від більшості пропозицій великих американських компаній, Voxtral Transcribe 2 не потребує передавання аудіо на віддалені сервери. Це робить рішення придатним для використання в галузях із жорсткими вимогами до конфіденційності та суверенності даних — медицині, фінансах, промисловості й обороні.

Для корпоративних клієнтів Mistral додала функцію context biasing. Вона дає можливість завантажити список спеціалізованих термінів (галузеву лексику, абревіатури або власні назви), і модель автоматично надаватиме їм пріоритет під час транскрипції без fine-tuning і перенавчання.

Компанія також розглядає Voxtral як базову технологію для подальшого розвитку живого перекладу мовлення. Низька затримка, за словами Mistral, є критичною для природної взаємодії, що напряму виводить її в конкуренцію з рішеннями Apple та Google.

Заснована у 2023 році вихідцями з Meta та Google DeepMind, Mistral уже залучила понад $2 мільярди інвестицій і оцінюється приблизно в $13,6 мільярда. Компанія робить ставку на ефективні, локальні та контрольовані AI-рішення замість масштабування за рахунок гігантських моделей.

Нещодавно ми повідомляли, що Mistral AI оголосила про загальну доступність Mistral Vibe 2.0.

Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!