Французький стартап Mistral AI представив нову модель синтезу мовлення Voxtral TTS і заявляє, що вона перевершує рішення від ElevenLabs. Ключова відмінність — модель поширюється з відкритими параметрами, що дозволяє компаніям розгортати її локально без залежності від API.
Ринок голосового AI швидко зростає: у 2026 році він уже перевищив $22 млрд, а сегмент voice-агентів може досягти $47,5 млрд до 2034 року. На цьому фоні Mistral робить ставку не лише на якість, а й на контроль — компанії можуть повністю володіти своєю voice-інфраструктурою.
Voxtral TTS побудована як компактна модель із 3,4 млрд параметрів і може працювати навіть на ноутбуці або смартфоні. У режимі інференсу їй потрібно близько 3 ГБ RAM, а генерація відбувається приблизно у 6 разів швидше за реальний час. Затримка до першого аудіо — близько 90 мс.
Модель підтримує 9 мов і дозволяє створювати кастомний голос на основі лише 5–10 секунд аудіо. Вона також здатна генерувати мовлення іншою мовою, зберігаючи голос і акцент — наприклад, можна отримати німецьку мову з французьким акцентом конкретної людини.
За внутрішніми тестами Mistral, користувачі віддавали перевагу Voxtral TTS у 62,8% випадків порівняно з ElevenLabs Flash v2.5, а в задачах кастомізації голосу — у 69,9%.
На відміну від конкурентів, які працюють за підписною моделлю, Mistral дозволяє завантажити модель і запускати її локально. Це особливо важливо для enterprise-клієнтів у сферах фінансів, медицини та держсектору, де критичними є питання приватності та контролю над даними.
Voxtral TTS доповнює екосистему Mistral: модель інтегрується з рішеннями для speech-to-text, LLM та інструментами кастомізації, формуючи повноцінний AI-стек для створення голосових агентів.
У компанії вважають, що голос стане ключовим інтерфейсом взаємодії з AI. Водночас ставка на open-weight підхід відповідає загальному тренду ринку, який підтримують і великі гравці, зокрема Nvidia.
Нагадаємо, цього тижня Mistral AI презентувала Forge — платформу для повного циклу навчання AI-моделей, яка дає можливість організаціям створювати, налаштовувати та постійно вдосконалювати моделі на основі власних даних.