Mistral AI випустила відкриту TTS-модель, яка конкурує з ElevenLabs

Французький стартап Mistral AI представив нову модель синтезу мовлення Voxtral TTS і заявляє, що вона перевершує рішення від ElevenLabs. Ключова відмінність — модель поширюється з відкритими параметрами, що дозволяє компаніям розгортати її локально без залежності від API.

Ринок голосового AI швидко зростає: у 2026 році він уже перевищив $22 млрд, а сегмент voice-агентів може досягти $47,5 млрд до 2034 року. На цьому фоні Mistral робить ставку не лише на якість, а й на контроль — компанії можуть повністю володіти своєю voice-інфраструктурою.

Voxtral TTS побудована як компактна модель із 3,4 млрд параметрів і може працювати навіть на ноутбуці або смартфоні. У режимі інференсу їй потрібно близько 3 ГБ RAM, а генерація відбувається приблизно у 6 разів швидше за реальний час. Затримка до першого аудіо — близько 90 мс.

Модель підтримує 9 мов і дозволяє створювати кастомний голос на основі лише 5–10 секунд аудіо. Вона також здатна генерувати мовлення іншою мовою, зберігаючи голос і акцент — наприклад, можна отримати німецьку мову з французьким акцентом конкретної людини.

За внутрішніми тестами Mistral, користувачі віддавали перевагу Voxtral TTS у 62,8% випадків порівняно з ElevenLabs Flash v2.5, а в задачах кастомізації голосу — у 69,9%.

На відміну від конкурентів, які працюють за підписною моделлю, Mistral дозволяє завантажити модель і запускати її локально. Це особливо важливо для enterprise-клієнтів у сферах фінансів, медицини та держсектору, де критичними є питання приватності та контролю над даними.

Voxtral TTS доповнює екосистему Mistral: модель інтегрується з рішеннями для speech-to-text, LLM та інструментами кастомізації, формуючи повноцінний AI-стек для створення голосових агентів.

У компанії вважають, що голос стане ключовим інтерфейсом взаємодії з AI. Водночас ставка на open-weight підхід відповідає загальному тренду ринку, який підтримують і великі гравці, зокрема Nvidia.

Нагадаємо, цього тижня Mistral AI презентувала Forge — платформу для повного циклу навчання AI-моделей, яка дає можливість організаціям створювати, налаштовувати та постійно вдосконалювати моделі на основі власних даних.

Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!