ProIT: медіа для профі в IT
Приблизно хвилину

ElevenLabs представила Scribe — вдосконалену модель транскрипції аудіо

author avatar ProIT NEWS

Компанія ElevenLabs, яка спеціалізується на генерації голосу і клонуванні мовлення за допомогою ШІ, представила нову модель Scribe v1. Це вдосконалена система розпізнавання мовлення, яка забезпечує рекордну точність для 99 мов, повідомляє Venture Beat.

Scribe вже доступна для користувачів через сайт ElevenLabs та API, пропонуючи виняткову якість перетворення мовлення в текст. За внутрішніми тестами компанії, ця модель перевершує такі відомі рішення, як Google Gemini 2.0 Flash, OpenAI Whisper v3 та Deepgram Nova-3, демонструючи найнижчий рівень помилок.

«Scribe — це не просто транскрипція, це розуміння аудіо. Модель розпізнає не лише слова, а й невербальні компоненти, такі як сміх, звукові ефекти, музика та фоновий шум», — заявив головний дослідник ElevenLabs Флавіо Шнайдер.

Основні можливості Scribe:

  • Висока точність — мінімальна кількість помилок у 99 мовах (96,7% для англійської, 98,7% для італійської).
  • Розпізнавання до 32 голосів в одному аудіофайлі.
  • Деталізовані таймкоди для кожного слова.
  • Виявлення невербальних компонентів (сміх, фоновий шум, музика).
  • Зручний API для інтеграції в корпоративні робочі процеси.

Доступність і ціни

Scribe доступний через ElevenLabs API за ціною $0,40 за годину аудіо із 50% знижкою протягом перших 6 тижнів. Також компанія працює над версією із низькою затримкою для обробки мовлення в реальному часі.

Конкуренція з OpenAI, Google і Hume AI

Запуск Scribe відбувся того самого дня, коли компанія Hume AI представила Octave — нову модель генерації мовлення. Hume AI позиціює Octave як конкурента ElevenLabs у сфері тексту в мовлення (TTS), даючи можливість регулювати емоції у голосовій генерації.

ElevenLabs, своєю чергою, зосередилася на максимальній точності розпізнавання мовлення і багатомовності. Це робить Scribe цінним інструментом для транскрипції зустрічей, створення автоматичних субтитрів, забезпечення доступності контенту й автоматизації документації.

Компанія також анонсувала віртуальний захід наступного тижня, де команда розробників представить детальніші технічні особливості Scribe і плани щодо подальшого розвитку.

Раніше ми повідомляли, що ElevenLabs представила Conversational AI із підтримкою 31 мови.

Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!

Приєднатися до company logo
Продовжуючи, ти погоджуєшся з умовами Публічної оферти та Політикою конфіденційності.