OpenAI представила gpt-4o-transcribe: альтернатива Whisper і виклик ElevenLabs

OpenAI представила нове сімейство пропрієтарних голосових моделей — gpt-4o-transcribe, gpt-4o-mini-transcribe і gpt-4o-mini-tts. Вони вже доступні через API OpenAI та дають змогу стороннім розробникам додати розпізнавання мовлення й генерацію голосу до своїх застосунків буквально за кілька рядків коду. Про це йдеться у повідомленні Venture Beat.

Нові моделі також доступні для тестування на сайті OpenAI.fm, де користувачі можуть спробувати їх у дії в деморежимі.

Що вміють нові голосові моделі?

Моделі створено на основі GPT-4o, який вийшов у травні 2024 року, але донавчено для покращення роботи з аудіо:

• gpt-4o-transcribe — для потокового розпізнавання мовлення;
• gpt-4o-mini-transcribe — легка й дешевша версія;
• gpt-4o-mini-tts — генерація голосу з тексту з підтримкою зміни тону, акценту, інтонації та емоцій за запитом.

Команда OpenAI продемонструвала, як легко змінити інтонацію голосу від «божевільного науковця» до «спокійного інструктора з йоги», використовуючи лише текстовий запит.

Нові моделі мають:

• Підтримку понад 100 мов;
• Низький рівень помилок у розпізнаванні (лише 2.46% для англійської);
• Шумозаглушення та визначення моментів пауз, щоб точніше передавати смисл;
• Відсутність діаризації (тобто, модель не відрізняє голоси різних співрозмовників, а працює з усім аудіо як з єдиним потоком).

Використовуючи новий Agents SDK, розробники можуть додати голосову взаємодію до наявних застосунків GPT-4o всього за дев’ять рядків коду. Наприклад, застосунок для e-commerce може відповідати на голосовий запит користувача «Розкажи про мої останні замовлення» — і це працює вже зараз.

Також вперше реалізовано потоковий speech-to-text — текст формується в реальному часі під час мовлення.

Ціни на API OpenAI (березень 2025)

• gpt-4o-transcribe — $6 за 1 мільйон аудіо токенів ($0,006 за хвилину);
• gpt-4o-mini-transcribe — $3 за 1 мільйон аудіо токенів ($0,003/хв);
• gpt-4o-mini-tts — $0,60 за 1 мільйонів текстових токенів, $12 за 1 мільйон аудіо токенів (приблизно $0,015/хв).

Нові моделі з’явилися в умовах жорсткої конкуренції. Нагадаємо, що нещодавно:

• ElevenLabs презентувала Scribe з діаризацією та 3,3% помилок за $0,006/хв.
• Hume AI показала Octave TTS з можливістю індивідуального налаштування емоцій і вимови на рівні речення і слова.
• Orpheus 3B вийшов у відкритий доступ під ліцензією Apache 2.0 — безкоштовний, якщо є сервер або GPU.

Приклади інтеграції в бізнесі

• EliseAI (автоматизація у сфері нерухомості): завдяки gpt-4o-tts підвищили емоційність спілкування з орендарями та збільшили відсоток успішних дзвінків.
• Decagon (AI-дзвінки): +30% точності розпізнавання у реальних умовах — інтеграція тривала один день.

Раніше ми повідомляли, що OpenAI готується до запуску бета-тестування ChatGPT Connectors — функції, яка дасть можливість бізнес-користувачам підключати Google Drive і Slack до ChatGPT.

Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!