Штучний інтелект стрімко розвивається, особливо в галузі мовлення та голосових моделей. Показовим прикладом стала презентація ElevenLabs — стартапу з голосових і звукових AI-ефектів, який заснували колишні інженери Palantir.
Компанія презентувала Conversational AI 2.0 — масштабне оновлення своєї платформи для створення просунутих голосових агентів для підприємств. Серед типових сценаріїв використання — служби підтримки, кол-центри та відділи продажу й маркетингу. Про це йдеться в матеріалі Venture Beat.
Це оновлення з’явилося лише за 4 місяці після першого релізу платформи й одразу після запуску конкурентної EVI 3 від Hume. Паралельно на ринку з’явилися нові open-source голосові моделі, але ElevenLabs доводить свою конкурентоспроможність.
Інженер стартапу Йозеф Марко зазначив, що Conversational AI 2.0 суттєво перевершує попередню версію, встановлюючи нову планку якості голосових інтерфейсів.
Основні нововведення
Поліпшене управління мовленням (Turn-taking)
Новітня модель черговості мовлення розпізнає паузи, вагання, слова-заповнювачі й інші сигнали в реальному часі, щоб правильно визначити, коли говорити, а коли слухати. Це критично для таких сфер, як обслуговування клієнтів.
Автоматичне визначення мови
Агент розпізнає мову користувача автоматично, без потреби в ручному перемиканні. Це дає можливість підтримувати багатомовну взаємодію в межах одного діалогу.
Інтеграція Retrieval-Augmented Generation
Платформа може звертатися до зовнішніх баз знань і швидко отримувати релевантну інформацію. Наприклад, медичний агент може миттєво знайти протоколи лікування, а служба підтримки — специфікації продуктів.
Підтримка мультимодальності та кількох персон
Агенти можуть взаємодіяти голосом, текстом або одночасно в обох форматах. Також платформа дає можливість використовувати кількох персонажів (персон) у межах одного агента, що корисно для навчання, симуляцій або креативних завдань.
Масові вихідні дзвінки
Функціональність для одночасного здійснення кількох вихідних дзвінків, наприклад для розсилання повідомлень, опитувань або сповіщень.
Безпека, відповідність стандартам і ціноутворення
Conversational AI 2.0 відповідає вимогам HIPAA (США) та підтримує зберігання даних у ЄС. Платформа орієнтована на інтеграцію із системами сторонніх розробників і забезпечує високу надійність.
Ціни на підписку:
Free: $0/місяць — 15 хвилин, чотири паралельні сеанси, без комерційної ліцензії.
Starter: $5/місяць — 50 хвилин, шість сеансів.
Creator: $11/місяць (знижено із $22) — 250 хвилин, шість сеансів, приблизно $0,12/хвилину понад ліміт.
Pro: $99/місяць — 1100 хвилин, 10 сеансів, приблизно $0,11/хвилину.
Scale: $330/місяць — 3600 хвилин, 20 сеансів, приблизно $0,10/хвилину.
Business: $1320/місяць — 13 750 хвилин, 30 сеансів, приблизно $0,096/хвилину.
У відеопрезентації компанії зазначено:
«Потенціал розмовного ШІ ніколи не був вищим. Час створювати — саме зараз».
Розробників і компанії запрошують ознайомитися з документацією, відвідати портал для девелоперів або звернутися до команди продажів ElevenLabs.
Нагадаємо, нещодавно OpenAI представила нове сімейство пропрієтарних голосових моделей. Вони вже доступні через API OpenAI та дають змогу стороннім розробникам додати розпізнавання мовлення й генерацію голосу до своїх застосунків буквально за кілька рядків коду.
Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!