Голосові технології стають наступним великим етапом розвитку генеративного AI. Google оголосила про інтеграцію Chirp 3 — своєї моделі перетворення мови в текст і HD-генерації голосу — у Vertex AI. Починаючи з наступного тижня, ця модель стане доступною для розробників на платформі машинного навчання Google, йдеться у повідомленні Tech Crunch.
Минулого тижня Google анонсувала 8 нових голосів для 31 мови у моделі Chirp 3. Основні сценарії використання передбачають:
- створення голосових асистентів,
- генерацію аудіокниг,
- розробку голосових ботів для підтримки користувачів,
- озвучення відео.
Про це було оголошено під час заходу в лондонському офісі DeepMind.
Конкуренція на ринку голосових AI-рішень
Google не єдина, хто активно розвиває ШІ-генерацію голосу. Минулого тижня стартап Sesame, відомий своїми реалістичними ШІ-голосами Maya та Miles, анонсував модель для розробників, яка дає змогу створювати кастомізовані голосові застосунки.
Крім того, стартап ElevenLabs залучив сотні мільйонів доларів для розвитку ШІ-озвучування. Щоб уникнути зловживань, Google обмежить використання Chirp 3.
«Ми працюємо над цими питаннями разом із командою безпеки», — сказав Томас Куріан, CEO Google Cloud, під час пресконференції.
Chirp 3 стане частиною Vertex AI разом із Gemini та Imagen
Google інтегрує Chirp 3 у Vertex AI поряд з іншими основними моделями:
- Gemini — великими мовними моделями (LLM).
- Imagen — моделлю генерації зображень.
- Veo 2 — інструментом для створення відео.
Наразі невідомо, чи зможе Google конкурувати з реалістичністю голосових моделей, створених Sesame та ElevenLabs. Однак CEO DeepMind Деміс Хассабіс зазначив, що ШІ-індустрія перебуває лише на початковому етапі розвитку.
У короткостроковій перспективі ідея, що ШІ вирішить усе протягом найближчих років, є малоймовірною. Ми ще далеко від створення AGI (штучного загального інтелекту). Ці зміни будуть відбуватися протягом наступного десятиліття.
Що таке Vertex AI?
Google запустила Vertex AI у 2021 році як хмарну платформу для розробників машинного навчання. Вона дозволяє: класифікувати дані, навчати AI-моделі, впроваджувати ML-системи в продакшн.
Після вибухового зростання популярності генеративного AI, Google активно розширює Vertex AI, намагаючись наздогнати Microsoft та Amazon, які також пропонують інструменти AI для розробників.
Chirp: історія розвитку
Google працює над голосовими сервісами Chirp вже багато років. Спочатку ця назва була внутрішнім кодовим ім’ям проєкту, який мав конкурувати з Amazon Alexa. Тепер Chirp 3 отримує офіційний реліз у складі Vertex AI, що робить Google одним із лідерів у сфері штучного голосу.
Минулого місяця ElevenLabs, яка спеціалізується на генерації голосу і клонуванні мовлення за допомогою ШІ, представила нову модель Scribe v1. Це вдосконалена система розпізнавання мовлення, яка забезпечує рекордну точність для 99 мов.
Читайте також на ProI: Google оголосила про заміну Google Assistant на Gemini у 2025 році. За офіційною інформацією, оновлення буде розгортатися поступово, і пізніше цього року Google Assistant перестане бути доступним на більшості мобільних пристроїв і зникне із магазинів застосунків.
Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!