OpenAI розгортає розширений голосовий режим ChatGPT

Компанія OpenAI надає користувачам доступ до аудіовідповідей GPT-4o.

Альфа-версія буде доступна для невеликої групи користувачів ChatGPT Plus. Цю функцію буде поступово розгорнуто для всіх користувачів Plus восени 2024 року, повідомляє TechCrunch.

Коли OpenAI вперше продемонструвала голос GPT-4o у травні, вказана функція шокувала аудиторію швидкими відповідями та дивовижною схожістю із голосом реальної людини.

Так, голос Скай був схожий на голос Скарлетт Йоханссон, акторки, яка виконувала роль штучного помічника у фільмі «Вона».

Незабаром після демонстрації OpenAI Йоханссон сказала, що відмовилася від численних запитів генерального директора Сема Альтмана використовувати її голос, і подала позов проти компанії.

У червні в OpenAI заявили, що відкладуть випуск Advanced Voice Mode, щоб покращити заходи безпеки.

Тепер ChatGPT може говорити й слухати

Можливо, ви вже випробували голосовий режим, який зараз доступний у ChatGPT, але в OpenAI кажуть, що розширений голосовий режим інший.

У попередньому рішенні ChatGPT для аудіо використовувалися три окремі моделі: одна для перетворення вашого голосу на текст, друга — для обробки підказок, третя — для перетворення тексту ChatGPT на голос.

GPT-4o є мультимодальним. Він здатний обробляти ці завдання без залучення допоміжних моделей, створюючи розмови зі значно меншою затримкою.

Також в OpenAI стверджують, що GPT-4o може відчувати емоційні інтонації у вашому голосі.

У цьому пілотному проєкті користувачі ChatGPT Plus зможуть пересвідчитися, наскільки насправді реалістичним є розширений голосовий режим OpenAI.

Розробники кажуть, що випускають новий голос ChatGPT поступово, щоб уважно стежити за його використанням. Користувачі тестової групи отримають сповіщення в застосунку ChatGPT, а потім електронний лист з інструкціями щодо його використання.

В OpenAI заявили, що тестували голосові можливості GPT-4o із понад 100 зовнішніми командами, які розмовляють 45 різними мовами. Звіт про ці заходи безпеки буде опубліковано на початку серпня.

Advanced Voice Mode буде обмежено чотирма попередньо встановленими голосами ChatGPT (Juniper, Breeze, Cove та Ember), створеними у співпраці з акторами. Голос Sky, показаний у травневій демонстрації OpenAI, більше не доступний у ChatGPT.

Також OpenAI повідомила, що було запроваджено нові фільтри для блокування певних запитів на створення музики чи іншого аудіо, захищеного авторським правом.

Минулого року компанії зі штучним інтелектом зіткнулися із судовими проблемами через порушення авторських прав. Зокрема, компанії звукозапису вже подали до суду на ШІ Suno та Udio.

Нещодавно ми повідомляли, що OpenAI анонсує SearchGPT — власну пошукову систему на основі ШІ.

Читайте також на ProIT: Samsung планує додати ШІ до свого голосового помічника Bixby.

Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!