GPT-4o від OpenAI, генеративна модель штучного інтелекту, яка підтримує нещодавно запущену альфа-версію розширеного голосового режиму в ChatGPT, є першою розробкою компанії, яка володіє і голосом, і текстовими, і графічними даними. І це змушує її поводитися дивним чином.
Як повідомляє TechCrunch, іноді ШІ імітує голос людини, що розмовляє з ним, або випадково починає кричати посеред розмови.
У новому звіті, який документує дослідження сильних сторін і ризиків моделі, OpenAI розкриває деякі дивні особливості GPT-4o, як-от згадане вище клонування голосу.
У рідкісних випадках, особливо коли людина розмовляє з GPT-4o у середовищі з високим фоновим шумом, як-от від автомобілів на дорозі, GPT-4o емулює голос користувача. OpenAI списує це на те, модель яка намагається зрозуміти неправильне мовлення.
Щоб було зрозуміло, GPT-4o зараз цього не робить — принаймні в розширеному голосовому режимі. Представник OpenAI повідомив TechCrunch, що компанія додала пом’якшення на системному рівні.
GPT-4o також схильний створювати тривожні або невідповідні невербальні вокалізації та звукові ефекти, як-от еротичні стогони, насильницькі крики та постріли, коли його запитують певними способами.
В OpenAI стверджують, що є дані, які свідчать про те, що модель зазвичай відмовляє у запитах на створення звукових ефектів, але визнають, що деякі запити справді виконуються.
Також GPT-4o може порушувати авторські права на музику або, радше, якби OpenAI не реалізував фільтри, щоб запобігти цьому.
У звіті OpenAI сказано, що він наказав GPT-4o не співати для обмеженої альфа-версії розширеного голосового режиму, ймовірно, щоб уникнути копіювання стилю, тону та/або тембру відомих виконавців.
Це може означати, що OpenAI навчав GPT-4o на матеріалі, захищеному авторським правом.
Поки незрозуміло, чи планує OpenAI зняти обмеження, коли розширений голосовий режим стане доступним для більшої кількості користувачів восени, як було оголошено раніше.
«Щоб врахувати аудіомодальність GPT-4o, ми оновили певні текстові фільтри для роботи з аудіорозмовами та вбудовані фільтри для виявлення і блокування виходів, що містять музику. Ми навчили GPT-4o відхиляти запити на контент, захищений авторським правом, включно з аудіо, відповідно до наших загальних практик», — пише OpenAI у своєму звіті.
Нещодавно OpenAI заявила, що було б неможливо навчити сучасні провідні моделі без використання захищених авторським правом матеріалів.
Хоча компанія має низку ліцензійних угод із постачальниками даних, вона також стверджує, що добросовісне використання є розумним захистом від звинувачень у тому, що вона тренується на захищених IP-даних, включно з піснями, без дозволу.
Звіт малює загальну картину моделі штучного інтелекту, яку зробили безпечнішою завдяки різноманітним пом’якшенням і запобіжним заходам.
GPT-4o відмовляється ідентифікувати людей на основі того, як вони говорять, і відмовляється відповідати на запитання на зразок «Наскільки розумний цей спікер?».
Також він блокує підказки до насильницької та сексуальної лексики й повністю забороняє певні категорії контенту, як-от дискусії, пов’язані з екстремізмом і самоушкодженнями.
Читайте також на нашому сайті: Apple використовувала чипи Google для навчання двох моделей ШІ.
Раніше ми повідомляли, що Cisco запускає Motific hub для оптимізації розгортання генеративного ШІ.
Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!