Microsoft представила одразу три нові моделі штучного інтелекту — MAI-Transcribe-1, MAI-Voice-1 і MAI-Image-2. Вони вже доступні через платформи Microsoft Foundry та MAI Playground і орієнтовані на роботу з мовленням, аудіо та зображеннями.
Ключовою новинкою стала MAI-Transcribe-1 — модель для перетворення мовлення в текст. За даними компанії, вона демонструє один із найнижчих рівнів помилок у тесті FLEURS — близько 3,8%. Microsoft стверджує, що ця модель перевершує Whisper-large-v3 від OpenAI у всіх 25 мовах, а також випереджає Gemini 3.1 Flash від Google у більшості з них.
Модель побудована на трансформерному текстовому декодері з двонаправленим аудіокодеком і підтримує формати MP3, WAV і FLAC обсягом до 200 МБ. Також вона забезпечує до 2,5 раза вищу швидкість пакетної транскрипції порівняно з попередніми рішеннями Microsoft і вже тестується в голосових функціях Copilot та Microsoft Teams.
Друга модель — MAI-Voice-1 — дозволяє генерувати аудіо тривалістю до 60 секунд на основі тексту. Вона також може створювати нові голоси, використовуючи короткі зразки записів.
Третя новинка, MAI-Image-2, відповідає за генерацію зображень. У Microsoft зазначають, що вона працює приблизно вдвічі швидше за попередню версію та інтегруватиметься в такі продукти, як Bing і PowerPoint.
Важливість цього релізу полягає і в стратегічному контексті. До жовтня 2025 року Microsoft була обмежена умовами партнерства з OpenAI у створенні власних передових моделей. Тепер ці обмеження зняті, що дозволило компанії розвивати власні ШІ-рішення, зберігаючи при цьому доступ до технологій OpenAI до 2032 року.
Генеральний директор ШІ-напряму Microsoft Мустафа Сулейман заявив, що нові моделі поєднують високу точність і конкурентну вартість. Наприклад, MAI-Voice-1 оцінюється у $22 за мільйон символів, а MAI-Image-2 — у $5 за мільйон токенів.
За його словами, це дозволяє Microsoft закріпитися як третій ключовий гравець на ринку ШІ — після Google та OpenAI.
Раніше повідомлялось, що Microsoft, яка свого часу отримала стратегічну перевагу завдяки раннім інвестиціям в OpenAI, поступово вибудовує нову ключову AI-партнерську модель — цього разу з Anthropic, розробником Claude. За останні місяці стало очевидно, що Microsoft розглядає Anthropic як партнера щонайменше рівнозначного OpenAI, а в окремих напрямах — навіть більш ефективного.
Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!