Якщо 2024 рік можна окреслити як період домінування «однієї великої моделі в хмарі», то 2025-й — це рік формування розгалуженої карти: кілька фронтирних гравців, лідерство Китаю в open-weight-сегменті, швидкий прогрес малих та ефективних моделей і залучення креативних екосистем на кшталт Midjourney у продукти великих технологічних компаній.
Ключова зміна року — поява реального вибору: закриті й відкриті моделі, локальні та хмарні рішення, системи, сфокусовані на міркуванні або на медіа. Для бізнесу, розробників і дослідників саме це різноманіття стає визначальним фактором.
OpenAI: GPT-5, GPT-5.1, Atlas, Sora 2
OpenAI, яка фактично запустила еру generative AI завдяки ChatGPT наприкінці 2022 року, у 2025-му опинилася під сильним тиском конкуренції з боку Google (лінійка Gemini) та стартапів на кшталт Anthropic. Попри це компанія змогла підтримати темп релізів.
Головним анонсом став GPT-5, представлений у серпні як нова фронтирна модель для задач міркування. У листопаді OpenAI випустила GPT-5.1 з варіантами Instant і Thinking, які динамічно змінюють обсяг «часу на роздуми» для кожного завдання.
Запуск GPT-5 супроводжувався проблемами: фіксувалися помилки в математиці, програмуванні та стримана реакція спільноти. Однак модель досить швидко була доопрацьована з урахуванням фідбеку.
Бізнес-користувачі повідомляють про відчутний ефект: наприклад, ZenDesk Global заявляє, що агенти на базі GPT-5 закривають понад половину запитів у підтримку, а окремі клієнти досягають 80–90% автоматичного вирішення.
На рівні інструментів OpenAI представила GPT-5.1-Codex-Max — нову кодову модель, розраховану на тривалі агентні воркфлоу. Вона вже використовується за замовчуванням у середовищі OpenAI Codex, а внутрішні тести показали здатність моделі виконувати складні багатоетапні задачі протягом тривалого часу.
Окремий напрямок — ChatGPT Atlas: браузер, у якому ChatGPT інтегровано безпосередньо в інтерфейс. Atlas пропонує бічну панель із резюме сторінок, аналіз контенту «на льоту» та інтегрований пошук, що демонструє зближення функцій асистента та браузера.
У сфері медіа OpenAI вивела Sora 2 — модель для роботи з відео й аудіо з покращеною фізикою, синхронізованим звуком і керованою побудовою кадру. Паралельно з’явився окремий застосунок Sora із соціальним компонентом, де користувачі можуть створювати власні TV-канали.
Також у 2025 році OpenAI опублікувала gpt-oss-120B і gpt-oss-20B — open-weight MoE-моделі для задач міркування з ліцензією, подібною до Apache 2.0. Це стало першим із часів GPT-2 випадком, коли компанія виклала у спільний доступ вагомі моделі такого рівня.
Китайські open-source моделі
Якщо 2023–2024 роки були періодом домінування Llama та Mistral, то у 2025-му в центрі уваги опинилася екосистема відкритих моделей із Китаю.
Спільне дослідження MIT і Hugging Face показало, що Китай незначно випередив США за обсягом завантажень open-weight-моделей, передусім завдяки DeepSeek і сімейству Qwen від Alibaba.
Серед основних подій:
• DeepSeek-R1 вийшла у січні як відкрита reasoning-модель, що конкурує з OpenAI o1, з MIT-ліцензією та лінійкою менших дистильованих моделей.
• Kimi K2 Thinking від Moonshot стала ще однією відкритою thinking-моделлю, здатною покроково міркувати й використовувати інструменти, і позиціонується як один із найсильніших open-weight-рішень для міркування.
• Z.ai випустила GLM-4.5 і GLM-4.5-Air як агентні моделі з відкритими базовими та гібридними reasoning-варіантами.
• Baidu представила сімейство ERNIE 4.5 — мультимодальні MoE-моделі під Apache 2.0, включно з щільною моделлю на 0,3 млрд параметрів і візуальними «Thinking»-версіями, оптимізованими під графіки, STEM і роботу з інструментами.
• Alibaba продовжила розвиток лінійки Qwen3 — зокрема, Qwen3-Coder, великі моделі для міркування та мультимодальні Qwen3-VL, які показують високий рівень у кодуванні, перекладі й мультимодальних задачах.
Окрему нішу займають компактні моделі для математики та логічних задач, як-от Light-R1-32B та VibeThinker-1.5B від Weibo, які демонструють конкурентоспроможні результати за значно менших ресурсів навчання.
Усе це зробило китайську екосистему відкритих ваг не просто цікавинкою, а реальною альтернативою для тих, кому потрібні on-prem-рішення та контроль над моделями.
Розвиток малих і локальних моделей
Ще одна тенденція 2025 року — помітне «дорослішання» малих моделей, орієнтованих не на демонстрації, а на реальні сценарії.
Компанія Liquid AI розвивала Liquid Foundation Models (LFM2) та варіанти LFM2-VL (vision-language), спроєктовані для низьких затримок і device-aware розгортання — від edge-пристроїв і робототехніки до компактних серверів. Модель LFM2-VL-3B націлена на вбудовані системи, роботів та промислову автономію, з публічними демонстраціями, запланованими на профільних заходах.
Google презентувала лінійку Gemma 3 — від компактних моделей на 270 млн параметрів до конфігурацій на 27 млрд, з відкритими вагами й мультимодальною підтримкою у старших варіантах.
Особливу увагу привернула Gemma 3 270M — компактна модель, оптимізована для fine-tuning і задач зі структурованим текстом (кастомні форматери, роутери, watchdog-агенти). Саме такі моделі виявляються корисними для приватних, офлайн- і edge-сценаріїв, а також для побудови «роїв агентів», де немає сенсу щоразу звертатися до великої хмарної LLM.
Партнерство Meta та Midjourney: естетика як сервіс
У 2025 році Meta зробила нестандартний крок, вирішивши не лише конкурувати з Midjourney, а й співпрацювати з ним.
У серпні компанія оголосила про ліцензування технології генерації зображень і відео Midjourney для інтеграції в майбутні моделі й продукти Meta — від стрічок Facebook та Instagram до функцій Meta AI.
Це означає, що візуалізація рівня Midjourney поступово з’являється у масових продуктах, а не залишається прив’язаною до окремого інтерфейсу. Для креаторів і брендів це спрощує доступ до якісного AI-контенту без переходу в спеціалізовані інструменти, а для ринку загалом — створює додатковий тиск на конкурентів (OpenAI, Google, Black Forest Labs), які змушені піднімати планку якості.
Gemini 3 та Nano Banana Pro від Google
Google відповіла на GPT-5 релізом Gemini 3, яку позиціонує як найбільш потужну модель компанії: покращене міркування, кодування, мультимодальне розуміння та режим Deep Think для складних задач із тривалою обробкою.
Паралельно вийшов Nano Banana Pro (Gemini 3 Pro Image) — новий генератор зображень, орієнтований на інфографіку, технічні діаграми, сцени з багатьма об’єктами та багатомовний текст, який коректно рендериться у 2K та 4K. Для корпоративних сценаріїв, де потрібні не стільки «фантастичні» картинки, скільки зрозумілі технічні схеми й візуальні пояснення систем, це суттєвий крок уперед.
Інші помітні релізи
• Flux.2 від Black Forest Labs — нові моделі генерації зображень, які позиціонуються як конкуренти для Nano Banana Pro та Midjourney з акцентом на якість і контрольованість.
• Claude Opus 4.5 від Anthropic — флагманська модель, спрямована на здешевлення та підвищення якості роботи з кодом і виконання довгих, багатокрокових задач.
• Низка відкритих моделей для математики й міркування (Light-R1, VibeThinker тощо), які показують, що прогрес можливий і без надвеликих тренувальних бюджетів.
Читайте також на ProIT, що українську національну LLM створять на базі моделі Gemma 3 від Google.
Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!