ProIT: медіа для профі в IT
4 хв

OpenAI, Google, китайські моделі та малі LLM: як змінився ШІ у 2025 році

author avatar ProIT NEWS

Якщо 2024 рік можна окреслити як період домінування «однієї великої моделі в хмарі», то 2025-й — це рік формування розгалуженої карти: кілька фронтирних гравців, лідерство Китаю в open-weight-сегменті, швидкий прогрес малих та ефективних моделей і залучення креативних екосистем на кшталт Midjourney у продукти великих технологічних компаній.

Ключова зміна року — поява реального вибору: закриті й відкриті моделі, локальні та хмарні рішення, системи, сфокусовані на міркуванні або на медіа. Для бізнесу, розробників і дослідників саме це різноманіття стає визначальним фактором.

OpenAI: GPT-5, GPT-5.1, Atlas, Sora 2

OpenAI, яка фактично запустила еру generative AI завдяки ChatGPT наприкінці 2022 року, у 2025-му опинилася під сильним тиском конкуренції з боку Google (лінійка Gemini) та стартапів на кшталт Anthropic. Попри це компанія змогла підтримати темп релізів.

Головним анонсом став GPT-5, представлений у серпні як нова фронтирна модель для задач міркування. У листопаді OpenAI випустила GPT-5.1 з варіантами Instant і Thinking, які динамічно змінюють обсяг «часу на роздуми» для кожного завдання.

Запуск GPT-5 супроводжувався проблемами: фіксувалися помилки в математиці, програмуванні та стримана реакція спільноти. Однак модель досить швидко була доопрацьована з урахуванням фідбеку.

Бізнес-користувачі повідомляють про відчутний ефект: наприклад, ZenDesk Global заявляє, що агенти на базі GPT-5 закривають понад половину запитів у підтримку, а окремі клієнти досягають 80–90% автоматичного вирішення.

На рівні інструментів OpenAI представила GPT-5.1-Codex-Max — нову кодову модель, розраховану на тривалі агентні воркфлоу. Вона вже використовується за замовчуванням у середовищі OpenAI Codex, а внутрішні тести показали здатність моделі виконувати складні багатоетапні задачі протягом тривалого часу.

Окремий напрямок — ChatGPT Atlas: браузер, у якому ChatGPT інтегровано безпосередньо в інтерфейс. Atlas пропонує бічну панель із резюме сторінок, аналіз контенту «на льоту» та інтегрований пошук, що демонструє зближення функцій асистента та браузера.

У сфері медіа OpenAI вивела Sora 2 — модель для роботи з відео й аудіо з покращеною фізикою, синхронізованим звуком і керованою побудовою кадру. Паралельно з’явився окремий застосунок Sora із соціальним компонентом, де користувачі можуть створювати власні TV-канали.

Також у 2025 році OpenAI опублікувала gpt-oss-120B і gpt-oss-20B — open-weight MoE-моделі для задач міркування з ліцензією, подібною до Apache 2.0. Це стало першим із часів GPT-2 випадком, коли компанія виклала у спільний доступ вагомі моделі такого рівня.

Китайські open-source моделі

Якщо 2023–2024 роки були періодом домінування Llama та Mistral, то у 2025-му в центрі уваги опинилася екосистема відкритих моделей із Китаю.

Спільне дослідження MIT і Hugging Face показало, що Китай незначно випередив США за обсягом завантажень open-weight-моделей, передусім завдяки DeepSeek і сімейству Qwen від Alibaba.

Серед основних подій:

• DeepSeek-R1 вийшла у січні як відкрита reasoning-модель, що конкурує з OpenAI o1, з MIT-ліцензією та лінійкою менших дистильованих моделей.

• Kimi K2 Thinking від Moonshot стала ще однією відкритою thinking-моделлю, здатною покроково міркувати й використовувати інструменти, і позиціонується як один із найсильніших open-weight-рішень для міркування.

• Z.ai випустила GLM-4.5 і GLM-4.5-Air як агентні моделі з відкритими базовими та гібридними reasoning-варіантами.

• Baidu представила сімейство ERNIE 4.5 — мультимодальні MoE-моделі під Apache 2.0, включно з щільною моделлю на 0,3 млрд параметрів і візуальними «Thinking»-версіями, оптимізованими під графіки, STEM і роботу з інструментами.

• Alibaba продовжила розвиток лінійки Qwen3 — зокрема, Qwen3-Coder, великі моделі для міркування та мультимодальні Qwen3-VL, які показують високий рівень у кодуванні, перекладі й мультимодальних задачах.

Окрему нішу займають компактні моделі для математики та логічних задач, як-от Light-R1-32B та VibeThinker-1.5B від Weibo, які демонструють конкурентоспроможні результати за значно менших ресурсів навчання.

Усе це зробило китайську екосистему відкритих ваг не просто цікавинкою, а реальною альтернативою для тих, кому потрібні on-prem-рішення та контроль над моделями.

Розвиток малих і локальних моделей

Ще одна тенденція 2025 року — помітне «дорослішання» малих моделей, орієнтованих не на демонстрації, а на реальні сценарії.

Компанія Liquid AI розвивала Liquid Foundation Models (LFM2) та варіанти LFM2-VL (vision-language), спроєктовані для низьких затримок і device-aware розгортання — від edge-пристроїв і робототехніки до компактних серверів. Модель LFM2-VL-3B націлена на вбудовані системи, роботів та промислову автономію, з публічними демонстраціями, запланованими на профільних заходах.

Google презентувала лінійку Gemma 3 — від компактних моделей на 270 млн параметрів до конфігурацій на 27 млрд, з відкритими вагами й мультимодальною підтримкою у старших варіантах.

Особливу увагу привернула Gemma 3 270M — компактна модель, оптимізована для fine-tuning і задач зі структурованим текстом (кастомні форматери, роутери, watchdog-агенти). Саме такі моделі виявляються корисними для приватних, офлайн- і edge-сценаріїв, а також для побудови «роїв агентів», де немає сенсу щоразу звертатися до великої хмарної LLM.

Партнерство Meta та Midjourney: естетика як сервіс

У 2025 році Meta зробила нестандартний крок, вирішивши не лише конкурувати з Midjourney, а й співпрацювати з ним.

У серпні компанія оголосила про ліцензування технології генерації зображень і відео Midjourney для інтеграції в майбутні моделі й продукти Meta — від стрічок Facebook та Instagram до функцій Meta AI.

Це означає, що візуалізація рівня Midjourney поступово з’являється у масових продуктах, а не залишається прив’язаною до окремого інтерфейсу. Для креаторів і брендів це спрощує доступ до якісного AI-контенту без переходу в спеціалізовані інструменти, а для ринку загалом — створює додатковий тиск на конкурентів (OpenAI, Google, Black Forest Labs), які змушені піднімати планку якості.

Gemini 3 та Nano Banana Pro від Google

Google відповіла на GPT-5 релізом Gemini 3, яку позиціонує як найбільш потужну модель компанії: покращене міркування, кодування, мультимодальне розуміння та режим Deep Think для складних задач із тривалою обробкою.

Паралельно вийшов Nano Banana Pro (Gemini 3 Pro Image) — новий генератор зображень, орієнтований на інфографіку, технічні діаграми, сцени з багатьма об’єктами та багатомовний текст, який коректно рендериться у 2K та 4K. Для корпоративних сценаріїв, де потрібні не стільки «фантастичні» картинки, скільки зрозумілі технічні схеми й візуальні пояснення систем, це суттєвий крок уперед.

Інші помітні релізи

• Flux.2 від Black Forest Labs — нові моделі генерації зображень, які позиціонуються як конкуренти для Nano Banana Pro та Midjourney з акцентом на якість і контрольованість.

• Claude Opus 4.5 від Anthropic — флагманська модель, спрямована на здешевлення та підвищення якості роботи з кодом і виконання довгих, багатокрокових задач.

• Низка відкритих моделей для математики й міркування (Light-R1, VibeThinker тощо), які показують, що прогрес можливий і без надвеликих тренувальних бюджетів.

Читайте також на ProIT, що українську національну LLM створять на базі моделі Gemma 3 від Google.

Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!

Приєднатися до company logo
Продовжуючи, ти погоджуєшся з умовами Публічної оферти та Політикою конфіденційності.