ProIT: медіа для профі в IT
5 хв

LLM-навігатор: що вміють великі мовні моделі і яка підійде вам у 2025 році

author avatar Світлана Чапліч

Спектр завдань, які виконують LLM (великі мовні моделі) постійно розширюється, так само як і моделі покращують свої здібності з кожним оновленням. Проте жоден з інструментів не є універсальним. Про це свідчить і статистика використання різних LLM, і поява сервісів, які пропонують доступ до найпоширеніших мовних моделей з одного вікна.

Як визначити, яка велика мовна модель підійде саме під ваші типові завдання, не вдаючись до довгих експериментів?

Можливості найпопулярніших LLM у 2025

Розгляньмо, як описують можливості своїх останніх версій LLM їх розробники, щоб потім співставити цю інформацію з результатами незалежних оглядів.

GPT (OpenAI)

GPT-4.5, анонсована компанією OpenAI, позиціонується як їхня найпотужніша модель на момент випуску. Її можливості є результатом «масштабування неконтрольованого навчання шляхом масштабування обчислень і даних, а також інновацій в архітектурі та оптимізації». На відміну від DeepSeek R1, GPT-4.5 сфокусована на неконтрольованому навчанні, а не лише на ланцюжках міркувань. Вона має найширші можливості для використання та успішна в математичних, наукових і логічних завданнях.

DeepSeek (DeepSeek)

Модель з відкритим кодом DeepSeek R1 здійснила справжній прорив на ринку та швидко стала  лідером серед open-source LLM. Вона чудово працює з великими обсягами тексту/даних та ефективно виконує завдання, що вимагають розпізнавання складних образів або візуалізації даних. Розробники наділили її унікальною здатністю до розмірковування: модель не надає відповіді миттєво, а витрачає ресурси на планування та логічний висновок.

Grok (xAI)

Grok 3 також підтримує розширені можливості міркування, розбиває складні завдання на менші ітерації та перевіряє власні відповіді. Вона також є високопродуктивною у завданнях, що передбачають кодування, аналіз даних, наукові дослідження, а інтеграція з платформою X (раніше Twitter) дає їй доступ до актуальної інформації.

Llama (Meta)

За заявою розробників, Llama 4 — це найкраща мультимодальна LLM у світі з відкритим вихідним кодом. Вона оптимально підходить для точного розпізнавання зображень та створення креативного текстового контенту, відкриваючи нові горизонти в інтеграції різних модальностей.

Gemini (Google)

Найбільша та найпотужніша LLM від Google. Остання версія Gemini 2.5 Pro допомагає створювати складні інтерактивні веб-застосунки та демонструє вражаючі результати в академічних тестах. Її архітектура дозволяє працювати з надзвичайно великим контекстним вікном (до 1 млн токенів), що робить її ідеальною для аналізу об'ємних документів та даних.

Claude (Anthropic)

Остання версія сімейства моделей Claude 4 стала доступною в травні 2025 року. Ця модель відома своїм акцентом на безпеку та надійність. Вона також адаптована під написання програмного коду, підтримує розширене міркування та вміє точно аналізувати складні запити, мінімізуючи «галюцинації» та нерелевантні відповіді.

Результати тестів, бенчмарків і незалежних рейтингів

Турнірні таблиці в них дуже швидко змінюються, адже компанії постійно вдосконалюють свої LLM. Тому наведені нижче дані будуть актуальними на кінець червня 2025 року. Почнемо синтетичних бенчмарків, які використовують завчасно визначені набори даних, запитань та завдань.

GPQA (Google Proof-of-Concept Question Answering): бенчмарк, що оцінює здатність моделі до глибинного міркування. Лідер — Gemini 2.45 Pro (Grok 3 та OpenAI o3 — друге та третє місце відповідно).

AIME (American Invitational Mathematics Examination): бенчмарк, що оцінює здатність моделі вирішувати надскладні завдання з алгебри, комбінаторики та теорії чисел. Лідер — OpenAI o3-mini (DeepSeek R1 та OpenAI o1 — друге та третє місце відповідно).

HumanEval: оцінює здатність LLM до генерації програмного коду: тест містить 164 завдання з програмування, які вимагають від моделі створення функціонального коду на основі наданих описів. Лідер — LlaMa-3 (Phi-2 від Microsoft та DeepSeek-V3 — друге та третє місце відповідно).

GSM8K (Grade School Math 8K): бенчмарк, призначений для перевірки математичних здібностей LLM. Він включає 8500 задач з математики для середньої школи, що вимагають багатоетапних обчислень та логічного мислення. Перше місце у здатності до виконання арифметичних дій в GSM8K посідає Claude 3.5 Sonet.

Крім синтетичних тестів є рейтинги, що базуються на відгуках реальних користувачів різних LLM. Один з таких — Chatbot Arena, де п’ятірка таблиці лідерів матиме такий вигляд:

  • Gemini-2.5-Pro;
  • ChatGPT-o3;
  • ChatGPT-4o;
  • Gemini-2.5-Flash;
  • Grok-3.

Крім того, Chatbot Arena виділяє найкращі LLM із відкритим кодом: DeepSeek-V3, DeepSeek-R1, Qwen Qwen3 та Gemini Gemma-3.

Цікавими є результати аматорського бенчмарку Simple Bench, який тестує здатність розмірковувати та бачити реальні (приховані) сенси. Людина набирає в ньому від 80% до 92%. Ви самі можете визначити свою здатність розв’язувати логічні завдання та побачити, яку кількість балів наберете. Приготуйтеся, що вас перевірять, наскільки уважно ви рахуєте, можете знайти важливу інформацію серед купи зайвої, зреагувати у нестандартних ситуаціях.

А ось результати того, які з популярних мовних моделей справляються з подібними завданнями найкраще:

  • перше місце — Gemini 2.5 Pro (62,4%);
  • друге місце — Claude 4 Opus (58,8%);
  • третє місце — GPT- o3 (53,1%);

Далі розглянемо результати OpenRouter — платформи, що надає уніфікований API для доступу до всіх основних LLM на ринку. Ось які результати надає OpenRouter для різних типів запитів (промптів) в популярних категоріях:

  • програмування — Claude Sonnet 4;
  • маркетинг — Gemini 2.0 Flash;
  • технології — Claude Sonnet 4;
  • переклад — Gemini 2.0 Flash;
  • фінанси — Gemini 2.5 Flash;
  • загальні питання — Gemini 2.0 Flash.

Очевидно, що універсальним гравцем за даними OpenRouter є Gemini 2.0 Flash — велика мовна модель, яка доступна з лютого 2025 року. За продуктивністю вона конкурує з останніми моделями GPT, водночас додаткова інтеграція з Search, Docs, Gmail робить її цікавою для тих, хто користується екосистемою Google.

Крім того, авторитетними є результати LMArena, де таблиці лідерів формуються на основі голосувань понад 3,5 млн користувачів. Вони роблять запит до LLM, сервіс повертає відповіді двох «анонімних» моделей, і врешті саме користувач позначає кращу відповідь.

Який вигляд має розподіл за категоріями в LMArena:

  • робота з текстом — Gemini 2.5 Pro Preview;
  • веб-розробка — Gemini 2.5 Pro Preview;
  • кодування — Gemini 2.5 Pro;
  • пошук інформації — DeepSeek V2.5;
  • конвертація тексту у зображення — GPT-Image-1.

Що у фіналі?

Якщо об’єднати результати великої кількості оглядів та рейтингів, картина виглядатиме наступним чином:

Сфера застосування

Рекомендовані моделі

Коментарі

Генерація текстів / Маркетинг

Gemini 2.x Flash, GPT-4.5, Claude 3.5 / 4

Gemini Flash — надшвидка модель для тексту й зображень; GPT-4 — креативний і логічний у відповідях; Claude — структурований, зі своїм унікальним стилем. 

Генерація програмного коду

Claude 4 Opus / 3.5 Sonnet, GPT-4.5, LlaMA 3 / Code Llama

Claude має найкращі показники в HumanEval; GPT-4 має потужні інструменти для кодування; LlaMA-3 — найкращий вибір серед open-source.

Відповіді на загальні запитання

GPT-4o / 4.5, Claude 3.5 / 4, Gemini 2.x

GPT-4 — точний та функціональний; Claude властива природна розмова; Gemini підключає пошук Google для більш точних та актуальних відповідей.

Генерація креативного тексту / ідей

GPT-4.5 / 4.0, Claude 3.5, Grok 3

GPT-4 — найкращий для творчих запитів і генерації сюжетів; Claude — логічний і послідовний навіть у художньому тексті; Grok викладає думки менш формально.

Пошук інформації / асистування

GPT-4o / 4.5, Claude 3.5 / 4, Gemini 2.x

GPT підтримує для цього плагіни й кастомні GPTs; Claude — краще розуміє емоції користувача; Gemini — ідеальний для мультимодального пошуку та швидко надає відповіді.

Аналітика / Мислення / Логіка

GPT-4, Claude 4, Mistral / DeepSeek

GPT-4 і Claude демонструють найвищі результати в reasoning-бенчмарках; DeepSeek — хороша безкоштовна модель для логіки та запитів зі структурованими даними.

Практичні рекомендації

Якщо шукати найкращу модель під свої завдання влітку 2025 року, варто звернути увагу на цю таблицю. Проте паралельно є сенс слідкувати за оновленнями поточних та виходом нових LLM, вивчати відгуки профільної спільноти та, звісно, тестувати самостійно, експериментуючи з промптами. Останнє зручно робити на таких платформах як OpenRouter — тут можна додавати до наявного переліку будь-які популярні моделі та перемикатися між ними залежно від специфіки запитів. Врешті, найкраща LLM — це та, яка максимально точно задовольняє саме ваші потреби та дозволяє ефективно вирішувати ваші завдання.

Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!

Приєднатися до company logo
Продовжуючи, ти погоджуєшся з умовами Публічної оферти та Політикою конфіденційності.