Головна
Новини
DeepSeek випустила конкурентів GPT-5 і Gemini — моделі вже доступні

03 грудня, 2025

3 хв

DeepSeek випустила конкурентів GPT-5 і Gemini — моделі вже доступні

DeepSeek презентувала дві нові великі мовні моделі — DeepSeek-V3.2 та DeepSeek-V3.2-Speciale, які, за заявами компанії, перевершують можливості OpenAI GPT-5 і Google Gemini-3.0-Pro.

Запуск цих моделей може вплинути на баланс сил між американськими технологічними гігантами та їхніми китайськими конкурентами, особливо з огляду на те, що DeepSeek знову досягла проривних результатів попри дію американських експортних обмежень.

Модель V3.2 створена як універсальний інструмент для повсякденних завдань і складних міркувань, тоді як V3.2-Speciale позиціонується як посилений варіант, здатний розв’язувати складні задачі світового рівня.

Саме Speciale принесла компанії медалі у чотирьох престижних міжнародних змаганнях: International Mathematical Olympiad, International Olympiad in Informatics, ICPC World Finals і China Mathematical Olympiad.

Особливу увагу привертає те, що DeepSeek ліцензувала обидві моделі під відкритою MIT-ліцензією, виклавши код і документацію у відкритий доступ.

Технічний прорив: Sparse Attention

У центрі нового релізу — архітектурна інновація DeepSeek Sparse Attention (DSA). Вона замінює традиційний механізм уваги, який погано масштабується на довгих документах, і дає можливість моделі аналізувати лише релевантні частини контексту.

Завдяки цьому:

• вартість inference на довгих послідовностях знижено приблизно на 70%;

• обробка 128 тисяч токенів стала майже утричі дешевшою, ніж у попередньої моделі V3.1;

• продуктивність на довгому контексті збережена на рівні або вище попередніх поколінь.

Обидві моделі мають 685 мільярдів параметрів і підтримують 128 тисяч токенів контексту, що дає їм можливість працювати з великими документами, кодовими базами та науковими матеріалами.

Результати тестів: рівень GPT-5 і вище

DeepSeek наводить масштабний набір тестів, які демонструють можливості моделей у задачах математики, програмування та логічного міркування.

У змаганнях із математики:

• AIME 2025: V3.2-Speciale отримала 96,0%, тоді як GPT-5-High — 94,6%, а Gemini-3.0-Pro — 95,0%;

• HMMT: Speciale показала результат 99,2%, випередивши Gemini-3.0-Pro з його 97,5%.

Особливо інтригуючими є офіційні результати моделей на міжнародних олімпіадах, де Speciale демонструє рівень розв’язання задач, характерний для призерів міжнародних змагань.

У задачах із програмування DeepSeek-V3.2 вирішила 73,1% реальних багів у SWE-Verified — майже на рівні GPT-5-High (74,9%). На комплексному Terminal Bench 2.0 модель значно випереджає GPT-5-High (46,4% проти 35,2%).

Однак у DeepSeek визнають, що моделі потребують більше токенів для досягнення аналогічної якості відповіді в деяких сценаріях, а ширина їхніх знань усе ще поступається пропрієтарним системам.

Нові можливості: мислення під час роботи з інструментами

Одним з основних нововведень стала здатність моделі підтримувати безперервну логіку міркування навіть під час багатьох викликів зовнішніх інструментів. Раніше кожен виклик інструментів обнуляв reasoning-ланцюг.

Щоб навчити модель працювати з інструментами як із частиною міркування, DeepSeek створила величезний масив синтетичних сценаріїв — понад 85 тисяч задач у 1800 середовищах. Вони охоплюють складні сценарії: від довгострокового планування до виправлення коду вісьмома мовами й багатокрокових вебдосліджень.

Відкрита ліцензія: удар по бізнес-моделях ринку

DeepSeek знову робить ставку на відкритість: обидві моделі викладено під MIT-ліцензією на Hugging Face. Це означає, що будь-хто (від дослідника до великої компанії) може:

• завантажити моделі;

• змінювати їх;

• запускати локально або в хмарі;

• використовувати без обмежень у комерційних продуктах.

Цей крок потенційно тисне на API-моделі OpenAI та Anthropic, що будуються на платному доступі до пропрієтарних систем. DeepSeek також спростила міграцію з API OpenAI, надавши скрипти-сумісники.

Попри технічний прорив, розширення DeepSeek у Європі та США стикається з бар’єрами. Регулятори в Німеччині й Італії вже вимагали обмежити доступ до застосунку DeepSeek через ризики передання даних до Китаю. Американські законодавці закликають заборонити використання DeepSeek на урядових пристроях.

Що означає реліз DeepSeek для майбутнього

Запуск V3.2 підтверджує кілька основних тенденцій:

⇾ Китайські розробники можуть створювати системи рівня frontier без доступу до сучасних NVIDIA-чипів.

⇾ Інновації в ефективності можуть бути важливішими за масштаб навчання.

⇾ Open-source підхід стає реальним конкурентом пропрієтарним моделям.

DeepSeek-V3.2-Speciale буде доступна через API до 15 грудня, після чого її функціональність інтегрують у базову модель.

Нагадаємо, що xAI почала розгортання оновленої моделі Grok 4.1.

Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!