ProIT: медіа для профі в IT
3 хв

DeepSeek випустила конкурентів GPT-5 та Gemini — моделі вже доступні

author avatar ProIT NEWS

DeepSeek представив дві нові великі мовні моделі — DeepSeek-V3.2 та DeepSeek-V3.2-Speciale, — які, за заявами компанії, перевершують можливості OpenAI GPT-5 та Google Gemini-3.0-Pro. Запуск цих моделей може вплинути на баланс сил між американськими технологічними гігантами та їхніми китайськими конкурентами, особливо з огляду на те, що DeepSeek знову досягла проривних результатів попри дію американських експортних обмежень.

Модель V3.2 створена як універсальний інструмент для повсякденних задач і складних міркувань, тоді як V3.2-Speciale позиціонується як посилений варіант, здатний розв’язувати складні задачі світового рівня. Саме Speciale принесла компанії медалі у чотирьох престижних міжнародних змаганнях — International Mathematical Olympiad, International Olympiad in Informatics, ICPC World Finals та China Mathematical Olympiad.

Особливу увагу привертає те, що DeepSeek ліцензувала обидві моделі під відкритою MIT-ліцензією, виклавши код і документацію у відкритий доступ.

Технічний прорив: Sparse Attention

У центрі нового релізу — архітектурна інновація DeepSeek Sparse Attention (DSA). Вона замінює традиційний механізм уваги, який погано масштабується на довгих документах, і дозволяє моделі аналізувати лише релевантні частини контексту.

Завдяки цьому:

• вартість inference на довгих послідовностях знижено приблизно на 70%;
• обробка 128 тис. токенів стала майже у три рази дешевшою, ніж у попередньої моделі V3.1;
• продуктивність на довгому контексті збережена на рівні або вище попередніх поколінь.

Обидві моделі мають 685 млрд параметрів і підтримують 128 000 токенів контексту, що дозволяє їм працювати з великими документами, кодовими базами та науковими матеріалами.

Результати тестів: рівень GPT-5 і вище

DeepSeek наводить масштабний набір тестів, які демонструють можливості моделей у задачах математики, програмування та логічного міркування.

У змаганнях із математики:

• AIME 2025: V3.2-Speciale отримала 96,0%, тоді як GPT-5-High — 94,6%, а Gemini-3.0-Pro — 95,0%;
• HMMT: Speciale показала результат 99,2%, випередивши Gemini-3.0-Pro з його 97,5%.

Особливо інтригуючими є офіційні результати моделей на міжнародних олімпіадах, де Speciale демонструє рівень розв’язання задач, характерний для призерів міжнародних змагань.

У задачах із програмування DeepSeek-V3.2 вирішила 73,1% реальних багів у SWE-Verified — майже на рівні GPT-5-High (74,9%). На комплексному Terminal Bench 2.0 модель значно випереджає GPT-5-High (46,4% проти 35,2%).

Однак DeepSeek визнає, що моделі потребують більше токенів для досягнення аналогічної якості відповіді в деяких сценаріях, а ширина їхніх знань усе ще поступається пропрієтарним системам.

Нові можливості: «мислення під час роботи з інструментами»

Одним із ключових нововведень стала здатність моделі підтримувати безперервну логіку міркування навіть під час багатьох викликів зовнішніх інструментів. Раніше кожен виклик інструментів «обнуляв» reasoning-ланцюг.

Щоб навчити модель працювати з інструментами як з частиною міркування, DeepSeek створила величезний масив синтетичних сценаріїв — понад 85 тисяч задач у 1 800 середовищах. Вони охоплюють складні сценарії: від довгострокового планування до виправлення коду восьма мовами й багатокрокових веб-досліджень.

Відкрита ліцензія: удар по бізнес-моделях ринку

DeepSeek знову робить ставку на відкритість: обидві моделі викладено під MIT-ліцензією на Hugging Face. Це означає, що будь-хто — від дослідника до великої компанії — може:

• завантажити моделі;
• змінювати їх;
• запускати локально або в хмарі;
• використовувати без обмежень у комерційних продуктах.

Цей крок потенційно тисне на API-моделі OpenAI та Anthropic, що будуються на платному доступі до пропрієтарних систем. DeepSeek також спростила міграцію з API OpenAI, надавши скрипти-сумісники.

Попри технічний прорив, розширення DeepSeek у Європі та США стикається з бар’єрами. Регулятори в Німеччині та Італії вже вимагали обмежити доступ до застосунку DeepSeek через ризики передачі даних до Китаю. Американські законодавці закликають заборонити використання DeepSeek на урядових пристроях.

Що означає реліз DeepSeek для майбутнього

Запуск V3.2 підтверджує кілька ключових тенденцій:

⇾ Китайські розробники можуть створювати системи рівня frontier без доступу до сучасних Nvidia-чипів.

⇾ Інновації в ефективності можуть бути важливішими за масштаб навчання.

⇾ Open-source підхід стає реальним конкурентом пропрієтарним моделям.

DeepSeek-V3.2-Speciale буде доступна через API до 15 грудня, після чого її функціональність інтегрують у базову модель.

Нагадаємо, xAI почала розгортання оновленої моделі Grok 4.1 — наступника Grok 4. Водночас xAI випустила дві версії оновлення: Grok 4.1 і Grok 4.1 Thinking. Обидві моделі доступні безплатно, але користувачі з платною підпискою отримують вищі ліміти.

Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!

Приєднатися до company logo
Продовжуючи, ти погоджуєшся з умовами Публічної оферти та Політикою конфіденційності.