DeepSeek оновила мовну модель: що нового у V3-0324?

Китайський стартап у сфері штучного інтелекту DeepSeek випустив нову велику мовну модель, яка вже сколихнула галузь. Модель обсягом 641 ГБ під назвою DeepSeek-V3-0324 з’явилася на Hugging Face без жодного офіційного анонсу, повідомляє Venture Beat.

Особливо показовим реліз робить ліцензія MIT, яка дозволяє комерційне використання, і повідомлення, що модель може працювати на різному обладнанні, зокрема на Apple Mac Studio з чипом M3 Ultra.

Архітектура й ефективність: MoE, MLA та MTP

Модель має 685 мільярдів параметрів і використовує архітектуру Mixture-of-Experts (MoE). Це означає, що використовується лише близько 37 млрд параметрів на конкретне завдання, що суттєво знижує обчислювальні витрати.

Також модель оснащено інноваційними технологіями:

• Multi-Head Latent Attention (MLA) — покращує здатність утримувати контекст на довгих ділянках тексту.
• Multi-Token Prediction (MTP) — генерує кілька токенів за крок, прискорюючи вивід майже на 80%.

Альтернатива західним API: відкритий код проти закритих систем

На відміну від OpenAI й Anthropic, які надають доступ до моделей тільки через API за підпискою, DeepSeek зробила модель вільною для завантаження і використання.

DeepSeek дотримується філософії відкритого коду, яка дедалі більше відрізняється від західної моделі платного доступу. Замість просування через API DeepSeek відкриває ваги моделей для всіх, що:

• стимулює розвиток екосистеми,
• знижує вхідний бар’єр для стартапів і дослідників,
• компенсує обмежений доступ до новітніх чипів Nvidia.

Компанії, як-от Baidu, Alibaba, Tencent, також слідують цій моделі. Наприклад, Baidu планує відкрити код Ernie 4.5 до червня.

Підготовка до DeepSeek-R2

Очікується, що V3-0324 стане основою для моделі DeepSeek-R2, яка буде зосереджена на міркуванні та, ймовірно, з’явиться протягом 2 місяців.

Як протестувати DeepSeek-V3-0324

• Повністю навчена модель доступна на Hugging Face (розмір — 641 ГБ).

• Через OpenRouter доступний безкоштовний API та чат-інтерфейс.

• На chat.deepseek.com, імовірно, працює нова версія (офіційно не підтверджено).

• Інтеграцію можна здійснити через Hyperbolic Labs або SDK OpenAI через OpenRouter.

Стиль спілкування: технічна точність замість людяності

Користувачі помітили зміну тону моделі. Якщо попередні версії були людяними, то V3-0324 звучить стримано й формально. Reddit-користувач nother_level зазначив:

«Ця версія вже не звучить по-людськи. Раніше це був її плюс. Тепер звучить як інші LLM, надто роботизовано».

Це, ймовірно, свідомий вибір розробників — орієнтація на професійне й технічне використання, а не дружнє спілкування.

DeepSeek не просто випустила технічно потужну модель — вона пропонує альтернативну візію розповсюдження ШІ. Завдяки відкритості Китай скорочує розрив зі США в галузі AI з 1–2 років до 3–6 місяців.

Читайте також на ProIT: Qwen 2.5: огляд штучного інтелекту від техногіганта Alibaba.

Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!