Китайський стартап у сфері штучного інтелекту DeepSeek випустив нову велику мовну модель, яка вже сколихнула галузь. Модель обсягом 641 ГБ під назвою DeepSeek-V3-0324 з’явилася на Hugging Face без жодного офіційного анонсу, повідомляє Venture Beat.
Особливо показовим реліз робить ліцензія MIT, яка дозволяє комерційне використання, і повідомлення, що модель може працювати на різному обладнанні, зокрема на Apple Mac Studio з чипом M3 Ultra.
Архітектура й ефективність: MoE, MLA та MTP
Модель має 685 мільярдів параметрів і використовує архітектуру Mixture-of-Experts (MoE). Це означає, що використовується лише близько 37 млрд параметрів на конкретне завдання, що суттєво знижує обчислювальні витрати.
Також модель оснащено інноваційними технологіями:
• Multi-Head Latent Attention (MLA) — покращує здатність утримувати контекст на довгих ділянках тексту.
• Multi-Token Prediction (MTP) — генерує кілька токенів за крок, прискорюючи вивід майже на 80%.
Альтернатива західним API: відкритий код проти закритих систем
На відміну від OpenAI й Anthropic, які надають доступ до моделей тільки через API за підпискою, DeepSeek зробила модель вільною для завантаження і використання.
DeepSeek дотримується філософії відкритого коду, яка дедалі більше відрізняється від західної моделі платного доступу. Замість просування через API DeepSeek відкриває ваги моделей для всіх, що:
• стимулює розвиток екосистеми,
• знижує вхідний бар’єр для стартапів і дослідників,
• компенсує обмежений доступ до новітніх чипів Nvidia.
Компанії, як-от Baidu, Alibaba, Tencent, також слідують цій моделі. Наприклад, Baidu планує відкрити код Ernie 4.5 до червня.
Підготовка до DeepSeek-R2
Очікується, що V3-0324 стане основою для моделі DeepSeek-R2, яка буде зосереджена на міркуванні та, ймовірно, з’явиться протягом 2 місяців.
Як протестувати DeepSeek-V3-0324
• Повністю навчена модель доступна на Hugging Face (розмір — 641 ГБ).
• Через OpenRouter доступний безкоштовний API та чат-інтерфейс.
• На chat.deepseek.com, імовірно, працює нова версія (офіційно не підтверджено).
• Інтеграцію можна здійснити через Hyperbolic Labs або SDK OpenAI через OpenRouter.
Стиль спілкування: технічна точність замість людяності
Користувачі помітили зміну тону моделі. Якщо попередні версії були людяними, то V3-0324 звучить стримано й формально. Reddit-користувач nother_level зазначив:
«Ця версія вже не звучить по-людськи. Раніше це був її плюс. Тепер звучить як інші LLM, надто роботизовано».
Це, ймовірно, свідомий вибір розробників — орієнтація на професійне й технічне використання, а не дружнє спілкування.
DeepSeek не просто випустила технічно потужну модель — вона пропонує альтернативну візію розповсюдження ШІ. Завдяки відкритості Китай скорочує розрив зі США в галузі AI з 1–2 років до 3–6 місяців.
Читайте також на ProIT: Qwen 2.5: огляд штучного інтелекту від техногіганта Alibaba.
Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!