DeepSeek-R1-0528: китайська відповідь на OpenAI o3 і Google Gemini у форматі open source

Китайський стартап DeepSeek представив нову версію своєї моделі відкритого ШІ — DeepSeek-R1-0528. Це оновлення значно підвищує здатність моделі до логічних міркувань і наближає її до рівня закритих моделей, таких як OpenAI o3 і Google Gemini 2.5 Pro. Про це йдеться в матеріалі Venture Beat.

DeepSeek є відгалуженням гонконзької компанії High-Flyer Capital Management. Перша версія моделі R1 вийшла 20 січня 2025 року й одразу привернула увагу AI-спільноти.

Оновлення R1-0528 орієнтоване на складні задачі в математиці, науці, бізнесі та програмуванні. Модель доступна за відкритою ліцензією MIT і робить можливим комерційне використання.

Відкриті параметри моделі розміщені на платформі Hugging Face. Детальну документацію для локального розгортання або інтеграції через API також опубліковано. Наявні користувачі API отримають оновлення без додаткової оплати.
Ціни на API: $0,14 за 1 мільйон вхідних токенів у стандартний час (із 20:30 до 12:30) та $0,035 у пільгові години. Вивід 1 мільйона токенів коштує $2,19.

Поліпшення продуктивності

Згідно з описом на Hugging Face, модель отримала суттєві покращення в логічному мисленні завдяки масштабнішим обчислювальним ресурсам та оптимізації після навчання.

• На тесті AIME 2025 точність зросла із 70% до 87,5% (середній обсяг reasoning — 23 тисячі токенів проти 12 тисяч раніше).

• У тесті LiveCodeBench — із 63,5% до 73,3%.

• На Humanity’s Last Exam — із 8,5% до 17,7%.

DeepSeek-R1-0528 отримала:

• підтримку JSON-формату та функціональних викликів для гнучкішої інтеграції із застосунками;

• покращену взаємодію з користувачем і зменшення рівня галюцинацій;

• підтримку system prompts без потреби у спеціальному токені для активації режиму thinking.

Представлено компактну версію DeepSeek-R1-0528-Qwen3-8B, оптимізовану для запуску на менш потужному залізі. За оцінками, вона перевищує Qwen3-8B на 10% у завданнях AIME 2024 і наближається до продуктивності Qwen3-235B-thinking.

• Для запуску 8B LLM у FP16 потрібна GPU з 16 ГБ VRAM (наприклад, RTX 3090 або 4090).

• Для квантованих моделей підходять GPU з 8–12 ГБ VRAM (наприклад, RTX 3060).

Оновлення DeepSeek-R1-0528 демонструє прагнення компанії створювати високопродуктивні, відкриті та практичні AI-моделі, які можна адаптувати для досліджень, розроблення та комерційного використання.

Нагадаємо, Microsoft заборонила своїм співробітникам використовувати китайський застосунок зі штучним інтелектом DeepSeek.

Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!