DeepSeek представив нову експериментальну модель V3.1-Exp

Китайський стартап DeepSeek анонсував експериментальну модель V3.1-Exp, яку позиціонує як «проміжний етап на шляху до архітектури наступного покоління». Про це повідомляє Bloomberg.

Новий механізм Sparse Attention

Модель створена на основі попередньої версії V3.1 та отримала механізм DeepSeek Sparse Attention (DSA). За словами розробників, ця технологія дає змогу оптимізувати процеси навчання і підвищує ефективність роботи з довгими текстовими послідовностями.

Підтримка форматів FP8 і BF16

Нова версія моделей уже працює з форматом FP8 (Floating Point 8). Це рішення зменшує споживання пам’яті й пришвидшує обчислення, хоч і поступається у точності.

У найближчих оновленнях очікується підтримка BF16 (Brain Floating Point 16). Цей формат забезпечує кращу точність і більше підходить для навчання великих систем штучного інтелекту.

Завдяки такій комбінації числових форматів запуск складних моделей стає можливим навіть на обладнанні з обмеженими ресурсами.

Зниження вартості інструментів

Паралельно з презентацією нової моделі DeepSeek повідомив про зниження вартості своїх програмних інструментів удвічі. Такий крок відповідає тенденції серед китайських компаній, які прагнуть залучити більше користувачів завдяки агресивній ціновій політиці.

Раніше ми повідомляли, що DeepSeek запровадила обов’язкове маркування ШІ-контенту в Китаї.

Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!