ProIT: медіа для профі в IT
2 хв

DeepSeek представила open-source модель, що стискає документи у 10× при збереженні змісту

author avatar ProIT NEWS

DeepSeek оприлюднила DeepSeek-OCR — відкриту модель, яка перевертає уявлення про те, як великі мовні моделі мають обробляти інформацію. Дослідники показали, що візуальне подання тексту може стискати контекст у 7–10 разів ефективніше, ніж традиційні текстові токени, з точністю відновлення ~97% за співвідношення <10×. Це відкриває шлях до контекстних вікон у десятки мільйонів токенів, повідомляє Venture Beat.

Як це працює: «текст як картинка»

DeepSeek-OCR формально позиціонується як OCR, та фактично демонструє візуальну компресію тексту. Архітектура включає:

• DeepEncoder (~380 млн параметрів) — візуальний енкодер, що поєднує SAM (локальне сприйняття) і CLIP (глобальне розуміння) з модулем 16×-стиснення;

• LLM-декодер MoE на 3 млрд параметрів (активно ~570 млн).

На датасеті Fox (різні макети документів) модель досягла 97,3% точності на 100 візуальних токенах для сторінок із 700–800 текстових токенів (~7,5× стискання). За компресії, що наближається до 20×, точність утримувалася близько 60%.

Продуктивність і режими

На одному NVIDIA A100-40G модель обробляє >200 тис. сторінок/день. Кластер із 20 серверів × 8 GPU дає ~33 млн сторінок/день — темп, достатній для швидкої побудови навчальних датасетів.
На OmniDocBench DeepSeek-OCR перевершила GOT-OCR2.0 (256 токенів/сторінку), використовуючи лише 100 токенів, і обійшла MinerU2.0 (>6 000 токенів/сторінку), витрачаючи <800 візуальних токенів.

Підтримуються 5 режимів роздільності: від Tiny (512×512, 64 токени) до Gundam (динамічна мозаїка n×640×640 + глобальний огляд 1024×1024) для складних документів.

Що це означає для контексту LLM

Головний висновок — компактне кодування історії діалогу та документів у візуальні токени дає реалістичний шлях до 10–20 млн токенів вікна контексту. Дослідники навіть пропонують «оптичне згасання пам’яті»: старі раунди розмови поступово даунсемпляться (менше розділення → менше токенів), зберігаючи ключову інформацію.

Тобто те, що колись було «болт-оном» (візуальні токени в мультимодальних LLM), стає базовим носієм контексту.

Проте, класичні токенайзери мають недоліки: Unicode, байтові кодування, безпекові ризики. Візуальний підхід природно зберігає форматування та макет (жирний/колір/таблиці/вбудовані зображення) і спрощує застосування двонапрямної уваги замість автогенеративної.

Навчання моделі

Дані: 30 млн PDF-сторінок ~100 мов (китайська та англійська — ~25 млн), 9 типів документів (наукові статті, фінзвіти, підручники, газети, рукописні нотатки тощо). Плюс «OCR 2.0»: 10 млн синтетичних діаграм, 5 млн хімічних формул, 1 млн геометричних фігур; 20% загально-візуальних даних (капшнінг, детекція), 10% чисто текстових.
Тренування: 160× A100-40G (20 вузлів × 8 GPU), пайплайн-паралелізм; швидкість ~70 млрд токенів/день на мультимодальних даних.

Open source і конкуренція

Код, ваги та інференс викладені на GitHub/Hugging Face (репозиторій набрав >4 тис. зірок за добу). Це підсилює підозру, що закриті лаби вже мають схожі рішення (пояснення великих контекстів у Gemini, тощо), але не розкривають їх.

Для довідки: Gemini 2.5 Pro — до 1 млн токенів (план 2 млн), GPT-5 — ~400 тис., Claude 4.5 — 200 тис. (1 млн у бета для частини організацій).

Відкриті питання

Головний «але»: чи зберігається якісне міркування LLM над стисненими візуальними токенами, так само як над текстовими? Стаття фокусується передусім на точності декодування (OCR), а не на reasoning. Подальші плани: інтерлівінг digital↔optical тексту, «needle-in-a-haystack» та інші тести.

Підхід DeepSeek дає змогу радикально здешевити роботу з довгим контекстом (консалтинг, право, держсектор, медіа) і пришвидшити побудову доменно-специфічних асистентів українськими командами, не маючи гігантських бюджетів на інфраструктуру.

Нагадаємо, DeepSeek представив нову експериментальну модель V3.1-Exp

Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!

Приєднатися до company logo
Продовжуючи, ти погоджуєшся з умовами Публічної оферти та Політикою конфіденційності.