Минув лише місяць відтоді, як китайський стартап DeepSeek (підрозділ High-Flyer Capital з Гонконгу) випустив свою нову відкриту LLM-модель DeepSeek R1-0528. Завдяки Apache 2.0 ліцензії ця модель вже встигла отримати численні адаптації та форки. Однією з найцікавіших є R1T2 Chimera — результат роботи німецької TNG Technology Consulting GmbH. Про це йдеться в матеріалі Venture Beat.
Цей варіант — удосконалення попередньої моделі Chimera, створене за методом Assembly-of-Experts (AoE). R1T2 зберігає до 90% точності R1-0528, водночас скорочуючи обсяг вихідних токенів на понад 60%, що дозволяє зменшити витрати на інференс і пришвидшити відповіді вдвічі.
Модель не проходила додаткове донавчання. Вона поєднує логічну силу R1-0528, структурність R1 і лаконічну поведінку V3-0324. У конфігурації "Tri-Mind" R1T2 використовує ваги з трьох батьківських моделей: DeepSeek-R1-0528, DeepSeek-R1 та DeepSeek-V3-0324.
Assembly-of-Experts проти Mixture-of-Experts
Якщо MoE (Mixture-of-Experts) — це архітектурний підхід, коли лише частина "експертних" шарів активується під час інференсу, то AoE — це техніка злиття ваг з різних моделей. У випадку TNG AoE використовується для об’єднання маршрутних експертних тензорів із моделей MoE, зберігаючи більш ефективні шари з моделей на кшталт V3-0324.
Результати тестування
За результатами бенчмарків (AIME-24, AIME-25, GPQA-Diamond), R1T2 показує 90–92% розумової продуктивності R1-0528, водночас використовуючи лише 40% токенів. Це означає зменшення часу відповіді та навантаження на обчислювальні ресурси на 200%.
У порівнянні з DeepSeek-R1, R1T2 є на 20% лаконічнішим. Така ефективність ідеально підходить для використання в бізнес-сценаріях, де важливі інференс, продуктивність і контроль витрат.
Відкрита ліцензія та готовність до впровадження
Модель доступна під MIT-ліцензією на Hugging Face: huggingface.co/tngtech/DeepSeek-TNG-R1T2-Chimera. TNG зазначає, що R1T2 ще не підходить для викликів функцій або використання інструментів, але ці функції можуть з’явитися в наступних версіях.
Підприємствам в ЄС варто враховувати вимоги AI Act, який набирає чинності з 2 серпня 2025 року. Користувачам у США ці обмеження не стосуються.
Контекст: хто така TNG?
TNG Technology Consulting GmbH — консалтингова компанія з Мюнхена, заснована у 2001 році. Вона об’єднує понад 900 фахівців, включаючи велику кількість PhD. Основні напрями роботи — розробка ПЗ, штучний інтелект, DevOps і хмарні сервіси. Компанія активно бере участь у відкритих дослідженнях і розвитку open-source, зокрема через публікації на arXiv і випуск моделей серії Chimera.
Висновок для технічних керівників
• Зниження витрат: менше токенів — менше часу на GPU, нижчі рахунки.
• Висока точність без перевантаження: зберігає інтелектуальність без зайвих слів.
• Відкритість: MIT-ліцензія забезпечує контроль над розгортанням і кастомізацією.
• Модульність: AoE відкриває можливості для створення нових моделей без повного перенавчання.
Раніше ми повідомляли, що DeepSeek Ltd. змушена відкласти запуск своєї нової моделі R2 для логічного міркування через нестачу графічних процесорів NVIDIA.
Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!