Moonshot AI презентувала відкриту модель Kimi K2, яка випереджає GPT-4 в основних тестах

Китайський стартап Moonshot AI, відомий завдяки популярному чатботу Kimi, презентував мовну модель із відкритим кодом, яка напряму конкурує з пропрієтарними системами від OpenAI та Anthropic. Особливо високі результати Kimi K2 продемонструвала у завданнях програмування й автономних агентів. Про це повідомляє Venture Beat.

Модель побудована за архітектурою mixture-of-experts і містить 1 трильйон параметрів, із яких активується 32 мільярди.

Компанія випустила дві версії: базову (foundation) — для дослідників і розробників та інструкційно-налаштовану (instruct) — для чатів та автономних агентів.

«Kimi K2 не просто відповідає — вона діє. Із Kimi K2 просунуті агентні можливості стали відкритими та доступними як ніколи. Чекаємо на ваші рішення», — йдеться в офіційному блозі Moonshot.

Оптимізація для агентних завдань

Головна перевага моделі — оптимізація під агентні можливості: здатність самостійно використовувати інструменти, писати та виконувати код, а також виконувати багатокрокові завдання без участі людини.

У тесті SWE-bench Verified (інженерія ПЗ) Kimi K2 досягла 65,8% точності, перевершивши більшість відкритих моделей і зрівнявшись із деякими закритими.

У LiveCodeBench — реалістичному бенчмарку для кодування — Kimi K2 показала 53,7%, обійшовши DeepSeek-V3 (46,9%) і GPT-4.1 (44,7%). У MATH-500 модель отримала 97,4%, тоді як GPT-4.1 — 92,4%.

Важливо не лише те, що Kimi K2 демонструє конкурентні результати — Moonshot досягає їх за значно менших витрат. Для бізнес-користувачів це означає, що Kimi K2 не просто вражає в демонстраціях, а виконує складні робочі процеси автономно. Саме на це чекали підприємства.

MuonClip: технічний прорив у тренуванні LLM

У технічній документації Moonshot описано оптимізатор MuonClip, який забезпечив стабільне навчання трильйонної моделі без жодних збоїв. Це не просто інженерне досягнення — можливий злам парадигми: MuonClip вирішує проблему нестабільності навчання в LLM через перенормування ваг у проєкціях query/key, тобто на рівні джерела, а не через постфактум-фікси.

Якщо MuonClip масштабований, це радикально знижує вартість тренування великих моделей. У світі, де кожна оптимізація означає зекономлені мільйони, це серйозна перевага.

Moonshot поєднує відкритий код із низькими цінами на API: $0,15 за 1 мільйон токенів на вхід (при cache hit) і $2,50 за 1 мільйон токенів на вихід. Це суттєво нижче за OpenAI та Anthropic.

Компанія пропонує доступ через API для швидкого старту, а також можливість самостійного розгортання для тих, хто хоче зменшити витрати або відповідати вимогам комплаєнсу.

«Open source — це не благодійність, це стратегія залучення», — зазначили в Moonshot.

Moonshot показала приклади, які демонструють реальне виконання робочих процесів. Наприклад, у кейсі аналізу зарплат Kimi K2 самостійно виконала 16 операцій Python і побудувала інтерактивну візуалізацію. У сценарії планування концерту в Лондоні — 17 інструментів і платформ: пошук, пошта, календар, бронювання тощо.

Kimi K2 — перша модель із відкритим кодом, яка реально конкурує з GPT-4 у широкому спектрі завдань: від програмування до використання інструментів і водночас є безкоштовною.

Читайте також на ProIT: Користувачі отримали контроль над історіями чатів із ChatGPT.

Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!