Microsoft Research анонсувала реліз Phi-4-reasoning-plus — відкритої мовної моделі з вагами, спеціально розробленої для задач, що потребують глибокого й структурованого міркування. Про це повідомляє Venture Beat.
Модель побудована на архітектурі Phi-4 і поєднує в собі супервізоване донавчання та навчання з підкріпленням, що дало змогу досягти покращених результатів у бенчмарках із математики, природничих наук, програмування та задач на логіку.
Phi-4-reasoning-plus — це щільна трансформер-модель лише з декодером, яка налічує 14 мільярдів параметрів і зосереджена на якості, а не масштабі. Для її навчання використано 16 мільярдів токенів, із яких приблизно 8,3 мільярда унікальні, відібрані зі штучно згенерованих і вручну підібраних вебданих.
Фаза навчання з підкріпленням (reinforcement learning, RL), що базувалася лише на 6400 задачах із математики, додатково підвищила здатність моделі до міркування.
Модель поширюють за дозвільною ліцензією MIT, що дає можливість комерційного використання, кастомізації й дистиляції без обмежень. Вона сумісна з інфраструктурою Hugging Face Transformers, vLLM, llama.cpp та Ollama.
Перевершує більші моделі
Модель є частиною стратегії Microsoft із навчання невеликих моделей, які за якістю наближаються або перевершують значно масштабніші системи.
Попри скромний розмір, Phi-4-reasoning-plus демонструє кращі результати, ніж, наприклад, DeepSeek-R1-Distill-70B, у низці складних бенчмарків. Зокрема, на іспиті AIME 2025 із математики вона забезпечує вищу точність під час проходження всіх 30 запитань із першої спроби (метрика pass@1), аніж модель на 70 мільярдів параметрів, і наближається до результатів самої DeepSeek-R1, яка має 671 мільярд параметрів.
Структуроване мислення завдяки донавчанню
У супервізованій фазі донавчання модель тренувалася на ретельно підібраній суміші штучних chain-of-thought трас і високоякісних запитів. Основна інновація — використання маркерів <think> і </think> для позначення проміжних міркувань, що відокремлюють їх від фінальної відповіді. Це підвищує прозорість і послідовність під час вирішення складних задач.
RL для точності й глибини
Після донавчання Microsoft застосувала навчання з підкріпленням за алгоритмом Group Relative Policy Optimization (GRPO). Нагорода у RL була спрямована на баланс між точністю й лаконічністю, а також уникнення повторів і дотримання форматування. Це дало змогу моделі видавати довші, але продуманіші відповіді, особливо на задачі, у яких вона не була впевнена.
Оптимізована для обмежень продуктивності
Phi-4-reasoning-plus ідеально підходить для застосувань, де важлива якість міркування за обмежень памʼяті або затримки. За замовчуванням підтримується контекст довжиною 32 тисячі токенів, а під час тестування — до 64 тисяч.
Найкращих результатів модель досягає в чатоподібному режимі зі спеціальним system prompt, що вказує їй розвʼязувати задачі поетапно.
Безпека й етичні рекомендації
Microsoft позиціює модель як дослідницький інструмент або компонент для генеративних систем, а не як універсальне рішення. Розробникам радять ретельно тестувати її на відповідність вимогам до безпеки, продуктивності й етики, перш ніж упроваджувати у критичних середовищах.
Модель пройшла перевірку на безпеку, включно з тестуванням від команди AI Red Team Microsoft і бенчмарками з використанням інструментів на кшталт Toxigen.
Цей реліз доводить, що завдяки ретельно підібраним даним і стратегії навчання малі моделі можуть демонструвати вражаючу логіку, залишаючись відкритими й доступними.
Читайте також на ProIT, що ШІ вже пише до 30% коду в Microsoft.
Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!