Китайський стартап DeepSeek випустив LLM, що не поступається o1 від OpenAI й коштує на 90% дешевше

Китайський стартап DeepSeek, який нещодавно продемонстрував велику мовну модель DeepSeek V3, представив нову версію ШІ — DeepSeek-R1. Розробники стверджують, що вона не поступається «вдумливій» моделі o1 від OpenAI за продуктивністю та ціновою доступністю. Про це повідомляє VentureBeat.

DeepSeek-R1, як і o1, тренувалася за методом навчання з підкріпленням (RL). Але в DeepSeek говорять, що крім цього застосували контрольоване тонке налаштування, щоб впоратися зі складними завданнями на міркування і відповідати продуктивності o1.

Щоб продемонструвати переваги свого підходу, DeepSeek використовував R1 для дистиляції шести моделей Llama і Qwen, піднявши їхню продуктивність на новий рівень. В одному випадку дистильована версія Qwen-1.5B перевершила набагато більші моделі, GPT-4o і Claude 3.5 Sonnet, в окремих математичних тестах.

Ці моделі, як і основна R1, були розроблені з відкритим вихідним кодом і доступні на Hugging Face за ліцензією Массачусетського технологічного інституту.

Під час тестування DeepSeek-R1 набрала 79,8% на математичних тестах AIME 2024 і 97,3% на тесті MATH-500. Вона також отримала 2029 балів на Codeforces, перевершивши 96,3% програмістів-людей. У цих тестах версія o1-1217 набрала 79,2%, 96,4% та 96,6% відповідно. В тесті на загальні знання на MMLU R1 трохи поступилася з точністю 90,8% проти 91,8% в o1.

Ефективність DeepSeek-R1 називають великим досягненням китайського стартапу у сфері ШІ, де наразі переважно домінують компанії з США. Крім того, DeepSeek працює за моделлю open source і відкриває доступ навіть до навчальних матеріалів.

Ще однією перевагою DeepSeek для користувачів є її цінова політика. OpenAI надає доступ до o1 за ціною $15 за мільйон вхідних токенів і $60 за мільйон вихідних токенів. Натомість DeepSeek Reasoner, заснований на моделі R1, коштує $0,55 за мільйон вхідних токенів і $2,19 за мільйон вихідних токенів.

Наразі модель можна протестувати на платформі чату DeepSeek, яка нагадує ChatGPT. Користувачі також можуть отримати доступ до вагових коефіцієнтів моделі та репозиторію коду через Hugging Face за ліцензією MIT або скористатися API для прямої інтеграції.

Нагадаємо, що з внутрішнім порівняльним тестуванням DeepSeek модель DeepSeek V3, на якій базується R1, перевершує як завантажувані, відкрито доступні моделі, так і закриті моделі ШІ, доступ до яких можна отримати лише через API. У низці змагань із програмування на платформі Codeforces DeepSeek випереджає інші моделі, зокрема Llama 3.1 405B від Meta, GPT-4o від OpenAI та Qwen 2.5 72B від Alibaba.

Раніше ми повідомляли, що китайська компанія Alibaba запускає понад 100 нових відкритих ШІ-моделей.

Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!