Китайський стартап DeepSeek став об’єктом уваги на початку 2025 року, коли 20 січня представив свою модель штучного інтелекту DeepSeek R1. Вона, за твердженнями компанії, здатна конкурувати з аналогами від таких гігантів, як OpenAI та Google, але водночас потребує вдесятеро менше ресурсів для навчання.
Засновник стартапу Лян Веньфен заявив, що їхній підхід до розроблення ШІ був викликаний науковою цікавістю і прагненням створити доступні технології.
З моменту появи модель DeepSeek R1 викликала бурхливі обговорення в технологічній спільноті. Це навіть сприйняли як «момент супутника» — по аналогії з історичним запуском першого супутника СРСР, який ознаменував початок космічних перегонів.
Експерти зазначили, що успіх DeepSeek може зруйнувати поточні уявлення про те, що для створення високоякісних моделей ШІ потрібні колосальні інвестиції та ресурси. Наприклад, тільки минулої осені OpenAI залучила $6,6 мільярда інвестицій. А в січні 2025-го стало відомо, що Microsoft планує інвестувати приблизно $80 мільярдів у центри обробки даних, призначених для навчання ШІ-моделей.
На появу DeepSeek R1 швидко відреагували ринки — акції великих західних компаній, таких як NVIDIA та Microsoft, різко впали, що призвело до втрати понад $1 трильйона капіталізації (майже половину цієї суми втратив саме провідний виробник графічних чипів).
Це падіння стало наслідком побоювань інвесторів щодо здатності DeepSeek конкурувати на рівних із провідними гравцями ринку ШІ. Хоча вже через тиждень акції технологічних гігантів знову зросли в ціні, а аналітики з Вол-Стріт назвали китайський феномен штучного інтелекту «великим фейком», DeepSeek уже суттєво вплинув на правила гри у своїй галузі.
Давайте подивимося, як працює DeepSeek R1, чи дійсно її продуктивність дає змогу говорити про конкуренцію з ChatGPT і які ризики несе використання цієї моделі.
Як працює DeepSeek
DeepSeek R1 — це сімейство моделей штучного інтелекту, розроблене на основі машинного навчання з підкріпленням (RL) і призначене для вирішення логічних та аналітичних завдань. DeepSeek R1 має відкритий код та інтерфейс спілкування в чаті, що робить його доступним і зручним у використанні, подібно до інших популярних ШІ-інструментів.
Навчання з підкріпленням, властиве DeepSeek R1, означає, що система навчається у процесі взаємодії з середовищем, отримуючи винагороди за правильні дії та покарання за помилкові, щоб надалі знаходити найкращі стратегії поведінки.
DeepSeek-R1, на відміну від багатьох інших моделей, не потребує попереднього налаштування за допомогою контрольованого навчання (SFT).
Крім того, використання невеликого обсягу високоякісних даних дає можливість прискорити навчання і створювати чіткіші ланцюжки міркувань (CoT), а перехід від більших моделей до дрібніших, але більш ефективних — зберігати високу продуктивність.
Архітектура DeepSeek R1 базується на фреймворку Mixture of Experts (MoE), що дозволяє моделі ефективно використовувати параметри під час обробки запитів.
Замість того, щоб звертатися до всіх 671 мільярда параметрів, DeepSeek R1 використовує лише 37 мільярдів — тих, що найбільш релевантні для конкретного запиту. Такий підхід забезпечує високу продуктивність, швидкість обробки й економію ресурсів.
ChatGPT проти DeepSeek
DeepSeek перш за все позиціюється як конкурент ChatGPT. Технічно ці моделі дійсно засновані на приблизно однаковій архітектурі, проте DeepSeek використовує менші мовні моделі, розроблені для конкретних завдань. Це один із тих факторів, які знижують його потребу в обчислювальних ресурсах і робить доступнішим для розробників.
Для навчання ChatGPT використовує великі набори даних, проте в OpenAI не розкривають подробиць, через що періодично стикаються із критикою. У DeepSeek, навпаки, більш прозорий підхід, адже тут використовують набори даних із відкритим кодом, проте це робить модель менш універсальною.
Що стосується швидкості виконання завдань, то тут неоднозначна ситуація. З одного боку ChatGPT здатний обробляти складні запити в різних доменах, але DeepSeek краще зарекомендував себе в оптимізації конкретних завдань і потребує менше часу для того, щоб надати користувачеві відповідь.
Звернімося до конкретних цифр і порівняймо бенчмарки. Наприклад, у математичних завданнях під час тесту Math-500 DeepSeek R1 показав чудовий результат — 90,2%, тоді як ChatGPT-o1 — 96,4%, а о1-mini — 90%. У тесті для оцінювання навичок програмування у першого учасника 96,3% балів, а у другого — 96,6%.
У відповідях на загальні запитання (тест MMLU) розрив більш помітний: 91,8% у ChatGPT-o1 та 90,8% у DeepSeek R1.
Водночас згідно з іншими звітами, DeepSeek R1 може бути вдвічі швидшим за ChatGPT у виконанні складних завдань, особливо в таких галузях, як кодування і математичні обчислення.
Загалом результати роботи обох мовних моделей будуть різнитися в різних сценаріях застосування. ChatGPT залишається беззаперечним лідером у сфері розмовного ШІ та є дійсно універсальним інструментом, а у DeepSeek краще виходить бути помічником у спеціалізованих завданнях.
Фокус уваги — на безпековий фактор
DeepSeek та інші подібні програми відкривають нові можливості для використання штучного інтелекту, але несуть і певні ризики. Головний із них — це безпека.
Давайте знову звернемося до порівняння. OpenAI впровадила суворі методи захисту даних користувачів, але централізована їх обробка все ж викликає певне занепокоєння: дані можуть бути пошкоджені або потрапити в руки зловмисників у випадку успішної кібератаки.
З DeepSeek трохи інакше. Як проєкт із відкритим кодом він дає можливість розробникам розміщувати моделі у своїй інфраструктурі, що автоматично означає більше контролю над даними. Проте така децентралізація також може наражати користувачів на ризики, якщо про безпеку не подбають вже розробники.
На перший погляд, це не є критичним недоліком на фоні іншим мовних моделей, тож чому Італія, Тайвань та Австралія вже заборонили користуватися цим ШІ-застосунком?
Перш за все увагу привертають умови надання послуг DeepSeek. Там ідеться про те, що дані користувачів зберігаються на серверах у Китаї й підпадають під уплив китайського законодавства. Воно вимагає, щоб локальні компанії співпрацювали зі спецслужбами країни.
Нагадаємо, що китайський уряд уже кілька років звинувачують в участі у шпигунських кампаніях. Найчастіше — задля крадіжки інтелектуальної власності західних компаній або збору розвідувальних даних.
Експерти з компаній Netskope та Lasso Security зауважують, що ризики DeepSeek такі самі, як і ризики використання інших популярних мовних моделей. Проте у китайської розробки спостерігається підозріліша поведінка, що може становити загрозу для державних організацій, а кібератаки на неї успішні в 100% випадків, що нещодавно підтвердили в Cisco.
Що радить Нікіта Веселков, керівник SOC-команди ESET в Україні:
«Модель штучного інтелекту DeepSeek викликала інтерес у користувачів усього світу. Однак до будь-яких інновацій у галузі штучного інтелекту потрібно ставитися з обережністю, щоб не довелося за нові можливості платити своєю конфіденційністю.
Відповідно до політики конфіденційності DeepSeek, дані програми зберігаються на серверах у Китаї, зокрема історія чату, включно з текстом, аудіо, підказками та будь-якими завантаженими файлами. Тому важливо не завантажувати та не обробляти за допомогою DeepSeek конфіденційну інформацію — як особисту, так і корпоративну. Ця порада актуальна і для інших подібних платформ, зокрема ChatGPT від Open AI.
Модель DeepSeek поєднує доступність і розширений функціонал, тож ще однією небезпекою є використання застосунку для маніпуляцій. Зокрема зловмисники можуть використовувати його як інструмент для покращення шкідливого коду і створення підробленого контенту із застосуванням діпфейк-технологій. Такий вміст потім можна використовувати для маніпулювання громадською думкою, як і у випадку з соціальними мережами, які у руках зловмисників можуть стати інструментом для досягнення руйнівних цілей».
Не тільки DeepSeek: інші китайські ШІ-проєкти набирають популярність
Успіх стартапу DeepSeek уособлює амбіції Китаю у сфері штучного інтелекту. Але DeepSeek — не єдиний проєкт, вартий уваги світових технологічних лідерів, які остерігаються серйозної конкуренції.
Першими на думку спадають Alibaba, Baidu та ByteDance, які вже залучили великі інвестиції на розвиток штучного інтелекту. Крім них, є ще принаймні шість AI-компаній, які цікаві своїми здобутками саме в ШІ-напрямку.
Групу цих компаній називають Six Tigers, до неї входять Stepfun, Zhipu, Minimax, Moonshot, 01.AI та Baichuan. Попри те, що створені вони відносно недавно, їм є чим зацікавити інвесторів і користувачів.
Наприклад, Stepfun концентрує зусилля на створенні штучного інтелекту загального призначення (AGI) — і це доволі вузька ніша саме для китайського сегмента ШІ. ЇЇ найбільша мовна модель Step-2 має понад 1 трильйон параметрів, водночас як у GPT-4 їх усього 1,8 мільйона.
ModelBest займається створенням малих мовних моделей. Засновані на ній рішення можуть працювати на таких пристроях, як смартфони, «розумні годинники», автомобільні системи та компоненти «розумного будинку».
Вважається, що її модель MiniCPM 3.0 така ж потужна, як і GPT-3.5. Zhipu AI цікава тим, що створює розмовну модель на кшталт Sora від OpenAI. А Moonshot AI створила Kimi — популярний у Китаї чат-бот із 13 мільйонами користувачів.
Поява таких гравців, як DeepSeek, сигналізує про зміну правил гри у сфері ШІ-розробок. Є висока ймовірність того, що бізнес більше не буде розглядати дорогі централізовані сервіси й більше уваги приділятиме недорогим альтернативним рішенням.
З одного боку, це може змусити гігантів на кшталт OpenAI шукати способи знизити вартість обчислень, з іншого — створює передумови для залежності від китайських технологій, чого західний світ намагається уникнути.
Нагадаємо, нещодавно Roblox, Discord, OpenAI та Google об’єдналися задля створення нової неприбуткової організації, яка допомагатиме покращити безпеку дітей у мережі.
Ініціатива Robust Open Online Safety Tools (ROOST) спрямована на розширення доступу до базових технологій безпеки, а також надання компаніям безкоштовних відкритих інструментів ШІ, що допоможуть виявляти, перевіряти та повідомляти про матеріали сексуального насильства над дітьми (CSAM).
Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!