ProIT: медіа для профі в IT
Приблизно хвилину

Новий підхід DeepSeek до навчання мовних моделей може змінити баланс на ШІ-ринку

author avatar ProIT NEWS

Компанія DeepSeek запропонувала новий підхід до навчання великих мовних моделей, який потенційно може змінити баланс сил на ШІ-ринку. Дослідники опублікували наукову статтю, у якій описали метод Manifold-Constrained Hyper-Connections (mHC) — архітектурне рішення, яке дає можливість створювати потужні LLM із суттєво меншими обчислювальними витратами, ніж вважалося необхідним раніше.

DeepSeek привернула увагу індустрії ще рік тому після виходу моделі R1, яка стала конкурентом o1 від OpenAI, але потребувала значно менших ресурсів для навчання. Тоді це стало несподіванкою для західних розробників, адже компанія продемонструвала, що високий рівень ШІ можливий без мільярдних бюджетів і величезних дата-центрів.

Нова публікація про mHC може стати технологічною основою для наступної моделі DeepSeek — R2, реліз якої відклали через обмежений доступ Китаю до передових ШІ-чипів і сумніви керівництва щодо продуктивності.

Дослідження опублікували на сервері препринтів arXiv — платформі, де науковці діляться результатами робіт до проходження рецензування. Як зазначає ZDNET, стаття спрямована на розв’язання однієї з основних технічних проблем масштабування LLM.

Великі мовні моделі побудовані на глибоких нейронних мережах, де сигнал передається через численні шари. Зі зростанням їх кількості інформація поступово слабшає або спотворюється, що підвищує ризик перетворення корисного сигналу на шум. У DeepSeek описують це як потребу краще балансувати між пластичністю і стабільністю мережі.

У своїй роботі дослідники спираються на ідею гіперзв’язків, запропоновану торік командою ByteDance. Така архітектура розширює канали обміну інформацією між шарами нейромережі, але створює проблеми з пам’яттю і збереженням початкового сигналу.

Підхід mHC обмежує гіперзв’язки, зберігаючи їхню інформаційну складність, але зменшуючи вимоги до ресурсів. У результаті моделі можуть залишатися глибокими й ефективними, не потребуючи надмірних обсягів пам’яті.

Значення цієї роботи виходить за межі однієї компанії. Як і у випадку з R1, новий метод навчання ставить під сумнів усталену логіку ШІ-перегонів, де домінували найбільші гравці з доступом до колосальних ресурсів.

Публікація mHC у відкритому доступі відкриває можливість його використання меншими командами. Якщо метод справді ляже в основу майбутньої R2, це може задати новий напрям розвитку індустрії із фокусом не на масштабі, а на інженерній ефективності.

Раніше ми повідомляли, що Meta працює над новою моделлю штучного інтелекту під кодовою назвою Avocado.

Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!

Приєднатися до company logo
Продовжуючи, ти погоджуєшся з умовами Публічної оферти та Політикою конфіденційності.