ProIT: медіа для профі в IT
2 хв

Google розробила нову архітектуру Titans для зниження витрат ШІ

author avatar ProIT NEWS

Дослідники компанії Google розробили нову архітектуру нейронної мережі для великих мовних моделей (LLM). Вона має потенціал вирішити одну з найбільших проблем у сфері ШІ — збільшення пам’яті під час інференсу без експоненційного зростання витрат на обчислення та пам’ять.

Нова архітектура, яку назвали Titans, дає можливість моделям знаходити та зберігати під час інференсу невеликі фрагменти важливої інформації у довгих послідовностях. Про це повідомляє Venture Beat.

Особливості архітектури Titans

Комбінування блоків уваги та «нейронної пам’яті»


Titans об’єднує традиційні блоки уваги, характерні для трансформерів, зі спеціальними шарами «нейронної пам’яті», які дають змогу ефективно опрацьовувати як короткострокову, так і довгострокову пам’ять.

«Ми стверджуємо, що ефективна парадигма навчання, подібна до роботи людського мозку, містить окремі, але взаємопов’язані модулі, кожен із яких відповідає за основний компонент процесу навчання», — пишуть дослідники.

Neural long-term memory

Нова система містить модуль «нейронної довгострокової пам’яті», який навчається запам’ятовувати нові факти під час інференсу, не використовуючи повну схему уваги, що суттєво зменшує витрати на пам’ять та обчислення.

Для вибору інформації, що зберігається, використовується концепція «сюрпризу»: чим більше послідовність токенів відрізняється від того, що вже збережено, тим більше вона заслуговує бути запам’ятованою.

Також модуль оснащено адаптивним механізмом забування. Це дає змогу видаляти невикористовувану інформацію й ефективно управляти обмеженою пам’яттю.

Модульна архітектура Titans


Titans містить такі основні компоненти:

  1. Core module: відповідає за короткострокову пам’ять із застосуванням класичного механізму уваги, обробляючи поточний контекст.
  2. Long-term memory module: використовує нейронну пам’ять для зберігання інформації поза поточним контекстом.
  3. Persistent memory module. Ці навчальні параметри залишаються незмінними після навчання і зберігають часово-незалежне знання.

Результати тестування

Дослідники провели випробування моделей Titans із розмірами від 170 мільйонів до 760 мільйонів параметрів на різних завданнях, включно із моделюванням мови та завданням обробки довгих послідовностей.

Titans перевершив як класичні трансформери, так і лінійні моделі (наприклад, Mamba) у завданнях, які передбачають пошук «голки в копиці сіна» і довготривале міркування. Зокрема, Titans показав кращі результати порівняно із GPT-4 та модифікованою Llama-3 з retrieval-augmented generation, а його контекстне вікно було розширено до 2 мільйонів токенів при помірних витратах пам’яті.

Що це означає для підприємств?


Застосування технік, які продовжують розширювати контекстні вікна LLM, відкриває нові можливості для створення застосунків, де можна інтегрувати нові знання через запити замість використання складних retrieval-augmented generation (RAG) систем.

Архітектура Titans сприятиме зниженню вартості інференсу для завдань з обробки дуже довгих послідовностей, що дасть можливість компаніям розгортати LLM-рішення в більшій кількості застосувань. Google теж планує випустити код для тренування й оцінювання моделей Titans на PyTorch і JAX.

Читайте також на ProIT: Google анонсує експериментальну модель штучного інтелекту Gemini, яка вміє думати.

Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!

Приєднатися до company logo
Продовжуючи, ти погоджуєшся з умовами Публічної оферти та Політикою конфіденційності.