OpenAI розпочала тестування тензорних процесорів (TPU) від Google. Хоча зараз компанія не планує масштабного впровадження цієї технології, сам факт тестування привернув увагу аналітиків, стурбованих стрімким зростанням витрат на інференс у сфері штучного інтелекту. Про це йдеться в матеріалі NetworkWorld.
Речник OpenAI повідомив Reuters, що лабораторія лише на початковому етапі тестування TPU, і на даний момент не має планів розгортати їх у продакшн-режимі.
Ці тести відбуваються на тлі активного масштабування моделей OpenAI і постійного зростання обчислювальних витрат. Особливо з огляду на високий попит, обмежену доступність і вартість GPU від NVIDIA.
Альтернатива NVIDIA
Аналітики відзначають, що основна проблема — стрімке зростання витрат саме на інференс (а не на тренування), що стимулює інтерес до альтернативних рішень на ринку чипів ШІ.
«Перехід до інференс-навантажень, де домінує вартість одного запиту, пришвидшує масове впровадження альтернативних чипів», — зазначив Чарлі Дай, віцепрезидент і головний аналітик Forrester.
За його словами, тестування TPU вказує на бажання постачальників LLM-інфраструктури, зокрема OpenAI, зменшити інференс-витрати та підвищити ефективність.
Barclays прогнозує, що вже у 2026 році капітальні витрати на чипи лише для споживчого інференсу сягнуть $120 млрд, а у 2028 — понад $1,1 трлн. Це підштовхує компанії до переходу з GPU на спеціалізовані чипи, як-от ASIC.
Переваги TPU
Інференс наразі споживає понад 50% обчислювального бюджету OpenAI. TPU, особливо попередніх поколінь, забезпечують значно нижчу вартість на один запит порівняно з NVIDIA GPU. Вони поступаються за піковою продуктивністю, але мають більш оптимізовану архітектуру, що знижує енергоспоживання та втрати ресурсів.
Аналітик Omdia Александер Гарроуелл підтримує цю думку:
«Багато інженерів кажуть, що співвідношення FLOPS (операцій з плаваючою точкою) до теоретичної потужності на TPU — краще, ніж у будь-яких інших рішень».
Гарроуелл додає, що навіть за швидкого розвитку ШІ-чипів, на ринку досі продаються A100, A10, T4 та TPU v2 — чипи, старші за саму архітектуру Transformer.
Google TPU: покоління та модифікації
Google Cloud пропонує п’ять поколінь TPU: v2, v3, v4, v5 (v5p для продуктивності та v5e для енергоефективності) і новітні v6e (Trillium). Також була внутрішня версія v4i, доступна лише для власних потреб Google.
У квітні Google представила Ironwood — наступне покоління TPU, яке, за оцінками аналітиків, перевершує Trillium за співвідношенням ціна/продуктивність та конкурує з чипами NVIDIA, AMD, AWS і Microsoft. Однак обсяги Ironwood наразі обмежені.
Використання TPU дозволить OpenAI диверсифікувати постачальників, уникати дефіциту GPU та зміцнити позиції у перемовинах.
Зараз серед постачальників OpenAI — Microsoft, Oracle і CoreWeave. Крім того, компанія може скористатися кастомними чипами, такими як Tranium від AWS або Maia від Microsoft — обидва орієнтовані на інференс і ШІ-прискорення.
Раніше ми повідомляли, що DeepSeek Ltd. змушена відкласти запуск своєї нової моделі R2 для логічного міркування через нестачу графічних процесорів NVIDIA.
Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!