Google Cloud оновила свою хмарну AI-інфраструктуру Hypercomputer, представивши Ironwood TPU — нове покоління тензорного процесора, створеного для роботи з найпотужнішими моделями штучного інтелекту.
Як повідомляє Silicon Angle, анонс відбувся на конференції Google Cloud Next 2025, де компанія також представила десятки інших апаратних і програмних покращень для прискорення навчання AI-моделей і спрощення їх розгортання.
Що таке AI Hypercomputer
AI Hypercomputer — це хмарна суперкомп’ютерна платформа Google для запуску найвибагливіших AI-навантажень. Вона використовується для роботи моделей Gemini, генеративних інструментів пошуку та інших сервісів компанії.
Платформа тісно інтегрована з ШІ-прискорювачами Google — TPU (Tensor Processing Unit), аналогами GPU, створеними спеціально для штучного інтелекту.
Ironwood: сьоме покоління TPU
Ironwood TPU — найпотужніший тензорний процесор Google, створений для оброблення моделей нового типу, зокрема так званих ШІ-агентів, які можуть самостійно шукати, генерувати дані й діяти від імені користувача.
За словами Аміна Вахдата, віцепрезидента з машинного навчання, систем і хмарного ШІ, Ironwood — це TPU-система нового рівня, оптимізована для розподіленої роботи з модулями mixture-of-experts і складними багатокроковими завданнями.
Характеристики Ironwood
• 9216 чипів в одному мегакластері з рідинним охолодженням.
• 42,5 екзафлопс загальної продуктивності (у 24 рази більше, ніж у суперкомп’ютера El Capitan).
• Пікова продуктивність одного чипа — 4614 терафлопс.
• 192 ГБ HBM-пам’яті на чип — у 6 разів більше, ніж у Trillium.
• Пропускна здатність пам’яті — 7,2 ТБ/с на чип (у 4,5 раза більше за Trillium).
• Пропускна здатність Inter-Chip Interconnect — 1,2 Тбіт/с.
• Оновлений SparseCore — прискорювач для обробки гігантських ембедингів, особливо у фінансових і рекомендаційних системах.

Платформа підтримує Pathways Runtime, що дає можливість поєднувати сотні тисяч Ironwood-чипів у великі ШІ-кластери. Завдяки цьому користувачі не обмежуються одним подом (pod), а можуть масштабувати обчислення майже без обмежень.
Ironwood забезпечує удвічі вищу енергоефективність, аніж Trillium, і у 30 разів більше продуктивності, ніж перше покоління TPU (2018).

Інші новинки в інфраструктурі AI Hypercomputer
Окрім Ironwood, Google представила:
• підтримку Nvidia B200 і GB200 NVL72 на архітектурі Blackwell;
• нові мережеві інтерфейси 400G Cloud Interconnect і Cross-Cloud Interconnect (у 4 рази більше пропускної здатності, ніж попередники);
• нову Cloud Storage zonal bucket, яка забезпечує колокацію TPU і GPU-кластерів для оптимізації продуктивності;
• прискорене блокове сховище.

Нові інструменти для розробників
Оновлений Pathways Runtime тепер підтримує:
• disaggregated serving — гнучке масштабування задач інференсу і тренування;
• Cluster Director для Google Kubernetes Engine — керування кластерами TPU/GPU як єдиною одиницею;
• Cluster Director для Slurm — швидке розгортання AI-кластерів за готовими шаблонами.
Також з’явилися нові інструменти спостереження:
• AI Health Predictor;
• Straggler Detection;
• інтерактивні дашборди з моніторингом завантаження і стану кластерів.
Google розширила можливості керування штучним інтелектом у хмарі, представивши кілька інструментів, що роблять запуск моделей ефективнішим і доступнішим.
Inference Gateway у GKE — це новий компонент у Google Kubernetes Engine, який автоматично керує інфраструктурою для інференсу: самостійно розподіляє запити та обирає, де їх обробити. Це дає можливість:
• зменшити вартість обслуговування моделей до 30%;
• знизити затримки у «хвостах» (tail latency) до 60%;
• збільшити пропускну здатність (throughput) на 40%.
GKE Inference Recommendations — інструмент, який допомагає обрати правильну інфраструктуру під конкретну ШІ-модель. Користувач вказує, яку модель запускає і яку продуктивність хоче отримати, а система автоматично підбирає відповідні ресурси: чипи, інтерфейси, Kubernetes-конфігурацію тощо.
Google також додала оптимізований движок інференсу vLLM для запуску великих мовних моделей без втрат швидкості на TPU. Це дає змогу ефективніше використовувати пам’ять і швидше відповідати на запити.
Також представили оновлений Dynamic Workload Scheduler — розширену систему, яка дає можливість гнучко запускати ШІ-навантаження на доступних ресурсах, оплачуючи їх лише за потреби. Тепер вона підтримує більше типів обчислювальних віртуальних машин:
• TPU v5e — на базі Trillium TPU від Google;
• A3 Ultra — із графічними процесорами Nvidia H200;
• A4 — з новітніми Nvidia B200 GPU.
Раніше ми повідомляли, що Meta розпочала тестування власного чипа для навчання штучного інтелекту, що може скоротити витрати на інфраструктуру і знизити залежність від NVIDIA.
Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!