Головна
Новини
Google представила Ironwood — новий флагманський чип для AI Hypercomputer

11 квітня, 2025

3 хв

Google представила Ironwood — новий флагманський чип для AI Hypercomputer

Google Cloud оновила свою хмарну AI-інфраструктуру Hypercomputer, представивши Ironwood TPU — нове покоління тензорного процесора, створеного для роботи з найпотужнішими моделями штучного інтелекту.

Як повідомляє Silicon Angle, анонс відбувся на конференції Google Cloud Next 2025, де компанія також представила десятки інших апаратних і програмних покращень для прискорення навчання AI-моделей і спрощення їх розгортання.

Що таке AI Hypercomputer

AI Hypercomputer — це хмарна суперкомп’ютерна платформа Google для запуску найвибагливіших AI-навантажень. Вона використовується для роботи моделей Gemini, генеративних інструментів пошуку та інших сервісів компанії.

Платформа тісно інтегрована з ШІ-прискорювачами Google — TPU (Tensor Processing Unit), аналогами GPU, створеними спеціально для штучного інтелекту.

Ironwood: сьоме покоління TPU

Ironwood TPU — найпотужніший тензорний процесор Google, створений для оброблення моделей нового типу, зокрема так званих ШІ-агентів, які можуть самостійно шукати, генерувати дані й діяти від імені користувача.

За словами Аміна Вахдата, віцепрезидента з машинного навчання, систем і хмарного ШІ, Ironwood — це TPU-система нового рівня, оптимізована для розподіленої роботи з модулями mixture-of-experts і складними багатокроковими завданнями.

Характеристики Ironwood

• 9216 чипів в одному мегакластері з рідинним охолодженням.

• 42,5 екзафлопс загальної продуктивності (у 24 рази більше, ніж у суперкомп’ютера El Capitan).

• Пікова продуктивність одного чипа — 4614 терафлопс.

• 192 ГБ HBM-пам’яті на чип — у 6 разів більше, ніж у Trillium.

• Пропускна здатність пам’яті — 7,2 ТБ/с на чип (у 4,5 раза більше за Trillium).

• Пропускна здатність Inter-Chip Interconnect — 1,2 Тбіт/с.

• Оновлений SparseCore — прискорювач для обробки гігантських ембедингів, особливо у фінансових і рекомендаційних системах.

Платформа підтримує Pathways Runtime, що дає можливість поєднувати сотні тисяч Ironwood-чипів у великі ШІ-кластери. Завдяки цьому користувачі не обмежуються одним подом (pod), а можуть масштабувати обчислення майже без обмежень.

Ironwood забезпечує удвічі вищу енергоефективність, аніж Trillium, і у 30 разів більше продуктивності, ніж перше покоління TPU (2018).

Інші новинки в інфраструктурі AI Hypercomputer

Окрім Ironwood, Google представила:

• підтримку Nvidia B200 і GB200 NVL72 на архітектурі Blackwell;

• нові мережеві інтерфейси 400G Cloud Interconnect і Cross-Cloud Interconnect (у 4 рази більше пропускної здатності, ніж попередники);

• нову Cloud Storage zonal bucket, яка забезпечує колокацію TPU і GPU-кластерів для оптимізації продуктивності;

• прискорене блокове сховище.

Нові інструменти для розробників

Оновлений Pathways Runtime тепер підтримує:

• disaggregated serving — гнучке масштабування задач інференсу і тренування;

• Cluster Director для Google Kubernetes Engine — керування кластерами TPU/GPU як єдиною одиницею;

• Cluster Director для Slurm — швидке розгортання AI-кластерів за готовими шаблонами.

Також з’явилися нові інструменти спостереження:

• AI Health Predictor;

• Straggler Detection;

• інтерактивні дашборди з моніторингом завантаження і стану кластерів.

Google розширила можливості керування штучним інтелектом у хмарі, представивши кілька інструментів, що роблять запуск моделей ефективнішим і доступнішим.

Inference Gateway у GKE — це новий компонент у Google Kubernetes Engine, який автоматично керує інфраструктурою для інференсу: самостійно розподіляє запити та обирає, де їх обробити. Це дає можливість:

• зменшити вартість обслуговування моделей до 30%;

• знизити затримки у «хвостах» (tail latency) до 60%;

• збільшити пропускну здатність (throughput) на 40%.

GKE Inference Recommendations — інструмент, який допомагає обрати правильну інфраструктуру під конкретну ШІ-модель. Користувач вказує, яку модель запускає і яку продуктивність хоче отримати, а система автоматично підбирає відповідні ресурси: чипи, інтерфейси, Kubernetes-конфігурацію тощо.

Google також додала оптимізований движок інференсу vLLM для запуску великих мовних моделей без втрат швидкості на TPU. Це дає змогу ефективніше використовувати пам’ять і швидше відповідати на запити.

Також представили оновлений Dynamic Workload Scheduler — розширену систему, яка дає можливість гнучко запускати ШІ-навантаження на доступних ресурсах, оплачуючи їх лише за потреби. Тепер вона підтримує більше типів обчислювальних віртуальних машин:

• TPU v5e — на базі Trillium TPU від Google;

• A3 Ultra — із графічними процесорами Nvidia H200;

• A4 — з новітніми Nvidia B200 GPU.

Раніше ми повідомляли, що Meta розпочала тестування власного чипа для навчання штучного інтелекту, що може скоротити витрати на інфраструктуру і знизити залежність від NVIDIA.

Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!