Графічні процесори Blackwell, які NVIDIA Corp. планує випустити найближчим часом, вже затримуються із виходом на ринок через проблеми з перегріванням, які унеможливлюють їх використання у серверних стійках дата-центрів. Про це повідомляє Silicon Angle.
Клієнти компанії серйозно занепокоєні цією проблемою, оскільки вона може вплинути на їхні плани зі створення нової інфраструктури дата-центрів для штучного інтелекту.
Причина полягає в тому, що GPU Blackwell перегріваються під час роботи в серверних стійках, розрахованих на одночасне розміщення до 72 чипів.
Джерела, знайомі з ситуацією, повідомляють, що під час інтеграції чипів у спеціалізовані серверні стійки NVIDIA вони виділяють надмірну кількість тепла, що може призводити до зниження ефективності роботи або навіть пошкодження обладнання.
NVIDIA вже неодноразово доручала своїм постачальникам змінювати дизайн стійок, щоб вирішити проблему з перегріванням, але безуспішно. У звіті The Information не згадуються імена залучених постачальників.
Компанія намагається мінімізувати значення проблеми. Її представник заявив у коментарі Reuters:
«NVIDIA співпрацює із провідними постачальниками хмарних послуг. Це невід’ємна частина нашої інженерної команди та процесів. Інженерні ітерації є звичайною справою й очікувані».
Blackwell було анонсовано в березні цього року як наступника надуспішних GPU H100, які сьогодні забезпечують більшість ШІ-застосунків у світі.
Очікується, що нові GPU забезпечать приріст продуктивності до 30 разів порівняно з H100 і знизять енергоспоживання до 25 % у деяких робочих навантаженнях.
Спочатку NVIDIA планувала почати постачання чипів Blackwell у другій половині 2024 року, але виявлений дефект у дизайні змусив компанію відкласти запуск до початку 2025 року.
Одна з ключових інновацій Blackwell полягає у поєднанні двох кремнієвих квадратів розміром із чип H100 у єдиний компонент. Це вдосконалення дозволяє чипу обробляти ШІ-навантаження значно швидше.
Попередня проблема стосувалася конструкції кристала процесора, який з’єднує ці два кремнієві квадрати. Минулого місяця генеральний директор NVIDIA Дженсен Хуанг заявив, що цю проблему було вирішено за допомогою виробничого партнера компанії — Taiwan Semiconductor Manufacturing Co.
Наразі неясно, чи вплинуть нові проблеми з перегріванням на заплановану дату запуску Blackwell, яка призначена на початок 2025 року. Для NVIDIA надзвичайно важливо довести продукт до досконалості, адже GB200 Grace Blackwell коштуватимуть до $70 тисяч за штуку, а ціна повної серверної стійки перевищує $3 мільйони.
Раніше NVIDIA заявляла, що планує продати від 60 тисяч до 70 тисяч повних серверів, тому будь-які додаткові затримки можуть обійтися компанії надзвичайно дорого.
Холгер Мюллер із Constellation Research Inc. підкреслює, що системи охолодження є критичними для ШІ-платформ, оскільки найпотужніші прискорювальні чипи працюють при температурах, вищих за оптимальні, і швидко виходять із ладу без належного охолодження.
За його словами, у NVIDIA визнають наявність проблеми, але не розкривають її масштабів.
«Першим індикатором наявності проблеми може стати вплив на фінансові прогнози NVIDIA на наступний квартал, тому аналітики, клієнти й інвестори будуть уважно стежити за цим показником», — додав Мюллер.
Для клієнтів основна незручність полягає у тому, що будь-які затримки можуть вплинути на їхні плани щодо розгортання інфраструктури дата-центрів і, можливо, завадити розвитку більш досконалих ШІ-моделей і застосунків.
Раніше ми повідомляли, що ноутбуки серії NVIDIA RTX 50 використовуватимуть старіші процесори AMD та Intel.
Читайте також на ProIT думки засновників Andreessen Horowitz: розвиток можливостей ШІ-моделей сповільнюється.
Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!