У понеділок, 20 жовтня, стався масштабний збій у роботі Amazon Web Services (AWS), який тимчасово паралізував десятки популярних онлайн-сервісів, ігор і застосунків, включно з Alexa, Snapchat, Canva, Fortnite, Venmo, Reddit, Roblox, Disney+, Lyft, Pinterest, Apple Music і навіть сайтами медіа, серед яких The New York Times.
DNS-збій у регіоні US-EAST-1
Згідно зі сторінкою статусу AWS, о 3:11 ранку за східним часом (ET) компанія зафіксувала підвищені показники помилок і затримок у роботі сервісів у регіоні US-EAST-1 (Північна Вірджинія) — ключовому хабі для інфраструктури Amazon.
О 5:01 AM ET компанія виявила, що причиною став збій у системі DNS, пов’язаний із базою даних DynamoDB, яка зберігає інформацію клієнтів AWS.
«Amazon мала всі дані збереженими, але ніхто не міг їх знайти кілька годин — ніби великі частини інтернету страждали на тимчасову амнезію», — пояснив Майк Чаппл, професор кафедри ІТ та аналітики в Університеті Нотр-Дам, у коментарі для CNN.
О 6:35 AM ET AWS повідомила, що DNS-проблему повністю усунуто, і більшість операцій виконуються нормально. Проте ефект ланцюгової реакції зачепив інші сервіси, зокрема EC2, на базі якого працюють тисячі корпоративних застосунків.
Повторний збій і вплив на власні сервіси Amazon
Попри заяву про відновлення, близько полудня (12:00 ET) користувачі знову почали повідомляти про труднощі з доступом до Amazon, AWS і Alexa, згідно з даними Downdetector.
У післяобідньому оновленні компанія підтвердила, що збій вплинув на Amazon.com, дочірні сервіси та службу підтримки AWS.
«Ми працюємо над тим, щоб повністю відновити роботу сервісів якнайшвидше», — зазначено в офіційній заяві Amazon.
Компанія уточнила, що понад 70 власних сервісів AWS постраждали від наслідків інциденту.
Технічна причина: проблема в DNS
AWS пояснила, що збій у Domain Name System (DNS) — механізмі, який перетворює назви сайтів в IP-адреси, — перервав комунікацію між сервісами. Через це застосунки втратили зв’язок зі своїми базами даних попри те, що дані залишалися неушкодженими.
DynamoDB — одна з основних базових інфраструктур AWS — стала вузьким місцем, спричинивши каскадні помилки в EC2, Lambda й інших залежних сервісах.
Масштаб і ринковий контекст
За оцінками Synergy Research Group, AWS контролює приблизно третину світового ринку хмарної інфраструктури, випереджаючи Microsoft Azure і Google Cloud. Саме така концентрація ринку пояснює, чому збій в одному регіоні (US-EAST-1) може призвести до масштабних глобальних перебоїв.
Інцидент вкотре підкреслив проблему надмірної централізації інтернету, де невелика кількість компаній забезпечує критичні сервіси для мільйонів користувачів і бізнесів.
Відновлення роботи триває
Станом на вечір 20 жовтня більшість сервісів поступово відновили роботу. AWS попередила, що через накопичені запити та відкладені транзакції процес повного відновлення може зайняти кілька годин.
Компанія рекомендує клієнтам не прив’язувати нові розгортання до конкретних Availability Zones, аби EC2 мало більшу гнучкість у виборі стабільної зони.
Глобальний збій у хмарі Amazon зачепив і український бізнес. Великий клієнт української OKR-платформи Oboard терміново чекав нову версію продукту з виправленими багами, але компанія не змогла вчасно її опублікувати через збій. Це вплинуло на стабільність сервісів у частини його клієнтів. Вплив також відчули банк ПУМБ, стартап Cargofy, IT-школа Mate academy та інші.
Цей інцидент став черговим нагадуванням про системні ризики монополізації хмарних сервісів. Для українських ІТ-компаній він підкреслює необхідність мультихмарної архітектури та резервного розподілу навантажень, щоб мінімізувати ризики у разі збою в одному регіоні чи провайдері.
Нагадаємо, що в червні 2023 року в Amazon Web Services, підрозділі хмарних обчислень технічного гіганта, стався масштабний збій.
Серйозні збої в роботі AWS траплялися, зокрема, і у 2021 році. Роком раніше збій зашкодив кільком компаніям, серед яких служба камер безпеки Ring, що належить Amazon, застосунок для пилотягів Roomba від iRobot, постачальник програмного забезпечення Autodesk, а також новинні видання, як от The Washington Post.
Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!