Глобальний збій Cloudflare спричинила помилка у Bot Management

Зміна прав доступу в базі даних призвела до масштабного глобального збою Cloudflare, який зупинив роботу ChatGPT, Canva й окремих сервісів AWS. Інцидент показав: найбільші збої сучасного інтернету дедалі частіше спричиняють не кібератаки, а власні помилки розробників.

Масштабна аварія, яка сталася 18 листопада і тривала приблизно 6 годин, була пов’язана зі зміною прав доступу в одній із внутрішніх систем баз даних Cloudflare. Ця зміна спричинила помилкове формування feature-файлу, який використовується системою Bot Management.

Файл некоректно подвоївся та вийшов за межі допустимих розмірів, після чого його поширення мережею Cloudflare викликало каскадний збій.

Як пояснив Меттю Прінс, співзасновник і CEO Cloudflare, у блозі компанії, база даних почала створювати множинні дублі рядків у конфігураційному файлі.

Коли цей файл оновився на всіх вузлах, його збільшений обсяг перевищив закладені обмеження, що призвело до падіння частини інфраструктури. Після виявлення помилки Cloudflare замінила проблемний файл на попередню стабільну версію.

Спочатку у компанії припустили, що зіткнулися з гігантською DDoS-атакою, адже обсяг помилок HTTPS (5xx) різко зріс. Однак згодом виявилося, що кожен ClickHouse-вузол згенерував некоректний конфігураційний файл, який ввів систему у стан збою.

Прінс пояснив, що кожен запит до Cloudflare проходить через фіксований маршрут: приймається на рівні HTTP/TLS, далі переходить у core proxy (FL — Frontline), а потім у Pingora, що виконує кеш-перевірку або звертається до origin-сервера.

На цьому шляху застосовуються індивідуальні налаштування клієнтів — від правил WAF та DDoS-захисту до маршрутизації запитів у Developer Platform і R2. За ці налаштування відповідають окремі модулі. Саме модуль Bot Management і став джерелом проблеми.

Модуль використовує ML-модель для присвоєння бот-скорів кожному запиту. Ця модель працює на основі feature-файлу — набору характеристик, які визначають, чи є запит автоматизованим. Файл оновлюється кожні кілька хвилин, щоб швидко реагувати на нові типи ботів.

Через зміну поведінки одного з ClickHouse-запитів у файл потрапили дублікати рядків, що збільшило його розмір і спричинило помилку в Bot Management. У результаті core proxy почав повертати HTTP 5xx для трафіку, що залежав від цього модуля. Постраждали також Workers KV та Access.

Після виявлення проблеми Cloudflare зупинила генерацію та поширення некоректного файлу, вручну додала стабільну версію у чергу розповсюдження й примусово перезапустила core proxy.

Порівнюючи ситуацію з ефектом метелика, Парік Джейн, CEO EIIRTrend & Pareekh Consulting, зазначив:

«Ми бачимо сучасну версію ефекту метелика. Невелика зміна в одному модулі може призвести до неконтрольованих наслідків для всієї системи».

Він додав, що щільна інтеграція модулів безпеки та AI-компонентів у маршрутизацію запитів стала нормою для великих хмарних платформ. Тож будь-яка помилка в одному компоненті може вплинути на всі наступні шари.

Інцидент також вписується у загальну тенденцію: дедалі більше глобальних збоїв спричиняють внутрішні помилки, а не атаки. Збій Microsoft Azure стався через помилкову зміну конфігурації AFD, а AWS зіткнулася з дефектом в автоматизованій DNS-системі.

У Cloudflare заявили, що вже працюють над запобіганням подібним інцидентам: компанія посилює валідацію конфігураційних файлів, впроваджують глобальні kill-switch механізми, обмежують можливість перевантаження систем помилковими дампами та переглядають сценарії відмови для всіх модулів core proxy.

Читайте також на ProIT: Китайські хакери зламали Claude: Anthropic підтвердив автономну атаку.

Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!