Masshtabnyy Sboy Cloudflare 18 Noyabrya 2025 Goda: Prichiny, Analiz I Uroki Dlya Kiberbezopasnosti

18 ноября 2025 года инфраструктура Cloudflare, одного из ключевых провайдеров CDN и сетевой безопасности, столкнулась с одним из самых крупных сбоев за последние годы. Проблема затронула глобальную сеть компании и привела к массовым перебоям в работе сайтов и сервисов по всему миру. Позже гендиректор Cloudflare Мэттью Принс подробно объяснил, что в основе инцидента лежала не кибератака, а ошибка при изменении прав доступа к базе данных.

Что произошло: от подозрения на DDoS до выявления ошибки конфигурации

Первые признаки инцидента появились около 11:20 UTC, когда начала «плавать» доступность ряда ресурсов, использующих Cloudflare в качестве обратного прокси и защитного периметра. Из-за масштаба и характера отказов команда изначально предположила масштабную DDoS-атаку. Система то приходила в норму, то снова выходила из строя, что типично для сценариев автоматического противодействия атакам.

Однако детальный анализ показал, что корень проблемы находился внутри инфраструктуры Cloudflare. При обновлении прав доступа в кластере ClickHouse — это распределённая СУБД, используемая компанией для высоконагруженной аналитики — была допущена ошибка в запросе, формирующем служебный конфигурационный файл для системы Bot Management.

Роль ClickHouse и Bot Management в инфраструктуре Cloudflare

Cloudflare активно использует аналитику для фильтрации вредоносного трафика и управления ботами. Отдельный кластер ClickHouse генерирует так называемый feature file — файл с признаками и поведенческими характеристиками ботов. Эти данные распространяются по всей сети Cloudflare и используются прокси-серверами для принятия решений о маршрутизации и блокировке подозрительных запросов.

Именно этот файл, по сути являющийся критическим элементом конфигурации системы защиты, стал «точкой отказа». Любая ошибка в его структуре или размере способна повлиять сразу на значительную часть глобальной инфраструктуры.

Как одна ошибка увеличила файл и запустила цепочку сбоев

Цель изменения прав доступа в ClickHouse заключалась в том, чтобы предоставить пользователям доступ к дополнительным низкоуровневым данным и метаданным. Однако запрос, использованный для извлечения этих данных, был составлен некорректно: он возвращал больше информации, чем предполагалось. В результате размер feature file вырос более чем вдвое.

В системе был предусмотрен жесткий лимит на размер этого файла. Как только новый файл превышал установленный порог, прокси-сервера воспринимали его как недопустимый и завершали работу сбоем. При этом кластер генерировал новую версию файла каждые пять минут, что создало дополнительную нагрузку и волнообразный характер отказов.

Эффект «флаппинга»: почему система казалась атакованной

Дополнительное осложнение внес тот факт, что не все ноды ClickHouse одновременно получили обновлённые права доступа. «Испорченный» файл формировался только на части узлов. В результате одни прокси получали корректную конфигурацию, другие — неправильную. Система постоянно переходила из рабочего состояния в аварийное и обратно, в зависимости от того, какая версия файла оказывалась в раздаче.

По словам Мэттью Принса, именно эти колебания создали иллюзию внешней атаки: сеть Cloudflare то восстанавливалась, то снова падала, как будто кто-то целенаправленно выводил её из строя. К 13:00 UTC все ноды ClickHouse уже генерировали «плохой» файл, и инфраструктура вошла в так называемое «стабильное состояние отказа» — проблемы стали постоянными и массовыми.

География и влияние: от европейских дата-центров до глобальных сервисов

По сообщениям СМИ и данным мониторинговых сервисов, сбои затронули узлы Cloudflare по всей Европе: Амстердам, Берлин, Франкфурт, Варшава, Вена, Цюрих, Стокгольм и ряд других городов. Платформа Downdetector зафиксировала десятки тысяч жалоб на недоступность сайтов и хостингов.

Пользователи также сообщали о проблемах в работе крупных интернет-сервисов, включая Spotify, Twitter, OpenAI, Anthropic, AWS, Google и множество других проектов, полагающихся на Cloudflare для ускорения доставки контента и защиты от атак. Это наглядно демонстрирует, насколько сильно современный интернет зависит от нескольких крупных провайдеров сетевой инфраструктуры.

Как Cloudflare остановила сбой и какие выводы сделаны

Для стабилизации ситуации команда Cloudflare остановила генерацию ошибочных файлов, вручную поместила в очередь заведомо корректную версию конфигурации и выполнила принудительный перезапуск основного прокси. Полное восстановление сервисов заняло около шести часов, и к 17:44 UTC работа сети была приведена в штатный режим.

По оценке Принса, это был самый крупный инцидент в компании с 2019 года. Руководство Cloudflare публично принесло извинения и обозначило приоритетные меры: усиление валидации конфигурационных файлов, внедрение дополнительных механизмов экстренного отключения функций (kill switch), а также пересмотр логики обработки ошибок во всех ключевых модулях прокси.

Для специалистов по кибербезопасности и эксплуатации инфраструктуры этот инцидент подчёркивает важность нескольких практик: автоматической проверки конфигураций перед развёртыванием, поэтапного (canary) выката изменений, строгого контроля за ростом служебных файлов, а также развитой системы наблюдаемости (observability), позволяющей быстро отличить внутренний сбой от внешней атаки.

Организациям стоит использовать этот случай как повод для ревизии собственных процессов: проверить, как управляются права доступа к критичным базам данных, какие есть ограничения и тесты для конфигурационных артефактов, насколько быстро можно откатить неудачное изменение по всей инфраструктуре. Чем больше бизнес зависит от облачных и сетевых провайдеров, тем важнее выстраивать многоуровневую отказоустойчивость и регулярное обучение команд работе с инцидентами, чтобы единичная ошибка в конфигурации не превращалась в глобальный сбой.

Что произошло: от подозрения на DDoS до выявления ошибки конфигурации

Роль ClickHouse и Bot Management в инфраструктуре Cloudflare

Как одна ошибка увеличила файл и запустила цепочку сбоев

Эффект «флаппинга»: почему система казалась атакованной

География и влияние: от европейских дата-центров до глобальных сервисов

Как Cloudflare остановила сбой и какие выводы сделаны

Оставьте комментарий Отменить ответ

Новости Кибербезопасности

Масштабный сбой Cloudflare 18 ноября 2025 года: причины, последствия и выводы для кибербезопасности

Новости Кибербезопасности

Anthropic о «почти автономной» кампании GTG-1002: что известно и почему отрасль сомневается

Новости Кибербезопасности

Критическая уязвимость в W3 Total Cache (CVE-2025-9501): риск полного захвата WordPress‑сайта

Новости Кибербезопасности

Уязвимость WhatsApp: как скрапинг превратился в глобальную базу номеров

Новости Кибербезопасности

0‑day в FortiWeb (CVE‑2025‑64446): активная эксплуатация, обход аутентификации и патч 8.0.2

Новости Кибербезопасности

Google смягчает Developer Verification для Android: упрощённые аккаунты и «продвинутый режим» сайдлоадинга

Масштабный сбой Cloudflare 18 ноября 2025 года: причины, последствия и выводы для кибербезопасности

Что произошло: от подозрения на DDoS до выявления ошибки конфигурации

Роль ClickHouse и Bot Management в инфраструктуре Cloudflare

Как одна ошибка увеличила файл и запустила цепочку сбоев

Эффект «флаппинга»: почему система казалась атакованной

География и влияние: от европейских дата-центров до глобальных сервисов

Как Cloudflare остановила сбой и какие выводы сделаны

Оставьте комментарий Отменить ответ

самые популярные

Новости Кибербезопасности

Масштабный сбой Cloudflare 18 ноября 2025 года: причины, последствия и выводы для кибербезопасности

Новости Кибербезопасности

Anthropic о «почти автономной» кампании GTG-1002: что известно и почему отрасль сомневается

Новости Кибербезопасности

Критическая уязвимость в W3 Total Cache (CVE-2025-9501): риск полного захвата WordPress‑сайта

Новости Кибербезопасности

Уязвимость WhatsApp: как скрапинг превратился в глобальную базу номеров

Новости Кибербезопасности

0‑day в FortiWeb (CVE‑2025‑64446): активная эксплуатация, обход аутентификации и патч 8.0.2

Новости Кибербезопасности

Google смягчает Developer Verification для Android: упрощённые аккаунты и «продвинутый режим» сайдлоадинга