تُعد Cloudflare واحدة من أكبر شركات البنية التحتية للإنترنت في العالم، حيث توفر خدمات مثل CDN لتسريع المواقع، ونظام DNS، والحماية من الهجمات السيبرانية، وتعتمد ملايين المواقع والخدمات على Cloudflare، ولذلك فإن أي عطل فيها يؤثر بشكل مباشر على أجزاء واسعة من الإنترنت ويؤدي إلى ظهور أخطاء مثل 500 Internal Server Error. سبب العطل الأخير في Cloudflare العطل الذي حدث كان نتيجة خطأ داخلي وليس هجوماً خارجياً، المشكلة بدأت عندما تم إجراء تغيير في أذونات قاعدة بيانات داخل Cloudflare، وهذا التغيير أدى إلى توليد ملف إعداد لنظام "إدارة البوتات" بحجم أكبر بكثير من الحجم الطبيعي ، الملف الضخم تجاوز الحدود التي يستطيع النظام التعامل معها، مما أدى إلى تعطّل خوادم التوجيه المسؤولة عن تمرير طلبات المستخدمين للمواقع.
كيف تسبب الخطأ في انهيار واسع؟ جميع خوادم الشبكة لدى Cloudflare تعتمد على نفس الإعدادات، وعندما انتشر الملف الكبير إلى كل الخوادم في الوقت نفسه، انهارت هذه الخوادم بالتزامن، فحدث عطل جماعي أثّر على آلاف المواقع والتطبيقات حول العالم، وظهرت أخطاء متكررة مثل 502 و500.
أعطال سابقة وأسباب مشابهة شهدت Cloudflare أعطالاً سابقة كانت أسبابها مختلفة، مثل مشاكل في بنية التخزين لدى جهة خارجية تؤثر على خدمات مثل Workers KV وStream وImages، مما أدى إلى تعطل أجزاء أخرى من منصّة Cloudflare، ورغم اختلاف الأسباب، إلا أن معظم الأعطال ترتبط بمشاكل فى اعتمادية الأنظمة أو تغييرات داخلية غير متوقعة.
لماذا يتكرر تأثير العطل بشكل كبير؟ لأن Cloudflare تعمل كطبقة وسيطة بين المستخدم وبين الموقع، فعندما تتوقف، لا يمكن للمتصفح الوصول للمواقع حتى لو كانت تعمل بشكل طبيعى فى الخلفية، وهذا هو سبب أن عطل واحد يمكن أن يسبب شللاً مؤقتاً لجزء كبير من الإنترنت. جدير بالذكر أن كلاود فلير هي شركة أمريكية يقع مقرها الرئيسي في سان فرانسيسكو، وهي متخصصة في خدمات الإنترنت مثل تسريع المواقع وحمايتها من الهجمات الإلكترونية، تأسست الشركة في عام 2009 وتخدم ملايين المواقع الإلكترونية حول العالم من خلال شبكتها العالمية الكبيرة من الخوادم ، وبسبب بنيتها التحتية الواسعة، تؤثر أي مشاكل فنية فيها على عدد كبير من المواقع حول العالم.