خطأ مطبعي بسيط يصيب موقع أمازون بالشلل.. كيف حدث؟

كين ، وهو الاسم الذي استخدمه الموظف في شهادته، حصل على وظيفة مدير نظام لينكس في أمازون رغم أن خبرته كانت محصورة في نظام سولاريس . ورغم افتقاره للمعرفة العميقة بنظام ريد هات إنتربرايز لينكس ، أوكل إليه مديره مهمة حساسة: تحديث سير عمل النسخ الاحتياطي باستخدام محركات الأشرطة.
وأوضح كين في شهادته أنه قضى أشهرًا في التخطيط والاختبار قبل تنفيذ التحديث، حيث كانت هناك تغييرات جوهرية في ملفات التكوين استلزمت إنشاء ملفات جديدة بالكامل. بعد التأكد من نجاح التجارب، تم إطلاق التحديث رسميًا.
في البداية، بدا كل شيء طبيعيًا، حتى أن كين تلقى تهنئة من مديره بعد الانتهاء من التنفيذ. لكن في وقت لاحق من نفس اليوم، وعند عطل مفاجئ في جهازه الشخصي، تلقى مكالمة طارئة ضمّت مديره وكبار مسؤولي أمازون، بمن فيهم جيف بيزوس، الرئيس التنفيذي للشركة آنذاك.
خلال التحقيق الفني، تبين أن قاعدة البيانات الرئيسية لموقع أمازون قد توقفت عن العمل، رغم أن الخوادم بدت في البداية دون مشكلات ظاهرة. وبعد مراجعة معمقة، اكتشف كين أن برنامج النسخ الاحتياطي كان ينقل سجلات قاعدة البيانات إلى أشرطة التخزين، لكنه فشل في حذفها من الخوادم بسبب خطأ مطبعي بسيط في ملف التكوين. هذا التراكم غير المقصود للملفات أدى إلى امتلاء مساحة التخزين بالكامل، مما تسبب في توقف قاعدة البيانات.
قال كين ساخرًا في روايته: امتلأ القسم الذي يخزن السجلات، فبدأت قاعدة البيانات تصدر رسائل خطأ متتالية.
وبسبب هذه المشكلة، تعطل موقع أمازون لعدة ساعات، مما أثار حالة من الاستنفار داخل الشركة وقلقًا بشأن التأثير المحتمل على السمعة والأداء. ورغم أن أمازون لم تتكبد خسائر مالية مباشرة، إلا أن خطورة الموقف دفعت جيف بيزوس، الرئيس التنفيذي حينها، إلى التدخل شخصيًا، حيث انضم إلى مكالمة الطوارئ ليتابع سير الأزمة ويوجه جهود فريق الدعم الفني نحو الحل.
وبعد جهود مضنية، قام الفريق الفني بحذف الملفات الزائدة يدويًا، ملفًا تلو الآخر، حتى أُعيد توفير مساحة كافية لتشغيل قاعدة البيانات. ما إن انتهت هذه العملية، حتى عادت خدمات الموقع للعمل بشكل طبيعي.
في اليوم التالي، ظل كين قلقًا بشأن مصيره في الشركة، لكنه فوجئ برد فعل إنساني وغير متوقع من مديره، الذي استقبله مازحًا بقوله: تهانينا، لم تعد مبتدئًا! ، في إشارة إلى أن ارتكاب الأخطاء جزء لا يتجزأ من عملية التعلم، والأهم هو كيفية التعامل معها ومعالجتها.
تُظهر هذه الواقعة أن حتى الشركات التقنية العملاقة مثل أمازون ليست محصنة ضد الأخطاء البشرية، مهما كانت بسيطة. كما تبرز أهمية التدقيق في التفاصيل الفنية، والاستجابة السريعة للأزمات، والدور الحيوي الذي تلعبه القيادة الفعالة في تجاوز المحن.