Skip to main content

डाटाबेस गलती के कारण फेसबुक आउटेज

फेसबुक दो दिनों में दूसरी बार ऑफलाइन चला गया। गुरुवार आउटेज - जो कुछ उपयोगकर्ताओं के लिए दो घंटे से अधिक समय तक चला - डेटाबेस नियंत्रण की कहानी बहुत खराब हो गई है और प्रभावी परीक्षण और नियंत्रण प्रक्रियाओं को बदलने की आवश्यकता को दर्शाती है।

फेसबुक से ब्लॉग पोस्ट के मुताबिक विवरण का वर्णन इस मुद्दे के मुताबिक, "इस आउटलुक को इतनी गंभीरता से उत्पन्न करने वाली मुख्य दोष एक त्रुटि की स्थिति का दुर्भाग्यपूर्ण प्रबंधन था। कॉन्फ़िगरेशन मानों को सत्यापित करने के लिए एक स्वचालित प्रणाली ने इसे ठीक करने से अधिक नुकसान पहुंचाया।"

यह केवल आधा है कहानी, यद्यपि। डेटाबेस गड़बड़ एक कॉन्फ़िगरेशन मान में लागू परिवर्तन से ट्रिगर किया गया था। कॉन्फ़िगरेशन मान अमान्य होने पर डेटाबेस त्रुटि प्रबंधन को पता लगाना चाहिए, और इसे निर्दिष्ट कॉन्फ़िगरेशन मान के साथ अपडेट करें। हालांकि, फेसबुक द्वारा कार्यान्वित नया नामित कॉन्फ़िगरेशन मान भी अमान्य के रूप में देखा गया था, जिसके कारण अंतहीन पाश हो गया था।

[आगे पढ़ने: मीडिया स्ट्रीमिंग और बैकअप के लिए सर्वश्रेष्ठ NAS बॉक्स]

फेसबुक बताता है, "मामलों को और भी खराब बनाने के लिए, हर कोई उस समय जब किसी क्लाइंट को इसे किसी अमान्य मान के रूप में व्याख्या करने वाले डेटाबेस से पूछताछ करने का प्रयास करने में त्रुटि हुई, और इसी कैश कुंजी को हटा दिया गया। इसका मतलब था कि मूल समस्या ठीक होने के बाद भी, प्रश्नों की धारा जारी रही। डेटाबेस कुछ अनुरोधों की सेवा करने में नाकाम रहे, वे खुद को और भी अधिक अनुरोध कर रहे थे। हमने एक फीडबैक लूप दर्ज किया था जिसने डेटाबेस को पुनर्प्राप्त करने की अनुमति नहीं दी। "

आखिरकार, फेसबुक को साइट को बंद करने और ले जाने के लिए मजबूर होना पड़ा लूप को तोड़ने के लिए प्रभावित डेटाबेस क्लस्टर ऑफ़लाइन। इसने अंततः उपयोगकर्ताओं को साइट पर वापस जाने की अनुमति दी, लेकिन कॉन्फ़िगरेशन त्रुटि सुधार प्रणाली को अक्षम कर दिया जो समस्या को उजागर करता है, जबकि यह भविष्य में फिर से होने से रोकने के लिए नए समाधानों की जांच करता है।

इस सप्ताह की शुरुआत में ट्विटर क्रॉस-साइट स्क्रिप्टिंग कीड़ा घटना की तरह , फेसबुक आउटेज आईटी प्रशासकों के लिए कुछ सबक रखती है। ट्विटर कीड़े ने एक भेद्यता का शोषण किया जो ट्विटर ने पहले से ही पहचाना और पैच किया था, लेकिन बाद में वेब साइट अपडेट के साथ अनजाने में उजागर हुआ।

फेसबुक आउटेज लाइव वेब साइट पर कॉन्फ़िगरेशन वैल्यू को उचित परीक्षण और सत्यापन के बिना लागू करने के कारण हुआ था। अगर फेसबुक ने वास्तविक विश्व डेटाबेस क्लस्टर को दर्पण करने के लिए डिज़ाइन किए गए प्रयोगशाला वातावरण में नए कॉन्फ़िगरेशन मान का परीक्षण किया था, तो उसे नई कॉन्फ़िगरेशन मान के साथ समस्या की पहचान करनी चाहिए, और त्रुटि लूप जिसने इस समस्या को पूरी फेसबुक साइट लेने की अनुमति देने से पहले ऑफ़लाइन।

आपकी वेबसाइट पर आधे बिलियन उपयोगकर्ता फेसबुक पर वेब पर किसी अन्य गंतव्य की तुलना में अधिक समय नहीं लगा सकते हैं, लेकिन ऐसे उपयोगकर्ता, सहयोगी और ग्राहक हैं जो इस पर भरोसा करते हैं। सुनिश्चित करें कि आप सुरक्षित कोडिंग प्रथाओं का पालन करें, और ठोस पैच प्रबंधन का पालन करें और अपनी साइट को नीचे ले जाने से पहले इस तरह के मुद्दों को हल करने और हल करने के लिए नियंत्रण प्रक्रियाओं को बदलें।