سبعة دروس للتعلم من انقطاع الأمازون

اعتبارا من آخر تحديث بعد ظهر هذا اليوم على لوحة الخدمات الصحية الأمازون، سوى حفنة من العملاء لا تزال تنتظر لحالات إبس و رديز لاستعادة بعد انقطاع المروع يوم الخميس. ولكن لجميع المعنيين (وليس أقل موظفي العمليات الأمازون الخاصة) انها كانت أربعة أيام طويلة جدا (انظر أحدث مناقشة تكيم). ما هي الدروس التي يجب تعلمها؟

1. اقرأ اتفاقية مستوى الخدمة لمزود الخدمة السحابية بعناية فائقة

ومن المثير للدهشة أن هذا الانقطاع الذي دام أربعة أيام تقريبا لم ينتهك نظام EC2 سلا في أمازون، وهو ما يفسر حسب التعليمات، “يضمن توفر 99.95٪ من الخدمة داخل المنطقة على مدى فترة 365 يوما”. وبما أن خدمات إيبس و رديز هي خدمات إيبس و رديز بدلا من EC2 نفسها التي فشلت (واقتصرت جميع الإخفاقات على مناطق الإتاحة في منطقة واحدة)، فإن جيش تحرير السودان لم يتم انتهاكه قانونا. هذا ليس تعزية للمتضررين بالطبع، كما أنها ليست أي عذر للاضطراب الذي عانوا منه. لكنه بالتأكيد يعطي وقفة للفكر.

2. لا تأخذ ضمانات مزود الخاص بك لمنح

كان العديد من العملاء المتضررين يدفعون مبالغ إضافية لاستضافة حالتهم في أكثر من منطقة توفر (أز). يوصي الأمازون في الواقع هذا المسار من العمل لضمان المرونة ضد الفشل. كل من أز، وفقا لمسألة الأمازون، “يعمل على البنى التحتية المستقلة الخاصة به من الناحية المادية، ويتم تصميمه ليكون موثوقا به للغاية، ولا يتم تقاسم نقاط الفشل المشتركة مثل المولدات ومعدات التبريد عبر مناطق الإتاحة، بحيث أن الكوارث حتى غير المألوفة للغاية مثل الحرائق والأعاصير أو الفيضانات لن تؤثر إلا على منطقة واحدة متاحة “. ولسوء الطالع، اتضح أن ذلك كان مواصفات تقنية بدلا من ضمان تعاقدي. وسوف يستغرق الأمازون بعض الجهد تقريبا لإصلاح الضرر سمعة جلبت هذا الحدث على ذلك.

جوستين سانتا باربرا، مؤسس والرئيس التنفيذي لشركة فاثومدب كان صريح في بلوق وظيفة حول لماذا السماء في الانخفاض

أوس قطعت وعودها على سيناريوهات الفشل لمناطق التواجد … المواقع التي هي أسفل صممت بشكل صحيح إلى “العقد”؛ والمشكلة هي أن أوس لم يتبع مواصفاتها الخاصة. سواء حدث ذلك من خلال عدم الكفاءة أو خيانة الأمانة أو شيء أكثر الكثير من الغفران تماما، ونحن ببساطة لا نعرف في هذه المرحلة.

في حين أنه من السهل أن يكون من الحكمة بعد وقوع الحدث، قد يكون ضعف الأمازون لهذا النوع من الفشل مرئية على عميق بما فيه الكفاية ممارسة العناية الواجبة. كما منافس الأمازون جوينت كبير العلماء جيسون هوفمان يلاحظ على بلوق الشركة، “هذه ليست” عثرة السرعة “أو” فشل سحابة “أو” آلام النمو “، وهذا هو نتيجة متوقعة للقرارات المعمارية الأساسية التي اتخذتها الأمازون”.

3. معظم العملاء سوف لا يزال يغفر الأمازون إخفاقاتها

ومع ذلك، فقد تأثر مقدمو الخدمات بأضرار الأمازون تقديرا لمدى مساعدتهم على إدارة بنية تحتية قوية بتكلفة أقل وجهد. العديد من الانتقادات المسبقة مع الامتنان لما جعلت الأمازون ممكن، مثل الرئيس التنفيذي لشركة بيغدور كيث سميث

وقد سمحت لنا أوس لتوسيع نطاق نظام معقد بسرعة، وبتكلفة عالية للغاية. في أي لحظة معينة في الوقت، لدينا 12 خوادم قاعدة البيانات، 45 خوادم التطبيق، ستة خوادم ثابتة وست خوادم تحليلات وتشغيلها. أنظمتنا لصناعة السيارات في نطاق عند حركة المرور أو تجهيز متطلبات ارتفاع، والسيارات يتقلص عندما لا حاجة من أجل الحفاظ على الدولارات.

4. هناك العديد من الطرق التي يمكن أن تكمل مرونة مزود سحابة

كما يشير أوريلي جورج ريس، “إذا فشل النظم الخاصة بك في سحابة الأمازون هذا الأسبوع، لم يكن خطأ الأمازون، إما أن تعتبر انقطاع من هذا النوع خطر مقبول أو كنت فشلت في تصميم نموذج الحوسبة السحابية الأمازون. ” من المفيد مراجعة التقنيات التي استخدمها العملاء لتقليل تعرضهم للإخفاقات في أمازون.

فعلى سبيل المثال، لم ينزل تويليو. على الرغم من أن الشركة لم توضح بالضبط ما تعرضه للمناطق المتضررة شمال ولاية فرجينيا، وقد وصفت مبادئ التصميم المعماري في أول إدخال على بلوق الهندسة الجديدة من قبل المؤسس المشارك و كتو ايفان كوك. وتشمل هذه الموارد المتحللة إلى مجموعات مستقلة، وبناء لدعم مهلات سريعة وإعادة المحاولة، وجود واجهات إديمبوتنت التي تسمح محاولات متعددة من طلبات فاشلة. بالطبع كل هذا هو أسهل وقال من القيام به إذا كان كل ما تبذلونه من الخبرة في تصميم بإحكام مقرونة تطبيقات المؤسسة التي تفترض شبكة المنطقة المحلية مرونة. تطورت وظيفة كوك لوصف بعض الخصائص التي تجعل بنية تويليو قادرة على العمل بطريقة أكثر تسامحا. وبادئ ذي بدء، “فصل منطق الأعمال إلى خدمات عديمي الجنسية الصغيرة التي يمكن تنظيمها في برك متجانسة بسيطة”. وهناك خطوة أخرى هي تقسيم قراءة وكتابة البيانات: “إذا كان هناك مجموعة كبيرة من البيانات التي يتم كتابتها بشكل غير منتظم، فصل يقرأ ويكتب إلى تلك البيانات … على سبيل المثال، عن طريق الكتابة إلى قاعدة بيانات رئيسية والقراءة من قاعدة البيانات العبيد، يمكنك توسيع عدد العبيد قراءة لتحسين توافر والأداء.

موقع آخر لم ينزل هو نيتفليكس، الذي يدير جميع بنيتها التحتية في سحابة الأمازون. مرة أخرى، ليس من الواضح مدى تعرض عملياتها لموارد الأمازون المتضررة، ولكن خيط هاكر نيوز يلخص بشكل مفيد بعض المبادئ المستخدمة.

5. البناء في مرونة إضافية يأتي بتكلفة

الابتكار؛ سوق M2M مستبعد مرة أخرى في البرازيل؛ التعاون؛ ما هو المبدأ التنظيمي لمكان العمل الرقمي اليوم؟؛ كسو؛ من الذي يؤثر على مدراء المعلومات؟ وهنا أعلى 20؛ ككسو؛ بنك أنز لخلط سطح السفينة التكنولوجيا التنفيذية

يصف بوب وارفيلد كيف قامت شركة سابقة باستخدام البنية التحتية لموقع Amazon.com بطريقة تسمح لها “بإعادة الخدمة في منطقة أخرى إذا كان الشخص الذي كنا في فشلت تماما في غضون 20 دقيقة ومع فقدان البيانات أكثر من 5 دقائق”. كما يذهب إلى القول، والخيارات التي تقوم بها حول طول انقطاع كنت على استعداد لدعم لها عواقب على التكلفة التي يجب أن العملاء أو المؤسسة تمويل. “سوف يبحث المستخدمون الذكيون وبائعو خدمات المساعدة في الكمية عن عدة خيارات لأنك يجب أن يتم نسخها احتياطيا إلى S3 بغض النظر عن ذلك، لذا فإن ما تسأل عنه أساسا ويدفع مبالغ إضافية هو كيف يمكن أن يكون الموقع البديل” دافئا ” من الصفر عبر S3.

6. فهم المفاضلات يساعدك على إطار ما نسأل

هناك أسئلة يجب أن تطالب بإرضاء نفسك بأن الخدمة السحابية التي تعتمد عليها لا تعريضك لفشل مماثل (أو على الأقل، إذا كان الأمر كذلك، فإنك تفهم هذا، وتكون على استعداد لتحمل العواقب في مقابل أرخص كلفة). بالإشارة إلى ممارسة نيتفليكس في قتل الموارد والخدمات بشكل عشوائي من أجل اختبار قدرتها على الصمود، يضيف بوب وارفيلد هذه النصيحة

من المحتمل أن يكون هناك سؤال جيد آخر يطرحه البائعون التابعون ل باس و كلاود – “هل تنزل البنية الأساسية للإنتاج لاختبار الفشل؟” بالطبع كنت ترغب في رؤية ذلك وليس مجرد أخذ كلمة لهم لذلك أيضا.

7. نقص الشفافية قد يكون الأمازون كعب

وقد اشتكى العديد من العملاء المتضررين من نقص المعلومات المفيدة القادمة من الأمازون خلال الانقطاع. وكتب كيث سميث، الرئيس التنفيذي لشركة بيغدور، “إذا كان الأمازون أكثر استعدادا لما يواجهونه، كنا سنتمكن من استعادة أنظمتنا عاجلا”. ودعا غوداتا روماني ستانيك الأمازون لهدم جدارها من السرية

لدينا ديف-أوبس الناس لا يمكن قراءة من الشاي يترك كيفية تنظيم أنظمتنا للأداء، والتدرجية والأهم من التعافي من الكوارث. والفرق بين اتفاقات مستوى الخدمة ‘المعقولة’ و’5 -9 ‘هو الفرق بين الارتجال والمواءمة الكاملة للعمليات التشغيلية لكل منا … وينبغي ألا يكون هناك جدران اتصال بين إياس و باس و ساس و طبقات العملاء من البنية التحتية السحابية.

تحد الأمازون في الأسابيع المقبلة هو إظهار أنها على استعداد لإعطاء عملائها المعلومات التي يحتاجونها لبناء في تلك المرونة بشكل موثوق. وإذا لم تلب هذه الحاجة وتسمح للآخرين بأن ينجزوا على نحو أفضل، فقد يبدأون تدريجيا بفقدان مركزه المهيمن اليوم في توفير النظام.

؟ M2M السوق مستبعد مرة أخرى في البرازيل

ما هو المبدأ التنظيمي لمكان العمل الرقمي اليوم؟

من الذي يؤثر على مدراء تقنية المعلومات؟ إليك أهم 20 أغنية

بنك أنز لخلط سطح السفينة التكنولوجيا التنفيذية

Refluso Acido