Jedna ze stron mojego klienta otrzymała bezpośrednie uderzenie pioruna w zeszłym tygodniu (przypadkowo w piątek 13! ).
Byłem daleko od strony, ale pracując z kimś na miejscu, odkryłem dziwny wzór uszkodzeń. Oba łącza internetowe były wyłączone, większość serwerów była niedostępna. Wiele uszkodzeń miało miejsce w MDF , ale jeden IDF podłączony do światłowodu stracił również 90% portów w elemencie stosu przełączników. Dostępnych było wystarczająco dużo zapasowych portów przełączników, aby rozprowadzić okablowanie w innym miejscu i przeprogramować, ale wystąpiły przestoje, gdy ścigaliśmy uszkodzone urządzenia.
To był nowy budynek / obiekt magazynowy i wiele planowania poświęcono na zaprojektowanie serwerowni. Główna serwerownia jest zasilana z internetowego zasilacza UPS APC SmartUPS RT 8000VA z podwójną konwersją, wspieranego przez generator. Prawidłowy rozdział mocy do wszystkich podłączonych urządzeń. Miała miejsce replikacja danych poza siedzibą i kopie zapasowe systemów.
Podsumowując, szkoda (której jestem świadom) to:
- Awaria 48-portowej karty linii w przełączniku obudowy Cisco 4507R-E .
Awaria przełącznika Cisco 2960 w stosie 4-elementowym.(ups ... luźny kabel do układania w stosy)- Kilka niestabilnych portów na przełączniku Cisco 2960.
- Płyta główna i zasilacz HP ProLiant DL360 G7
- Moduł równoważący łącza Elfiq WAN.
- Jeden modem faksu Multitech.
- WiMax / Stała bezprzewodowa antena internetowa i wtryskiwacz mocy.
- Wiele urządzeń podłączonych do PoE (telefony VoIP, punkty dostępu Cisco Aironet, kamery bezpieczeństwa IP)
Większość problemów dotyczyła utraty całego przełącznika w Cisco 4507R-E. Zawierało to część sieci VMware NFS i łącze do zapory ogniowej witryny. Host VMWare zawiódł, ale HA zajął się maszyną wirtualną po przywróceniu łączności sieciowej z pamięcią masową. Zostałem zmuszony do ponownego uruchomienia / wyłączenia zasilania wielu urządzeń, aby wyczyścić funky stany zasilania. Czas na wyzdrowienie był krótki, ale jestem ciekawy, jakich lekcji należy się nauczyć ...
- Jakie dodatkowe zabezpieczenia należy wdrożyć, aby chronić sprzęt w przyszłości?
- Jak podejść do gwarancji i wymiany? Cisco i HP wymieniają elementy w ramach umowy. Drogi moduł równoważący łącza WAN Elfiq ma na swojej stronie napis, który w zasadzie powiedział „szkoda, użyj zabezpieczenia przeciwprzepięciowego ”. (wygląda na to, że oczekują tego typu awarii)
- Pracowałem w branży IT wystarczająco długo, aby w przeszłości spotkać się z uszkodzeniami spowodowanymi przez burze, ale z bardzo ograniczonym wpływem; np. interfejs sieciowy taniego komputera lub zniszczenie mini przełączników.
- Czy jest coś jeszcze, co mogę zrobić, aby wykryć potencjalnie niestabilny sprzęt, czy po prostu muszę czekać na pojawienie się dziwnego zachowania?
- Czy to wszystko po prostu pech, czy coś, co naprawdę powinno zostać uwzględnione w procesie odzyskiwania po awarii?
Przy wystarczającej liczbie $$$ można zbudować różnego rodzaju zwolnienia w środowisku, ale jaka jest rozsądna równowaga między zapobiegawczym / przemyślanym projektem a efektywnym wykorzystaniem zasobów?
Odpowiedzi:
Kilka prac temu jedno z centrów danych dla miejsca, w którym pracowałem, było jedno piętro poniżej bardzo dużej anteny. Ten duży, cienki, metalowy przedmiot był najwyższą rzeczą w okolicy i uderzał w niego błyskawica co około 18 miesięcy. Samo centrum danych zostało zbudowane około 1980 roku, więc nie nazwałbym go najnowocześniejszym urządzeniem na rynku, ale mieli oni duże doświadczenie w radzeniu sobie z uszkodzeniami od uderzenia pioruna (płyty szeregowe musiały być wymieniane za każdym razem , co jest próbą płyty są w systemie, w którym od 10 lat nie wyprodukowano żadnych nowych części).
Jedną rzeczą, która została przywołana przez stare ręce, jest to, że cały ten fałszywy prąd może znaleźć drogę dookoła wszystkiego i może rozprzestrzeniać się na wspólnej ziemi po tym, jak się mostkuje. I może łączyć się ze szczelin powietrznych. Błyskawica jest wyjątkowym przypadkiem, w którym normalne standardy bezpieczeństwa nie są wystarczająco dobre, aby zapobiec łukom i posuną się tak daleko, jak ma energię. I ma dużo. Jeśli jest wystarczająco dużo energii, może wyskoczyć z siatki podwieszanej (być może jeden z drutów podwieszonych jest zawieszony na pętli z połączeniem z dźwigarem budowlanym w cemencie) na górę szafy 2-słupkowej, a stamtąd do gadżety sieciowe.
Podobnie jak hakerzy, możesz tylko tyle zrobić. Wszystkie wasze zasilacze mają wyłączniki, które ograniczają niepożądane napięcia, ale wasz niskonapięciowy sprzęt sieciowy prawie nigdy tego nie robi i stanowi wspólną ścieżkę dla niezwykle energicznego prądu.
Wykrywanie potencjalnie łuszczącego się zestawu to coś, co wiem, jak robić w teorii, ale nie w rzeczywistości. Prawdopodobnie najlepszym rozwiązaniem jest umieszczenie podejrzanego sprzętu w pewnym obszarze i celowe podniesienie temperatury w pomieszczeniu do górnej granicy zakresu operacyjnego i sprawdzenie, co się stanie. Przeprowadź kilka testów, załaduj go do cholery. Zostaw to na kilka dni. Dodatkowy stres termiczny związany z jakimkolwiek wcześniejszym uszkodzeniem elektrycznym może zniszczyć niektóre bomby zegarowe.
Zdecydowanie skróciło to żywotność niektórych urządzeń, ale ustalenie, które z nich jest trudne. Obwody kondycjonujące zasilanie wewnątrz zasilaczy mogą mieć uszkodzone komponenty i dostarczać brudne zasilanie do serwera, co można wykryć jedynie za pomocą specjalistycznych urządzeń zaprojektowanych do testowania zasilaczy.
Uderzenia pioruna nie są czymś, co rozważałem dla DR poza posiadaniem DC w obiekcie z gigantyczną piorunochronem na dachu . Ogólnie rzecz biorąc, strajk jest jedną z tych rzeczy, które zdarzają się tak rzadko, że tasuje się pod „aktem boskim” i idzie dalej.
Ale ... już go masz. To pokazuje, że Twój obiekt przynajmniej raz miał odpowiednie warunki. Czas ocenić, czy Twoja placówka ma odpowiednie warunki i odpowiednio zaplanować. Jeśli teraz myślisz tylko o uderzeniu pioruna w DR, myślę, że to właściwe.
źródło
Antenna->PoE injector->WAN link balancer->Firewall->Dead Cisco 4507 linecard
Zastanawiałem się nad tym pytaniem, ponieważ ostatnio zostało ono z powrotem edytowane na górze pierwszej strony.
Dowolnie zastrzegam, że dla osób takich jak sysadmin1138, które mają do czynienia z instalacjami, które są bardzo atrakcyjne dla dużych uderzeń pioruna w dach DC, sensowne jest specjalne planowanie awaryjne dla dużego uderzenia. Ale dla większości z nas jest to jednorazowa okoliczność i pomyślałem, że odpowiedź bardziej odpowiednia dla reszty z nas może mieć jakąś wartość.
Można sobie wyobrazić wszelkiego rodzaju zagrożenia fabularne ; scenariusze, które z pewnością mogłyby się zdarzyć, bez wątpienia zniszczyłyby Twoją działalność biznesową, gdyby tak się stało, ale nie ma powodu, aby sądzić, że istnieje większe prawdopodobieństwo, że się wydarzy. Znasz tego rodzaju rzeczy; uderzenie samolotu / piorun / zajezdnia naftowa w pobliżu eksploduje / każdy inny możliwy scenariusz ryzyka
Każdy z nich ma konkretny plan łagodzenia, który można wprowadzić, ale sugerowałbym, że - modulo moje zastrzeżenie powyżej - nie ma sensu tego robić . Jak Schneier próbuje wskazać w wyżej wymienionym konkursie, tylko dlatego, że można sobie wyobrazić, że dzieje się coś strasznego, nie stanowi zagrożenia, dla którego konkretne planowanie jest opłacalne, a nawet pożądane. To, co ma sens z biznesowego punktu widzenia, to dobrze udokumentowany, sprawdzony plan ciągłości działania ogólnego przeznaczenia.
Powinieneś zadać sobie pytanie, jakie są koszty biznesowe całkowitej utraty witryny na różne okresy czasu (np. 24 godziny, 96 godzin, tydzień, miesiąc) i spróbować oszacować prawdopodobieństwo każdego wystąpienia. Musi to być uczciwa analiza kosztów biznesowych, kupowana przez wszystkie poziomy działalności. Pracowałem w witrynie, w której ogólnie przyjęty wskaźnik przestojów wynosił 5,5 miliona funtów na godzinę (i to było 20 lat temu, kiedy pięć milionów funtów to dużo pieniędzy); uzgodnienie tej liczby znacznie ułatwiło podejmowanie wielu decyzji , ponieważ stały się one kwestią prostych obliczeń matematycznych.
Twój budżet to przewidywana strata pomnożona przez roczną szansę tej straty; teraz zobacz, co możesz zrobić, aby zmniejszyć to zagrożenie dla budżetu.
W niektórych przypadkach będzie to działać w stanie pełnego centrum danych z zimnym sprzętem, gotowym do pracy 24x7. Może to oznaczać małe rezerwowe centrum danych, dzięki czemu interakcja z klientem może być kontynuowana przy bardzo ograniczonej liczbie operatorów telefonicznych i zastępczej witrynie ostrzegającej o zakłóceniach. Może to oznaczać drugie, nadmiarowo przekierowane połączenie internetowe na głównej stronie, leżąc zimno, dopóki nie będzie potrzebne. Może to oznaczać, jak zauważa powyżej Mark Henderson, ubezpieczenie (ale ubezpieczenie pokrywające straty biznesowe, a także faktyczne koszty odzyskania); jeśli możesz wydać budżet BC na jedną kartkę papieru, która pokryje wszystkie oczekiwane koszty w przypadku katastrofy, warto kupić ten kawałek papieru - ale nie zapomnij uwzględnić awarii ubezpieczycielaw Twój plan ryzyka biznesowego. Może to oznaczać modernizację umów serwisowych na niektóre podstawowe urządzenia do wyjątkowo drogich, trwających cztery godziny do naprawy. Tylko Ty możesz wiedzieć, co ma sens dla Twojej firmy.
A kiedy już masz ten plan, naprawdę musisz go przetestować (z możliwym wyjątkiem ubezpieczeniowych). Pracowałem w miejscu, w którym mieliśmy kompletny zimny zakład na małą skalę, gotowy do przejścia do, 45 minut jazdy od naszego głównego obiektu. Kiedy mieliśmy problem z zamknięciem sieci bazowej, próbowaliśmy naprawić ją na żywo zamiast przejść do zimnej witryny, a następniemocowanie rdzenia i wycinanie. Jednym z powodów niemożności przerzucenia było to, że nie mieliśmy pojęcia, ile czasu zajmie cięcie i cięcie. Dlatego nikt tak naprawdę nie wiedział, jak długo powinno trwać bez przejścia przed podjęciem decyzji o cięciu, więc - całkiem zrozumiałe - istniała powściągliwość, aby zdecydować się na cięcie. Głowice potoczyły się po naszym powrocie online, 14 godzin później; nie z powodu awarii per se , ale ponieważ dużo pieniędzy wydano na obiekcie w celu złagodzenia przerwa dzień-plus, który leżał nieużywany podczas właśnie takiego przestoju.
Na koniec należy pamiętać, że komponenty biznes planu zlecone na zewnątrz nie mają gwarancji działania. Twoje kierownictwo wyższego szczebla może siedzieć i myśleć „ jeśli umieścimy serwery w chmurze, one zawsze będą tam i będziemy mogli zwolnić sysadminów ”. Skąd. Chmury mogą zawieść jak wszystko inne; jeśli zleciłeś dostawcom krytyczne komponenty, wszystko, co zrobiłeś, to wyeliminowanie możliwości oszacowania prawdopodobieństwa awarii tych komponentów. Umowy SLA są bardzo dobre, ale jeśli nie są poparte znacznymi karami za niewykonanie, nie mają znaczenia - dlaczego twój dostawca miałby wydawać dodatkowe pieniądze na pozostawanie dostępnym, gdyby tylko mógł spłacić pieniądze i zwrócić koszty usług za okres niedostępność? Aby być niezawodnym, Twoje umowy SLA muszą podlegać karom zbliżonym do kosztów przestoju. Tak, to znacznie zwiększy koszty outsourcingu; i tak, należy się tego całkowicie spodziewać.
źródło
Zawsze sprowadza się do tego, ile chcesz wydać. Nie mam wystarczająco głębokiej wiedzy, aby o tym długo mówić, ale byłem w dużym centrum danych apteki, które uderzyło pioruna i dmuchnęło przez coś, co miało być wielokrotnie redundantnym ogranicznikiem kolców (i zostało zaprojektowane poprawnie , ale został źle zaimplementowany, więc coś przeszło).
Jaki był maksymalny skok, któremu Twój UPS mógł zapobiec? Powinien mieć ocenę. Najwyraźniej strajk był wystarczająco bezpośredni, aby go przekroczyć, lub coś przeciekało wokół zasilacza UPS, jak zła ziemia. Więc może przejrzeć swój projekt zasilania, ustalić, jak prawdopodobnie kolejny strajk jest porównanie kosztów przestojów X prawdopodobieństwa kontra rekultywacji, a może mieć elektryk dać obiekcie dobre badania, aby upewnić się, że wszystko jest prawidłowo uziemione - i kilka szybkich czytania pokazy uziemienie dla bezpieczeństwa / kodu nie jest tak intensywne jak uziemienie dla zapobiegania uszkodzeniom odgromowym.
źródło