Użytkownicy nie mogą uzyskać dostępu do wiadomości e-mail, dyrektor generalny nie może dostać się na stronę główną firmy, a twój pager właśnie wyszedł z kodem „911”. Co robisz, gdy wszystko wysadza w powietrze?
disaster-recovery
Jon Galloway
źródło
źródło
Zachowaj spokój
Nie wariuj. Oddychać! (Z przepony to pomaga.) Jeśli studiowałeś medytację, to też może pomóc.
W obliczu ekstremalnego stresu twoje ciało przejdzie w tryb ucieczki lub walki, ponieważ twoje ciało myśli, że znajduje się w sytuacji życia lub śmierci. W tym czasie twoje ciało faktycznie pompuje mniej krwi do niektórych części mózgu, zmniejszając funkcje takie jak rozumowanie. To skutecznie obniża twoje IQ, ponieważ instynkt zamiast racjonalności zaczyna dominować funkcje mózgu. Jeśli kiedykolwiek byłeś lub byłeś świadkiem gorącej kłótni, możesz rozpoznać te symptomy, gdy emocje ludzi wybuchają, a racjonalność bierze urlop. Później, kiedy ludzie będą mieli okazję się ochłodzić, będą bardziej skłonni zaakceptować popełnienie błędu lub pomyłkę i będą w stanie zobaczyć drugą stronę, ale w gorącym momencie, mniej.
Utrzymanie opanowania i rozsądek sprawi, że twój mózg będzie w pełni funkcjonował i zapewni, że podejmiesz racjonalne decyzje na podstawie dowodów i rozumu, a nie emocji i strachu.
Ocena stanu zdrowia rannych
Niezwykle ważne jest tutaj efektywne wykorzystanie ograniczonych zasobów w celu osiągnięcia największych korzyści przy najniższych kosztach. Podejmij decyzje tak wcześnie, jak to możliwe, które rzeczy muszą zostać naprawione TERAZ, które mogą chwilę poczekać (godziny, dni), a które mogą czekać w nieskończoność. Naucz się także zdawać sobie sprawę z tego, że coś jest nie do odzyskania i nie jest warte oszczędzania (np. Połowa routera stopiła się, nawet jeśli jest to twój jedyny, nie możesz go zapisać, kupić nowego i dostać na miejscu po pośpiechu lub znaleźć coś, co może wypełnić tymczasowo lukę).
Zachowaj świadomość sytuacyjną
Nie pozwól, aby twoja uwaga została uwięziona przez jakiś interesujący problem lub coś, czego jeszcze nie rozumiesz. Skup się na dużym obrazie i na tym, aby najważniejsze rzeczy działały.
Użyj metody naukowej
Stwórz hipotezę. Określ, jak przetestujesz tę hipotezę. Zbierz dane, aby przetestować hipotezę. Poszukaj również danych potwierdzających. Doprecyzuj swoją hipotezę i powtórz cykl tyle razy, ile to konieczne, aż będziesz mieć wystarczającą pewność co do swojej hipotezy, aby podjąć działanie.
Bądź pragmatyczny
Teraz nie czas na dogmaty. Można odzyskać kilka skrótów tu i tam podczas odzyskiwania po awarii. Jest to zasadniczo narastający dług techniczny. W wielu firmach katastrofalna awaria oznacza katastrofalną utratę dochodów. Lepiej jest działać, nawet na niepewnym podłożu, niż pilnie ryzykować i zaryzykować utrzymanie swojej firmy. Jak zawsze, osąd jest tutaj niezwykle ważny. Czasami sensowne jest podpieranie wentylatora skrzynkowego skierowanego na szafę serwerową, a czasem nie.
Dbać o siebie
Jak długo pracujesz nad tą sytuacją kryzysową? Kiedy ostatni raz piłeś wodę? Kiedy ostatnio jadłeś? Jak długo nie śpisz? Nie wypalaj się tylko dlatego, że jest nagły wypadek, poświęć czas na nawodnienie, karmienie i wypoczynek (na wypadek, gdyby był to długi, wielodniowy slog).
Pomoc rekrutacyjna
W Twojej firmie prawie na pewno jest wielu utalentowanych ludzi, którzy są zarówno zmotywowani, jak i zdolni do udzielania pomocy. Uważaj jednak, aby zbyt wielu ludzi biegało i powodowało problemy. Uważaj również na irytujących ludzi, przeprowadzając ich przez „firedrill”. Znajdź osoby, które chcą już pomóc, zachęć ich do pracy nad ukierunkowanymi zadaniami i upewnij się, że ludzie się ze sobą komunikują.
Komunikować się
Komunikacja ma kluczowe znaczenie. Nic nie jest tak przerażające jak nieznane. Kiedy ludzie nie wiedzą nic poza tym, że coś jest zepsute, puste stwierdzenie, że zostanie ono przywrócone za X godzin, jest tylko nieco uspokajające (jeszcze mniej uspokajające po upływie X godzin i sprawy nadal się psują). Naciski w grze mogą cię popchnąć w kierunku zbyt optymistycznego oszacowania czasu WAG, ale jest to zły kurs. Nie mów tylko, że nad tym pracujesz, nie mów tylko, że rzeczy zostaną naprawione przed czasem X. Bądź otwarty, pokaż swój proces, opisz szczegółowo swoje postępy i niepowodzenia. Zapewnij wgląd w problem, proces jego śledzenia i swój plan naprawy (choć nie utopiaj ludzi w drobiazgach). Pokaż, że problem nie jest nierozwiązywalny, pokaż, że ostatecznie uda się rozwiązać problem, pokaż, że problem stanowią kompetentni ludzie,
źródło
Nie panikuj.
źródło
Krok 0. Sprawdź, czy to nie wina twojego systemu monitorowania
źródło
zaloguj się do serverfault
źródło
Natychmiast zarezerwuj lot do kraju, który nie jest ekstradycją
źródło
Najpierw sprawdź podstawy, wydaje się to głupie, ale takie rzeczy
Wiem, że dużo czasu można zmarnować, szukając rozwiązania, gdy problem występuje wcześniej
źródło
Pinguję różne rzeczy. To, co dzieje się później, różni się znacznie w zależności od wyników polecenia ping.
źródło
Przykro nam, ale na to pytanie doskonale już odpowiedział w Ulubiony rysunek sysadmin :
źródło
Obwiniaj sieć.
(to żart!)
źródło
RTFLF - Przeczytaj plik dziennika Frakkina
(Nie mogę tego przypisać, wszystko idzie do Scotta Hanselmana )
źródło
Nie próbuj jeszcze niczego naprawiać.
Upewnij się, że dokładnie wiesz, na czym polega prawdziwy problem. Teraz zaczynam naprawiać. Jeśli jest wiele rzeczy do naprawienia, dokładnie zastanów się, które rzeczy można opóźnić (przynajmniej do następnego dnia roboczego!), A które absolutnie muszą zostać naprawione teraz.
Ale co najważniejsze: kiedy wszystko już działa, zapytaj, dlaczego „wszystko wysadziło”? Co zamierzasz zrobić, aby to się nie powtórzyło? Czy są jakieś kroki, które sprawiają, że rozwiązanie łatwiejsze, jeśli to nie powtórzy?
źródło
Poinformuj ludzi, że to robisz, i jeśli to możliwe, oceń, kiedy wszystko wróci do normy.
Jeśli chodzi o rzeczywiste rozwiązywanie problemów, to oczywiście zależy od tego, co jest nie tak. Zazwyczaj przechowuję kolekcję skryptów „sprawdź status” dla różnych usług.
źródło
Sprawdź okablowanie! Straciłem godziny na sprawdzaniu innych rzeczy, gdy zwykła zamiana kabli Eth0 rozwiązałaby problem ...
źródło
Powinieneś mieć plany awaryjne.
Systemy Essential powinny być zaprojektowane z automatycznym przełączaniem awaryjnym lub udokumentowanym i przetestowanym planem odzyskiwania.
Im ważniejszy jest system, tym więcej odporności trzeba wbudować i tym bardziej powinien on być automatyczny.
Jeśli nie masz, to nie było ważne, prawda!
źródło
Upewnij się, że kopia zapasowa Twojego CV jest bezpieczna :) Następnie,
Znajdź podobieństwa. Co jest wspólne dla wszystkich systemów, których dotyczy problem.
Znajdź zmiany. Powinieneś mieć formalne zarządzanie zmianami w swojej organizacji.
Gdzie jest nowy facet ... gdzie jest szef ...? Czy jeden z nich skorzystał ze skrótu? (to po prostu szybki restart serwera, co może zaszkodzić)
źródło
Podoba mi się ta lista rozwiązywania problemów Prosta aplikacja do rozwiązywania problemów teraz naprawia wszystko =)
źródło
Z oświadczenia trudno jest podać konkretny zestaw działań. Twój pierwszy ruch będzie oparty na:
Oczywiście musisz zachować spokój i czujność na temat problemu. Twoje doświadczenie w rozwiązywaniu problemów z siecią nauczy cię, że może to być coś trywialnego, na przykład:
Powiedziawszy to, może to być również coś poważnego w kategoriach:
Kluczowym elementem jest to, ile WIESZ na temat problemu. Jaki jest twój punkt odniesienia? (z jakiej perspektywy „system jest wyłączony”?).
źródło
Sprawdź DNS.
źródło
Zacznij od prostych i pracuj w kierunku absurdu.
Moc?
Ethernet?
Program działa?
...
Kosmici?
źródło