Jaka jest twoja lista kontrolna, kiedy wszystko się wysypie?

40

Użytkownicy nie mogą uzyskać dostępu do wiadomości e-mail, dyrektor generalny nie może dostać się na stronę główną firmy, a twój pager właśnie wyszedł z kodem „911”. Co robisz, gdy wszystko wysadza w powietrze?

Jon Galloway
źródło

Odpowiedzi:

35

Pierwsza odpowiedź brzmi: zachowaj spokój! Dowiedziałem się, że trudny sposób, w jaki panika często tylko pogarsza sytuację. Po osiągnięciu tego, następną rzeczą jest sprawdzenie, na czym polega problem. Skargi od użytkowników i menedżerów będą napływać do ciebie ze wszystkich stron, mówiąc ci, czego NIE mogą zrobić, ale nie na czym polega problem.

Gdy poznasz problem, możesz rozpocząć plan jego naprawy i dać swoim gniewnym użytkownikom harmonogram!

Sam Cogan
źródło
3
To jest plan reaktywny. Prawdziwy plan odzyskiwania po awarii jest już napisany i przetestowany dla każdego krytycznego procesu biznesowego.
spoulson
3
spaulson na pewno: ale pierwszą rzeczą do zrobienia jest ustalenie, czy musisz aktywować plan lub czy odwrócenie wyłącznika naprawi to wszystko.
pjz
1
To jest właściwie najlepsza rzecz do zrobienia, PERFECT POST! Po tym, jak będziesz w stanie utrzymać całą presję na plecach, ponieważ jak powiedziano w komentarzach powyżej, wszyscy spieszą się do twojego biura, aby powiedzieć ci, że mogą iść tam, gdzie chcą. W rzeczywistości użytkownicy są przez większość czasu naprawdę samolubni i nie chcą wcale zrozumieć, chcą, żeby TO działało i nie dbają o resztę ... Więc całkowicie zgadzam się z twoim postem !
Marc-Andre R.
+1 za odróżnienie „problemu” od objawów.
bmb
59

Zachowaj spokój

Nie wariuj. Oddychać! (Z przepony to pomaga.) Jeśli studiowałeś medytację, to też może pomóc.

W obliczu ekstremalnego stresu twoje ciało przejdzie w tryb ucieczki lub walki, ponieważ twoje ciało myśli, że znajduje się w sytuacji życia lub śmierci. W tym czasie twoje ciało faktycznie pompuje mniej krwi do niektórych części mózgu, zmniejszając funkcje takie jak rozumowanie. To skutecznie obniża twoje IQ, ponieważ instynkt zamiast racjonalności zaczyna dominować funkcje mózgu. Jeśli kiedykolwiek byłeś lub byłeś świadkiem gorącej kłótni, możesz rozpoznać te symptomy, gdy emocje ludzi wybuchają, a racjonalność bierze urlop. Później, kiedy ludzie będą mieli okazję się ochłodzić, będą bardziej skłonni zaakceptować popełnienie błędu lub pomyłkę i będą w stanie zobaczyć drugą stronę, ale w gorącym momencie, mniej.

Utrzymanie opanowania i rozsądek sprawi, że twój mózg będzie w pełni funkcjonował i zapewni, że podejmiesz racjonalne decyzje na podstawie dowodów i rozumu, a nie emocji i strachu.

Ocena stanu zdrowia rannych

Niezwykle ważne jest tutaj efektywne wykorzystanie ograniczonych zasobów w celu osiągnięcia największych korzyści przy najniższych kosztach. Podejmij decyzje tak wcześnie, jak to możliwe, które rzeczy muszą zostać naprawione TERAZ, które mogą chwilę poczekać (godziny, dni), a które mogą czekać w nieskończoność. Naucz się także zdawać sobie sprawę z tego, że coś jest nie do odzyskania i nie jest warte oszczędzania (np. Połowa routera stopiła się, nawet jeśli jest to twój jedyny, nie możesz go zapisać, kupić nowego i dostać na miejscu po pośpiechu lub znaleźć coś, co może wypełnić tymczasowo lukę).

Zachowaj świadomość sytuacyjną

Nie pozwól, aby twoja uwaga została uwięziona przez jakiś interesujący problem lub coś, czego jeszcze nie rozumiesz. Skup się na dużym obrazie i na tym, aby najważniejsze rzeczy działały.

Użyj metody naukowej

Stwórz hipotezę. Określ, jak przetestujesz tę hipotezę. Zbierz dane, aby przetestować hipotezę. Poszukaj również danych potwierdzających. Doprecyzuj swoją hipotezę i powtórz cykl tyle razy, ile to konieczne, aż będziesz mieć wystarczającą pewność co do swojej hipotezy, aby podjąć działanie.

Bądź pragmatyczny

Teraz nie czas na dogmaty. Można odzyskać kilka skrótów tu i tam podczas odzyskiwania po awarii. Jest to zasadniczo narastający dług techniczny. W wielu firmach katastrofalna awaria oznacza katastrofalną utratę dochodów. Lepiej jest działać, nawet na niepewnym podłożu, niż pilnie ryzykować i zaryzykować utrzymanie swojej firmy. Jak zawsze, osąd jest tutaj niezwykle ważny. Czasami sensowne jest podpieranie wentylatora skrzynkowego skierowanego na szafę serwerową, a czasem nie.

Dbać o siebie

Jak długo pracujesz nad tą sytuacją kryzysową? Kiedy ostatni raz piłeś wodę? Kiedy ostatnio jadłeś? Jak długo nie śpisz? Nie wypalaj się tylko dlatego, że jest nagły wypadek, poświęć czas na nawodnienie, karmienie i wypoczynek (na wypadek, gdyby był to długi, wielodniowy slog).

Pomoc rekrutacyjna

W Twojej firmie prawie na pewno jest wielu utalentowanych ludzi, którzy są zarówno zmotywowani, jak i zdolni do udzielania pomocy. Uważaj jednak, aby zbyt wielu ludzi biegało i powodowało problemy. Uważaj również na irytujących ludzi, przeprowadzając ich przez „firedrill”. Znajdź osoby, które chcą już pomóc, zachęć ich do pracy nad ukierunkowanymi zadaniami i upewnij się, że ludzie się ze sobą komunikują.

Komunikować się

Komunikacja ma kluczowe znaczenie. Nic nie jest tak przerażające jak nieznane. Kiedy ludzie nie wiedzą nic poza tym, że coś jest zepsute, puste stwierdzenie, że zostanie ono przywrócone za X godzin, jest tylko nieco uspokajające (jeszcze mniej uspokajające po upływie X godzin i sprawy nadal się psują). Naciski w grze mogą cię popchnąć w kierunku zbyt optymistycznego oszacowania czasu WAG, ale jest to zły kurs. Nie mów tylko, że nad tym pracujesz, nie mów tylko, że rzeczy zostaną naprawione przed czasem X. Bądź otwarty, pokaż swój proces, opisz szczegółowo swoje postępy i niepowodzenia. Zapewnij wgląd w problem, proces jego śledzenia i swój plan naprawy (choć nie utopiaj ludzi w drobiazgach). Pokaż, że problem nie jest nierozwiązywalny, pokaż, że ostatecznie uda się rozwiązać problem, pokaż, że problem stanowią kompetentni ludzie,

Klin
źródło
2
Bardzo dobrze - dodam również pomoc rekrutacyjną, jeśli to możliwe
Brent
@Brent ah tak, chciałem to dodać. Jednak nie znalazłem jeszcze odpowiedniego sformułowania dla tej sekcji.
Wedge
24

Nie panikuj.

Jauder Ho
źródło
4
Duże, przyjazne czerwone litery.
Spoike
1
Słyszałem, że różowy jest uspokajającym kolorem.
Sophie Alpert
11
Złap ręcznik i zostaw wiadomość „Tak długo i dziękuję za wszystkie ryby”.
Jauder Ho
1
Mówią, że taupe jest bardzo kojące
Glenn Slaven
Jest w połowie drogi pod względem głosowania!
Andrew Grimm,
22

Krok 0. Sprawdź, czy to nie wina twojego systemu monitorowania

Dave Cheney
źródło
LOL! Niezłe! Dzieje się tak wiele razy: P
Marc-Andre R.
12

zaloguj się do serverfault

Phil Nash
źródło
11

Natychmiast zarezerwuj lot do kraju, który nie jest ekstradycją

Glenn Slaven
źródło
8

Najpierw sprawdź podstawy, wydaje się to głupie, ale takie rzeczy

  1. Czy w serwerze jest włączone zasilanie? (jeśli prowadzisz witrynę poza witryną)
  2. Czy Twój dostawca hostingu nie działa?

Wiem, że dużo czasu można zmarnować, szukając rozwiązania, gdy problem występuje wcześniej

Glenn Slaven
źródło
2
tak - jeśli wszystko idzie w dół - sprawdź centrum danych - i ich fora wsparcia. Jeśli w Internecie jest 30 osób, a zwykle 3 - trafienie w wentylator.
Alister Bulman
6

Pinguję różne rzeczy. To, co dzieje się później, różni się znacznie w zależności od wyników polecenia ping.

Dylan Beattie
źródło
Użyłem tej metody dzisiaj. Wiele komputerów nie może drukować. Próbowałem pingować serwer bazy danych, OK. Próbowałem pingować serwer licencji drukarki, brak odpowiedzi. Wynik = Błąd serwera!
Swinders
Dobra uwaga;) Robię to wiele razy dziennie, zanim zrobię cokolwiek innego. To tak naprawdę oszczędność czasu: P
Marc-Andre R.
4

Obwiniaj sieć.

(to żart!)

Chłopak
źródło
3

RTFLF - Przeczytaj plik dziennika Frakkina

(Nie mogę tego przypisać, wszystko idzie do Scotta Hanselmana )

Dillie-O
źródło
To nie powinien być pierwszy krok, ale musi to być jeden z nich.
Marc-Andre R.
2

Nie próbuj jeszcze niczego naprawiać.

Upewnij się, że dokładnie wiesz, na czym polega prawdziwy problem. Teraz zaczynam naprawiać. Jeśli jest wiele rzeczy do naprawienia, dokładnie zastanów się, które rzeczy można opóźnić (przynajmniej do następnego dnia roboczego!), A które absolutnie muszą zostać naprawione teraz.

Ale co najważniejsze: kiedy wszystko już działa, zapytaj, dlaczego „wszystko wysadziło”? Co zamierzasz zrobić, aby to się nie powtórzyło? Czy są jakieś kroki, które sprawiają, że rozwiązanie łatwiejsze, jeśli to nie powtórzy?

Stewart
źródło
1

Poinformuj ludzi, że to robisz, i jeśli to możliwe, oceń, kiedy wszystko wróci do normy.

Jeśli chodzi o rzeczywiste rozwiązywanie problemów, to oczywiście zależy od tego, co jest nie tak. Zazwyczaj przechowuję kolekcję skryptów „sprawdź status” dla różnych usług.

Brian Rasmussen
źródło
Dlaczego to było niemodne? Wydaje mi się to słusznym punktem.
Adriano Varoli Piazza
To jest doskonały punkt. Zapobieganie jest kluczem do uniknięcia wielkiej katastrofy;)
Marc-Andre R.
1

Sprawdź okablowanie! Straciłem godziny na sprawdzaniu innych rzeczy, gdy zwykła zamiana kabli Eth0 rozwiązałaby problem ...

Adriano Varoli Piazza
źródło
W rzeczywistości kabel nie umiera bez powodu. Jeśli nie jest to dobrze układać, owijać lub w jakikolwiek inny sposób, a każdy może się tym bawić, tak, kabel prawdopodobnie się zepsuje. W przeciwnym razie nie ma powodu.
Marc-Andre R.
0

Powinieneś mieć plany awaryjne.

Systemy Essential powinny być zaprojektowane z automatycznym przełączaniem awaryjnym lub udokumentowanym i przetestowanym planem odzyskiwania.

Im ważniejszy jest system, tym więcej odporności trzeba wbudować i tym bardziej powinien on być automatyczny.

Jeśli nie masz, to nie było ważne, prawda!

Chłopak
źródło
0

Upewnij się, że kopia zapasowa Twojego CV jest bezpieczna :) Następnie,

Znajdź podobieństwa. Co jest wspólne dla wszystkich systemów, których dotyczy problem.

Znajdź zmiany. Powinieneś mieć formalne zarządzanie zmianami w swojej organizacji.

Gdzie jest nowy facet ... gdzie jest szef ...? Czy jeden z nich skorzystał ze skrótu? (to po prostu szybki restart serwera, co może zaszkodzić)

BIBD
źródło
0

Z oświadczenia trudno jest podać konkretny zestaw działań. Twój pierwszy ruch będzie oparty na:

  • Gdzie jesteś
  • Ile informacji możesz wycisnąć z osoby, która się z tobą skontaktowała
  • Jakie masz natychmiastowe narzędzia do rozwiązywania problemów (lub wyszukiwania informacji)
  • Twoja wiedza na temat fizycznych i logicznych ścieżek Twojej sieci
  • Ile masz pomocy (część zespołu? Lub samotny ninja?)

Oczywiście musisz zachować spokój i czujność na temat problemu. Twoje doświadczenie w rozwiązywaniu problemów z siecią nauczy cię, że może to być coś trywialnego, na przykład:

  • Odłączony kabel
  • Niezapowiedziana konserwacja (kolejna technika „naprawiania” rzeczy)
  • Twój CEO nadmiernie reaguje na to, że firma jest całkowicie skazana na utratę łączności bezprzewodowej z laptopem z powodu jego / jej kuchenki mikrofalowej z pizzą serową.

Powiedziawszy to, może to być również coś poważnego w kategoriach:

  • Transport fizyczny (łączność)
  • Sprzęt (router \ switch \ server)
  • Pamięć masowa (niedostępna \ zagrożona \ usunięta)
  • Oprogramowanie (usługa> źle skonfigurowane \ zaatakowane \ offline)

Kluczowym elementem jest to, ile WIESZ na temat problemu. Jaki jest twój punkt odniesienia? (z jakiej perspektywy „system jest wyłączony”?).

l0c0b0x
źródło
0

Zacznij od prostych i pracuj w kierunku absurdu.

Moc?

Ethernet?

Program działa?

...

Kosmici?

Robert
źródło