Jak zachować spokój podczas awarii systemu produkcyjnego? [Zamknięte]

26

Zdarzyło się to większości z nas ...

Pewnego dnia przychodzisz do pracy. Wszystko wydaje się normalne - świeci słońce, śpiew ptaków, ale na drodze do pracy zauważasz kilka dziwnych rzeczy, które przypominają kota déjà vu w Matrix.

Wchodzisz do biura i dzwoni wiele telefonów - ale możliwe, że robią nową promocję sprzedaży. Osiedlasz się, gdy widzisz nad sobą ciemną chmurę.

Zajmie ci to kilka chwil, ale rozpoznasz, że chmura jest twoim szefem. Zwykle sprawdza cię każdego ranka swoim „Soooo Peeeeter, co powiesz na te raporty TCP / IP?” rutyna, ale dziś zapomniał o zwyczajnych manierach i niegrzecznie zaatakował twoją osobistą przestrzeń. Nie „Dzień dobry”, tylko trochę ślinienia, chrząkania i przekleństw. Przypomina trochę neandertalczyka, który próbuje uciec od tygrysa z zębami cybernetycznymi, strachu i paniki skompresowanej w ciasną piłkę. Próbujesz rozszyfrować nowy język, który stworzył od wczoraj, i zaczynasz rozumieć, że coś złego wydarzyło się z dnia na dzień - system produkcji przestał działać.

Teraz Twój system jest zwykle używany przez klientów w normalnych godzinach pracy od 9-5, ale z jakiegokolwiek powodu nie otrzymałeś żadnych powiadomień na brzęczyku (dla osób poniżej 30 roku życia - brzęczyk był jak telefon komórkowy, który mógł dzwonić i dzwonić powiedzieć, kto cię piszczał). Pamiętaj, aby następnym razem go naładować.

Jest teraz 8:45, a system MUSI być uruchomiony o 9 rano. Co 10 sekund twój szef wypuszcza kolejną klątwę, która informuje cię, że inny klient ma problemy z dostaniem się do systemu. Ponadto kilku menedżerów kont unosi się nad twoim szefem, próbując sprawić, by zrozumiał, jak NAPRAWDĘ NAPRAWDĘ cierpią klienci.

Wszyscy są zależni od ciebie, aby jak najszybciej uruchomić system, a jednocześnie utrudniają ci postęp, stale cię rozpraszając.

Jak zachować spokój w takiej sytuacji?

Mag20
źródło
34
Krok pierwszy: skomponuj 300-słowowy post na programmers.stackexchange.
kubi
8
Nie mówię, że to się teraz dzieje. Poczekaj, pozwól mi sprawdzić ...
Mag20,
1
Czy jest to problem unikalny dla programistów? Jeśli coś, za co jesteś odpowiedzialny, nie działa, musisz być w stanie poradzić sobie z presją niezależnie od tego, czym jest ta „rzecz”.
ChrisF
1
Przekonałem się, że z własnego doświadczenia bardzo niewiele domów programowych, dużych i małych, wykonuje dowolne ćwiczenia odzyskiwania po awarii. Złożyłbym to twojemu szefowi. Jeśli robisz ćwiczenia, wiesz, czego się spodziewać, i wiesz, jak reagować na czasy reakcji. Możesz także ocenić, czy którykolwiek z procesów można zautomatyzować. Co się stanie, jeśli stracisz moc? Co się stanie, jeśli w biurze wybuchnie pożar, czy masz lokalizację poza siedzibą? Czy twoje serwery są hostowane w domu, czy na zewnątrz itp. Naprawdę, musisz się stresować, aby wprowadzić plan awaryjny.
Desolate Planet,
3
To brzmi jak początek wpisu na TheDailyWTF!
Grant Palin,

Odpowiedzi:

43

W tej sytuacji poproś szefa, aby ci pomógł, trzymając wszystkich innych z dala od ciebie (co daje mu coś do zrobienia w innym miejscu).

Po ponownym uruchomieniu poproś szefa o spotkanie, aby ocenić i ustalić procedury pozwalające uniknąć tego ponownie.


źródło
1
+1. Ćwiczenia odzyskiwania po awarii są dobrym sposobem na ocenę reakcji i czasów reakcji. Szkoda, że ​​nie widzę wystarczająco dużo tego.
Desolate Planet,
@DP tak, ale nie możemy tego zrobić, ponieważ oznaczałoby to, że ludzie i sprzęt nie byliby dostępni do faktycznych sytuacji awaryjnych podczas trwającego ćwiczenia (tak, słyszałem ten argument więcej niż raz). Oczywiście, gdyby było wystarczająco dużo ludzi i sprzętu, można by szkolić jedną drużynę na jednym zestawie, podczas gdy druga jest na służbie ...
jwenting
@jwenting brzmi jak oszczędzanie na alarmie przeciwpożarowym.
9

Pierwszą rzeczą, którą należy zrobić, jest jak najgrzeczniejsze usunięcie zakłóceń. Nikt nie może pracować z kimś usidlającym w twoim uchu, jak źle jest to dla twoich klientów. Jest to oczywiście łatwiejsze do powiedzenia niż zrobione, jeśli twój szef jest maniakiem, ale w takim przypadku możesz rozważyć znalezienie innej pracy.

Następnie dokonaj szybkiej oceny rzeczywistej straty spowodowanej przez błąd i tego, jak (jeśli w ogóle) można go szybko zaradzić. Przy odrobinie praktyki możesz również szybko sprawdzić pliki dziennika, które będą potrzebne do opracowania planu działania.

Jeśli problem jest złożony, skoncentruj się na najcięższej jego części. Pomyśl dwa lub trzy kroki do przodu, zanim zaczniesz działać. Przed podjęciem działań upewnij się, że wiesz, jak wycofać się z dowolnego planu.

I najważniejsze: nie panikuj!

biziclop
źródło
7

Takie sytuacje są powszechne w przemysłowych systemach kontroli. Linia produkcyjna spada w środku nocy, firma zwykle traci setki, a nawet tysiące dolarów na minutę , i patrzą na ciebie, aby rozwiązać problem. Obsługujesz to w ten sposób:

  1. Wyjaśnij im, co wiesz
  2. Wyjaśnij, czego nie wiesz (ale musisz wiedzieć, aby rozwiązać problem)
  3. Wyjaśnij, jak dowiesz się, czego nie wiesz
  4. Podaj oszacowanie, ile to zajmie (użyj zakresu)
  5. Zignoruj ​​wszystko wokół siebie, koncentrując się na realizacji planu
Scott Whitlock
źródło
6

Pierwszą rzeczą jest wielokrotne ćwiczenie odzyskiwania po awarii (bez osób stojących za twoim ramieniem), abyś dokładnie wiedział, jakie kroki należy podjąć, aby zdiagnozować i naprawić problem bez konieczności sięgania po pytania dotyczące SO, aby dowiedzieć się, co robić. Kiedy poczujesz się pewnie w swoich umiejętnościach regeneracyjnych, presja i stres są znacznie niższe.

Następnie wyciągnij ludzi z włosów podczas pracy. Twój szef chce czegoś, z czym może pójść do swojego szefa. Przekaż im informacje o tym, co zamierzasz zrobić i jak długo to może potrwać, a następnie regularne raporty z postępów, szczególnie jeśli znajdziesz coś, co oznacza, że ​​zajmie to znacznie więcej czasu, niż im powiedziałeś. Tak, raporty postępu zajmują dużo czasu od naprawienia go, ale najechanie na bossów i użytkowników zajmuje jeszcze więcej czasu. Ja za każdym razem wybieram raporty z postępu. Gdy będą pewni, że będziesz je aktualizować, będą ci ufać, że wykonasz więcej pracy i pozostawiają cię w spokoju.

Jeśli użytkownicy będą blokowani przez jakiś czas, wyślij im wiadomość e-mail, jeśli jest to opcja, lub umieść powiadomienie na stronie internetowej, informując, że witryna nie działa z powodu konserwacji i kiedy powinni móc spróbować ponownie. (Być może jest to jedno z zadań, które możesz zlecić swojemu szefowi, aby znalazł kogoś do zrobienia, aby nie dopuścić do wypadania włosów). Ludzie są mniej szaleni, że nie mogą się zalogować, gdy wiedzą, że ktoś pracuje nad problemem. Gdy wszystko zostanie naprawione, jeśli wysłałeś wiadomość e-mail, wyślij wiadomość e-mail do tej samej grupy z informacją, że została naprawiona. Nie mogę powiedzieć, ile razy ludzie zapominają o tym, a użytkownicy nadal myślą, że nie mogą się zalogować, kiedy mogą. Celem nie jest tylko poprawa sytuacji, ale także sprawienie, by ludzie ponownie pracowali z systemem.

Oddychaj głęboko (głębokie oddechy uspokajają) i zanurz się w problem. Dobrze jest gdzieś zapisać rzeczy, które musisz zrobić, ponieważ w nagłych wypadkach synapsy mózgowe nie wyciągają informacji tak szybko, jak zwykle. Nie chcesz wyglądać jak idiota mruczący: „Wiem, że mamy dziennik, gdzie to do diabła jest?”

Jeśli wykonujesz pracę, w której wspierasz systemy produkcyjne, najlepiej być osobą, która ogólnie dobrze reaguje w sytuacji awaryjnej. Nie jestem pewien, czy naprawdę możesz się tego nauczyć. Jeśli ktoś jadący na koniu przed tobą spadł (niezbyt przypadkowy przykład wzięty z mojego życia) i leżał krwawiąc na ziemi, czy jesteś osobą, która stoi tam z otwartymi ustami, czy to ta jedyna kto woła karetkę, nakłada bandaż uciskowy na krwawienie i każe komuś złapać konia? Jeśli jesteś pierwszym typem osoby, być może nie jest to właściwa linia pracy dla Ciebie.

HLGEM
źródło
2

Powiedz im, że to dobry powód, dla którego potrzebujesz serwera zapasowego, a przez to mam na myśli drugi serwer, który działa tak samo jak ten podstawowy, na który można się natychmiast przełączyć, jeśli pierwszy ulegnie awarii.

Dojną krową
źródło
Widziałem włączony serwer kopii zapasowych i miał ten sam problem co serwer główny. Podwoiła koszt sprzętu, dodała do kosztu konfiguracji i była całkowitą stratą kosztów. Jeśli wykonujesz prace o wysokiej dostępności, to na pewno, ale musisz odpowiednio dobrać sprzęt do problemu.
Scott Whitlock,
jednym (ekstremalnym) przykładem tego, że system tworzenia kopii zapasowych jest dotknięty tym samym błędem co system podstawowy, to Ariane 5 Flight 501
Andre Holzner
2

Wystarczająco źle, gdy jesteś otoczony ze wszystkich stron ludźmi, którzy są na ciebie źli z powodu stworzonego przez ciebie problemu, choć jest dwa razy gorzej, gdy jest to problem, którego nie stworzyłeś. Nieraz zdarzyło mi się, że klient źle go skonfigurował, co oznacza, że ​​usterka polega na komunikowaniu się z klientem (czy to wina, że ​​klient nie słucha, czy marketer nie wyjaśnia dobrze, nigdy się nie dowiesz).

Jak wytłumaczysz, że spieprzyli? Nigdy nie jest to łatwe zadanie, zwłaszcza gdy szef oddycha w dół szyi, ponieważ nie wie nic lepszego niż zakładać, że klient ma zawsze rację.

Jak więc zachować spokój w takiej sytuacji? Uprzejmie przypomnij szefowi, że im szybciej przyjdziesz do pracy, tym szybciej ten problem zostanie rozwiązany.

Neil
źródło
1

Widząc to wydarzenie jako okazję do pokazania, jak cenny jestem (dla firmy), przywracając system produkcyjny tak szybko, jak to możliwe (jeśli nie przed 9 rano ;-)).

Oczywiście, mając nadzieję, że go nie złamałem ;-)


źródło
1
  • tak się dzieje
  • musi być rozwiązanie problemu
  • jeśli ktoś na świecie zna rozwiązanie, mogę być jednym z nich
  • jeśli nie ma rozwiązania, panika nie pomaga
  • znowu się dzieje
ohho
źródło
0

Zdecydowanie spytaj swojego szefa, że ​​wrócisz do niego, gdy problem zostanie rozwiązany; chociaż w takich sytuacjach kierownictwo zwykle angażuje inne osoby, aby rozwiązać problem jak najszybciej, a następnie dea, z „zainteresowaną” osobą później… To jest norma w każdej firmie, niezależnie od branży; jeśli chodzi o interesy, klient jest zwykle królem !!

Gaurav Sehgal
źródło
0

Takie sytuacje motywują mnie bardziej do dokładnej dokumentacji wszystkiego i dokładnego planu radzenia sobie z każdą sytuacją.

Nawet jeśli nie jesteśmy w stanie przewidzieć każdego możliwego problemu, ale możemy pracować z opóźnieniem, będąc lepiej przygotowanym, zorganizowanym i udokumentowanym.

Crosenblum
źródło
1
Nigdy nie rozwiązałem problemu produkcyjnego (tj. Awarii systemu) za pomocą dokumentacji.
Marcie,
1
Nie, ale jeśli chcesz coś znaleźć, np. Specyfikacje, definicje tabel, ustawienia serwera, warto mieć to udokumentowane.
crosenblum,
0

Spędziłem 8 lat na konserwacji bombowców B52G z 5-minutowym ostrzeżeniem przed trzecią wojną światową. To wszystko przedstawia mi z perspektywy.

System obniżonej produkcji jest ważny, ale nie zabije milionów ani miliardów ludzi.

Dowiedz się, co jest nie tak, znajdź przyczynę, napraw ją. Nawiąż czystą komunikację z ważnymi osobami i informuj ich na bieżąco. Powiedz swojemu szefowi, co robisz, a kiedy będziesz mógł go zaktualizować, możesz zapobiec ciągłemu przesyłaniu wiadomości i rozmów „czy to jest jeszcze naprawione”.

zrobić sekcję zwłok i dowiedzieć się, jak zapobiegać i ograniczać skutki takich incydentów w przyszłości.

Jeśli rozmawiasz, rozładowanie baterii w telefonie komórkowym lub sygnalizatorze jest wyjątkowo nieprofesjonalne. Jest to ogólny scenariusz, ale gdyby tak się stało z osobą pracującą dla mnie, byłaby poważna dyskusja, a gdyby się powtórzyła, nie pracowaliby dla mnie. Tak, jestem hardassem.

Jim C.
źródło