Coś płonie w serwerowni; jak mogę szybko zidentyfikować, co to jest?

454

Pewnego dnia zauważamy okropny, płonący zapach wydobywający się z serwerowni. Krótko mówiąc, okazało się, że jest to jeden z modułów akumulatorów, który płonął w zasilaczu, ale zajęło to kilka godzin, zanim udało nam się to rozgryźć. Głównym powodem, dla którego udało nam się to rozgryźć, jest fakt, że wyświetlacz UPS w końcu pokazał, że moduł wymaga wymiany.

To był problem: cały pokój był wypełniony zapachem. Wykonanie testu wąchania było bardzo trudne, ponieważ zapach przeniknął do wszystkiego (nie wspominając, że sprawił, że oszaleliśmy). Prawie przez pomyłkę zdjęliśmy nasz produkcyjny serwer bazy danych, ponieważ tam był najsilniejszy zapach. Wydawało się, że parametry witalne są w porządku (temperatura procesora pokazała 60 stopni C, a prędkości wentylatora w porządku), ale nie byliśmy pewni. Zdarzyło się tak, że spalony moduł akumulatorowy był mniej więcej tej samej wysokości co serwer na stojaku i tylko 3 stopy dalej. Gdyby to był prawdziwy wypadek, ponieślibyśmy klęskę.

Realistycznie rzecz biorąc, szanse, że rzeczywisty sprzęt serwerowy się wypali, są dość rzadkim zjawiskiem i przez większość czasu będziemy patrzeć na zasilacza UPS. Ale z kilkoma stojakami z kilkoma elementami wyposażenia może szybko stać się zgadywanką. Jak szybko i dokładnie określić, który sprzęt faktycznie się pali? Zdaję sobie sprawę, że to pytanie jest wysoce zależne od zmiennych środowiskowych, takich jak wielkość pokoju, wentylacja, lokalizacja itp., Ale każdy wkład byłby mile widziany.

Chad Harrison
źródło
34
@DeerHunter Cóż, dziękuję, Boże, to był koniec dnia i było bardzo mało ludzi w builing. Dziękuję za konstruktywną krytykę, a ja z pewnością powiadomię moją przełożoną, jakie życie ryzykowała, decydując się na utrzymanie systemu.
Chad Harrison
12
@hydroparadise - ktoś musi mieć odwagę powiedzieć „ STOP. Nie robimy tego dobrze”. Jeśli twój przełożony nie rozumie zasad bezpieczeństwa, niewiele można zrobić, oprócz wyhodowania kręgosłupa i nie kłaniania się pokusie skracania zakrętów.
Deer Hunter
112
@DeerHunter: Jaka byłaby odpowiednia reakcja, gdy poczujesz zapach czegoś płonącego? Nie widać dymu, tylko przypalony zapach. Czy wyłączasz całe centrum danych, wentylujesz je przez kilka godzin, a następnie włączasz serwery jeden po drugim, aż powróci zapach? Małe centrum danych z 25 szafami może mieć 1000 serwerów do sprawdzenia, co oznacza dużo przestoju na „zapach” - OP nie zgłosił widocznego dymu ani ognia.
Johnny
24
@Johnny - Cytując OP: „cały pokój był wypełniony zapachem. Wykonanie testu wąchania było bardzo trudne, ponieważ zapach przeniknął do wszystkiego (nie wspominając o tym, że oszołomił nas”) Odpowiadając na twoje pytanie - tak, musisz przewietrzyć pomieszczenie i systematycznie rozwiązywać problemy . Wszystko inne jest nieodpowiedzialne.
Deer Hunter
14
Czy zatem krytyczne podejście do obchodzenia się z zapachem przez PO sugeruje, że nie ma różnicy w pilności między zapachem a ogniem / dymem? Jeśli czujesz, jak coś pali się w domu, ale nie widzisz dymu i nie słyszysz alarmu, czy spychasz ciebie i swoją rodzinę z domu i dzwonisz pod numer 911?
trpt4him

Odpowiedzi:

383

Ogólny konsensus wydaje się, że odpowiedź na twoje pytanie składa się z dwóch części:

Jak znaleźć źródło śmiesznego płonącego zapachu?

Masz dość dobrze przybity „How”:

  • „Test wąchania”
  • Poszukaj widocznego dymu / mgły
  • Przejdź pomieszczenie kamerą termiczną (IR), aby znaleźć gorące punkty
  • Sprawdź monitorowanie i panele urządzeń pod kątem alertów

Możesz zwiększyć swoje szanse na szybkie znalezienie problemu na wiele sposobów - lepsze monitorowanie jest często najłatwiejsze. Kilka pytań, które należy zadać:

  • Czy otrzymujesz powiadomienia o temperaturze i innych zagrożeniach zdrowotnych ze swojego sprzętu?
  • Czy twoje systemy UPS zgłaszają usterki do systemu monitorowania?
  • Czy otrzymujesz alarmy poboru prądu ze swojego urządzenia do dystrybucji energii?
  • Czy czujniki dymu w pomieszczeniu zgłaszają się do systemu monitorowania? (i czy mogą? )

Kiedy powinniśmy rozwiązywać problemy, a nie uderzać w Big Red Switch?

To jest bardziej interesujące pytanie.
Uderzenie w duży czerwony przełącznik może w pośpiechu kosztować Twoją firmę ogromną ilość pieniędzy: uwolnienia czystych środków mogą sięgać dziesiątek tysięcy dolarów, a koszty przestoju / odzyskiwania po wyłączeniu awaryjnym (EPO, „upuszczenie pokoju” ) może być katastrofalne.
Nie chcesz upuszczać centrum danych, ponieważ pękł kondensator w zasilaczu i sprawił, że w pokoju poczuł zapach.

I odwrotnie, pożar w serwerowni może kosztować Twoją firmę jej dane / sprzęt, a co ważniejsze, życie pracowników.
Rozwiązywanie problemów z „tym śmiesznym płonącym zapachem” nigdy nie powinno mieć pierwszeństwa przed bezpieczeństwem , dlatego ważne jest, aby mieć jasne zasady dotyczące rozwiązywania problemów z warunkami „przed pożarem”.

Poniższe wytyczne to moje osobiste ograniczenia, które stosuję w przypadku braku (lub oprócz) innych jasno określonych procedur / zasad - dobrze mi służyły i mogą ci pomóc, ale równie łatwo mogą mnie zabić lub zwolniony jutro, więc zastosuj je na własne ryzyko.

  1. Jeśli zobaczysz dym lub ogień, upuść pomieszczenie.
    Powinno to pójść bez słowa, ale powiedzmy to mimo wszystko: Jeśli istnieje aktywny ogień (lub dym wskazujący, że wkrótce nastąpi), ewakuujesz pomieszczenie, odcinasz energię i gasisz ogień system tłumienia.
    Mogą istnieć wyjątki (zachowaj zdrowy rozsądek), ale prawie zawsze jest to właściwe działanie.

  2. Jeśli próbujesz rozwiązać problem, zawsze zaangażuj co najmniej jedną inną osobę.
    Z dwóch powodów. Po pierwsze, nie chcesz błąkać się po centrum danych i nagle masz podniesiony stojak w rzędzie, po którym idziesz i nikt nie wie, że tam jesteś. Po drugie, drugą osobą jest twoja kontrola rozsądku podczas rozwiązywania problemów w porównaniu do opuszczenia pokoju, a jeśli zadzwonisz, aby uderzyć w Big Red Switch, możesz skorzystać z drugiej osoby, która zgadza się z decyzją (pomaga uniknąć aspektów ograniczających karierę zawodową takiej decyzji, jeśli ktoś przesłucha ją później).

  3. Zachowaj ostrożność podczas rozwiązywania problemów
    Upewnij się, że zawsze masz ścieżkę ewakuacyjną (otwarty koniec rzędu i czysta ścieżka do wyjścia).
    Trzymaj kogoś w miejscu zwolnienia EPO / przeciwpożarowego.
    Noś ze sobą gaśnicę (proszę Halon lub inny środek czyszczący).
    Pamiętaj o regule nr 1 powyżej.
    W razie wątpliwości opuść pokój . Zadbaj o swój oddech: użyj respiratora lub maski tlenowej. Może to uratować zdrowie w przypadku pożaru chemicznego.

  4. Ustaw limit i trzymaj się go
    Dokładniej ustaw dwa limity:

    • Warunek („O ile gorzej mogę pozwolić?”) I
    • Czas („Jak długo będę próbował znaleźć problem, zanim będzie zbyt ryzykowny?”).

    Ustawione limity można również wykorzystać, aby umożliwić zespołowi rozpoczęcie uporządkowanego zamykania dotkniętego obszaru, więc kiedy WYKORZYSTASZ moc, nie rozbijesz kilku aktywnych maszyn, a czas odzyskiwania będzie znacznie krótszy, ale pamiętaj, że jeśli uporządkowane zamykanie trwa zbyt długo, być może trzeba będzie pozwolić, aby kilka systemów uległo awarii w imię bezpieczeństwa.

  5. Zaufaj jelitom
    Jeśli kiedykolwiek martwisz się bezpieczeństwem, wyłącz rozwiązywanie problemów i opróżnij pomieszczenie.
    Możesz opuścić pokój na podstawie przeczucia jelitowego, ale przegrupowanie się na zewnątrz w (względnym) bezpieczeństwie jest rozsądne.

Jeśli nie ma bezpośredniego zagrożenia, możesz wybrać lokalną straż pożarną przed podjęciem jakichkolwiek drastycznych działań, takich jak EPO lub zwolnienie czystego agenta. (Mogą i tak ci powiedzieć: ich zadaniem jest ochrona ludzi, a następnie mienia, ale oczywiście są oni ekspertami w radzeniu sobie z pożarami, więc powinieneś robić to, co mówią!)

Zajęliśmy się tym w komentarzach, ale równie dobrze można to streścić w odpowiedzi - @DeerHunter, @Chris, @Sirex i wiele innych osób włączyło się w dyskusję

voretaq7
źródło
30
Uniwersytet Poszedłem do instalacji nowego centrum danych. Wdrożyli wysoce zaawansowany system EPO / przeciwpożarowy. Sprzęt, który chronił, liczył miliony dolarów, a także był wykorzystywany na miliony dolarów badań w medycznej części szkoły. Oczywiście, jeśli to było potrzebne czerwony przycisk będzie hit, ale powiedział, że jest, jeśli czerwony przycisk został trafiony, tylko zerowanie było blisko do $ 200,000 dolarów. Dolary podatników możesz być pewny jak diabli, że jeśli przełącznik zostanie trafiony, gdy nie jest potrzebny, facet, który go uderzy, nie będzie miał pracy.
Ryan
28
+1 dla systemu znajomych. Myślę, że to trochę szalone, że istnieją DC, które używają EPO również do zrzucania tłumienia ognia. Istnieje wiele sytuacji, w których chciałbyś EPO bez zrzucania halotronu na faceta, który został porażony prądem. EPO to poważna sprawa, ale nie jest „niszczeniem wszystkiego w rodzaju umowy DC”, a przynajmniej nie powinna. Faceci w Waszyngtonie powinni mieć nadzieję, że zrozumieją duży czerwony przycisk i system tłumienia ognia wystarczająco dobrze, aby zważyć efekt uderzenia w przycisk. EPO może na przykład zatrzymać pożar i uratować DC.
Chris 5'13
13
Ważną uwagą, o której nie wspomniałem, jest to, że przez większość czasu, gdy coś się nie udaje, aby wydzielać płonący zapach, cokolwiek się pali, gaśnie, zanim zapach zostanie wykryty i bez spalania niczego poza uszkodzonym sprzętem. Czasami element wyposażenia będzie tlił się, dopóki będzie miał moc, ale jeśli ktoś zobaczy dym, powinien istnieć możliwość jego identyfikacji, odcięcia zasilania i zobaczenia, czy dym wkrótce zniknie, czy będzie gorzej.
supercat
1
@ryan: Jeśli uderzenie w duży czerwony przycisk kosztuje tyle dolarów podatników, osoba odpowiedzialna opracowała plan rozwiązania drobnych incydentów w lokalnej straży pożarnej, które nie wiążą się z zagrożeniem dla pracowników.
Christoph
3
@ryan To przypomina mi reportaż telewizyjny o CERN, który ostatnio widziałem: Zespół kamery i reporter zostali naprawdę zabrani do wnętrzności systemu i pewnego razu jeden z operatorów kamery prawie wcisnął plecakiem czerwony przycisk awaryjny - udzielanie bliskiego ataku serca facetowi z personelu myślącemu o kosztach ponownego uruchomienia ...
Hagen von Eitzen
183

Kamera termowizyjna może wykonać pracę i pozwolić Ci zidentyfikować miejsce przegrzania. Takie urządzenie pozwoliłoby ci również zidentyfikować źródło pożaru lub spalania w pomieszczeniu wypełnionym dymem.

ddalcero
źródło
30
Kamery termiczne są obecnie bardzo popularne, a jeśli prowadzisz dużą serwerownię, są one narzędziem, które warto mieć.
rackandboneman
16
TIC nie jest tak drogi i bardzo przydatny w centrum danych lub dużej serwerowni. Nie tylko w przypadku problemów, takich jak kable przegrzanych lub sprzętu, ale również jako środek zapobiegawczy lub wczesnego wykrywania emisji, optymalizacji przepływu powietrza chłodzącego, itp
ddalcero
39
Laserowy pistolet do pomiaru temperatury, taki jak ten , jest tanią alternatywą
MichaelHouse
4
@mfinni Elektrycy często mają również kamery termiczne. (Kontrola obrazu termicznego naszych paneli rozdzielczych zasilania każdego roku lub po jakiejkolwiek dużej pracy związanej z okablowaniem była standardem, gdy pracowałem w firmie hostingowej).
voretaq7
3
Kamera termowizyjna ma bardzo duże ograniczenia: 1. Pole widzenia może uniemożliwić użytkowanie 2. Twoje środowisko może być bardzo gęste. [Zostaną zauważone duże pożary, ale nie małe] 3.
Ustanowienie
138

Nie czynicie żadnej z tych rzeczy , które zostały powiedziane. Opuszczasz niebezpieczne środowisko, ponieważ wszystko, co jest przepompowywane przez całe pomieszczenie, jest niebezpieczne dla zdrowia i może naprawdę popsuć płuca. Jeśli w pokoju pali się nieprzyjemny zapach czegoś, czego nie możesz znaleźć, zadzwoń pod (911 | 112 | 999 | dowolny numer alarmowy, który pasuje do twojej jurysdykcji) i pozwól, aby pożar (firma | wydział | brygada) go załatwił są na butelkowanym powietrzu.

Części komputerowe zawierają różnego rodzaju interesujące chemikalia, w tym rtęć , kadm , ołów i wiele plastików w obudowach. Zauważ, że wszystkie linki, które podałem, wyjaśniają, w jaki sposób ekspozycje na niskim poziomie mogą powodować trwałe szkody, a nawet szybką śmierć. Jest to środowisko, które może być natychmiast niebezpieczne dla życia i zdrowia .

... więc naprawdę, jeśli coś się pali, nie marnuj godzin na węszenie spalin. Jeśli nie możesz go zidentyfikować i natychmiast podjąć działania, aby go powstrzymać, wynoś się.

Jeff Ferland
źródło
18
Należy dodać, że gdyby stało się to w „prawdziwym” centrum danych z wykrywaczami dymu zintegrowanymi z klimatyzacją i zainstalowanym systemem gaśniczym, alarmy pożarowe wyłączyłyby się, a pomieszczenie byłoby automatycznie uszczelnione i zalane argonem lub CO2 automatycznie, więc nie mogło być nawet myśli o bieganiu i wąchaniu sprzętu.
the-wabbit
8
@ syneticon-dj Zależy to od typu zainstalowanych detektorów. Detektory jonizacyjne mogły wyzwolić tłumienie ognia, ale pracowałem w (i obecnie hostuję) w miejscach, w których znajdują się optyczne detektory dymu - wymagają one widocznego dymu (lub przynajmniej dobrego zamglenia) przed uruchomieniem.
voretaq7
3
Chciałbym móc to jeszcze bardziej głosować. ryzykując kontrowersje, jedynym sposobem na osiągnięcie sukcesu jest zdobycie profesjonalnego strażaka.
user619714,
19
Tak, jako były strażak, nie zostałbym tam bez mojego ekwipunku. Nawet gdy wybuchnie pożar, jesteśmy wyszkoleni, aby pozostać upakowanym z powodu trujących gazów. Gdybym zadzwonił do profesjonalistów, ty też powinieneś!
Jeff Ferland
1
@Michael projekty, które widziałem, nie opierały się na sufitowych czujnikach dymu, ale miały czujniki fotoelektryczne w strumieniu powietrza powrotnego. Jedyny raz, gdy widziałem, jak się uruchamia, miał miejsce podczas procedury testowej, w której system argonowy został odłączony, a źródło dymu zostało umieszczone w jednej z szaf. Działało tak, jak się spodziewałem. Na szczęście nigdy nie miałem do czynienia z prawdziwymi pożarami.
the-wabbit
76

Jeśli masz odpowiednie monitorowanie na UPS (zwykle przez SNMP), to samo urządzenie powinno zadzwonić dzwonkami w twoim systemie monitorowania. Jeśli nie, porozmawiaj o tym ze sprzedawcą. Albo działał nieprawidłowo, albo system monitorowania nie został poprawnie skonfigurowany.

Jeśli coś aktywnego się pali, powinno to być na coś narzekać lub po prostu być poza siecią, co powinno również wywołać alarm.

Jeśli jest to coś w rodzaju rzeczywistej szyny zasilającej płonącej przez izolację, a nie ma jej na inteligentnym PDU, to wracamy do twojego pierwotnego pytania, które brzmi: „jak znaleźć płonącą rzecz?”. I myślę, że właściwą odpowiedzią jest: „Hit EPO i wymyśl to. Twoje serwery produkcyjne prawdopodobnie nie są wystarczająco ważne, aby ryzykować życie”.

mfinni
źródło
13
Co oznacza EPO?
Midhat
39
Awaryjne wyłączenie zasilania ... duży czerwony przycisk, który odcina całą energię w pomieszczeniu. Głównie na wypadek, gdy się pali.
Grant
11
Zdecydowana +1, głosowałaby +1,000. Naciśnij przycisk, ewakuuj się, poczekaj, uporządkuj później. Prowadzenie zwykłej działalności przy obecnym pożarze i dymie (i próbowanie rozwiązywania problemów) jest jednym z najgorszych błędów, jakie może popełnić inżynier.
Deer Hunter
36
@chris Muszę z szacunkiem nie zgodzić się na „EPO, Leave, Wait” - Aktywacja EPO i / lub zwolnienie czystego agenta dla pokoju pełnego wyposażenia produkcyjnego może bardzo często być tym, co lubimy nazywać ruchem ograniczającym karierę . Jeśli nie ma aktywnego, widocznego ognia lub smugi dymu pochodzącego z jakiegoś sprzętu przeprowadzającego wstępne dochodzenie, zwykle jest to właściwe. Oczywiście powinieneś być absolutnie przygotowany na ucieczkę z pokoju, naciskając dowolny czerwony przycisk w dowolnym momencie dochodzenia.
voretaq7
13
Prawdopodobnie nawet doskonały system monitorowania nie wychwyciłby tego, dopóki panel UPS nie powie „Wymień moduł” - co oznacza, że ​​na pewno chcesz, aby twój system monitorowania zwrócił na to uwagę. Następnym razem moduł może zawieść o godzinie 19:30 w piątek, gdy nikogo nie ma w pobliżu, a alert monitorowania sprawi, że wrócisz i poradzisz sobie z problemem, zanim przerodzi się on w pełnoprawną awarię. Jeśli możesz powiązać monitorowanie z FACP, czujniki dymu i / lub ciepła mogą nawet ostrzegać cię przed wypaleniem szyn zasilających przez izolację itp.
voretaq7
43

Jest to jedna z tych sytuacji, w których

XKCD Die Hard sysadmin

nie dotyczy, należy zadzwonić do specjalisty

Strażak w odzieży ochronnej

Wszystko inne jest po prostu głupie.

Iain
źródło
to jest zdecydowanie najlepsza odpowiedź. :)
Citizen
@Navin Nie , nie robią tego faceci ze straży pożarnej.
user619714
40

Jako osoba, której poprzednia kariera była elektroniką, mam doświadczenie z „płonącymi zapachami”, które nie były pożarami. To nie jest rzadkie.

Nie zamknąłem centrum danych z powodu zapachu. Dym to inna sprawa, coś naprawdę się pali (zwykle, ale kondensator tantalu wielkości grochu może również wypełnić pomieszczenie dymem). To niesamowite, ile zapach może wytworzyć smażonego komponentu w zasilaczu.

Termometr TIC lub IR (przydatne narzędzie i znacznie tańszy niż TIC) niekoniecznie pokazałby to, ponieważ element w ogóle nie wytwarza dużo ciepła i znajduje się w obudowie. Ale sprawdź, czy nie działają urządzenia, użyj narzędzi monitorujących. Przy takim zapachu przez 95% czasu będzie to zasilacz wpływający na działanie całego urządzenia.

Malcolm
źródło
3
+1, dmuchane zasilacze są powszechne. W większości centrów danych o dużym natężeniu przepływu dym szybko wydmuchuje się i trudno jest zlokalizować źródło zapachu. Jednak w małym pokoju zapach może być dość brzydki i może szybko rozprzestrzeniać się po całym pokoju.
Stefan Lasiewski
19

Lubię obrazowanie w podczerwieni lub odpowiedzi termometru, ale może to, co pomogłoby, to prawdziwy „wykrywacz zapachów”. W końcu to, co wywołało twoją ostrożność, to zapach. Dym, ciepło, IR itp. Są substytutami.

Coś jak ten: z Shinyei . Osobiście nigdy ich nie używałem, ani nawet nie widziałem w centrum danych. Ale przynajmniej teoretycznie powinno to być zgrabne narzędzie. Jeśli masz pieniądze, które możesz wydać na to gadżet, to znaczy.

http://www.sca-shinyei.com/odormeter lub http://www.intopsys.com/products/cyranose.html?gclid=CNXXzOrLs7YCFUws6wodViYApQ

Daje siłę zapachu, a także klasyfikację. Dlatego powinno być możliwe zasiedlenie zapachu. Diabeł oczywiście w szczegółach. Jak wrażliwy jest, maskowanie fałszywego zapachu tła itp.

Jedną z zalet w porównaniu z pomiarami opartymi wyłącznie na temperaturze jest to, że często zapach pojawia się w znacznie wcześniejszym punkcie lub progu. Lub jeśli przegrzany element jest ukryty przez ciało / ukryte okablowanie itp., Łatwiej jest wykryć uciekające cząsteczki niż gorący punkt widzenia.

Inną sytuacją jest zapach niezwiązany z ciepłem. Wcześniej mieliśmy przeciek w obwodzie chłodzącym, a zapachy płynu chłodzącego były również dziwne. Nie będę nawet wchodził w starożytny przypadek martwego gryzonia w przewodach. :)

Byłem zaskoczony, jak czułe są te czujniki. Apparacyjnie H2S / merkaptany itp. (Zwykle sprawcy) są wykrywalne przy poziomach poniżej ppm.

wprowadź opis zdjęcia tutaj

ciekawy kot
źródło