Prawdopodobieństwo awarii podwozia

48

W mojej organizacji myślimy o zakupie serwerów typu blade - zamiast serwerów typu rack. Oczywiście dostawcy technologii sprawiają, że brzmią bardzo ładnie. Niepokój, który często czytam na różnych forach, polega na tym, że teoretycznie istnieje możliwość awarii obudowy serwera - co w konsekwencji pociągnęłoby za sobą wszystkie ostrza. Wynika to ze wspólnej infrastruktury.

Moją reakcją na to prawdopodobieństwo będzie redundancja i dwa podwozia zamiast jednego (oczywiście bardzo kosztowne).

Niektóre osoby (w tym np. Dostawcy HP) próbują nas przekonać, że bardzo mało prawdopodobne jest uszkodzenie podwozia z powodu wielu nadmiarowości (nadmiarowe zasilanie itp.).

Innym problemem z mojej strony jest to, że jeśli coś się zepsuje, mogą być potrzebne części zamienne - co jest trudne w naszej lokalizacji (Etiopia).

Chciałbym więc zapytać doświadczonych administratorów, którzy zarządzali serwerem typu blade: jakie są twoje doświadczenia? Czy upadają one jako całość - i jaka jest rozsądna wspólna infrastruktura, która może zawieść?

To pytanie można rozszerzyć na pamięć współdzieloną. Znowu powiedziałbym, że potrzebujemy dwóch jednostek pamięci zamiast tylko jednej - i znowu dostawcy mówią, że te rzeczy są tak solidne, że nie należy się spodziewać awarii.

No cóż - nie mogę uwierzyć, że taka krytyczna infrastruktura może być bardzo niezawodna bez redundancji - ale może możesz mi powiedzieć, czy masz udane projekty typu blade, które działają bez redundancji w swoich podstawowych częściach (podwozie, pamięć ... )

W tej chwili patrzymy na HP - ponieważ IBM wygląda o wiele za drogo.

ChrisZZ
źródło
3
Świetne pytanie. Później opublikuję moją odpowiedź i kilka scenariuszy rzeczywistych awarii.
ewwhite
Czy spojrzałeś na to, co Dell ma na swoich serwerach C? np. C6100 ma 4 węzły w obudowie 2U, co odpowiada obudowie z 4 gniazdami kasetowymi. Zamiast jednej obudowy kasetowej 10U można uzyskać pięć serwerów szafowych 2U. Nie ma już ani jednego punktu awarii, ale tracisz zalety płyty montażowej. Prawdopodobnie HP / IBM ma równoważny produkt.
jqa

Odpowiedzi:

49

Istnieje małe prawdopodobieństwo całkowitej awarii podwozia ...

Prawdopodobnie napotkasz problemy w swoim obiekcie, zanim doznasz całkowitej awarii obudowy ostrza.

Moje doświadczenie dotyczy przede wszystkim obudów kasetowych HP C7000 i HP C3000 . Zarządzałem również rozwiązaniami Dell i Supermicro. Sprzedawca ma znaczenie. Podsumowując, sprzęt HP był znakomity, Dell był w porządku, a Supermicro brakowało jakości, odporności i było po prostu źle zaprojektowane. Nigdy nie doświadczyłem awarii po stronie HP i Dell. Supermicro miał poważne awarie, zmuszając nas do porzucenia platformy. W przypadku HP i Dells nigdy nie spotkałem pełnej awarii obudowy.

  • Miałem zdarzenia termiczne. Klimatyzacja zawiodła w obiekcie kolokacyjnym, wysyłając temperatury do 115 ° F / 46 ° C przez 10 godzin.
  • Skoki napięcia i awarie linii: utrata jednej strony kanału A / B. Indywidualne awarie zasilania. W moich konfiguracjach ostrzy jest zwykle sześć zasilaczy, więc jest wystarczająco dużo ostrzeżeń i redundancji.
  • Awarie poszczególnych serwerów kasetowych. Problemy jednego serwera nie wpływają na pozostałe w obudowie.
  • Pożar w podwoziu ...

Widziałem różnorodne środowiska i korzystałem z instalacji w idealnych warunkach w centrum danych, a także w trudniejszych lokalizacjach. Po stronie HP C7000 i C3000 należy przede wszystkim wziąć pod uwagę, że podwozie jest całkowicie modułowe. Komponenty są zaprojektowane tak, aby zminimalizować wpływ awarii komponentu na całą jednostkę.

Pomyśl o tym w ten sposób ... Główna obudowa C7000 składa się z (pasywnego) zespołu środkowej i tylnej płyty. Obudowa strukturalna po prostu utrzymuje przednią i tylną część razem i utrzymuje ciężar systemu. Prawie każdą część można wymienić ... uwierz mi, wiele zdemontowałem. Główne zwolnienia dotyczą wentylatora / chłodzenia, zasilania i zarządzania siecią. Procesory zarządzania (wbudowany administrator HP ) można sparować w celu zapewnienia nadmiarowości, jednak serwery mogą działać bez nich.

wprowadź opis zdjęcia tutaj

W pełni wypełniona obudowa - widok z przodu. Sześć zasilaczy u dołu przebiega na całej głębokości podwozia i podłącza się do modułowego zespołu płyty montażowej z tyłu obudowy. Tryby zasilania można konfigurować: np. 3 + 3 lub n + 1. Dlatego obudowa zdecydowanie ma redundancję zasilania. wprowadź opis zdjęcia tutaj

W pełni wypełniona obudowa - widok z tyłu. Moduły sieciowe Virtual Connect z tyłu mają wewnętrzne połączenie krzyżowe, więc mogę stracić jedną stronę lub drugą i nadal utrzymywać łączność sieciową z serwerami. Istnieje sześć zasilaczy wymienianych podczas pracy i dziesięć wentylatorów wymienianych podczas pracy. wprowadź opis zdjęcia tutaj

Pusta obudowa - widok z przodu. Zauważ, że tak naprawdę nie ma nic w tej części obudowy. Wszystkie połączenia są przekazywane do modułowej płaszczyzny środkowej. wprowadź opis zdjęcia tutaj

Usunięto zespół środkowej płaszczyzny. Zwróć uwagę na sześć źródeł zasilania dla zespołu środkowej na dole. wprowadź opis zdjęcia tutaj

Montaż w płaszczyźnie środkowej. Tutaj dzieje się magia. Zanotuj 16 oddzielnych połączeń typu downplane: po jednym dla każdego serwera kasetowego. Miałem awarie pojedynczych gniazd / wnęk serwerów bez zniszczenia całej obudowy lub wpłynięcia na inne serwery. wprowadź opis zdjęcia tutaj

Płyta montażowa zasilacza. Jednostka 3ø poniżej standardowego modułu jednofazowego. Zmieniłem rozkład mocy w moim centrum danych i po prostu zamieniłem płytę zasilającą, aby poradzić sobie z nową metodą dostarczania energii wprowadź opis zdjęcia tutaj

Uszkodzenie złącza podwozia. Ta konkretna obudowa została upuszczona podczas montażu, odrywając piny złącza taśmowego. To pozostało niezauważone przez kilka dni, w wyniku czego działające podwozie ostrzyło się OGIEŃ ... wprowadź opis zdjęcia tutaj

Oto zwęglone pozostałości kabla taśmowego w płaszczyźnie środkowej. Kontrolowało to monitorowanie temperatury podwozia i środowiska. Serwery typu blade w dalszym ciągu działały bez żadnych incydentów. Zainteresowane części zostały wymienione w czasie wolnym podczas zaplanowanych przestojów i wszystko było w porządku. wprowadź opis zdjęcia tutaj

ewwhite
źródło
+1 dla C7000. Przez ostatnie dwa lata mieliśmy jeden działający, solidny i nigdy nie mieliśmy żadnych problemów, sprzętowych lub wydajnościowych, na obudowie lub łopatach.
tombull89
1
Muszę się z tym zgodzić - mieliśmy różnorodne podwozia firmy Dell i były one praktycznie kuloodporne. Myślę, że mieliśmy awarię jednego modułu kontrolera na jednym podwoziu, a wynikiem tego jest to, że nie byliśmy w stanie zdalnie zarządzać samym podwoziem w dniu, w którym firma Dell wsparła nas innym kontrolerem i inżynierem, aby go zamontować. Brak faktycznego przestoju ostrza z powodu awarii lub operacji wymiany sterownika.
Rob Moir,
1
Muszę się zgodzić z @ewwhite. Używam c7000 przez około 8 lat bez przerwy, bez żadnych awarii podwozia. Mieliśmy ich nawet w 130'F przez kilka godzin z powodu awarii HVAC i nic nie zawiodło. Najważniejszą rzeczą, o której należy pamiętać, jest podzielenie obciążeń na wiele paneli zasilających i podzielenie sieci na wiele przełączników, aby wyeliminować pojedynczy punkt awarii. Jedyne, co nam się nie udało, to niektóre dyski twarde typu blade, ale widać to również na tradycyjnych serwerach.
mrTomahawk
20

Od ośmiu lat zarządzam niewielką liczbą serwerów kasetowych i wciąż mam awarię systemową, która spowodowała odłączenie wielu serwerów kasetowych w trybie offline. Byłem naprawdę blisko z powodu problemów związanych z zasilaniem, ale nie miałem jeszcze awarii całego podwozia, której nie można było przypisać źródłom zewnętrznym.

Twoja obserwacja, że ​​podwozie reprezentuje pojedynczy punkt awarii, jest prawidłowa, choć w tych dniach powstaje w nich duża liczba zwolnień. Wszystkie używane przeze mnie systemy kasetowe miały równoległe zasilanie do kaset oraz wiele gniazd sieciowych przechodzących przez osobne ścieżki, aw przypadku Fibre Channel wiele ścieżek od kasety do portów optycznych z tyłu szafy. Nawet system informacji o podwoziu miał wiele ścieżek.

Przy odpowiedniej inżynierii sieci (redundantne użycie karty sieciowej, MPIO do przechowywania) zdarzenia pojedynczego problemu są całkowicie możliwe do przeżycia. W czasie pracy z tymi systemami miałem następujące problemy, z których żaden nie wpłynął na więcej niż jedno ostrze:

  • W zasilaczu kasetowym zawiodły dwa zasilacze. Nadmiarowość w pozostałych 4 była wystarczająca do obsługi obciążenia.
  • Utrata fazy dla 3-fazowego zasilacza. Te zapasy są obecnie rzadkie, ale pozostałe dwie fazy miały wystarczającą pojemność, aby utrzymać ładunek.
  • Utrata pętli zarządzania między podwoziami. Tak było przez lata, zanim zauważył to inny dostawca technologii przy innej rozmowie.
  • Całkowitą utratę pętli zarządzania między podwoziami. Utraciliśmy dostęp do konsoli zarządzania, ale serwery działały tak, jakby nic się nie stało.
  • Ktoś przypadkowo zrestartował tylną płytę sieci. Wszystko w tym podwoziu korzystało z redundantnych kart sieciowych, więc nie wystąpiły przerwy w działaniu; cały ruch został przeniesiony na drugą płytę montażową.

Twierdzenie TomTom dotyczące kosztów jest jednak bardzo prawdziwe. Aby uzyskać pełny parytet kosztów, obudowa łopaty będzie musiała być w pełni załadowana i prawdopodobnie nie będzie używać specjalnych rzeczy, takich jak przełączniki z tyłu szafy. Stojaki na ostrza mają sens w obszarach, w których naprawdę potrzebujesz gęstości, ponieważ masz ograniczoną przestrzeń

sysadmin1138
źródło
Tyle że architektura SuperMicro Twin daje dwa komputery na jednostkę TU z dwoma gniazdami na komputer - to jest podobne do tego, co otrzymujesz z najbardziej MOSTU. jest zdecydowanie bardzo gęsta;) Jedyną większą gęstością, jaką znam, są ostrza Dell z mostem bluszczowym ... ale są one bardziej ograniczone w porównaniu.
TomTom
@tomtom, ale czy Supermicro Twin oferuje zbędne psus? Właśnie zbudowaliśmy jeden i nigdzie nie widziałem tej opcji. Kupiliśmy zimne zapasowe psu na wszelki wypadek.
Jeff Atwood,
@JeffAtwood, nie widziałem zbędnych zasilaczy u bliźniaków 1U SuperMicro, ale ich linia 4U 4-węzłowych bliźniaków ma je. Przykład .
Charles
Również kogo to obchodzi. Zapasowy zasilacz w szafie. Wymiana zajmuje kilka sekund.
TomTom
14

To pytanie można rozszerzyć na pamięć współdzieloną. Znowu powiedziałbym, że potrzebujemy dwóch jednostek pamięci zamiast tylko jednej - i znowu dostawcy mówią, że te rzeczy są tak solidne, że nie należy się spodziewać awarii.

Właściwie nie. Twoje obawy do tej pory miały sens, w tym zdaniu umieszcza je w „czytać rzeczy na twoich oczach”. HA z pełną replikacją to znana funkcja dla jednostek pamięci. Chodzi o to, że SAN (jednostka pamięci jest o wiele bardziej złożona niż obudowa typu blade), która na końcu jest po prostu „głupim metalem”. Wszystko w obudowie typu blade, z wyjątkiem niektórych płaszczyzn, jest wymienne - wszystkie moduły itp. Są wymienne, a poszczególne ostrza SĄ wolno zawieść. Nikt nie twierdzi, że sam środek ostrza zapewnia wysoką dostępność ostrzy.

To bardzo różni się od SAN, który ma być w 100% przez cały czas - w stanie spójnym - więc masz takie rzeczy jak replikacja itp.

TO POWIEDZIAŁO: uważaj na swoje liczby. Już od jakiegoś czasu zastanawiałem się nad zakupem ostrzy i NIGDY NIE WYKONALI SENSU FINANSOWEGO. Podwozia są po prostu zbyt drogie, a ostrza nie są tak naprawdę tańsze w porównaniu do zwykłych komputerów. Proponuję spojrzeć na architekturę SuperMicro Twin jako alternatywę.

TomTom
źródło
Bliźniaki i bliźniaki bliźniacze (2U 4-węzłowe) są świetną alternatywą dla ostrzy. Intel tworzy także linię serwerów typu twin i twin-twin.
Charles
@Charles Wiesz o nowych tłustych bliźniakach? 8 maszyn w 4 U;)
TomTom
Widziałem jeden, ale nie miałem okazji się nim bawić ani go oceniać.
Charles
4

Serwery typu blade, z którymi miałem doświadczenie, pochodzą od IBM. Te są całkowicie modułowe i wbudowana jest duża nadmiarowość. Jeśli więc coś zawiedzie, będzie to jeden z elementów, takich jak zasilacz lub przełącznik modułowy itp. Ale znowu, w tych jest nadmiarowość.

Od czasu zaangażowania się w ostrza IBM nie widziałem wcześniej całkowitej awarii.

Podejrzewam, że w przypadku innych marek byłyby one zbudowane w podobny sposób.
Dobrze byłoby porozmawiać również ze sprzedawcą i poczytać dużo.
To duża inwestycja.

Matt
źródło
1

Awarie prowadzące do awarii wielu serwerów typu blade w tej samej obudowie są porównywalne (pod względem prawdopodobieństwa i przyczyny) z awariami prowadzącymi do awarii wielu serwerów w tej samej szafie.

Początkowa konfiguracja w celu zminimalizowania pojedynczych punktów awarii (dwa osobne źródła prądu przemiennego, z których każde może obsłużyć cały ładunek, biegnące do oddzielnych zasilaczy prądu stałego, tak że każda połowa może obsłużyć cały ładunek; dwa oddzielne przyłącza sieciowe, albo który może obsłużyć cały oczekiwany ładunek itp.), a różnica między czymś, co usuwa wszystkie ostrza w obudowie lub wszystkie serwery 2U w szafie, jest bardzo mała.

mpez0
źródło
1

Niepokój, który często czytam na różnych forach, polega na tym, że teoretycznie istnieje możliwość awarii obudowy serwera - co w konsekwencji pociągnęłoby za sobą wszystkie ostrza. Wynika to ze wspólnej infrastruktury.

W rzeczy samej! Około 5 lat temu, zarządzając dwiema obudowami kasetowymi HP Proliant klasy p, kilkakrotnie napotkałem problemy z obudową.

Serwery typu blade nie mogły się włączyć, jeśli były wyłączone (serwery nie są często wyłączane, ale stały się dla nas bardzo realnym problemem). Serwery nagle się wyłączyły i nie mogę ponownie się włączyć. W końcu wyłączyłem wszystkie serwery i nie mogłem się ponownie uruchomić.

O ile pamiętam, prawie wszystkie problemy zostały przypisane złym płytom zasilającym lub płytom kontrolera. Mieliśmy je wymieniane wiele razy, a niespecyficzny, nieoficjalny komunikat, który otrzymałem od techników, brzmiał, że mieli część problemów z tą generacją obudów typu blade.

Zdecydowałem wtedy, że korzyści z serwerów typu blade po prostu nie są warte ryzyka, jeśli będę miał coś do powiedzenia w przyszłych zakupach.

Przejdźmy do mojego następnego pracodawcy i mojego obecnego. Mieli już uruchomione obudowy HP Proliant klasy c, więc moje letnie uczucie ostrza nie miało znaczenia. W ciągu 5 lat, w których miałem do czynienia z obudowami klasy c, nigdy nie spotkałem się z czymś takim, jak z klasą p, w której zawiodła mnie cała obudowa. Działają bez większych problemów.

(Z wyjątkiem czasu, gdy burza deszczowa zrzuciła deszcz przez dach, 4 piętra, mały otwór w uszczelce sali komputerowej, w dół kabla i do podwozia)

abstrask
źródło
-1

W podwoziach DELL i HP Blade nie ma redundantnej płaszczyzny środkowej. Właśnie tam zwycięża IBM Bladecenter. Według mojej wiedzy jest to jedyne podwozie typu blade, które zapewnia nadmiarową płaszczyznę środkową. Chociaż HP oferuje fantastyczny pakiet oprogramowania do zarządzania ostrzami, kupiliśmy Bladecenter E dla naszej firmy, aby uniknąć jednego punktu awarii całego podwozia.

Arun Shetty
źródło
To właśnie mówią mi materiały marketingowe IBM; że są jedynym dostawcą z całkowicie redundantnym rozwiązaniem typu blade. Jednak po przeczytaniu innych komunikatów w tym wątku wydaje się, że rozwiązania HP również to oferują.
Martijn