W mojej organizacji myślimy o zakupie serwerów typu blade - zamiast serwerów typu rack. Oczywiście dostawcy technologii sprawiają, że brzmią bardzo ładnie. Niepokój, który często czytam na różnych forach, polega na tym, że teoretycznie istnieje możliwość awarii obudowy serwera - co w konsekwencji pociągnęłoby za sobą wszystkie ostrza. Wynika to ze wspólnej infrastruktury.
Moją reakcją na to prawdopodobieństwo będzie redundancja i dwa podwozia zamiast jednego (oczywiście bardzo kosztowne).
Niektóre osoby (w tym np. Dostawcy HP) próbują nas przekonać, że bardzo mało prawdopodobne jest uszkodzenie podwozia z powodu wielu nadmiarowości (nadmiarowe zasilanie itp.).
Innym problemem z mojej strony jest to, że jeśli coś się zepsuje, mogą być potrzebne części zamienne - co jest trudne w naszej lokalizacji (Etiopia).
Chciałbym więc zapytać doświadczonych administratorów, którzy zarządzali serwerem typu blade: jakie są twoje doświadczenia? Czy upadają one jako całość - i jaka jest rozsądna wspólna infrastruktura, która może zawieść?
To pytanie można rozszerzyć na pamięć współdzieloną. Znowu powiedziałbym, że potrzebujemy dwóch jednostek pamięci zamiast tylko jednej - i znowu dostawcy mówią, że te rzeczy są tak solidne, że nie należy się spodziewać awarii.
No cóż - nie mogę uwierzyć, że taka krytyczna infrastruktura może być bardzo niezawodna bez redundancji - ale może możesz mi powiedzieć, czy masz udane projekty typu blade, które działają bez redundancji w swoich podstawowych częściach (podwozie, pamięć ... )
W tej chwili patrzymy na HP - ponieważ IBM wygląda o wiele za drogo.
Odpowiedzi:
Istnieje małe prawdopodobieństwo całkowitej awarii podwozia ...
Prawdopodobnie napotkasz problemy w swoim obiekcie, zanim doznasz całkowitej awarii obudowy ostrza.
Moje doświadczenie dotyczy przede wszystkim obudów kasetowych HP C7000 i HP C3000 . Zarządzałem również rozwiązaniami Dell i Supermicro. Sprzedawca ma znaczenie. Podsumowując, sprzęt HP był znakomity, Dell był w porządku, a Supermicro brakowało jakości, odporności i było po prostu źle zaprojektowane. Nigdy nie doświadczyłem awarii po stronie HP i Dell. Supermicro miał poważne awarie, zmuszając nas do porzucenia platformy. W przypadku HP i Dells nigdy nie spotkałem pełnej awarii obudowy.
Widziałem różnorodne środowiska i korzystałem z instalacji w idealnych warunkach w centrum danych, a także w trudniejszych lokalizacjach. Po stronie HP C7000 i C3000 należy przede wszystkim wziąć pod uwagę, że podwozie jest całkowicie modułowe. Komponenty są zaprojektowane tak, aby zminimalizować wpływ awarii komponentu na całą jednostkę.
Pomyśl o tym w ten sposób ... Główna obudowa C7000 składa się z (pasywnego) zespołu środkowej i tylnej płyty. Obudowa strukturalna po prostu utrzymuje przednią i tylną część razem i utrzymuje ciężar systemu. Prawie każdą część można wymienić ... uwierz mi, wiele zdemontowałem. Główne zwolnienia dotyczą wentylatora / chłodzenia, zasilania i zarządzania siecią. Procesory zarządzania (wbudowany administrator HP ) można sparować w celu zapewnienia nadmiarowości, jednak serwery mogą działać bez nich.
W pełni wypełniona obudowa - widok z przodu. Sześć zasilaczy u dołu przebiega na całej głębokości podwozia i podłącza się do modułowego zespołu płyty montażowej z tyłu obudowy. Tryby zasilania można konfigurować: np. 3 + 3 lub n + 1. Dlatego obudowa zdecydowanie ma redundancję zasilania.
W pełni wypełniona obudowa - widok z tyłu. Moduły sieciowe Virtual Connect z tyłu mają wewnętrzne połączenie krzyżowe, więc mogę stracić jedną stronę lub drugą i nadal utrzymywać łączność sieciową z serwerami. Istnieje sześć zasilaczy wymienianych podczas pracy i dziesięć wentylatorów wymienianych podczas pracy.
Pusta obudowa - widok z przodu. Zauważ, że tak naprawdę nie ma nic w tej części obudowy. Wszystkie połączenia są przekazywane do modułowej płaszczyzny środkowej.
Usunięto zespół środkowej płaszczyzny. Zwróć uwagę na sześć źródeł zasilania dla zespołu środkowej na dole.
Montaż w płaszczyźnie środkowej. Tutaj dzieje się magia. Zanotuj 16 oddzielnych połączeń typu downplane: po jednym dla każdego serwera kasetowego. Miałem awarie pojedynczych gniazd / wnęk serwerów bez zniszczenia całej obudowy lub wpłynięcia na inne serwery.
Płyta montażowa zasilacza. Jednostka 3ø poniżej standardowego modułu jednofazowego. Zmieniłem rozkład mocy w moim centrum danych i po prostu zamieniłem płytę zasilającą, aby poradzić sobie z nową metodą dostarczania energii
Uszkodzenie złącza podwozia. Ta konkretna obudowa została upuszczona podczas montażu, odrywając piny złącza taśmowego. To pozostało niezauważone przez kilka dni, w wyniku czego działające podwozie ostrzyło się OGIEŃ ...
Oto zwęglone pozostałości kabla taśmowego w płaszczyźnie środkowej. Kontrolowało to monitorowanie temperatury podwozia i środowiska. Serwery typu blade w dalszym ciągu działały bez żadnych incydentów. Zainteresowane części zostały wymienione w czasie wolnym podczas zaplanowanych przestojów i wszystko było w porządku.
źródło
Od ośmiu lat zarządzam niewielką liczbą serwerów kasetowych i wciąż mam awarię systemową, która spowodowała odłączenie wielu serwerów kasetowych w trybie offline. Byłem naprawdę blisko z powodu problemów związanych z zasilaniem, ale nie miałem jeszcze awarii całego podwozia, której nie można było przypisać źródłom zewnętrznym.
Twoja obserwacja, że podwozie reprezentuje pojedynczy punkt awarii, jest prawidłowa, choć w tych dniach powstaje w nich duża liczba zwolnień. Wszystkie używane przeze mnie systemy kasetowe miały równoległe zasilanie do kaset oraz wiele gniazd sieciowych przechodzących przez osobne ścieżki, aw przypadku Fibre Channel wiele ścieżek od kasety do portów optycznych z tyłu szafy. Nawet system informacji o podwoziu miał wiele ścieżek.
Przy odpowiedniej inżynierii sieci (redundantne użycie karty sieciowej, MPIO do przechowywania) zdarzenia pojedynczego problemu są całkowicie możliwe do przeżycia. W czasie pracy z tymi systemami miałem następujące problemy, z których żaden nie wpłynął na więcej niż jedno ostrze:
Twierdzenie TomTom dotyczące kosztów jest jednak bardzo prawdziwe. Aby uzyskać pełny parytet kosztów, obudowa łopaty będzie musiała być w pełni załadowana i prawdopodobnie nie będzie używać specjalnych rzeczy, takich jak przełączniki z tyłu szafy. Stojaki na ostrza mają sens w obszarach, w których naprawdę potrzebujesz gęstości, ponieważ masz ograniczoną przestrzeń
źródło
Właściwie nie. Twoje obawy do tej pory miały sens, w tym zdaniu umieszcza je w „czytać rzeczy na twoich oczach”. HA z pełną replikacją to znana funkcja dla jednostek pamięci. Chodzi o to, że SAN (jednostka pamięci jest o wiele bardziej złożona niż obudowa typu blade), która na końcu jest po prostu „głupim metalem”. Wszystko w obudowie typu blade, z wyjątkiem niektórych płaszczyzn, jest wymienne - wszystkie moduły itp. Są wymienne, a poszczególne ostrza SĄ wolno zawieść. Nikt nie twierdzi, że sam środek ostrza zapewnia wysoką dostępność ostrzy.
To bardzo różni się od SAN, który ma być w 100% przez cały czas - w stanie spójnym - więc masz takie rzeczy jak replikacja itp.
TO POWIEDZIAŁO: uważaj na swoje liczby. Już od jakiegoś czasu zastanawiałem się nad zakupem ostrzy i NIGDY NIE WYKONALI SENSU FINANSOWEGO. Podwozia są po prostu zbyt drogie, a ostrza nie są tak naprawdę tańsze w porównaniu do zwykłych komputerów. Proponuję spojrzeć na architekturę SuperMicro Twin jako alternatywę.
źródło
Serwery typu blade, z którymi miałem doświadczenie, pochodzą od IBM. Te są całkowicie modułowe i wbudowana jest duża nadmiarowość. Jeśli więc coś zawiedzie, będzie to jeden z elementów, takich jak zasilacz lub przełącznik modułowy itp. Ale znowu, w tych jest nadmiarowość.
Od czasu zaangażowania się w ostrza IBM nie widziałem wcześniej całkowitej awarii.
Podejrzewam, że w przypadku innych marek byłyby one zbudowane w podobny sposób.
Dobrze byłoby porozmawiać również ze sprzedawcą i poczytać dużo.
To duża inwestycja.
źródło
Awarie prowadzące do awarii wielu serwerów typu blade w tej samej obudowie są porównywalne (pod względem prawdopodobieństwa i przyczyny) z awariami prowadzącymi do awarii wielu serwerów w tej samej szafie.
Początkowa konfiguracja w celu zminimalizowania pojedynczych punktów awarii (dwa osobne źródła prądu przemiennego, z których każde może obsłużyć cały ładunek, biegnące do oddzielnych zasilaczy prądu stałego, tak że każda połowa może obsłużyć cały ładunek; dwa oddzielne przyłącza sieciowe, albo który może obsłużyć cały oczekiwany ładunek itp.), a różnica między czymś, co usuwa wszystkie ostrza w obudowie lub wszystkie serwery 2U w szafie, jest bardzo mała.
źródło
W rzeczy samej! Około 5 lat temu, zarządzając dwiema obudowami kasetowymi HP Proliant klasy p, kilkakrotnie napotkałem problemy z obudową.
Serwery typu blade nie mogły się włączyć, jeśli były wyłączone (serwery nie są często wyłączane, ale stały się dla nas bardzo realnym problemem). Serwery nagle się wyłączyły i nie mogę ponownie się włączyć. W końcu wyłączyłem wszystkie serwery i nie mogłem się ponownie uruchomić.
O ile pamiętam, prawie wszystkie problemy zostały przypisane złym płytom zasilającym lub płytom kontrolera. Mieliśmy je wymieniane wiele razy, a niespecyficzny, nieoficjalny komunikat, który otrzymałem od techników, brzmiał, że mieli część problemów z tą generacją obudów typu blade.
Zdecydowałem wtedy, że korzyści z serwerów typu blade po prostu nie są warte ryzyka, jeśli będę miał coś do powiedzenia w przyszłych zakupach.
Przejdźmy do mojego następnego pracodawcy i mojego obecnego. Mieli już uruchomione obudowy HP Proliant klasy c, więc moje letnie uczucie ostrza nie miało znaczenia. W ciągu 5 lat, w których miałem do czynienia z obudowami klasy c, nigdy nie spotkałem się z czymś takim, jak z klasą p, w której zawiodła mnie cała obudowa. Działają bez większych problemów.
(Z wyjątkiem czasu, gdy burza deszczowa zrzuciła deszcz przez dach, 4 piętra, mały otwór w uszczelce sali komputerowej, w dół kabla i do podwozia)
źródło
W podwoziach DELL i HP Blade nie ma redundantnej płaszczyzny środkowej. Właśnie tam zwycięża IBM Bladecenter. Według mojej wiedzy jest to jedyne podwozie typu blade, które zapewnia nadmiarową płaszczyznę środkową. Chociaż HP oferuje fantastyczny pakiet oprogramowania do zarządzania ostrzami, kupiliśmy Bladecenter E dla naszej firmy, aby uniknąć jednego punktu awarii całego podwozia.
źródło