Sprzętowa pamięć podręczna kontrolera RAID częstotliwość awarii baterii / żywotność?

14

Jestem w środowisku, które zawiera wiele serwerów Supermicro wyposażonych w sprzętowe kontrolery RAID Adaptec i LSI MegaRAID . Te kontrolery zawierają podtrzymywane bateryjnie moduły pamięci podręcznej, które pomagają zwiększyć wydajność zapisu i chronić przesyłane dane.

Częstymi problemami z obsługą jest awaria baterii kontrolera RAID. Spowoduje to zmianę tablicy z trybu zapisu z powrotem na tryb zapisu . Wyraźnie ma to negatywny wpływ na wydajność, ponieważ system działa ze zmniejszoną prędkością zapisu. Trwa to do momentu ustanowienia okna przestoju w celu wyłączenia systemu i wymiany baterii.

To dla nas bardzo rutynowa operacja; prawie co tydzień na kilku tysiącach fizycznych serwerów ... Mamy nawet stacje ładowania, które przygotowują zapasowe akumulatory, aby można było je wymienić bez cyklu ładowania.

Być może rozpieszcza mnie długa historia serwerów HP ProLiant i kontrolerów RAID Smart Array , ale systemy HP zwykle miały żywotność baterii 4-6 lat. Ostatecznie wyeliminowali użycie akumulatorów RAID około 2009 roku. Zostały one zastąpione modułami pamięci opartymi na superkondensatorach (pamięć podręczna zapisu z pamięcią flash lub FBWC) i nie wymagają wymiany, usuwania ani długiego początkowego cyklu ładowania.

Ponieważ widzę, że awarie baterii kontrolerów Adaptec i LSI czasami występują w systemach, które pracują krócej niż 12 miesięcy, zastanawiam się, czy zdarza się to w innych środowiskach.

Jeśli jest to powszechne, jak radzą sobie z tym inne duże środowiska serwerowe?

  • Wszelkie wskazówki lub porady dotyczące wymiany baterii RAID?
  • Czy są jakieś parametry konfiguracyjne, które mogą pomóc?
  • Jak zakłóca to operacje w twoim środowisku?
  • Czy złe chłodzenie podwozia i temperatura mogą być czynnikiem?
  • Czy robimy coś złego?
  • Kontrolery Dell PERC są produkowane przez LSI. Czy środowiska Dell mają taki sam krótki czas pracy baterii?

Literatura produktowa LSI przedstawiająca akumulator nowej generacji, który może pracować dłużej niż 1 rok. wprowadź opis zdjęcia tutaj

Serwer HP ProLiant DL585 G2 z ponad 1000 dni nieprzerwanej pracy i ładną baterią RAID ...

# uptime 
 05:38:08 up 1031 days, 44 min, 31 users,  load average: 0.49, 0.64, 0.99

# hpacucli
   Cache Board Present: True
   Cache Status: OK
   Accelerator Ratio: 50% Read / 50% Write
   Total Cache Size: 512 MB
   Battery Pack Count: 1
   Battery Status: OK
ewwhite
źródło
2
Tylko wskazówka: kontrolery Adaptec ostatniej generacji również używają superkaps / flashów zamiast baterii.
Sven
Och, zdaję sobie sprawę, że wszyscy producenci mają teraz rozwiązania oparte na supercapach , ale biorąc pod uwagę istniejący ślad instalacji, trudno jest dokonać szerokiej zmiany w całej infrastrukturze.
ewwhite
2
Nigdy tego nie robiłem (prawdopodobnie dlatego, że brzmi to jak zły pomysł i nie miałem tego problemu tak często jak ty), ale możesz spróbować wymienić baterię RAID na serwerze testowym, gdy jest włączony. Wysuń go, zdejmij pokrywę, odłącz złą baterię i podłącz dobrą, a następnie z powrotem do szafy ... Jeśli wszystko pójdzie dobrze, masz nowy proces wymiany baterii, który nie wiąże się z przestojami.
sierpień
2
@ Sierpień Uhm, w miarę jak ryzykowne procedury, to brzmi dość wysoko na liście „OMG GDZIE DID MOJE DANE GO”.
Dan
2
Tak, to prawda ... Zgadzam się, że to okropny pomysł, ale biorąc pod uwagę sytuację i wymóg braku przestojów, warto przetestować serwer testowy (lub trzydzieści serwerów testowych ...), aby sprawdzić, czy jest możliwy. Jaka jest inna opcja poza ponownym wykonaniem infrastruktury, aby nie polegać na pojedynczych bateriach RAID w tysiącach serwerów?
sierpień

Odpowiedzi:

9

Podejrzewam, że twoje Supermicros są zepsute w ten czy inny sposób - być może akumulatory się przegrzewają. Najnowsze LSI zgłaszają temperaturę za pośrednictwem MegaCLI - warto monitorować tę wartość na serwerach, które wymagają wymiany.

root@host:~/SOLARIS# ./MegaCli -AdpBbuCmd -GetBbuStatus -aALL

BBU status for Adapter: 0

BatteryType: BBU
[...]
Temperature: 41 C

Widziałem kilka systemów Dell i Fujitsu ze sterownikami LSI BBU, żaden z nich nie miał corocznej wymiany pakietu baterii (z wyjątkiem tego, że spieprzyłeś pakiet przez głębokie rozładowanie). Typowy czas życia wynosił około 3 do 5 lat.

the-wabbit
źródło
4
Dodałbym, że chyba że system WYRAŹNIE ZEZWALA na wymianę BBU RAID, nie spróbowałbym tego. Nigdy nie widziałem, aby system wymagał corocznej wymiany baterii pamięci podręcznej RAID. 3-5 lat to typowy okres użytkowania.
voretaq7
Myślę, że masz to!
ewwhite
1

Średnia żywotność baterii powinna wynosić 3-5 lat. I nie zapominaj, że FBWC oparty na technologii flash również zawiedzie. Nie wiem dlaczego / jak, ale regularnie wymienialiśmy je wróżkami na naszych serwerach HP. Powinienem trwać dłużej niż bateria, ale nie mam statystyk z naszych indywidualnych serwerów.

Standardowym sposobem zapobiegania skutkom awarii baterii i uczenia się baterii jest posiadanie wielu baterii. Tak to ma pamięć HP (jak HP EVA). Masz 2 akumulatory typu hot-plug, a gdy jeden z nich jest słabo naładowany lub w trakcie wymiany, kontroler działa z drugim. Nie jestem pewien, czy możliwe jest podłączenie wielu baterii do SmartArray, ale hpacucli diagdane wyjściowe sugerują, że powinno być obsługiwane:

Battery 1 firmware is up to date.
Battery 2 not present.
Battery 3 not present.

Battery Status:    Battery 1      Battery 2      Battery 3
---------------    ---------      ---------      ---------
Present:              YES             NO             NO
Responding:           YES            N/A            N/A
PIC Revision:          52              .              .         
Status:              0x80              .              .         
Extra Status:        0x01              .              .         
   Enabled:         FALSE              .              .         
   Charging:        FALSE              .              .         
   Good:             TRUE              .              .         
   Open:            FALSE              .              .         
   Shorted:         FALSE              .              .         
   Sample Err:      FALSE              .              .         
Control:             0x00              .              .         
Load Current: (0x70) 24.6mA            .              .    
   Per Memory Chip:  4920uA            .              .         
Voltage:      (0xae) 5640mV            .              .         
Capacity:             100%             .              .         
Depletion count:     0x00              .              .         
Marki555
źródło
1

Moje doświadczenie z wersjami IBM platform LSI w kilkuset instalacjach jest takie, że przeciętny akumulator ledwo daje 2 lata, a superkaps nie jest lepszy, niektóre z nich można naprawić za pomocą aktualizacji oprogramowania układowego, ale LSI po prostu go nie ma dobrze. Miałem około 75% awarii Supercap w ciągu pierwszych 2 lat.

znak
źródło