Jestem w środowisku, które zawiera wiele serwerów Supermicro wyposażonych w sprzętowe kontrolery RAID Adaptec i LSI MegaRAID . Te kontrolery zawierają podtrzymywane bateryjnie moduły pamięci podręcznej, które pomagają zwiększyć wydajność zapisu i chronić przesyłane dane.
Częstymi problemami z obsługą jest awaria baterii kontrolera RAID. Spowoduje to zmianę tablicy z trybu zapisu z powrotem na tryb zapisu . Wyraźnie ma to negatywny wpływ na wydajność, ponieważ system działa ze zmniejszoną prędkością zapisu. Trwa to do momentu ustanowienia okna przestoju w celu wyłączenia systemu i wymiany baterii.
To dla nas bardzo rutynowa operacja; prawie co tydzień na kilku tysiącach fizycznych serwerów ... Mamy nawet stacje ładowania, które przygotowują zapasowe akumulatory, aby można było je wymienić bez cyklu ładowania.
Być może rozpieszcza mnie długa historia serwerów HP ProLiant i kontrolerów RAID Smart Array , ale systemy HP zwykle miały żywotność baterii 4-6 lat. Ostatecznie wyeliminowali użycie akumulatorów RAID około 2009 roku. Zostały one zastąpione modułami pamięci opartymi na superkondensatorach (pamięć podręczna zapisu z pamięcią flash lub FBWC) i nie wymagają wymiany, usuwania ani długiego początkowego cyklu ładowania.
Ponieważ widzę, że awarie baterii kontrolerów Adaptec i LSI czasami występują w systemach, które pracują krócej niż 12 miesięcy, zastanawiam się, czy zdarza się to w innych środowiskach.
Jeśli jest to powszechne, jak radzą sobie z tym inne duże środowiska serwerowe?
- Wszelkie wskazówki lub porady dotyczące wymiany baterii RAID?
- Czy są jakieś parametry konfiguracyjne, które mogą pomóc?
- Jak zakłóca to operacje w twoim środowisku?
- Czy złe chłodzenie podwozia i temperatura mogą być czynnikiem?
- Czy robimy coś złego?
- Kontrolery Dell PERC są produkowane przez LSI. Czy środowiska Dell mają taki sam krótki czas pracy baterii?
Literatura produktowa LSI przedstawiająca akumulator nowej generacji, który może pracować dłużej niż 1 rok.
Serwer HP ProLiant DL585 G2 z ponad 1000 dni nieprzerwanej pracy i ładną baterią RAID ...
# uptime
05:38:08 up 1031 days, 44 min, 31 users, load average: 0.49, 0.64, 0.99
# hpacucli
Cache Board Present: True
Cache Status: OK
Accelerator Ratio: 50% Read / 50% Write
Total Cache Size: 512 MB
Battery Pack Count: 1
Battery Status: OK
źródło
Odpowiedzi:
Podejrzewam, że twoje Supermicros są zepsute w ten czy inny sposób - być może akumulatory się przegrzewają. Najnowsze LSI zgłaszają temperaturę za pośrednictwem MegaCLI - warto monitorować tę wartość na serwerach, które wymagają wymiany.
Widziałem kilka systemów Dell i Fujitsu ze sterownikami LSI BBU, żaden z nich nie miał corocznej wymiany pakietu baterii (z wyjątkiem tego, że spieprzyłeś pakiet przez głębokie rozładowanie). Typowy czas życia wynosił około 3 do 5 lat.
źródło
Średnia żywotność baterii powinna wynosić 3-5 lat. I nie zapominaj, że FBWC oparty na technologii flash również zawiedzie. Nie wiem dlaczego / jak, ale regularnie wymienialiśmy je wróżkami na naszych serwerach HP. Powinienem trwać dłużej niż bateria, ale nie mam statystyk z naszych indywidualnych serwerów.
Standardowym sposobem zapobiegania skutkom awarii baterii i uczenia się baterii jest posiadanie wielu baterii. Tak to ma pamięć HP (jak HP EVA). Masz 2 akumulatory typu hot-plug, a gdy jeden z nich jest słabo naładowany lub w trakcie wymiany, kontroler działa z drugim. Nie jestem pewien, czy możliwe jest podłączenie wielu baterii do SmartArray, ale
hpacucli
diag
dane wyjściowe sugerują, że powinno być obsługiwane:źródło
Moje doświadczenie z wersjami IBM platform LSI w kilkuset instalacjach jest takie, że przeciętny akumulator ledwo daje 2 lata, a superkaps nie jest lepszy, niektóre z nich można naprawić za pomocą aktualizacji oprogramowania układowego, ale LSI po prostu go nie ma dobrze. Miałem około 75% awarii Supercap w ciągu pierwszych 2 lat.
źródło