Mam serwer HP ProLiant DL380 G7 działający jako jednostka pamięci NexentaStor . Serwer ma 36 GB pamięci RAM, 2 kontrolery LSI 9211-8i SAS (bez ekspanderów SAS), 2 dyski systemowe SAS, 12 dysków danych SAS, dysk zapasowy, pamięć podręczną Intel X25-M L2ARC i akcelerator DDRdrive PCI ZIL. Ten system obsługuje NFS na wielu hostach VMWare. Mam również około 90-100 GB deduplikowanych danych w tablicy.
Miałem dwa incydenty, w których wydajność gwałtownie wzrosła, pozostawiając gości VM i konsole Nexenta SSH / Web niedostępnymi i wymagając pełnego ponownego uruchomienia macierzy, aby przywrócić funkcjonalność. W obu przypadkach to dysk SSD Intel X-25M L2ARC zawiódł lub został „zarysowany”. NexentaStor nie powiadomił mnie o awarii pamięci podręcznej, jednak ogólny alert ZFS FMA był widoczny na (niereagującym) ekranie konsoli.
Dane zpool status
wyjściowe pokazały:
pool: vol1
state: ONLINE
scan: scrub repaired 0 in 0h57m with 0 errors on Sat May 21 05:57:27 2011
config:
NAME STATE READ WRITE CKSUM
vol1 ONLINE 0 0 0
mirror-0 ONLINE 0 0 0
c8t5000C50031B94409d0 ONLINE 0 0 0
c9t5000C50031BBFE25d0 ONLINE 0 0 0
mirror-1 ONLINE 0 0 0
c10t5000C50031D158FDd0 ONLINE 0 0 0
c11t5000C5002C823045d0 ONLINE 0 0 0
mirror-2 ONLINE 0 0 0
c12t5000C50031D91AD1d0 ONLINE 0 0 0
c2t5000C50031D911B9d0 ONLINE 0 0 0
mirror-3 ONLINE 0 0 0
c13t5000C50031BC293Dd0 ONLINE 0 0 0
c14t5000C50031BD208Dd0 ONLINE 0 0 0
mirror-4 ONLINE 0 0 0
c15t5000C50031BBF6F5d0 ONLINE 0 0 0
c16t5000C50031D8CFADd0 ONLINE 0 0 0
mirror-5 ONLINE 0 0 0
c17t5000C50031BC0E01d0 ONLINE 0 0 0
c18t5000C5002C7CCE41d0 ONLINE 0 0 0
logs
c19t0d0 ONLINE 0 0 0
cache
c6t5001517959467B45d0 FAULTED 2 542 0 too many errors
spares
c7t5000C50031CB43D9d0 AVAIL
errors: No known data errors
Nie wywołało to żadnych alertów z poziomu Nexenta.
Miałem wrażenie, że awaria L2ARC nie wpłynie na system. Ale w tym przypadku był to z pewnością winowajca. Nigdy nie widziałem żadnych rekomendacji dla RAID L2ARC. Całkowite usunięcie uszkodzonego dysku SSD z serwera przywróciło mnie do działania, ale martwię się o wpływ awarii urządzenia (a może także braku powiadomienia od NexentaStor).
Edycja - Jaki jest obecnie najlepszy wybór dysku SSD dla aplikacji pamięci podręcznej L2ARC?
Odpowiedzi:
ZFS nie wykonuje operacji we / wy dysku, sterowniki urządzeń poniżej ZFS wykonują operacje we / wy dysku. Jeśli urządzenie nie reaguje w odpowiednim czasie lub, jak w tym przypadku, zakłóca działanie wszystkich innych urządzeń w ekspanderze, nie jest to widoczne jako awaria ZFS. Wszystko, co widzi ZFS, to powolne operacje we / wy.
W oprogramowaniu Intel X-25M występuje błąd, który wpływa na ich zachowanie podczas dużych obciążeń i może powodować reset burz. Ten problem dotyczy wszystkich systemów operacyjnych i nie można go rozwiązać w warstwie systemu operacyjnego. Skontaktuj się z dostawcą sprzętu, aby uzyskać poprawki lub rozwiązania problemu.
Jeśli L2ARC ma oczekiwać, że odczyt zostanie spełniony, wówczas zostanie podjęta próba odczytu. Następnie ZFS polega na sterownikach niższej warstwy, aby zgłosić błąd. W takim przypadku dysk kontynuuje resetowanie i ponawia próbę nawet przez 5 minut, zanim zadeklaruje błąd operacji we / wy, w zależności od sterownika, urządzenia i domyślnych ustawień limitu czasu. Dopiero po tym, jak sterowniki niższej warstwy zadeklarują, że I / O nie powiodło się, ZFS spróbuje ponownie w puli.
Programy do sprawdzania wolumenu i sprawdzania dysku NexentaStor szukają dodatkowych komunikatów o błędach i powiadamiają Cię poprzez e-mail i rejestrowanie błędów. Runner sprawdzania dysku został ulepszony w wersji 3.1, aby pomóc ostrzec Cię szczególnie o stanach uszkodzonego oprogramowania na dyskach SSD.
Podsumowując: twój sprzęt jest uszkodzony i będzie wymagał naprawy lub wymiany.
źródło
Czy podłączasz dysk SSD X25-M do płyty montażowej? Znany jest problem z Nexentą i dostępem do L2ARC za pośrednictwem płyty montażowej. Najlepiej jest podłączyć dysk SSD bezpośrednio do portu SATA na płycie głównej. Upewnij się, że jest skonfigurowany do korzystania z AHCI.
Jeśli prowadzisz coś krytycznego na tym serwerze, przełączę się na dysk SSD SLC (na przykład dysk X25-E lub dysk SSD STEC). To powiedziawszy, prawdopodobnie będziesz w porządku z X25-M, jeśli tak nie jest.
źródło
Ed, jest kilka, z których można korzystać, od stosunkowo rozsądnej ceny do dość drogiej drogi. Wolę wdrażać dyski SSD SAS we wszystkich przypadkach i bardzo dobrze sobie radziłem zarówno z STEC, jak i Pliant. Oba oferują teraz napęd MLC, który będzie działał doskonale z urządzeniem L2ARC. Jeszcze nie przetestowana, ale już wkrótce oferta SSD firmy Seagate, czyli SLC SAS 2.0, i podobno „nie jest droga”. Bądźcie czujni....
-PB
źródło