ZFS - Wpływ awarii urządzenia pamięci podręcznej L2ARC (Nexenta)

10

Mam serwer HP ProLiant DL380 G7 działający jako jednostka pamięci NexentaStor . Serwer ma 36 GB pamięci RAM, 2 kontrolery LSI 9211-8i SAS (bez ekspanderów SAS), 2 dyski systemowe SAS, 12 dysków danych SAS, dysk zapasowy, pamięć podręczną Intel X25-M L2ARC i akcelerator DDRdrive PCI ZIL. Ten system obsługuje NFS na wielu hostach VMWare. Mam również około 90-100 GB deduplikowanych danych w tablicy.

Miałem dwa incydenty, w których wydajność gwałtownie wzrosła, pozostawiając gości VM i konsole Nexenta SSH / Web niedostępnymi i wymagając pełnego ponownego uruchomienia macierzy, aby przywrócić funkcjonalność. W obu przypadkach to dysk SSD Intel X-25M L2ARC zawiódł lub został „zarysowany”. NexentaStor nie powiadomił mnie o awarii pamięci podręcznej, jednak ogólny alert ZFS FMA był widoczny na (niereagującym) ekranie konsoli.

wprowadź opis zdjęcia tutaj

Dane zpool statuswyjściowe pokazały:

  pool: vol1
 state: ONLINE
 scan: scrub repaired 0 in 0h57m with 0 errors on Sat May 21 05:57:27 2011
config:

        NAME                        STATE     READ WRITE CKSUM
        vol1                        ONLINE       0     0     0
          mirror-0                  ONLINE       0     0     0
            c8t5000C50031B94409d0   ONLINE       0     0     0
            c9t5000C50031BBFE25d0   ONLINE       0     0     0
          mirror-1                  ONLINE       0     0     0
            c10t5000C50031D158FDd0  ONLINE       0     0     0
            c11t5000C5002C823045d0  ONLINE       0     0     0
          mirror-2                  ONLINE       0     0     0
            c12t5000C50031D91AD1d0  ONLINE       0     0     0
            c2t5000C50031D911B9d0   ONLINE       0     0     0
          mirror-3                  ONLINE       0     0     0
            c13t5000C50031BC293Dd0  ONLINE       0     0     0
            c14t5000C50031BD208Dd0  ONLINE       0     0     0
          mirror-4                  ONLINE       0     0     0
            c15t5000C50031BBF6F5d0  ONLINE       0     0     0
            c16t5000C50031D8CFADd0  ONLINE       0     0     0
          mirror-5                  ONLINE       0     0     0
            c17t5000C50031BC0E01d0  ONLINE       0     0     0
            c18t5000C5002C7CCE41d0  ONLINE       0     0     0
        logs
          c19t0d0                   ONLINE       0     0     0
        cache
          c6t5001517959467B45d0     FAULTED      2   542     0  too many errors
        spares
          c7t5000C50031CB43D9d0     AVAIL   

errors: No known data errors

Nie wywołało to żadnych alertów z poziomu Nexenta.

Miałem wrażenie, że awaria L2ARC nie wpłynie na system. Ale w tym przypadku był to z pewnością winowajca. Nigdy nie widziałem żadnych rekomendacji dla RAID L2ARC. Całkowite usunięcie uszkodzonego dysku SSD z serwera przywróciło mnie do działania, ale martwię się o wpływ awarii urządzenia (a może także braku powiadomienia od NexentaStor).

Edycja - Jaki jest obecnie najlepszy wybór dysku SSD dla aplikacji pamięci podręcznej L2ARC?

ewwhite
źródło
Czy to możliwe, że na twoim dysku SSD lub SATA występują problemy sprzętowe?
tegbains
To płyta montażowa HP SAS. Nigdy nie widziałem żadnego niepowodzenia lub problemów w wielu wdrożeniach (Linux), ale jestem prawie pewien, że awaria jest funkcją stosowanego przez konsumentów dysku SSD. Mogę zaakceptować awarię, ale większy problem dotyczy wpływu na pozostałe dyski i cały system pamięci.
ewwhite
W szczególności Pogo Linux (który uważam za największego integratora / dystrybutora Nexenty) nie oferuje już urządzeń Intel X25 jako opcji dla L2ARC lub ZIL z powodu problemów z późniejszymi wersjami oprogramowania układowego Intela.
Skyhawk
A zalecana wymiana to (marka, model, cena)?
ewwhite
1
Nawiasem mówiąc, nowa seria Intel 320 może być interesująca do wypróbowania jako urządzenie L2ARC lub nawet ZIL: ma wsparcie kondensatorowe i chociaż wytrzymałość zapisu jest ograniczona (do 60 terabajtów w zależności od modelu), pozostały procent zużycia może być śledzone za pomocą atrybutu SMART E9 (zaczyna się od 100 i odlicza do 1). Podejrzewam, że wielu użytkowników ZFS może wymieniać to urządzenie tak często, jak to konieczne, aby zapobiec zbliżeniu się E9 do 1, bez skumulowanego kosztu nawet zbliżającego się do kosztu dysku SLC o porównywalnej wielkości.
Skyhawk

Odpowiedzi:

10

ZFS nie wykonuje operacji we / wy dysku, sterowniki urządzeń poniżej ZFS wykonują operacje we / wy dysku. Jeśli urządzenie nie reaguje w odpowiednim czasie lub, jak w tym przypadku, zakłóca działanie wszystkich innych urządzeń w ekspanderze, nie jest to widoczne jako awaria ZFS. Wszystko, co widzi ZFS, to powolne operacje we / wy.

W oprogramowaniu Intel X-25M występuje błąd, który wpływa na ich zachowanie podczas dużych obciążeń i może powodować reset burz. Ten problem dotyczy wszystkich systemów operacyjnych i nie można go rozwiązać w warstwie systemu operacyjnego. Skontaktuj się z dostawcą sprzętu, aby uzyskać poprawki lub rozwiązania problemu.

Jeśli L2ARC ma oczekiwać, że odczyt zostanie spełniony, wówczas zostanie podjęta próba odczytu. Następnie ZFS polega na sterownikach niższej warstwy, aby zgłosić błąd. W takim przypadku dysk kontynuuje resetowanie i ponawia próbę nawet przez 5 minut, zanim zadeklaruje błąd operacji we / wy, w zależności od sterownika, urządzenia i domyślnych ustawień limitu czasu. Dopiero po tym, jak sterowniki niższej warstwy zadeklarują, że I / O nie powiodło się, ZFS spróbuje ponownie w puli.

Programy do sprawdzania wolumenu i sprawdzania dysku NexentaStor szukają dodatkowych komunikatów o błędach i powiadamiają Cię poprzez e-mail i rejestrowanie błędów. Runner sprawdzania dysku został ulepszony w wersji 3.1, aby pomóc ostrzec Cię szczególnie o stanach uszkodzonego oprogramowania na dyskach SSD.

Podsumowując: twój sprzęt jest uszkodzony i będzie wymagał naprawy lub wymiany.

Richard Elling
źródło
2
Dziękuję Ci. Więc nie będę już używać Intel X-25. Chciałbym przetestować zalecenie dotyczące nowego urządzenia SSD L2ARC, aby je wymienić.
ewwhite
3

Czy podłączasz dysk SSD X25-M do płyty montażowej? Znany jest problem z Nexentą i dostępem do L2ARC za pośrednictwem płyty montażowej. Najlepiej jest podłączyć dysk SSD bezpośrednio do portu SATA na płycie głównej. Upewnij się, że jest skonfigurowany do korzystania z AHCI.

Jeśli prowadzisz coś krytycznego na tym serwerze, przełączę się na dysk SSD SLC (na przykład dysk X25-E lub dysk SSD STEC). To powiedziawszy, prawdopodobnie będziesz w porządku z X25-M, jeśli tak nie jest.

pełen werwy
źródło
Tak, łączę się przez normalną wnękę na napęd. Mam inne instalacje z tym samym dyskiem Intel SSD działającym jak L2ARC (na sprzęcie Sun i HP). Ten konkretny sprawił mi jednak problemy. Moje badania zdawały się wskazywać, że L2ARC nie musiało być tak niezawodne jak ZIL (stąd użycie rozwiązań ZIL opartych na SLC i PCI oraz napędu dla L2ARC). Czy to się zmieniło?
ewwhite
Spróbowałbym podłączyć dysk SSD bezpośrednio do płyty głównej i sprawdzić, czy to zadziała. Jeśli masz zapasowy działający X25-M, możesz spróbować wymienić bieżący i sprawdzić, czy sam dysk SSD jest zły. Na dysku SLC SSD: zależy to od poziomu ryzyka. Jeśli korzystasz z umowy SLA, która nigdy nie może spaść i musi działać szybko, taniej jest kupić wysokiej klasy dysk SSD.
zippy
Próbuję powiedzieć, że Intel X25-M był zalecany do L2ARC w większości artykułów i dyskusji, które widziałem online. Jeśli tak nie jest, jakie jest preferowane urządzenie?
ewwhite
1
@ewwhite: Teoretycznie awaria urządzenia L2ARC nie powinna powodować zakłóceń, ponieważ ZFS może po prostu wrócić do odczytu dysku (oczywiście wydajność wymagałaby trafienia). W praktyce .. cóż, wygląda na to, że trafiłeś w błąd sterownika ZFS lub SCSI, który jest wywoływany przez zachowanie SSD.
Tom Shaw
1
@ewwhite: Prawdopodobnie powinienem dać ci więcej praktycznych porad. Jeśli chcesz wygenerować zrzut awaryjny systemu przy następnym uruchomieniu systemu, postępuj zgodnie z instrukcjami tutaj . Ten rodzaj zrzutu może być przydatny dla programistów Illumos.
Tom Shaw
0

Ed, jest kilka, z których można korzystać, od stosunkowo rozsądnej ceny do dość drogiej drogi. Wolę wdrażać dyski SSD SAS we wszystkich przypadkach i bardzo dobrze sobie radziłem zarówno z STEC, jak i Pliant. Oba oferują teraz napęd MLC, który będzie działał doskonale z urządzeniem L2ARC. Jeszcze nie przetestowana, ale już wkrótce oferta SSD firmy Seagate, czyli SLC SAS 2.0, i podobno „nie jest droga”. Bądźcie czujni....

-PB

PauleyB
źródło