Ile realokacji sektorów SMART wskazuje na problemy?

17

Mam urządzenie NAS, które ma nieco ponad miesiąc. Jest skonfigurowany do wysyłania mi e-mailem alertów generowanych z danych SMART dysków twardych. Po jednym dniu jeden z dysków twardych zgłosił, że sektor uległ awarii i został ponownie przydzielony. W pierwszym tygodniu liczba ta wzrosła do sześciu sektorów dla danego dysku twardego. Po miesiącu liczba ta wynosi dziewięć przeniesionych sektorów. Tempo zdecydowanie wydaje się zwalniać.

NAS jest skonfigurowany z sześcioma dyskami 1,5 TB w konfiguracji RAID-5. W przypadku dysków o tak dużej pojemności oczekiwałbym od czasu do czasu awarii jednego z sektorów, więc nie przejmowałem się przeniesieniem pierwszych kilku sektorów. Niepokoi mnie jednak to, że żaden z pozostałych dysków nie zgłasza żadnych problemów.

Przy jakim tempie relokacji lub całkowitej liczbie relokacji powinienem zacząć martwić się o zdrowie dysku? Czy może się to różnić w zależności od pojemności dysku?

Jeremy
źródło
niezły, Jeremy. jeden z najlepszych błędów serwera, jak wielu innych tutaj, przyda się i nie jest łatwo znaleźć odpowiedź. zdecydowanie zasługuje na więcej niż +2. możesz przeformułować pytanie, aby nie było ono specyficzne dla NetGear, ale ogólnie rzecz biorąc, pamięć masowa
nazwa użytkownika
Dzięki za opinie, wprowadziłem zasugerowane zmiany i zaktualizowałem sytuację.
Jeremy
1
Wymieniam dyski w jednym przeniesionym sektorze. Należy spodziewać się zero w okresie gwarancyjnym dysku. Producenci zawsze honorowali gwarancję na te dyski.
Michael Hampton

Odpowiedzi:

13

Napędy, podobnie jak większość komponentów, charakteryzują się współczynnikiem awaryjności krzywej wanny. Na początku dużo zawodzą, mają stosunkowo niski wskaźnik awaryjności w środku, a następnie bardzo zawodzą, gdy zbliżają się do końca życia.

Tak jak cały dysk podąża za tą krzywą, tak poszczególne obszary dysku również podążają za tą krzywą. Na początku korzystania z dysku zobaczysz wiele alokacji sektorowych, ale to powinno się zmniejszyć. Gdy dysk zacznie się psuć pod koniec życia, zacznie tracić coraz więcej sektorów.

Nie musisz martwić się o 6 (w zależności od napędu - skonsultuj się z producentem), ale musisz obserwować i zobaczyć częstotliwość każdej nowej realokacji. Jeśli pogorszenie przyspieszy lub pozostanie takie samo, martw się. W przeciwnym razie powinno być dobrze po początkowym okresie docierania.

-Adam

Adam Davis
źródło
Mały punkt: dyski przestaną działać długo przed osiągnięciem MTBF. Myślę, że masz na myśli, że dużo zawodzą, gdy zbliżają się do oczekiwanego życia.
Eddie
5
Czy Google nie całkiem obalił teorii „krzywej wanny”?
Insyte
20

Ponownie czytając artykuł Google na temat „ Tendencje niepowodzenia w populacji dużych dysków ”, myślę, że mogę spokojnie powiedzieć, że odpowiedź Adama jest nieprawidłowa. W analizie wyjątkowo dużej populacji napędów około 9% miało niezerowe liczby realokacji. Znamienny cytat jest następujący:

Po pierwszej realokacji dyski są ponad 14 razy bardziej podatne na awarie w ciągu 60 dni niż dyski bez ponownej alokacji, co czyni próg krytyczny dla tego parametru również jednym.

Jest to jeszcze bardziej interesujące, gdy mamy do czynienia z „realokacjami offline”, które są realokacjami odkrytymi podczas szorowania dysku w tle, a nie podczas rzeczywistych żądanych operacji IO. Ich wniosek:

Po pierwszej realokacji offline dyski mają ponad 21 razy większe szanse na awarię w ciągu 60 dni niż dyski bez realokacji offline; efekt, który jest jeszcze bardziej drastyczny niż całkowita realokacja.

Odtąd moją zasadą będzie, że dyski z niezerową liczbą realokacji mają być planowane do wymiany.

Insyte
źródło
To ciekawe, słyszałem o tym artykule, ale być może będę musiał go ponownie przeczytać. FWIW, 4 z 6 dysków na moim serwerze NAS dokonały realokacji sektorów. Dziękuję za odpowiedź.
Jeremy,
3

Różne dyski mają prawdopodobnie różne parametry. Na dysku, który ostatnio sprawdziłem, który był dyskiem 1 TB serii przedsiębiorstw od jednego dostawcy, zarezerwowano 2048 sektorów do realokacji.

Liczbę zarezerwowanych sektorów można oszacować w raporcie SMART na dysku, który ma niezerową liczbę przeniesionych sektorów. Rozważ poniżej raport dotyczący awarii dysku.

...
ID# ATTRIBUTE_NAME          VALUE WORST THRESH TYPE      WHEN_FAILED  RAW
...          
  5 Reallocated_Sector_Ct   005   005   036    Pre-fail  FAILING_NOW  1955

W tym przypadku wykorzystano 95% zarezerwowanej pojemności, czyli 1955 sektorów. Dlatego początkowa pojemność wynosiła około 2057. W rzeczywistości jest to 2048, różnica wynika z błędu zaokrąglania.

SMART zamienia dysk w stan awarii, gdy liczba realokowanych sektorów osiągnie określony próg. Dla danego napędu próg ten wynosi 64% zarezerwowanej pojemności. To około 1310 odwzorowanych sektorów.

Jednak zarezerwowane sektory nie leżą w ciągłym zakresie. Zamiast tego są one podzielone na kilka grup, każda grupa służy do mapowania sektorów z określonej części dysku. Ma to na celu utrzymanie danych lokalnych w obszarze na dysku.

Minusem lokalizacji jest to, że dysk może mieć wiele zarezerwowanych sektorów. Jednak w jednym obszarze może już zabraknąć zarezerwowanej pojemności. W takim przypadku zachowanie zależy od oprogramowania wewnętrznego. Na jednym dysku zaobserwowaliśmy, że przechodzi on w stan AWARIA i blokuje się, gdy wystąpi błąd w części, która nie jest już chroniona.

Dmitrij Chubarow
źródło
Jak ustalono, że „zarezerwowano 2048 sektorów do realokacji”?
AJ.
Być może 2047 to maksymalna liczba sektorów, które można ponownie przydzielić. Jeden z moich dysków miał dokładnie 2047, kiedy został wykupiony na eBayu za „nowy”, czyli 0x7FF, także b11,111,111,111. Przejście do 2048 r. Dodatkowo by zmarnowało.
David
2

Możesz chcieć przeprowadzić długi autotest SMART, jeśli napęd go obsługuje. Może to dać więcej informacji o stanie dysku. Jeśli Twój NAS nie może tego zrobić i jeśli możesz wyciągnąć dysk lub wyłączyć NAS na kilka godzin, możesz przeprowadzić długi autotest z dyskiem twardym podłączonym do innego komputera.

Eddie
źródło
1

Gdy nowy dysk zachowuje się w ten sposób, nie można mu wcale ufać!

Odeślij go jak najszybciej, a otrzymasz dysk zastępczy.

Nils-Anders Nøttseter
źródło
1

Różni producenci mają różne „dopuszczalne straty” (taki sam pomysł jak w przypadku monitorów i złych pikseli). Skontaktuj się z producentem napędu, aby dowiedzieć się, jaki jest jego standard.

Wygląda jednak na zły trend ...

Brian Knoblauch
źródło
-1

Western Digital szczególnie dumny z technologii, która odzyskuje uszkodzony sektor w odpowiednim czasie zamiast zamrozić dysk umieszczony w RAID, jego nazwa TLER ( http://en.wikipedia.org/wiki/Time-Limited_Error_Recovery ). Czas wynosi zwykle 5..7 sekund.

Jak znalazłem w Internecie, istnieją dyski WD z wyłączoną opcją, ale niektóre osoby włączyły tę funkcję na tanich zielonych dyskach WD, a następnie umieściły je w macierzy RAID.

Narzędzie WDTLER zostało usunięte z witryny pomocy technicznej WD, ale można je łatwo znaleźć za pośrednictwem Google.

PS Używam tego narzędzia tylko do odczytu statusu i do tej pory nie używam RAID :)


źródło