Ile realokacji sektorów SMART wskazuje na problemy?

17

Mam urządzenie NAS, które ma nieco ponad miesiąc. Jest skonfigurowany do wysyłania mi e-mailem alertów generowanych z danych SMART dysków twardych. Po jednym dniu jeden z dysków twardych zgłosił, że sektor uległ awarii i został ponownie przydzielony. W pierwszym tygodniu liczba ta wzrosła do sześciu sektorów dla danego dysku twardego. Po miesiącu liczba ta wynosi dziewięć przeniesionych sektorów. Tempo zdecydowanie wydaje się zwalniać.

NAS jest skonfigurowany z sześcioma dyskami 1,5 TB w konfiguracji RAID-5. W przypadku dysków o tak dużej pojemności oczekiwałbym od czasu do czasu awarii jednego z sektorów, więc nie przejmowałem się przeniesieniem pierwszych kilku sektorów. Niepokoi mnie jednak to, że żaden z pozostałych dysków nie zgłasza żadnych problemów.

Przy jakim tempie relokacji lub całkowitej liczbie relokacji powinienem zacząć martwić się o zdrowie dysku? Czy może się to różnić w zależności od pojemności dysku?

raid hard-drive smart bad-blocks Jeremy
źródło

niezły, Jeremy. jeden z najlepszych błędów serwera, jak wielu innych tutaj, przyda się i nie jest łatwo znaleźć odpowiedź. zdecydowanie zasługuje na więcej niż +2. możesz przeformułować pytanie, aby nie było ono specyficzne dla NetGear, ale ogólnie rzecz biorąc, pamięć masowa

nazwa użytkownika

Dzięki za opinie, wprowadziłem zasugerowane zmiany i zaktualizowałem sytuację.

Jeremy

1

Wymieniam dyski w jednym przeniesionym sektorze. Należy spodziewać się zero w okresie gwarancyjnym dysku. Producenci zawsze honorowali gwarancję na te dyski.

Michael Hampton

13

Napędy, podobnie jak większość komponentów, charakteryzują się współczynnikiem awaryjności krzywej wanny. Na początku dużo zawodzą, mają stosunkowo niski wskaźnik awaryjności w środku, a następnie bardzo zawodzą, gdy zbliżają się do końca życia.

Tak jak cały dysk podąża za tą krzywą, tak poszczególne obszary dysku również podążają za tą krzywą. Na początku korzystania z dysku zobaczysz wiele alokacji sektorowych, ale to powinno się zmniejszyć. Gdy dysk zacznie się psuć pod koniec życia, zacznie tracić coraz więcej sektorów.

Nie musisz martwić się o 6 (w zależności od napędu - skonsultuj się z producentem), ale musisz obserwować i zobaczyć częstotliwość każdej nowej realokacji. Jeśli pogorszenie przyspieszy lub pozostanie takie samo, martw się. W przeciwnym razie powinno być dobrze po początkowym okresie docierania.

-Adam

Adam Davis
źródło

Mały punkt: dyski przestaną działać długo przed osiągnięciem MTBF. Myślę, że masz na myśli, że dużo zawodzą, gdy zbliżają się do oczekiwanego życia.

Eddie

5

Czy Google nie całkiem obalił teorii „krzywej wanny”?

Insyte

20

Ponownie czytając artykuł Google na temat „ Tendencje niepowodzenia w populacji dużych dysków ”, myślę, że mogę spokojnie powiedzieć, że odpowiedź Adama jest nieprawidłowa. W analizie wyjątkowo dużej populacji napędów około 9% miało niezerowe liczby realokacji. Znamienny cytat jest następujący:

Po pierwszej realokacji dyski są ponad 14 razy bardziej podatne na awarie w ciągu 60 dni niż dyski bez ponownej alokacji, co czyni próg krytyczny dla tego parametru również jednym.

Jest to jeszcze bardziej interesujące, gdy mamy do czynienia z „realokacjami offline”, które są realokacjami odkrytymi podczas szorowania dysku w tle, a nie podczas rzeczywistych żądanych operacji IO. Ich wniosek:

Po pierwszej realokacji offline dyski mają ponad 21 razy większe szanse na awarię w ciągu 60 dni niż dyski bez realokacji offline; efekt, który jest jeszcze bardziej drastyczny niż całkowita realokacja.

Odtąd moją zasadą będzie, że dyski z niezerową liczbą realokacji mają być planowane do wymiany.

Insyte
źródło

To ciekawe, słyszałem o tym artykule, ale być może będę musiał go ponownie przeczytać. FWIW, 4 z 6 dysków na moim serwerze NAS dokonały realokacji sektorów. Dziękuję za odpowiedź.

Jeremy,

3

Różne dyski mają prawdopodobnie różne parametry. Na dysku, który ostatnio sprawdziłem, który był dyskiem 1 TB serii przedsiębiorstw od jednego dostawcy, zarezerwowano 2048 sektorów do realokacji.

Liczbę zarezerwowanych sektorów można oszacować w raporcie SMART na dysku, który ma niezerową liczbę przeniesionych sektorów. Rozważ poniżej raport dotyczący awarii dysku.

...
ID# ATTRIBUTE_NAME          VALUE WORST THRESH TYPE      WHEN_FAILED  RAW
...          
  5 Reallocated_Sector_Ct   005   005   036    Pre-fail  FAILING_NOW  1955

W tym przypadku wykorzystano 95% zarezerwowanej pojemności, czyli 1955 sektorów. Dlatego początkowa pojemność wynosiła około 2057. W rzeczywistości jest to 2048, różnica wynika z błędu zaokrąglania.

SMART zamienia dysk w stan awarii, gdy liczba realokowanych sektorów osiągnie określony próg. Dla danego napędu próg ten wynosi 64% zarezerwowanej pojemności. To około 1310 odwzorowanych sektorów.

Jednak zarezerwowane sektory nie leżą w ciągłym zakresie. Zamiast tego są one podzielone na kilka grup, każda grupa służy do mapowania sektorów z określonej części dysku. Ma to na celu utrzymanie danych lokalnych w obszarze na dysku.

Minusem lokalizacji jest to, że dysk może mieć wiele zarezerwowanych sektorów. Jednak w jednym obszarze może już zabraknąć zarezerwowanej pojemności. W takim przypadku zachowanie zależy od oprogramowania wewnętrznego. Na jednym dysku zaobserwowaliśmy, że przechodzi on w stan AWARIA i blokuje się, gdy wystąpi błąd w części, która nie jest już chroniona.

Dmitrij Chubarow
źródło

Jak ustalono, że „zarezerwowano 2048 sektorów do realokacji”?

AJ.

Być może 2047 to maksymalna liczba sektorów, które można ponownie przydzielić. Jeden z moich dysków miał dokładnie 2047, kiedy został wykupiony na eBayu za „nowy”, czyli 0x7FF, także b11,111,111,111. Przejście do 2048 r. Dodatkowo by zmarnowało.

David

2

Możesz chcieć przeprowadzić długi autotest SMART, jeśli napęd go obsługuje. Może to dać więcej informacji o stanie dysku. Jeśli Twój NAS nie może tego zrobić i jeśli możesz wyciągnąć dysk lub wyłączyć NAS na kilka godzin, możesz przeprowadzić długi autotest z dyskiem twardym podłączonym do innego komputera.

Eddie
źródło

1

Gdy nowy dysk zachowuje się w ten sposób, nie można mu wcale ufać!

Odeślij go jak najszybciej, a otrzymasz dysk zastępczy.

Nils-Anders Nøttseter
źródło

1

Różni producenci mają różne „dopuszczalne straty” (taki sam pomysł jak w przypadku monitorów i złych pikseli). Skontaktuj się z producentem napędu, aby dowiedzieć się, jaki jest jego standard.

Wygląda jednak na zły trend ...

Brian Knoblauch
źródło

-1

Western Digital szczególnie dumny z technologii, która odzyskuje uszkodzony sektor w odpowiednim czasie zamiast zamrozić dysk umieszczony w RAID, jego nazwa TLER ( http://en.wikipedia.org/wiki/Time-Limited_Error_Recovery ). Czas wynosi zwykle 5..7 sekund.

Jak znalazłem w Internecie, istnieją dyski WD z wyłączoną opcją, ale niektóre osoby włączyły tę funkcję na tanich zielonych dyskach WD, a następnie umieściły je w macierzy RAID.

Narzędzie WDTLER zostało usunięte z witryny pomocy technicznej WD, ale można je łatwo znaleźć za pośrednictwem Google.

PS Używam tego narzędzia tylko do odczytu statusu i do tej pory nie używam RAID :)

źródło

Ile realokacji sektorów SMART wskazuje na problemy?

Odpowiedzi: