Co może spowodować wzrost sektorów niemożliwych do skorygowania w trybie offline i sektory oczekujące na dysku * bezczynności *?

6

Mam dysk twardy Western Digital Elements Desktop podłączony przez USB. Zasadniczo jest to świetny pakiet dla dysku WD30EZRX. Używam go do przechowywania kopii zapasowych systemu (teraz już stare), więc nie ma w tym nic krytycznego. Prawdopodobnie mógłbym go teraz wytrzeć i wyrzucić i niczego nie umknie.

Kilka miesięcy temu skutecznie wymieniłem wyżej wymieniony dysk na inny, ale zachowałem ten stary (częściowo na wypadek, gdy muszę odwołać się do starszej wersji jakiegoś pliku, częściowo dlatego, że zamierzałem go przekonwertować na dysk kopii zapasowych poza witryną). Został podłączony i zasilony, ale nieużywany; system plików nie został zamontowany, więc jedyną czynnością, którą powinien zobaczyć, jest skanowanie tablicy partycji podczas rozruchu i być może ZFS szukał kilka razy, aby sprawdzić, czy jest na nim jakaś partycja, która jest częścią puli.

Mniej więcej miesiąc temu skonfigurowałem smartd do monitorowania stanu różnych dysków podłączonych do mojego systemu. Natychmiast wykrzyczał krwawe morderstwo na temat tego dysku, zgłaszając liczbę oczekujących (nieczytelnych) sektorów wynoszącą 5. Wiedząc, że same sektory oczekujące na zarządzanie są możliwe do zarządzania, utrzymałem dysk podłączony, ale nieużywany.

Dziś po południu raport e-mail od smartd nagle wskazuje, że istnieje 6 oczekujących sektorów, a także 1 sektor, którego nie można naprawić w trybie offline (jest to nowy).

Oto dziwna część: ostatni restart, a więc kiedy dysk powinien był zobaczyć jakąkolwiek aktywność ostatnio, miał miejsce prawie cztery dni temu.

Dysk logicznie przechowuje jedną partycję obejmującą cały dysk, na której znajduje się kontener LUKS, który nie został uruchomiony w tym okresie, odkąd skonfigurowałem smartd do monitorowania stanu dysku. Nigdy nie był częścią żadnej macierzy RAID lub podobnej na dowolnym poziomie (dysk, partycja, kontener LUKS, zamknięty system plików).

Sprawdzanie za smartctl --allpomocą napędu informuje, że nie został zarejestrowany autotest. Potwierdza to również liczbę oczekujących sektorów wynoszącą 6, a także liczbę poprawialnych połączeń offline wynoszącą 1.

Co mogło spowodować wzrost liczby sektorów oczekujących i sektorów niemożliwych do korekty w trybie offline, gdy dysk nie powinien nawet widzieć żadnej aktywności?

Uwaga: nie pytam, czy powinienem nadal używać tego napędu. W tym momencie staje się to oczywiście niewiarygodne i zostanie wycofane; Zbyt wiele razy cierpiałem na utratę danych z powodu awarii dysku twardego, aby zaryzykować moje dane.

CVn
źródło
1
To pierwszy raz, gdy rozważę słowo „wielkie litery” w tytule. (w części „na dysku IDLE ”). Co do części „oczywiście zawodnej”. Pojedynczy wzrost sektora nie oznacza, że ​​wkrótce umrze. Jeśli złe lub oczekujące sektory zaczną się szybko kumulować, wyrzuć je, ale dodatkowy pojedynczy sektor nie oznacza, że ​​musisz go odrzucić. Zachowaj go, używaj go do przenoszenia zdjęć lub filmów lub innych nieistotnych zadań. Ale zgadzam się, że nie jest już przyjemny jako dysk zawierający kopie zapasowe.
Hennes,
@Hennes Tak, to zagadkowa część! Mogłem z łatwością zobaczyć wzrost liczby oczekujących sektorów, jeśli wykonałem odczyt odczytu na dysku, a niektóre dane na talerzach były złe, ale w tym przypadku, chyba że Linux robi coś naprawdę dziwnego samodzielnie, naprawdę siedział bezczynny!
CVn
Czy dysk ma tryb „autotestu”, który uruchamia się co kilka dni? A może jest to kontroler RAID, który czasami czyta patrol (odczytuje każdy sektor na dysku podczas bezczynności dysku, aby upewnić się, że dane są nadal nienaruszone)? --- Edycja: Nie są rejestrowane żadne autotesty. Cholera, już myślałeś o autotestach.
Hennes
@Hennes Nie jestem tego świadomy. Oczekiwałbym, że każdy taki autotest zostanie zgłoszony w dzienniku SMART, a dysk nie jest częścią żadnej macierzy pamięci. To tylko zwykły zewnętrzny dysk twardy, podłączony przez USB i z jedną partycją, na której jest pojemnik LUKS. LUKS nawet się nie uruchomił dla tego napędu.
CVn
@Hennes Nie jestem tak zaniepokojony wzrostem liczby oczekujących sektorów (łatwo to obejść, używając go tylko do zadań niekrytycznych, jak to mówisz i / lub umieszczając wszystko na nim w dwóch egzemplarzach; ryzyko korupcji uderzy w oba kopie każdego pojedynczego pliku byłyby małe), ponieważ chodzi o wzrost liczby oczekujących sektorów, gdy dysk naprawdę nie powinien widzieć żadnej aktywności.
CVn

Odpowiedzi:

4

Nowoczesne dyski twarde spędzają czas bezczynności po cichu, wykonując następujące czynności:

  • Szorowanie (skanowanie) w przypadku sektorów, które uległy awarii lub awarii

  • Przepisywanie słabych sektorów w celu ich „wzmocnienia”

http://www.wdc.com/wdproducts/library/other/2579-850105.pdf

W ten sposób Twoje liczby wzrosły w czasie bezczynności ;-)

misha256
źródło
Nie wiedziałem, że to nowa funkcja w „SMART III”. Miło wiedzieć.
Hennes,
Dysk został wycofany ze służby, ale akceptuję to, ponieważ jest to prawdopodobne wytłumaczenie zachowania, które widziałem i jest cytowane.
CVn