Jak sprawić, by smartd zamknął się na temat jednego konkretnego sektora, którego nie można naprawić?

18

Mam dysk w dwupłytowym oprogramowaniu RAID-1, dla którego ostatnio pojawił się „nieaktywny sektor nie do naprawienia” w stanie SMART.

198 Offline_Uncorrectable   0x0030   200   200   000    Old_age   Offline      -       1

Widocznie jest to tylko oznaka nieuchronnej awarii dysku, jeśli występuje coraz częściej (a ponieważ dysk jest dublowany, nie ma również dużego ryzyka rzeczywistej utraty danych). W tym momencie autotest również w pewnym momencie nie powiódł się i smartdwysłał mi wiadomość e-mail z powiadomieniem o tym, jak to powinno zrobić.

Jednak pisanie do uszkodzonego sektora zwykle powoduje, że dysk używa jednego ze swoich wolnych sektorów zamiast tego, co najwyraźniej zrobił, ponieważ odkąd ddprzeszukałem dysk, wszystkie autotesty przebiegły dobrze. A badblockstakże nie znalazł powodu do narzekań.

Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
[...]
# 5  Extended offline    Completed without error       00%      5559         -
# 6  Short offline       Completed without error       00%      5540         -
# 7  Short offline       Completed: read failure       90%      5524         63273368

Liczba wadliwych sektorów nie zmniejszyła się, ale tak naprawdę nie powinna, ponieważ uszkodzony sektor wciąż tam jest, choć nie jest używany. Jednak smartdnadal wysyła mi e-maile każdej nocy:

The following warning/error was logged by the smartd daemon:

Device: /dev/sda [SAT], 1 Offline uncorrectable sectors

Jest to oczywiście bardzo denerwujące i znieczula mój zdrowy odruch paniki na smartdmaile.

Dysk to Western Digital WD20EARS, a smartdwersja to 5.41 2011-06-09 r3365.

chrześcijanin
źródło

Odpowiedzi:

23

Na niektórych dyskach może być konieczne skorzystanie z -U 198+(lub -U +?) W pliku konfiguracyjnym.

Proszę bądź ostrożny. Jeśli nie jesteś pierwotnym pytającym, przeczytaj uważnie całe pytanie. Jeśli użyjesz tego na dysku, który go nie potrzebuje, spowoduje to całkowite wyłączenie ostrzeżeń.

Jeśli podano ´ + ´, raport jest drukowany tylko wtedy, gdy liczba sektorów wzrosła od ostatniego cyklu sprawdzania. Niektóre dyski nie resetują tego atrybutu, gdy zły sektor zostaje ponownie przydzielony. Zobacz także „198, wzrost” poniżej.

smartd.conf (5)

Załóżmy na przykład, że używasz domyślnej konfiguracji w smartd.conf. W takim przypadku w pliku jest wiele komentarzy, ale jedyny wiersz bez komentarza znajduje się tutaj:

# The word DEVICESCAN will cause any remaining lines in this
# configuration file to be ignored: it tells smartd to scan for all
# ATA and SCSI devices.  DEVICESCAN may be followed by any of the
# Directives listed below, which will be applied to all devices that
# are found.  Most users should comment out DEVICESCAN and explicitly
# list the devices that they wish to monitor.
DEVICESCAN

Dodaj opcję na końcu linii:

DEVICESCAN -U 198+
sourcejedi
źródło
1
-U 198+powinien to zrobić. Niezłe znalezisko!
Michael Hampton
jakieś egzaminy na to?
JIV
1
@JIV edytowane. Dodałem także ostrzeżenie. Prosimy o zachowanie należytej staranności wobec swoich danych :-).
sourcejedi
0

istnieją dwie możliwości, skąd pochodzą te maile. smartd jest w stanie wysyłać maile sam, ale najprawdopodobniej nie jest skonfigurowany w ten sposób, więc zakładam, że te maile są wysyłane za pomocą logcheck. Jeśli to założenie jest błędne, nie musisz czytać dalej.

Logcheck skanuje pliki dziennika i wysyła wiadomości e-mail, jeśli sądzi, że powinieneś się martwić o cokolwiek, co się stało z / w twoim systemie.

Możesz napisać regułę ignorowania logcheck, która mówi logcheck, aby nie wysyłał wiadomości pasujących do określonego wzorca.

Możesz (w systemach opartych na Debianie) utworzyć plik o nazwie „/etc/logcheck/ignore.d.server/smartd_own” o następującej treści:

^\w{3} [ :0-9]{11} [._[:alnum:]-]+ smartd\[[0-9]+\]: Device: /dev/sda \[SAT\], 1 Offline uncorrectable sectors$

Powinno to odfiltrować irytujące wiadomości e-mail, ale napiszę ponownie, jeśli wzrośnie licznik sektorów, których nie można naprawić.

hennr
źródło
smartdniestety wysyła wiadomości bezpośrednio. Najwyraźniej jednak zawsze można to zmienić. Rozważę to, jeśli nie będzie innego wyjścia, więc dziękuję!
Christian
O cholera, w każdym razie masz teraz obejście tego problemu.
hennr