Czy powinienem martwić się wysoką wartością SMART Hardware_ECC

16

Dostałem taką wiadomość w /var/log/messages:


Jun 25 06:29:27 server.ru smartd[4477]: Device: /dev/sda, SMART Usage Attribute: 195 Hardware_ECC_Recovered changed from 46 to 47

#smartctl -a /dev/sda:


smartctl version 5.38 [i686-redhat-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   110   088   006    Pre-fail  Always       -       28526210
  3 Spin_Up_Time            0x0003   093   093   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       24
  5 Reallocated_Sector_Ct   0x0033   100   100   036    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   087   060   030    Pre-fail  Always       -       471723621
  9 Power_On_Hours          0x0032   098   098   000    Old_age   Always       -       2520
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       41
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   068   052   045    Old_age   Always       -       32 (Lifetime Min/Max 31/35)
194 Temperature_Celsius     0x0022   032   048   000    Old_age   Always       -       32 (0 27 0 0)
195 Hardware_ECC_Recovered  0x001a   047   045   000    Old_age   Always       -       105036390
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0000   100   253   000    Old_age   Offline      -       0
202 TA_Increase_Count       0x0032   100   253   000    Old_age   Always       -       0

Czy to oznacza, że dysk ulega awarii i muszę go wymienić? Gdzie mogę przeczytać o interpretacji wyników testu SMART?

linux hardware smart Lexsys
źródło

13

Według Steve'a Gibsona ze Spinrite'a wartości SMART muszą być brane z czasem, a nie jako natychmiastowe odczyty. Oznacza to, że wartość 47 niekoniecznie jest zła, jeśli wartość wynosi 47 miesięcy. Jeśli jednak wartość wynosiła 42 godziny temu i gwałtownie rośnie, oznacza to, że dysk ma trudności z dostępem do części danych i może wkrótce nie być w stanie odczytać sektora. W zależności od wartości danych na tym dysku możesz go wymienić.

Dave Cheney
źródło

+1 za świetną odpowiedź i dodanie do niej. Jeśli naprawdę martwisz się Lexsys, kupiłbym kopię spinritu i uruchomiłem go. Będziesz potrzebował systemu, aby móc uruchomić komputer z dysku CD, ale system operacyjny jest nie do zniesienia. (Chociaż do utworzenia rozruchowej płyty CD potrzebny jest system Windows lub klon systemu Windows)

Matt

Spinrite jest wyposażony w bootowalny (freedos) obraz .iso, który możesz nagrać dowolnym bieżącym systemem

Dave Cheney

grc.com/sr/spinrite.htm byłoby lepszym miejscem do linkowania

Brad Gilbert

2

Przykład jest zły! Zobacz odpowiedź @ CesarB - dla większości wartości wzrost jest dobry! Więc gdyby było 42 godziny temu, a teraz jest 47 - świetnie. Ale nie na odwrót.

Volker Siegel,

6

Wysoka wartość tego atrybutu jest w rzeczywistości całkiem niezła:

Parametr SMART odzyskanego sprzętu ECC wskazuje czas między błędami skorygowanymi przez ECC.

https://kb.acronis.com/content/9131

Robert Klemme
źródło

2

Dodano, jak sądzę, centralny cytat.

Robert Klemme,

Ma to teraz sens, nawet jeśli połączony zasób zniknie. Dzięki Robert.

pisklęta

4

Po pierwsze, niższe wartości są gorsze dla SMART, a nie wyższe (zauważ, że kolumna progowa jest zawsze niższa niż bieżąca wartość). Zatem wzrost wartości nie jest powodem do niepokoju. (Ta zasada nie dotyczy jednak surowych wartości.)

Wartości SMART mają tendencję do nieznacznego oscylowania (na przykład twoje mogą znajdować się na granicy między 46 a 47, więc nawet niewielkie zmiany mogą spowodować zmianę wartości na drugą).

Twój smartctl -awynik pokazuje, że najgorsza była ta wartość to 45, więc oscylowanie nieco powyżej niej jest normalne.

Aby uzyskać więcej informacji, zapoznaj się z atrybutami Wikipedia: ATA SMART .

CesarB
źródło

3

Należy pamiętać, że nawet obszerne badanie przeprowadzone przez Google wykazało, że duża liczba awarii dysków nie była przewidywana na podstawie błędów SMART. Możliwe, że to, co widzisz, jest całkowicie normalne, ale ponieważ każdy producent ma inne wskaźniki do konwertowania wartości surowych na wartości raportowane, trudno powiedzieć na pewno, czy na twoim dysku występuje wiele błędów, czy nie. Jednak tak surowa liczba wydaje mi się dziwna.

Poleciłbym przeczytać cały dysk (dd lub rsyncing na nowym dysku) i sprawdzać wartości SMART. Jeśli zobaczysz tę nieprzetworzoną liczbę lub zgłoszone wartości, wiele zmień, zacznę szukać dysku.

jasonrm
źródło

Huh Byłoby całkiem fajnie, gdyby ZFS śledził atrybuty SMART w oparciu o własne wzorce użytkowania.

i336_

1

Nie ma w tym nic złego.

Zawsze możesz biegać

smartctl -t long /dev/yourdrive

Następnie po kilku godzinach zapytaj o jego wynik

smartctl -a /dev/yourdrive

tak dla pewności.

cstamas
źródło

1

Odzyskany sprzęt IIRC ECC to korekcja błędów podczas odczytu dysku, co nie jest niczym niezwykłym dla dysku, i właśnie z tego powodu kodują dane za pomocą mechanizmów korekcji błędów. Niektóre kontrolery obsługują również nadmiarowe informacje w sektorach dysku i dodają kolejną warstwę korekcji błędów.

Jak twierdzi Dave Cheney, liczby powinny być monitorowane w miarę upływu czasu. Radykalne zmiany w tych statystykach wskazują na awarię napędu. Miej też oko na wyhodowane listy defektów - jeśli lista wyhodowanych defektów zacznie się powiększać lub statystyki SMART zaczną się znacznie zmieniać, należy profilaktycznie wymienić dysk.

ConcernedOfTunbridgeWells
źródło

1

lol, profilaktycznie

Dave Cheney

Czy powinienem martwić się wysoką wartością SMART Hardware_ECC_Recovered?

Odpowiedzi: