Zastanawiam się, czy wyniki tego autotestu SMART wskazują na awarię dysku, jest to jedyny dysk, który pojawia się w wynikach jako „ukończony: błąd odczytu”.
# smartctl -l selftest /dev/sde
smartctl version 5.38 [i686-pc-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/
=== START OF READ SMART DATA SECTION ===
SMART Self-test log structure revision number 1
Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error
# 1 Extended offline Completed: read failure 90% 8981 976642822
# 2 Extended offline Aborted by host 90% 8981 -
# 3 Extended offline Completed: read failure 90% 8981 976642822
# 4 Extended offline Interrupted (host reset) 90% 8977 -
# 5 Extended offline Completed without error 00% 410 -
Napęd nie wykazuje jeszcze żadnych oznak awarii, oprócz danych wyjściowych z tego inteligentnego autotestu. Jest to wyjście z innego napędu w tym samym systemie, który aktualnie wykonuje autotest SMART
# smartctl -l selftest /dev/sdc
smartctl version 5.38 [i686-pc-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/
=== START OF READ SMART DATA SECTION ===
SMART Self-test log structure revision number 1
Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error
# 1 Extended offline Self-test routine in progress 30% 15859 -
# 2 Extended offline Completed without error 00% 9431 -
# 3 Extended offline Completed without error 00% 8368 -
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 200 200 051 Pre-fail Always - 1
3 Spin_Up_Time 0x0027 176 175 021 Pre-fail Always - 4183
4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 48
5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0
7 Seek_Error_Rate 0x002e 100 253 000 Old_age Always - 0
9 Power_On_Hours 0x0032 088 088 000 Old_age Always - 8982
10 Spin_Retry_Count 0x0032 100 253 000 Old_age Always - 0
11 Calibration_Retry_Count 0x0032 100 253 000 Old_age Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 46
192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 34
193 Load_Cycle_Count 0x0032 200 200 000 Old_age Always - 13
194 Temperature_Celsius 0x0022 111 101 000 Old_age Always - 36
196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 1
198 Offline_Uncorrectable 0x0030 200 200 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 1
200 Multi_Zone_Error_Rate 0x0008 200 200 000 Old_age Offline - 2
hard-drive
smart
Jeff Welling
źródło
źródło
smartctl -a /dev/sde
i opublikował sekcję oznaczoną jakoSMART Attributes Data Structure
surowe liczniki. W szczególności pierwszy z nichRaw_Read_Error_Rate
to najlepszy wskaźnik „złego dysku” (i prawdopodobnie w Twoim przypadku będzie to! 0).Odpowiedzi:
Mam nadzieję, że już dawno wymieniłeś dysk, ale ponieważ nikt jeszcze nie odpowiedział bezpośrednio na pytanie ...
Przeprowadziłeś dwa testy, z których oba nie odczytały tego samego sektora logicznego dysku, jak wskazano przez
Completed: read failure
i ten sam LBA w obu testach. To rzeczywiście oznacza, że dysk ma wadę i powinieneś móc go wymienić w ramach gwarancji. Próba przechowywania danych w tym sektorze może, ale nie musi, spowodować, że dysk zauważy, że jest uszkodzony podczas procesu zapisu i ponownie mapuje sektor, ale jeśli dysk nie zauważy i nie będzie mógł później odczytać danych, straciłeś to.źródło
Czy twoje dane warto ryzykować na podejrzanym dysku?
Gdybym to był ja, wymieniłbym napęd i byłbym wdzięczny, że SMART zaoszczędził mi dużego bólu głowy.
źródło
Chcę dodać do komentarzy w drugiej odpowiedzi, ale nie mogę z powodu braku powtórzeń, idź.
Nie musisz tworzyć skryptu cron, w pakiecie smartmontools znajduje się demon smartd, który obsługuje tylko to, co chcesz zrobić: regularne sprawdzanie statusu SMART. Wystarczy utworzyć konfigurację i uruchomić usługę. Pakiet smartmontools zawiera również kilka przykładowych skryptów, które smartd może wywoływać, gdy coś zaczyna się nie powieść.
źródło
Co zrobię w twojej sytuacji?
Przede wszystkim dowiaduję się, których plików dotyczy. Istnieje kilka instrukcji, jak to zrobić http://smartmontools.sourceforge.net/badblockhowto.html#e2_example1 Tak. W twoim przypadku jest trudniej, ponieważ masz tablicę. Ale jest to możliwe. Następnie upewnij się, że ten plik jest archiwizowany, niż zapisuj zera w uszkodzonym sektorze. Mogą się zdarzyć dwie rzeczy. 1. Dysk pomyślnie zapisuje zera w tym sektorze. Current_Pending_Sector, Reallocated_Sector_Ct powinny później być zerami. 2. Dysk nie zapisuje do tego sektora. Następnie przekształca ten sektor w „zapasowy” obszar.
W każdym razie otrzymujesz stały dysk. Powinieneś przywrócić plik z kopii zapasowej (ponieważ nadpisałeś jeden jego sektor). Powinieneś również ponownie uruchomić en rozszerzony autotest, aby upewnić się, że nie będzie więcej błędów.
Bądź zdrów!
PS Wiem, że ten post jest trochę stary. Ale goolowałem. Myślę, że dobrym pomysłem jest udzielenie kolejnej dobrej odpowiedzi.
źródło
Podjazd był prawdopodobnie w drodze do wyjścia. Brak możliwości odczytu z części dysku jest z pewnością stanem awarii i na pewno jest możliwe, że nastąpi to bez innych typowych oznak awarii dysku. Tego rodzaju rzeczy nie są zwykle przemijające; bez innych oznak może to być słaba głowa, bardzo niewielki problem z wyrównaniem lub wadliwy obszar na talerzu (cylinder?).
Inną alternatywą jest to, że wystąpił błąd SMART; naprawdę nie chcesz uruchamiać dysku z wadliwym oprogramowaniem.
Za każdym razem, gdy widzisz jakiś błąd ze strony SMART, jest to mocny znak, że powinieneś dostać nowy dysk, aby uniknąć utraty danych. Częściowo ma to być system wczesnego ostrzegania.
źródło
Wykonaj kopię zapasową tak szybko, jak to możliwe!
Jeśli ten dysk jest nadal objęty gwarancją, to
badblocks
można do tego również użyć narzędzia (masz już kopie zapasowe, prawda?)źródło
badblocks -w
(3x pisanie, 3x czytanie) bez tworzenia nowych złych sektorów, zatrzymam go. W przeciwnym razie jest po prostu zbyt zepsuty, aby go gdzieś użyć.