Czy istnieje powód, aby zmienić dysk twardy serwera, zanim ulegnie awarii?

11

Krótkie pytanie: czy istnieje powód, aby zmienić dysk twardy serwera po upływie x lat, zanim ulegnie awarii (w końcu kiedyś nastąpi) lub czy powinienem po prostu go zostawić, dopóki nie ulegnie awarii? Mam niewielkie doświadczenie w administrowaniu serwerem, więc zastanawiam się ...

Spiros
źródło
Nie spodziewałem się uzyskać tak wielu odpowiedzi, wow :) Po przejrzeniu wszystkich i wzięciu pod uwagę, że a) dyski twarde serwera są odpowiednie do tego celu b) Kopia zapasowa jest absolutnie gwarantowana (Korzystanie z RAID + replikacja podrzędna + codzienna kopia zapasowa do źródło zewnętrzne) Nie widzę powodu, aby sugerować zmianę napędu. Dziękuje wszystkim!
Spiros

Odpowiedzi:

8

Doskonały powód, aby to zmienić, jeśli chcesz dodać kolejne zadanie do listy rzeczy do zrobienia, jednocześnie zwiększając szanse na coś nie tak.

Całe żarty na bok, naprawdę nie ma powodu, dla którego słyszałem o zmianie napędu przed czasem. Jeśli masz macierz RAID, masz już zapewnioną ochronę (zakładając, że masz przyzwoite kopie zapasowe), i nie generujesz odpadów w postaci martwego dysku do usunięcia i nie musisz niepotrzebnie pracować nad eliminacją poufne dane z dysku. Nie będziesz wydawać dodatkowych pieniędzy na nowe dyski i nadal nie będziesz proaktywnie chronił przed rzeczami, które i tak mogą pójść nie tak, jak wadliwy kontroler dysku, który nie jest powszechny jako źródło awarii dysku, ale może się zdarzyć.

Z drugiej strony może to pomóc w wykryciu niemożliwych do naprawienia błędów dysku, które nie wywołują alarmów w jednostce RAID, tak jak miało to miejsce w przypadku RAID 5. Ugryzło nas to i ostatecznie musieliśmy odbudować z czystego metalu z kopii zapasowej (więc nawet w takim przypadku odpowiednia kopia zapasowa pomoże ci odzyskać.) Poziom RAID, który uwzględnia dzisiejsze większe pojemności dysków i nieusuwalne tolerancje błędów, pomógłby nam, jeśli nie, kopie zapasowe uratowałyby ten dzień.

Większość administratorów ma przyzwoity plan macierzy RAID i tworzenia kopii zapasowych, więc nie ma potrzeby generowania dodatkowych odpadów poprzez niepotrzebną wymianę dysków.

Bart Silverstrim
źródło
6

Zastanawiam się nad tym tylko wtedy, gdybym miał kilka dysków z tej samej partii, a inne w tej partii zaczęły się zawodzić, to mógłbym to rozważyć.

Gdybym miał mało miejsca, to na pewno bym to zrobił - ale tylko z tego powodu, że się starzeje? Nie, ponieważ średnio wskaźnik awaryjności w pierwszym roku jest podobny do wskaźnika awaryjności w innych latach . (zwróć uwagę, że wykres pokazuje pierwszy rok w ciągu 3 miesięcy, 6 miesięcy, 1 roku, ale musisz dodać je wszystkie razem, aby mieć szansę na porażkę po 1 roku). A patrząc na wysokie wykorzystanie dysku, bardziej prawdopodobne jest, że zawiedzie w pierwszym roku niż w ciągu kolejnych trzech lat łącznie.

Jedyna korelacja z późną awarią dysku była w cieplejszych pomieszczeniach, a my utrzymywaliśmy chłodnie naszych serwerowni.

Joe H.
źródło
5

Jestem za proaktywnością, ale nigdy tego nie robiłem i nigdy nie słyszałem o nikim, kto to robi. Prawdopodobnie masz jakiś typ konfiguracji RAID i regularnie tworzysz prawidłowe kopie zapasowe dla danych systemów.

joeqwerty
źródło
5
+1, nigdy tego nie rozważałem. Zastąpienie dysku, na wszelki wypadek i celowe uruchomienie przebudowy macierzy nie wydaje się najlepszym sposobem na „ćwiczenie” pozostałych dysków produkcyjnych. Trudniej jest wyjaśnić szefowi, dlaczego system nie działa, jeśli odbudowa się nie powiedzie.
jscott
3
Wymieniam dyski z błędami SMART, ale uważam, że zawiodły, nawet jeśli nadal technicznie działają.
Chris S
4

Tak, wydajność i pojemność. Jeśli stary dysk twardy utrzymuje ciągłe odczyty 70 MB / s i 100 IOPS, a potencjalna wymiana powoduje ciągłe odczyty 200 MB / s i 175 IOPS, a także ma 3-krotną pojemność, którą możesz uzasadnić na zakup nowych dysków i zamianę starych na nowe po prostu na przyczyny wydajności / pojemności. (i te liczby są całkowicie wymyślone, chodzi o to, że nowsze mogą być znacznie szybsze).

Co teraz robisz ze starymi dyskami? Możesz użyć ich na serwerze testowym, dodać je do kopii zapasowej do macierzy dyskowej lub zatrzymać je jako zapasowe części zapasowe. Możesz też po prostu je wytrzeć i odesłać do utylizacji.

Twój średni serwer jest teraz bardziej związany z IO niż z procesorem (lub przynajmniej z wszystkimi moimi). Więc jeśli masz naprawdę stary serwer, który nie ma problemów z czasem procesora lub brakiem pamięci, prawdopodobnie masz miejsce, aby znacznie poprawić wydajność, wymieniając dyski twarde, które są kilka pokoleń za tym, co możesz łatwo kupić, aby je wymienić.

pplrppl
źródło
3

Zależy to od wpływu awarii dysku twardego.

Jeśli nie masz macierzy RAID
Jeśli nie zależy ci na dostępności serwera, ponieważ usługa może zostać zatrzymana lub ponieważ jest w wysokiej dostępności i jeśli masz działającą kopię zapasową danych. Powiedziałbym: OK, pozwól, aby dysk zginął, zmień go i przywróć dane, gdy ulegnie awarii.
Jeśli zależy Ci na dostępności, powiem użyć RAID;)

Jeśli masz macierz RAID (1, 5, 6, ...)
, powiedziałbym, po co zmieniać dysk twardy przed usterką? RAID (i kopia zapasowa) jest tutaj po to. Wymiana dysku twardego na wypadek awarii może być przyczyną jego uszkodzenia (rekonstrukcja nalotu jest zawsze ryzykowna)

Ale to tylko mój punkt widzenia! Jeśli uważasz, że twój dysk może być za stary, możesz również zmienić serwer.

promień
źródło
2

Niektóre dyski giną w ciągu 1 godziny, inne trwają 2 dekady.

Jeśli to nie zawiedzie lub nie powiedzie się (coś, co zwykle można ustalić za pomocą SMART monitorowania lub problemów z wydajnością), jedynym innym powodem, aby je wyrzucić, jest to, że nie jest wystarczająco duże lub wystarczająco szybkie do twoich celów.

Chris Thorpe
źródło
1
Po prostu monitoruj napęd za pomocą SMART, a zwykle wykaże oznaki awarii, zanim będzie za późno.
Prof. Moriarty
Badanie dysku masowego @Prof Google wykazało, że SMART był „zwykle” niezawodny w 44–72% przypadków. static.googleusercontent.com/external_content/untrusted_dlcp/…
jscott
2

W przypadku dysków pytanie nie brzmi, czy ulegną awarii, ale kiedy . Są urządzeniami mechanicznymi (chyba że używają dysków SSD, ale mają swoje własne zastrzeżenia), więc prędzej czy później zawiodą.

Sprzedawcy dysków zwykle dostosowują swoje procesy produkcyjne do możliwie najniższych kosztów, ponieważ nawet jeden cent zaoszczędzony na dysku może być bardzo ważny, gdy produkujesz i sprzedajesz tysiące z nich; ale oczywiście nie chcą, aby ich dyski uległy awarii przed końcem okresu gwarancyjnego, albo będą je cały czas wymieniać za darmo; więc z radością wydadzą tyle, ile potrzeba, aby przetrwać tak długo, jak długo obejmuje je gwarancja ... ale ani jednego centa więcej.

Rezultat końcowy jest następujący: większość dysków ma tendencję do awarii wkrótce po zakończeniu okresu gwarancji. To oczywiście nie jest ogólna zasada, to tylko statystyki, a twój dysk może teraz zawieść lub trwać, dopóki nie będziesz go więcej potrzebować ... ale statystycznie istnieje wiele dysków, które ulegają awarii kilka dni lub miesięcy po ich awarii Gwarancja wygasła.

Oczywiście kupowanie nowych, gdy nadal ich nie potrzebujesz, może być kosztowne ... ale ich wymiana po wygaśnięciu gwarancji i ich awarii będzie i tak kosztowna.

Teraz, jeśli potrafisz znaleźć sposób na ich awarię, gdy jest to nadal uzasadnione (i nie tracisz danych w procesie, tj. Mając dobre RAID I kopie zapasowe), to byłoby optymalne ;-)

Massimo
źródło
2

Nie wymieniałbym działającego napędu tak samo jak nie działałbym zasilacza. Oba w końcu zawiodą, ale nie ma sensu, z technicznego ani finansowego punktu widzenia, zastępować ich bez ważnej przyczyny. Wymień je, gdy zaczną wykazywać oznaki problemów.

W przypadku dysków twardych tendencja jest taka, że ​​jeśli dysk ulegnie awarii wcześnie, najprawdopodobniej zrobi to w pierwszym roku. Na dyskach, które działają bezproblemowo przez 6 lat, można zwykle polegać na tym, że będą działać jeszcze przez co najmniej kilka lat. Oczywiście istnieje wiele wyjątków, ale jest to ogólny trend.

John Gardeniers
źródło
1
(Zwykle) nie tracisz danych, gdy nastąpi awaria zasilania ...
Massimo,
1
@Massimo - Prawda, ale na serwerze zwykle nie tracisz danych, gdy jeden dysk ulegnie awarii. Moim zdaniem, jeśli nie ma redundancji, jest to tylko gloryfikowana stacja robocza, a nie prawdziwy serwer.
John Gardeniers
1

Należy również pamiętać, że większość dysków klasy serwerowej ma bardziej rygorystyczne wymagania dotyczące produkcji i jest zazwyczaj bardziej niezawodna niż dyski stacjonarne o niskich kosztach / budżecie. Oprócz niebezpieczeństw związanych z wymianą „dobrego” dysku w przypadku jego awarii, robienie tego dla dużej tablicy może zsumować dużą sumę pieniędzy.

Również w przypadku korzystania z macierzy RAID dobrym pomysłem jest posiadanie co najmniej jednego wolnego zapasu na serwerze, aby mógł szybko rozpocząć odbudowę i zachować zdrowie do momentu zakupu zamienników w razie potrzeby.

użytkownik2626
źródło
1

Zrobiłem to na systemach „zero-przestoju”. Naprawdę jednak równie prawdopodobne jest, że stracisz inny dysk, gdy RAID się odbuduje ... Zamieniłem jeden raz, a potem zamieniłem go z powrotem, gdy inny dysk zaczął zgłaszać błędy podczas odbudowy.

To naprawdę filozoficzne pytanie: jeśli wierzysz w proaktywne testy warunków skrajnych (zarówno macierzy, jak i układu sercowo-naczyniowego), powinieneś wymienić dyski. Ale tak naprawdę nigdy nie dowiesz się, który dysk zepsuje się w następnej kolejności. Jest całkiem prawdopodobne, że możesz stracić nowo wymieniony dysk, zanim stracisz którykolwiek ze starszych, sprawdzonych dysków.

Biorąc to pod uwagę, tracę czas na testowanie warunków skrajnych mojego rozwiązania do tworzenia kopii zapasowych i pozostawiam dyski w spokoju, dopóki nie zaczną generować błędów.

Satanicpuppy
źródło