Wymiana dysków twardych [zamknięte]

19

Zastanawiałem się, czy dobrym pomysłem jest wymiana dysku twardego w (dość) krytycznym dla systemu serwerze bazy danych po określonej liczbie lat użytkowania, zanim nastąpi jego śmierć.

Na przykład myślałem o wymianie dysku twardego po 3 latach użytkowania. Ponieważ mam wiele dysków twardych na różnych serwerach, mogłem rozłożyć, które dyski twarde zostaną wymienione.

Czy to dobry pomysł, czy ludzie po prostu czekają na niepowodzenie?

Garfonzo
źródło

Odpowiedzi:

33

Google przeprowadził badanie dysków twardych i stwierdził bardzo małą korelację między wiekiem dysku a awarią. Testy SMART również nie pokazują awarii.

Moje lokalne obserwacje (> 500 serwerów) są podobne. Mam nowe dyski, które szybko ulegają awarii, podczas gdy stare wciąż się chowają.

Moją ogólną zasadą jest, że jeśli zauważyliśmy problemy z dyskiem (SMART lub błędy systemowe), natychmiast je wymieniamy. Jeśli nie, dyski zostaną wyłączone, gdy serwer to zrobi.

Badanie Google http://static.googleusercontent.com/external_content/untrusted_dlcp/research.google.com/en/us/archive/disk_failures.pdf

jeffatrackaid
źródło
Tak ogólnie myślałem, ale chciałem zobaczyć, co zrobili inni. Dzięki
Garfonzo,
2
Zgadzam się. Obserwujemy znacznie wyższe wskaźniki awarii w przypadku nowszych 2,5-calowych dysków SAS niż w przypadku 10-letnich serwerów z 3,5-calowymi dyskami SCSI 9 GB!
James O'Gorman,
@ JamesO'Gorman Zmieniają się procesy produkcyjne ... zastanawiam się, co zrobiono z nowymi dyskami w ramach kompromisu technicznego.
Avery Payne,
1
W witrynie Microsoft Technet znajduje się także artykuł na temat tolerancji błędów, który krótko omawia awarie dysku twardego / elementów mechanicznych ( technet.microsoft.com/en-us/library/bb742464.aspx ) - Mówią trochę o „krzywej wanny” tego mechanicznego awarie komponentów zwykle następują.
voretaq7,
@AveryPayne Re nowe dyski, należy pamiętać, że dyski 2,5 "mają DUŻO ściślejsze tolerancje - w rezultacie to, co kiedyś było" akceptowalnym "spadkiem mechanicznym na dysku 3,5", może prowadzić do katastrofalnej awarii na dysku 2,5 ". Zobacz także artykuł TechNet Połączyłem się z krzywą wanny - Części mechaniczne ogólnie cierpią z powodu dużej śmiertelności niemowląt, a następnie są względnie stabilne, aż w końcu umierają z powodu „starości”. Napędy 2.5 ”nadal znajdują się na terytorium„ śmiertelności niemowląt ”- według mojego doświadczenia z co najmniej 1 rok eksploatacji.
voretaq7,
13

Nie.

Jednym z największych problemów z wymianą dysku twardego na aktywnym serwerze produkcyjnym jest to, że spowoduje to przebudowę. Zwłaszcza jeśli korzystasz z RAID5, a zwłaszcza jeśli używasz dużych dysków, wymuszenie przebudowy stwarza bardzo znaczące ryzyko nieodwracalnej awarii. Ryzyko utraty macierzy podczas przebudowy jest znacznie większe niż ryzyko związane z pozostawieniem 3-letniego dysku na miejscu.

Biorąc ekstremalny przykład, jeśli sukcesywnie zamieniasz każdy dysk w 6-dyskowej macierzy RAID5 składającej się z dysków 2 TB, teoretyczne ryzyko nieodwracalnego błędu odczytu podczas jednej z przebudów wynosi około 58% (zgodnie z moją matematyką na serwetki; zrób własne i porównaj notatki). Innymi słowy: „zapobiegawcza” wymiana dysku jest w rzeczywistości niczym innym jak aktem sabotażu.

Jedynym momentem, w którym rozważałbym odświeżenie dysków na starym serwerze, byłoby „odnowienie” go, np. Po wycofaniu go z jednego zadania i przed ponownym uruchomieniem go z nową rolą. Nawet w tym momencie wymagania dotyczące pojemności i wydajności byłyby znacznie ważniejsze niż wiek dysków.

Podniebny Jastrząb
źródło
1
+1 za uruchomienie odbudowy
gregmac,
Czy możesz wyjaśnić, dlaczego ryzyko wynosi 58%? Jeśli dysk jest regularnie sprawdzany, dlaczego miałoby to bardziej obciążać proces odzyskiwania?
Mircea Vutcovici,
@MirceaVutcovici, ponieważ w konfiguracji RAID-5 wszystkie dyski będą stale aktywne podczas przebudowy w porównaniu z okazjonalnymi przypadkowymi poszukiwaniami tu i tam. Innymi słowy, „obciążenie” wszystkich napędów idzie w górę, a przy tym wzrasta również ryzyko uruchomienia drugiego uszkodzonego napędu.
Avery Payne,
@Avery Payne Wiem, że bardziej stresujesz dyski podczas przebudowy. Próbuję zrozumieć, dlaczego przebudowa bardziej obciążałaby dyski niż kontrola spójności.
Mircea Vutcovici,
@MirceaVutcovici Dokładna liczba (i jak wykonać matematykę) jest dyskusyjna, ale podstawową kwestią jest to, że musisz odczytać 10 terabajtów danych sześć razy , bez korzyści z dysku parzystości, aby poprawić błędy odczytu, aby wykonać sześć odbudowań. Prawdopodobieństwo odczytu 60 terabajtów danych, bez żadnych błędów, nie jest na twoją korzyść.
Skyhawk,
3

Nie widziałem tego Serwery objęte są gwarancją do momentu ich wycofania z produkcji - 5 lat. Standardowa macierz RAID 5 pozwala przetrwać awarię dysku, dzięki czemu mamy pod ręką kilka dysków, dzięki czemu możemy od razu rozpocząć odbudowę, a na serwerach krytycznych dołączamy hotspare lub RAID 10.

Jeśli zauważyłeś awarię kilku dysków ostatnio na serwerze możesz mieć problem z płytą montażową. Mogą to być także nowe wibracje lub kurz z pobliskiej konstrukcji.

Paul Ackerman
źródło
To nie do końca prawda. jeśli duża liczba dysków pochodzi z tej samej partii, ryzyko dodania stresu związanego z przebudową jest znacznie większe. Jak zauważono w innej odpowiedzi, zwiększenie rozmiarów RAID5 powoduje zwiększenie prawdopodobieństwa URE podczas przebudowy, co powoduje, że tablica jest poniżej progu ważności raid5.
Magellan