Czy powinienem „uruchomić” jeden dysk nowej pary macierzy RAID 1, aby zmniejszyć ryzyko podobnego czasu awarii?

19

Konfiguruję macierz RAID1 dwóch nowych dysków twardych 4 TB.

Słyszałem gdzieś wcześniej, że stworzenie macierzy RAID1 nowych identycznych dysków twardych kupionych w tym samym czasie zwiększyło prawdopodobieństwo, że ulegną awarii w podobnym momencie.

Dlatego rozważam użycie jednego z dysków twardych przez pewien okres czasu (może kilka tygodni), aby zmniejszyć prawdopodobieństwo awarii obu w krótkim czasie. (nieużywany dysk byłby odłączony w szufladzie)

Czy to wydaje się rozsądnym podejściem, czy raczej marnuję czas?

a_henderson
źródło
2
Jest to często słyszalne twierdzenie, ale nie widziałem jeszcze żadnej dokumentacji na jego poparcie. O wiele bardziej realne jest ryzyko, że na jednym z twoich dysków mogą pojawić się złe sektory, które przez pewien czas pozostają niezauważone. Ale gdy drugi dysk ulegnie awarii, zauważysz te uszkodzone sektory podczas odbudowy.
kasperd
8
Jeśli pracujesz z dziesiątkami dysków, warto rozważyć zakup z kilku partii. W przypadku zestawu z dwoma dyskami nie warto tego robić. Wskaźnik awarii po prostu nie jest podobny ani przewidywalny ... jeden może trwać 3 miesiące, drugi może trwać 5 lat.
jlehtinen
Osobiście nie atakowałbym tylko dwoma dyskami. Korzystanie z większej liczby dysków zapewnia lepszą pojemność. Na przykład 3 dyski dają 8 TB całkowitej pamięci, w przeciwieństwie do 2 dysków, co daje tylko 4 TB. Każdy dysk może zawieść w zestawie trzech, a jeśli pochodzą z trzech źródeł, prawdopodobieństwo awarii w tym samym czasie jest niskie.
phyrfox,
3
@phyrfox - RAID-5 (i -6) ma inne parametry wydajności niż RAID-1, które mogą nie być zgodne z jego aplikacją. W przypadku dużych dysków (szczególnie dysków o jakości konsumenckiej), gdybym zamierzał użyć wyższych poziomów RAID, zdecydowanie wybrałbym RAID-6, aby zabezpieczyć się przed awarią drugiego dysku podczas odbudowy macierzy po awarii jednego dysku. Od 2 lat korzystam z macierzy RAID-6 z 5 dyskami, używając zestawu dysków zakupionych w tym samym czasie - jeden dysk ulegał awarii w ciągu miesiąca, a cała reszta nie wykazała żadnego problemu.
Johnny,
1
@phyrfox RAID5 obniży koszt za megabajt, ale w rzeczywistości ZWIĘKSZA szansę na awarię, ponieważ jest więcej dysków do awarii.
Caltor

Odpowiedzi:

16

To strata czasu.

Nie będziesz w stanie wywoływać awarii ani stresować napędów w znaczący sposób. Masz macierz RAID i to dobry początek. Po prostu upewnij się, że masz monitorowanie, aby faktycznie wykrywać awarie, gdy się pojawiają, i kopie zapasowe w celu ochrony przed katastrofą.

ewwhite
źródło
2
Zgadzam się na konwencjonalny HDS, ale dla ssds to zupełnie inna historia. Pomyślałem, że warto to teraz zauważyć, zanim dyski SSD o pojemności 4 TB staną się tanie i dostępne, a czytelnicy nie zdają sobie sprawy, że mówimy o przędzeniu rdzy tutaj, ale może do tego czasu poradzą sobie z większą liczbą zapisów.
symcbean
3
Tak - z pewnością jakikolwiek napęd „Enterprise” zostanie już przetestowany pod kątem zanurzenia, aby i tak przetrwał wczesne awarie na krzywej wanny. Chociaż wiem, czy kupujesz parę generatorów, radzę zamieniać 66% na 33%, ponieważ w ten sposób oba nie zużywają się jednocześnie. Jednak w przypadku napędów MTBF ma dość duże odchylenie standardowe, więc nie jest to problemem.
Sobrique,
5

Jeśli martwisz się tym, może być lepiej używać różnych marek lub serii dysków.

I nie widział dyski o podobnym rodzaju i wieku nie w klastrach, więc IMHO nie jest to miejski leend.

wurtel
źródło
1
Ja też, ale to było spowodowane podejrzanym oprogramowaniem, a nie czymkolwiek związanym z MTBF.
Sobrique,
2

Świetne pytanie - w przeciwieństwie do reflektorów samochodowych jest to jednak strata czasu. MTBF [średni czas między awariami] dla dysków 4 GB [WD Red w tym przykładzie] wynosi 1 000 000 godzin. Szanse na to, że dwa dyski ulegną awarii w lustrze jednocześnie, są niezwykle rzadkie. Kiedy zobaczyłem, że tak się dzieje, dzieje się tak, ponieważ pierwszy dysk uległ awarii i nikt tego nie zauważył. Bardziej przydatne do ochrony dzięki kopiom zapasowym niż kłopotanie się wypaleniem jednego dysku jako pierwszego. Jeśli używasz różnych typów napędów, upewnij się, że napędy mają tę samą prędkość. Jeśli jesteś paranoikiem, to RAID 10 jest dla Ciebie.

DocB
źródło
MTBF zakłada, że ​​dyski są niezależne, których nie ma w tym samym zestawie RAID. Są inne powody, dla których jest to strata czasu, ale niedorzeczna liczba wydana przez producenta, która ma słabą korelację z rzeczywistością, nie jest jedną z nich.
HopelessN00b
5
Jeśli dysk twardy rzeczywiście miał podany średni czas między awariami, to dlaczego okresy gwarancji są tak krótkie? 1 milion godzin to 114 lat, daj lub weź. WD Red Pro (ponieważ wybrałem jedną z partii) wygląda na objęty pięcioletnią gwarancją. Nawet jeśli poświęcisz połowę średniego czasu na awarię, Western Digital nadal nie wierzy, że będzie wiarygodny przez ponad jedną dziesiątą podanego okresu MTBF. Teraz, w co chcielibyście bardziej wierzyć; jakieś losowe statystyki bez zobowiązań lub gdzie faktycznie są pieniądze? (Zwroty gwarancji, zwroty kosztów, remonty i wymiany kosztują prawdziwe pieniądze.)
CVn
1
@ MichaelKjörling: Gdyby zagwarantowali MTBF, wymieniliby ponad 50% (tak, zbyt długi ogon w dystrybucji) dysków w ramach gwarancji. Pewnie powinieneś sprawdzić, gdzie są pieniądze, ale nie widzę powodu, aby sądzić, że MTBF nie jest o rząd wielkości dłuższy niż gwarancja, a kilka osób uważa, że ​​tak jest.
Ben Voigt,
@ MichaelKjörling Widziałem sprzęt z opublikowanym MTBF wynoszącym 100 tys. Godzin, który konsekwentnie zużywałby się po 1 tys. Godzin pracy. Nowa generacja sprzętu miała opublikowany MTBF wynoszący 200 000 godzin. Gdy pierwsza partia nowego sprzętu działała przez 48 godzin, ponad 50% z nich uległo awarii.
kasperd
1

Chociaż teoretycznie ma to sens, dane nie obsługują work indysku.
Kilka tygodni nie tylko nie wywrze większego wpływu, odsetek awarii naprawdę nie działa, gdy patrzymy tylko na dwa dyski.

Chociaż istnieją pewne oznaki bardziej znormalizowanych wskaźników awaryjności, jeśli chodzi o napędy tego samego modelu.

Na wyniki związane z wiekiem wpływają roczniki jazdy ... Co ciekawe, nie zmienia to naszych wniosków. W przeciwieństwie do wyników związanych z wiekiem, zauważamy, że na wszystkie wyniki przedstawione w pozostałej części artykułu nie ma znaczącego wpływu zróżnicowanie populacji. (moje podkreślenie)

W związku z tym awarie związane z wiekiem, które stanowią jedynie niewielką część awarii, mogą być nieco skorelowane z kierowaniem rocznikami. Ale większość niepowodzeń nie może.
Jeśli dodasz do tego ogólny odsetek awarii, który może osiągnąć najwyższy poziom 8% w danym roku, szanse na awarię obu dysków w tym samym roku są niewielkie, awarie w tym samym tygodniu są znikome.
I dzieje się tak, jeśli spojrzysz na każdą możliwą przyczynę niepowodzenia, nie tylko na związane z wiekiem.

Jeśli chcesz zminimalizować ryzyko, ale dwa dyski innego rocznika.
Jeśli chcesz mieć pewność, kup ubezpieczenie.
A jak już stwierdzono w ewwhite , tworzenie kopii zapasowych i monitorowanie są koniecznością.

Reaces
źródło
0

Z mojego doświadczenia jest to zwykle argument za dyskami SSD bardziej niż dyskami HDD. Dyski SSD mają ograniczone cykle zapisu, dlatego jeśli używasz macierzy RAID1 z dwoma dyskami SSD tego samego modelu, oba powinny zabraknąć cykli zapisu w tym samym czasie.

Jeśli chodzi o ogólne awarie, chyba że masz poważny problem, taki jak drgania masy, ładunki elektrostatyczne lub wysokie ciepło; Nie podejrzewam, że w tym samym czasie wystąpią awarie 2 z 2 dysków.

Głównym problemem związanym z RAID1 (i RAID10) z większymi dyskami, takimi jak 4 TB, jest przebudowa. W przypadku lustra z dwoma dyskami, gdy jeden dysk ulegnie awarii, drugi dysk przenosi dwukrotnie obciążenie robocze. Po przebudowie dysk staje się jeszcze bardziej obciążony. Jeśli coś było nie tak z tym dyskiem, prawdopodobnie ulegnie awarii w tych warunkach, szczególnie biorąc pod uwagę, że odbudowanie zwierciadła 4 TB pod obciążeniem może zająć dużo czasu.

Devon
źródło
0

Możesz to zrobić, ale to zbytnio nie pomoże.

Na przykład, jeśli igła ma moc wejściową, ta sama igła zabije oba dyski.

Co ważne: musisz mieć dobrą kopię zapasową. Raid nie stanowi dobrej kopii zapasowej. W rzeczywistości, jeśli masz dobrą kopię zapasową, być może nalot lustrzany nie jest na pewno potrzebny (jeśli możesz tolerować załamanie systemu raz na 2-3 lata).

peterh - Przywróć Monikę
źródło
3
RAID dotyczy dostępności, a nie tworzenia kopii zapasowych danych. Chodzi o to, aby system był dostępny w przypadku awarii dysku, a nie chronić dane na dysku.
HopelessN00b
@ HopelessN00b To właśnie starałem się wyjaśnić w odpowiedzi, może nie byłem wystarczająco jasny?
Peter - Przywróć Monikę
Twoje zdanie na końcu zamazuje wody.
HopelessN00b
@ HopelessN00b Raid chroni również przed utratą danych spowodowaną awarią dysku. Prowadzi to często do fałszywego wniosku, że można go wykorzystać jako kopię zapasową. Ale przy użyciu raidu i kopii zapasowych są to rzeczy zależne od sytuacji. Są przypadki, w których nawet profesjonalne środowisko systemowe nie potrzebuje obu z nich. Moim zdaniem celem nie jest narzucenie zarówno niedoświadczonemu systemowi, jak i wyjaśnienie, że tworzenie kopii lustrzanych dysków i tworzenie kopii zapasowych danych to różne rozwiązania różnych problemów.
peterh - Przywróć Monikę