Szukasz rzeczywistego doświadczenia z awarią dysku RAID 5 2? [Zamknięte]

15

Zastanawiam się, czy ktoś ma jakieś osobiste doświadczenia związane z awarią dysku RAID 5 2 w przypadku dużych dysków?

Jak rozumiem, teoria jest taka, że ​​w przypadku dużych dysków 1-2 TB, jeśli jeden z dysków ulegnie awarii w zestawie RAID, musi wszystko odbudować, dlatego bardzo mocno uderza w inne dyski, a szansa na kolejną awarię wzrasta, szczególnie jeśli dyski pochodzą z tej samej partii produkcyjnej. A jeśli stracisz inny dysk, stracisz wszystkie dane.

Zazwyczaj wyjaśnia się to po stwierdzeniu „RAID nie jest kopią zapasową”, z którym się zgadzam.

Teoria tego ma sens i rozumiem ją, ale czy to się naprawdę dzieje?

Brian
źródło
Niestety, właśnie otrzymaliśmy nowe pytanie dotyczące tego na żywo. :( superuser.com/questions/516844/…
Hennes

Odpowiedzi:

15

Tak, przydarzyło mi się to. Zestaw 4 (klasy konsumenckiej) dysków WD 500 zepsuł się w ciągu około tygodnia. Powoli wymieniłem pierwszy, nie przestawiłem tablicy w tryb offline i straciłem wszystkie moje dane, gdy drugi zawiódł. Ponownie wykorzystałem pozostałe dwa dobre, a jeden z nich zawiódł w ciągu następnego miesiąca. Wszystkie były odpowiednio schłodzone i zadbane. Mogę tylko powiedzieć, że wierzę teraz w retorykę „złej partii”.

W osobnym incydencie miałem 3 oddzielne dyski różnych marek i modele ulegały awarii w ciągu miesiąca od siebie, chociaż jestem całkiem pewien, że przyczyną ich awarii była niewłaściwa wentylacja. Nie gotuj swoich dysków!

Paul McMillan
źródło
3
Jako następstwo, miej zapasowe miejsce siedzące na wypadek, gdy dysk popsuje się. Uważaj też na cichą korupcję ... łatwo stracić dane na dysku, który tylko udaje, że działa.
Paul McMillan,
Jest to kolejny powód, dla którego nie należy instalować dysków, które wszystkie pochodzą z tej samej partii w macierzy RAID - mają skorelowane czasy awarii (wiesz, podobnie jak stawki domyślne transzowanych zabezpieczonych hipotecznych papierów wartościowych subprime).
Andrew Mao,
4

Tak się jednak zdarzyło, ale tak naprawdę nie był to najczęstszy sposób awarii dysku. W rajdzie 5 miałem 4 dyski zewnętrzne SATA 500 GB. Zostały one podłączone do taniego starego serwera montowanego w szafie IBM. Cała konfiguracja została schowana pod schodami i pewnego dnia albo szczura, albo króliczka, ale coś przeżuwało niektóre kable zasilające i 2 dyski. Wszystkie dyski były w tanich obudowach zewnętrznych, więc chyba nie powinienem być tak zaskoczony.

AdamB
źródło
3

Czy pytasz, czy możesz stracić 2 dyski z powrotem do tyłu? Jasne, wszystko może się zdarzyć. Raid 5 pozwala na dużą dostępność i wzrost wydajności dostępu do danych, ale Raid 5 niczego nie tworzy kopii zapasowej. Pomaga po prostu zapobiec wykorzystaniu danych z powodu utraty sprzętu na jednym dysku. To nie jest kopia twoich danych. Nie można odzyskać starej kopii, starej wersji lub po prostu kopii bieżącej pracy. Ponadto nie chroni przed uszkodzeniem danych. Jest więcej rzeczy, które mogą pójść nie tak, niż po prostu utrata dysku. Wirus może uszkodzić wszystkie dane, młodsza siostra lubi patrzeć, jak kosz na pulpicie zapełnia się i opróżnia, gdy wrzuca do niego pliki, głupi przyjaciel upuszcza napój na twoim komputerze itp.

Pamiętaj też, że możesz stracić kontroler RAID dysku twardego. I nie możesz po prostu przenieść tablicy na inny losowy kontroler. Zwykle musisz użyć dokładnie tego samego i nadal coś może pójść nie tak. Niektóre kontrolery RAID przechowują informacje na pokładzie, a inne wysyłają informacje o konfiguracji do dołączonej tablicy. Gdy pojawia się taka sytuacja, jest to hazard.

To samo pytanie na SF: /server/2888/why-is-raid-not-a-backup

Potrzebujesz więcej powodów?

EDYCJA: Twój pomysł jest poprawny i może spotkać każdego. Osobiście nie widziałem awarii więcej niż jednego napędu, ale widziałem, jak niektóre umierają naprawdę blisko siebie. Żaden z nich nie był w tym oknie przebudowy, ale technicznie jest to ryzyko. Ale masz kopię zapasową na wypadek, gdyby coś się stało, prawda? ha ha. Niektórzy czasem uczą się tego na własnej skórze. Raid 6 przenosi go na wyższy poziom z podwójną parzystością i może stracić do 2 dysków. Przy każdej konfiguracji RAID, prawdopodobieństwo awarii rośnie wraz z rozmiarem (# dysków) i złożonością tablicy. Więcej napędów = więcej punktów możliwej awarii

Troggy
źródło
przepraszam, rozumiem to wszystko, po prostu pytając, czy to się przydarzyło i jaki był scenariusz?
Brian
3

Masz rację, w scenariuszu RAID-5, jeśli stracisz jeden dysk, a następnie przebudujesz, system musi pomyślnie odczytać każdy sektor wszystkich pozostałych dysków w zestawie RAID. NetApp twierdzi, że w niektórych sytuacjach (mogą wykonywać zestawy RAID do 28 dysków pewnego rodzaju) Twoje szanse na trafienie w drugą awarię mogą wynosić do jednej na dziesięć. W ten sposób wykonują „podwójną parzystość”, która moim zdaniem jest związana z RAID-6.

Oczywiście im więcej dysków masz w zestawie RAID, a im są większe, tym większe prawdopodobieństwo, że napotkasz problem. W przypadku małego zestawu RAID (3-5 dysków) szanse prawdopodobnie nie przesunęły się zbyt daleko w stosunku do używania RAID-5.

Ale zawsze robię Raid-DP na NetApps, gdzie mogę.

David Mackintosh
źródło
+1 Nigdy nie myślałem o tym, że „muszę z powodzeniem czytać każdy sektor wszystkich pozostałych dysków”.
AaronLS,
2

Żadnych osobistych doświadczeń, ale słuchałem krzyków tych, którzy je mieli. Każdy system pamięci masowej - pojedynczy dysk, klucz USB, taśma, ogromna instalacja RAID lub Amazon S3 - ostatecznie zawiedzie w sposób najbardziej niewygodny dla Ciebie. Druga awaria podczas przebudowy zestawu RAID 5 to tylko jeden ze sposobów, w jaki może się to zdarzyć.

Nawiasem mówiąc, wsparcie dla RAID z potrójną parzystością zostało zintegrowane z OpenSolarisem kilka dni temu - więc co najmniej jeden sprzedawca uważa, że ​​uwzględnienie dwóch dodatkowych awarii podczas odbudowy macierzy RAID parzystości jest warte wysiłku inżynieryjnego.

Stephen Veiss
źródło
1

Rzeczywiście tak się dzieje. Właśnie dlatego rozwiązania pamięci masowej NetApp mają implementację RAID 6. Dzieje się tak na wypadek utraty drugiego dysku podczas przebudowy.

Prawdopodobieństwo awarii można obliczyć za pomocą standardowych formuł wymienionych na poniższym tekście linku do strony. Podczas skalowania do coraz większej liczby dysków danych prawdopodobieństwo takiej awarii rośnie. Jeśli masz wystarczającą liczbę dysków, możesz wypchnąć tę liczbę do strefy zmartwień, jeśli używasz RAID 5 z ogromną liczbą woluminów danych.

Mogę powiedzieć z własnego doświadczenia, że ​​na pewno możesz mieć dwie awarie dysków w tej samej macierzy w tym samym krytycznym czasie. Raid 6 uratował mnie przed koniecznością przywracania z kopii zapasowej.

Mam nadzieję że to pomoże

Axxmasterr
źródło
1

Oto scenariusz: Dysk ulegnie awarii w macierzy RAID5, ale twój zapasowy już albo siedział, albo w końcu pojawiło się zamówienie na nowy dysk twardy. Ty (lub może jakiś zdalny stworek) idziesz ze świeżym napędem w ręku, aby wymienić wadliwy. Z powodu złego oznakowania, zmęczenia lub zwykłej głupoty, jeden z pozostałych dobrych dysków zostaje wyrzucony zamiast wadliwego ... i jest twoja druga awaria.

camster342
źródło
1

Widziałem to kilka razy w branży odzyskiwania danych. I tak, często zawodzą w tym samym czasie, jednak nie sądzę, aby miało to coś wspólnego z koniecznością ich budowy, ponieważ widziałem, że dzieje się tak również w przypadku niedopasowanych dysków. Najczęściej ten rodzaj awarii występuje krótko po burzy, gwałtownym wzroście lub zaniku zasilania.

Zazwyczaj udar uszkadza dyski lub kontroler RAID, a po kilku dniach zaczynają ulegać awarii. Właściwie pracuję teraz nad odzyskaniem macierzy, w której dwa dyski uległy awarii jednocześnie po awarii zasilania. (wygląda teraz beznadziejnie)

Mała wskazówka: Ochronniki przeciwprzepięciowe tak naprawdę nie chronią twojego sprzętu. Zawsze podłączaj swój RAID 5 do dobrego UPS. Nigdy nie widziałem, żeby tak się działo, gdy tablica znajdowała się na zasilaczu UPS.

Jared
źródło
1

Przypadkowe wyciągnięcie drugiego dobrego dysku z zestawu pojedynczej parzystości nie powinno zniszczyć macierzy przy dobrej implementacji RAID. Wiem, że ZFS RAID-Z po prostu zamrozi dowolne wejścia / wyjścia w macierzy, dopóki nie przełączysz go ponownie w tryb online.

Sfynx
źródło
0

Kolejny scenariusz: zdalny stronnik otrzymuje rozkaz, aby pobrać taśmę kopii zapasowej z napędu taśmowego. Podchodzi do szafy i nie wyciąga taśmy z napędu taśmowego ... ale jednocześnie 2 (dwa) dyski twarde z kieszeni napędów i awaria napędu voila: 2.

Myślisz, że to jest daleko idące? Cóż, jestem teraz u klienta, który właśnie to zrobił i teraz patrzy na odbudowę serwera.

Dobrze, że nie nagrała taśmy, która faktycznie była w napędzie taśmowym lub coś w tym stylu ;-)

Mathias
źródło