RAID-5: Dwa dyski uległy awarii jednocześnie?

21

Mamy serwer Dell PowerEdge T410 z systemem CentOS, z macierzą RAID-5 zawierającą 5 dysków SATA Barracuda 3 TB SATA. Wczoraj system się zawiesił (nie wiem jak dokładnie i nie mam żadnych logów).

Po uruchomieniu systemu BIOS kontrolera RAID zobaczyłem, że spośród 5 dysków dysk 1 został oznaczony jako „brakujący”, a dysk 3 oznaczony jako „zdegradowany”. Zmusiłem kopię zapasową dysku 3 i zastąpiłem dysk 1 nowym dyskiem twardym (tego samego rozmiaru). BIOS wykrył to i zaczął odbudowywać dysk 1 - jednak utknął na% 1. Wskaźnik postępu wirowania nie drgnął całą noc; całkowicie zamrożone.

Jakie są moje opcje tutaj? Czy jest jakiś sposób na próbę odbudowy, oprócz skorzystania z profesjonalnej usługi odzyskiwania danych? Jak dwa dyski twarde mogą ulec awarii jednocześnie? Wydaje się to zbyt przypadkowe. Czy to możliwe, że dysk 1 uległ awarii i w wyniku tego dysk 3 „nie zsynchronizował się?” Jeśli tak, to czy jest jakieś narzędzie, którego mogę użyć, aby przywrócić go „w synchronizacji”?

Mike Furlender
źródło
20
Tak, duże dyski sata zwykle to robią. (Odbudowa 3 TB zajmuje wiele godzin, gdy jesteś narażony na podwójne awarie). Jest to więc oczekiwane i dlatego RAID-5 korzystający z takiej konfiguracji nie jest absolutnie zalecany.
MichelZ
9
W rzeczy samej. W idealnym świecie wskaźniki awarii dysków są losowo rozkładane. W praktyce tak się nie dzieje - zwykle kupuje się je z tej samej partii i poddaje się takim samym obciążeniom, co oznacza, że ​​wszyscy zaczynają zbliżać się do końca życia w tym samym czasie. Nagłe przesunięcie ładowania może dość łatwo wywrócić kilka „ponad krawędź”, nawet zanim zaczniesz patrzeć na niemożliwe do naprawienia poziomy błędów na dyskach SATA. W każdym razie - obawiam się, że zła wiadomość jest taka, że ​​jeśli nie możesz uzyskać jednego z tych dysków online, nadszedł czas, aby udostępnić kopie zapasowe.
Sobrique
5
Wiem, że teraz to niewiele pomaga, ale po prostu FYI - ogólny konsensus dotyczy używania RAID6 dla dysków większych niż 1 TB (przynajmniej w przypadku, gdy mówimy o 7200 obr / min).
pauska
2
RAID 5 zapewnia odporność na awarie, ale jest to opcja kompromisowa - masz odporność N + 1, ale jeśli masz duże dyski, masz duże okno, w którym może wystąpić druga usterka. RAID-6 zapewnia odporność na uszkodzenia N + 2, co jest ogólnie uważane za dobre (potrójne szanse na awarię są znacznie niższe). Jednak znajdziesz również wskaźnik awaryjności droższych dysków (np.
Niedrogich

Odpowiedzi:

24

Po zaakceptowaniu złej odpowiedzi bardzo mi przykro z powodu mojej heretyki (która już wielokrotnie zapisywała takie tablice).

Twój drugi udało dysk ma prawdopodobnie problem niewielki, może awarię bloku. To jest przyczyna, dla której narzędzie do złej synchronizacji złego oprogramowania raid5 uległo awarii.

Możesz łatwo wykonać kopię na poziomie sektora za pomocą narzędzia do klonowania dysku na niskim poziomie (na przykład gddrescue jest prawdopodobnie bardzo przydatny) i użyć tego dysku jako nowego dysku3. W takim przypadku tablica przetrwała z niewielkim uszkodzeniem danych.

Przykro mi, prawdopodobnie jest już za późno, ponieważ istota ortodoksyjnej odpowiedzi w tym przypadku: „wielokrotna porażka w rajdzie5, oto apokalipsa!”

Jeśli chcesz bardzo dobrego, nadmiarowego raidu, użyj raidu programowego w systemie Linux. Na przykład układ danych o superbloku rajdowym jest jawny i udokumentowany ... Naprawdę przepraszam za moją kolejną heretykę.

Peter mówi, że przywraca Monikę
źródło
8
Szkoda, że ​​spadły głosy, w rzeczywistości próbuje pomóc OP naprawić bałagan, w przeciwieństwie do niektórych innych. +1
Rzeczywistość
3
@ Rzeczywistość nie próbuje rozwiązać bałaganu, rozszerza jego problemy. Raid5 z wypalonymi uszkodzonymi blokami nie daje końca bólu, ponieważ przejdzie testy integralności, ale będzie regularnie degradowany. Nie miałby też pojęcia, które dane są uszkodzone. Gdyby to było tak proste, jak naprawienie bloku, byłoby to standardowe rozwiązanie.
JamesRyan
4
@JamesRyan Zgadzam się, że spowoduje to późniejsze problemy, a nawet zgadzam się, że istnieją tutaj podstawowe problemy. Jednak oferuje prawidłowe rozwiązanie, w jaki sposób odzyskać część funkcjonalności, a ponieważ OP mówił o ekspertach od odzyskiwania danych, mogę tylko założyć, że nie mają kopii zapasowych, aby odzyskać swoje dane w przeciwnym razie. W końcu to rozwiązanie byłoby tylko częścią pierwszej poprawki. Gdy tylko ta metoda uruchomi system ponownie, prawdopodobnie będziesz chciał przenieść system plików na 5 nowych dysków, a następnie, co ważne, wykonać kopię zapasową.
Rzeczywistość
1
„Mógłbyś z łatwością zrobić kopię narzędzia do kopiowania bloków na poziomie sektora”. Czy tak naprawdę chciałeś napisać?
Arnaud Meuret
1
@MikeFurlender Myślę, że sprzęt jest szybszy, ale zastrzeżony i dlatego kruchy, ponieważ musisz uzyskać dokładnie ten sam kontroler na wypadek awarii. Oprogramowanie RAID jest niezależne od sprzętu. Zobacz btrfs i zfs.
Martin Ueding
38

Masz awarię podwójnego dysku. Oznacza to, że Twoje dane zniknęły i będziesz musiał przywrócić dane z kopii zapasowej. Dlatego nie powinniśmy używać RAID 5 na dużych dyskach. Chcesz skonfigurować swój nalot, abyś zawsze był w stanie wytrzymać dwie awarie dysków, szczególnie w przypadku dużych wolnych dysków.

Bazylia
źródło
3
Istnieją dwa problemy z RAID5. Po pierwsze: czas odbudowy 3 TB, biorąc pod uwagę, że wolny dysk SATA może być duży, zwiększając szanse na awarię złożoną. Drugim jest niemożliwy do odzyskania bitowy wskaźnik błędów - arkusz specyfikacji na większości napędów SATA ma 1/10 ^ 14, co stanowi - około - 12 TB danych. Z 5-drożnym RAID 3B staje się to prawie nieuniknione, gdy konieczna jest przebudowa.
Sobrique
1
Używam RAID5 na mojej macierzy dysków 3 TB 5, bawiąc się, otrzymałem drugą macierz, która mogłaby być używana jako replikowana kopia pierwszej. W ten sposób utrata danych wymagałaby awarii więcej niż 1 dysku na obu tablicach jednocześnie (potrzebowałbym 4 dysków), ale nadal utrzymywałbym tak dużą ilość dostępnej pojemności. Po przeczytaniu tego mogę teraz zwiększyć ramy czasowe na uzyskanie drugiej tablicy.
Wojna
1
Prawdopodobnie ma tylko zły blok na dysku3. Naprawdę zastanawiam się, dlaczego profesjonalny sysadmin nigdy nie słyszał o narzędziach do kopiowania na poziomie bloków.
Peter mówi, że przywrócenie Moniki
1
@Wardy, czy Raid 6 nie dałby ci tego?
Basil
3
Niezbyt pomocna odpowiedź. Jasne, że w przypadku awarii podwójnego dysku w macierzy RAID 5 szansa na odzyskanie nie jest dobra. Ale większość awarii podwójnego dysku w macierzy RAID 5 to prawdopodobnie tylko jeden wadliwy dysk i kilka nieskorygowanych błędów odczytu na innych dyskach. W takim przypadku odzyskanie większości danych jest nadal możliwe przy użyciu odpowiednich narzędzi. Pomocne byłyby wskaźniki do takich narzędzi.
kasperd
37

Twoje opcje to:

  1. Przywracanie z kopii zapasowych.
    • Ci zrobić mają kopie zapasowe, prawda? RAID nie jest kopią zapasową.

  2. Profesjonalne odzyskiwanie danych
    • Jest możliwe, choć bardzo drogie i nie ma gwarancji, że profesjonalna usługa odzyskiwania będzie w stanie odzyskać dane.

  3. Akceptowanie utraty danych i wyciąganie wniosków z doświadczenia.
    • Jak zauważono w komentarzach, duże dyski SATA nie są zalecane do konfiguracji RAID 5 ze względu na ryzyko podwójnej awarii podczas przebudowy powodującej awarię macierzy.
      • Jeśli musi to być RAID parzystości, RAID 6 jest lepszy, a następnym razem skorzystaj również z hot spare.
      • Dyski SAS są lepsze z różnych powodów, w tym z większej niezawodności, odporności i niższej częstotliwości nieodwracalnych błędów bitów, które mogą powodować URE (nieodwracalne błędy odczytu)
    • Jak wspomniano powyżej, RAID nie jest kopią zapasową. Jeśli dane mają znaczenie, upewnij się, że zostały utworzone kopie zapasowe, a kopie zapasowe zostały przetestowane pod kątem przywracania.
Beznadziejny
źródło
1
Jeśli masz 5 dysków (zgodnie z OP) i jesteś zaangażowany w hot spare, na pewno wziąłbyś RAID10 zamiast RAID6 ...?
jimbobmcgee
1
Cóż, na początek - użyjesz 4 wrzecion w macierzy RAID 1 + 0, aby uzyskać 2 dyski warte miejsca, pozostawiając jeden dysk „zapasowy”. Możesz tolerować dwie awarie (przynajmniej dwie właściwe). RAID6 zapewniłby 3 dyski warte przestrzeni i może również tolerować dwie awarie (dowolne dwa). RAID1 + 0 ma lepszą wydajność, z mniejszą karą za zapis i potencjalnie lepszą wydajność losowego odczytu (odczyt może być obsługiwany z jednego z dwóch wrzecion).
Sobrique
Dla punktu 2. Odzyskiwanie danych. Profesjonalne odzyskiwanie danych z macierzy RAID5 może sprawić, że łatwo zarobisz 20 000 USD. Co więcej, OP pozwalał na przebudowę uruchomioną przez noc, obciążając dysk, co może spowodować, że odzyskiwanie będzie trudniejsze lub nawet niemożliwe. Po prostu daję ci znać z wyprzedzeniem. Pamiętaj, aby wysłać wszystkie dyski.
OmnipotentEntity
4

Jednoczesna awaria jest możliwa, a nawet prawdopodobna, z powodów podanych przez innych. Inną możliwością jest to, że jeden z dysków uległ awarii jakiś czas wcześniej i nie aktywnie go sprawdzałeś.

Upewnij się, że monitorowanie szybko wykryje wolumin RAID działający w trybie awaryjnym. Może nie dostałeś opcji, ale nigdy nie warto uczyć się tych rzeczy z BIOS-u.

richardb
źródło
3
+1 za wzmiankę o zaniedbanym monitorowaniu. Ważne jest, aby zauważyć już krok „normalny” -> „krytyczny”, a nie krok „krytyczny” -> „nieudany”. Dotyczy to również wszystkich innych rodzajów zwolnień (zapasowa linia internetowa, piwo w piwnicy, koło zapasowe, ...).
Hagen von Eitzen,
2

Aby odpowiedzieć „Jak dwa dyski twarde mogą zawieść jednocześnie?” właśnie chciałbym zacytować z tego artykułu :

Sednem argumentu jest to. Ponieważ dyski stają się coraz większe (około dwa razy w ciągu dwóch lat), URE (błąd odczytu nie do naprawienia) nie poprawił się w tym samym tempie. URE mierzy częstotliwość występowania nieodwracalnego błędu odczytu i jest zwykle mierzony w błędach na odczytany bit. Na przykład współczynnik URE 1E-14 (10 ^ -14) implikuje, że statystycznie nieodwracalny błąd odczytu pojawiałby się raz na każdy odczyt 1E14 bitów (1E14 bitów = 1,25E13 bajtów lub około 12 TB).

...

Argument jest taki, że wraz ze wzrostem pojemności dysków, a szybkość URE nie poprawia się w tym samym tempie, prawdopodobieństwo niepowodzenia odbudowy RAID5 z czasem wzrasta. Statystycznie pokazuje, że w 2009 r. Pojemności dysków wzrosłyby na tyle, że używanie RAID5 dla dowolnej sensownej macierzy nie miałoby sensu.

Tak więc RAID5 był niebezpieczny w 2009 roku. RAID6 też będzie wkrótce. Jeśli chodzi o RAID1, zacząłem robić je z 3 dysków. RAID10 z 4 dyskami jest również niepewny.

Halfgaar
źródło
3
Ponownie, RAID nie jest alternatywą tworzenia kopii zapasowych, polega jedynie na dodaniu „strefy buforowej”, podczas której dysk można wymienić, aby zachować dostępne dane ... dostępne. Inną opcją jest użycie replikacji, która wymagałaby jednocześnie awarii dwóch tablic ... o wiele mniej prawdopodobne, jak sądzę.
Wojna
Osobiście nie podoba mi się mantra, że ​​RAID nie jest kopią zapasową. Słownik mówi: „osoba, plan, urządzenie itp., Trzymane w rezerwie, aby w razie potrzeby służyć jako zamiennik”. Jeśli ilość redundancji nie jest wystarczająca, nie będzie służyć jako substytut. Jeśli nie zależy ci na nadmiarowości zapewnianej przez RAID, równie dobrze możesz go nie używać. Jeśli chodzi o to, że nie zastępuje kopii zapasowych poza dyskiem i poza witryną, to zupełnie inna sprawa, z którą się zgadzam (oczywiście).
Halfgaar
więc co sądzisz o tych, którzy używają pasków RAID bez redundancji? w tym przypadku macierz RAID jest używana wyłącznie w celu uzyskania korzyści w zakresie wydajności, co jest całkowicie poprawnym zastosowaniem IMO według mnie RAID służy 2 celom 1. w celu zapewnienia prędkości poprzez zgrupowanie dysków lub 2. zapewnienia siatki bezpieczeństwa na wypadek, gdyby n dyski nie działają, zapewniając, że dane są nadal dostępne.
Wojna
Każdy, kto wdroży RAID, wybierze typ RAID, którego chce użyć w zależności od swoich potrzeb, szybkości, niezawodności lub kombinacji 2, ale wciąż nie czyni RAID jakąkolwiek formą rozwiązania do tworzenia kopii zapasowych.
Wojna
1
Kiedy ludzie mówią, że RAID nie jest kopią zapasową, nie mówią o dostępności. Myślę, że po prostu bawisz się słowami. :)
gparent
2

Wątek jest stary, ale jeśli czytasz, zrozum, kiedy dysk ulegnie awarii w macierzy RAID, sprawdź wiek dysków. Jeśli masz kilka dysków w macierzy RAID i mają one ponad 4-5 lat, istnieje duża szansa, że ​​inny dysk ulegnie awarii. *** ZRÓB OBRAZ lub Kopię zapasową ** przed kontynuowaniem. Jeśli uważasz, że masz kopię zapasową, przetestuj ją, aby upewnić się, że możesz ją przeczytać i przywrócić z niej.

Powodem jest to, że nakładasz lata normalnego zużycia na pozostałe dyski, ponieważ obracają się z pełną prędkością przez wiele godzin. Im większa liczba 6-letnich dysków, tym większa szansa, że ​​inny dysk ulegnie awarii. Jeśli jest to RAID5, a zdmuchniesz tablicę, świetnie, że masz kopię zapasową, ale przywrócenie dysku o pojemności 2 TB zajmuje 8 - 36 godzin, w zależności od rodzaju kontrolera RAID i innego sprzętu.

Rutynowo wymieniamy cały ul na serwerach produkcyjnych, jeśli wszystkie dyski są stare. Po co marnować czas na wymianę jednego dysku, a następnie czekać, aż następny ulegnie awarii w ciągu dnia, tygodnia, miesiąca lub dwóch. Choć są tak tanie jak dyski, nie jest to warte czasu przestoju.

Rickkee Ranton
źródło
1

Zazwyczaj przy zakupie dysków w dużej części od renomowanego sprzedawcy można poprosić, aby dyski pochodziły z różnych partii, co jest ważne z wyżej wymienionych powodów. Następnie właśnie dlatego istnieje RAID 1 + 0. Gdybyś używał 6 dysków w macierzy RAID 1 + 0, miałbyś 9 TB danych z natychmiastową redundancją, gdzie nie jest konieczne odbudowywanie woluminu.

Payton Byrd
źródło
Gdzie są dowody na to, że część dotycząca korzystania z napędów z różnych partii nie jest miejskim mitem? Ponadto RAID 1 nie chroni magicznie przed uruchomieniem w nieczytelnych sektorach podczas odbudowy. Jeśli chcesz się przed tym zabezpieczyć, albo korzystasz z RAID 6, albo z RAID 1 z 3 serwerami lustrzanymi (trochę za drogo).
kasperd
1
@kasperd Myślę, że pytanie, które stanowi pierwszą część twojego komentarza, jest podobne, choć oczywiście nie do końca takie samo, jak: Czy powinienem „uruchomić” jeden dysk nowej pary RAID 1, aby zmniejszyć prawdopodobieństwo podobnego czasu awarii? .
CVn
1

Jeśli kontroler jest rozpoznawany przez dmraid (na przykład tutaj ) w systemie Linux, możesz użyć ddrescue do odzyskania uszkodzonego dysku na nowy i użyć dmraid do zbudowania tablicy zamiast kontrolera sprzętowego.

Brian Minton
źródło