RAID-6: lepiej zastąpić dwa martwe dyski jednocześnie, czy jeden na raz?

21

Mamy 16-dyskową macierz RAID-6, która ma trzy dyski powodujące problemy. Dwie już nie żyją, a trzecia daje SMART ostrzeżenia. (Nieważne, jak to się stało w tak złym stanie.)

Oczywiście chcemy wymienić martwe dyski przed tymi, które nadal działają, ale czy lepiej:

  1. wymień jeden martwy dysk, pozwól RAID odbudować, następnie wymień drugi i pozwól mu odbudować ponownie; lub

  2. wymienić oba dyski jednocześnie i pozwolić, aby oba zostały odbudowane równolegle?

Innymi słowy, czy wrócimy do stanu redundancji szybciej poprzez ponowne wprowadzenie jednego dysku lub dwóch? Czy równoległe przebudowanie dwóch dysków spowalnia proces przebudowy?

W razie potrzeby kontrolerem jest 3ware 9650SE-16ML.

Warren Young
źródło
10
Przekrocz wszystko, co możesz przekroczyć, i wyślij swojemu ulubionemu bóstwu dużą darowiznę!
user9517 obsługuje GoFundMonica
1
Czy mogę tylko zadać jedno pytanie w tej sprawie; czy możesz dać nam znać DOKŁADNĄ markę i model dysku w tej macierzy - jeśli moje podejrzenia są słuszne, możesz bardzo dobrze widzieć, że to pytanie staje się użytecznym punktem odniesienia dla przyszłych użytkowników zadających określone pytania. Dziękuję Ci.
Chopper3
8
@Warren - AIEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE! Wyłączyli? Bad JuJu mój przyjacielu! Tym razem jest już za późno, ale ogólnie mówiąc, wyłączenie dysków (szczególnie jeśli są to starsze dyski, które były uruchomione i działają od dłuższego czasu) daje im możliwość zgłaszania błędów podczas uruchamiania (i powoduje, że kontroler mówi „Tak, ten dysk też jest teraz smażony ”)
voretaq7,
2
@ voretaq7: Kiedyś wysłałem wszystkie dyski z pudełka MSA-20 do piekła, wyłączając je po ~ 3 latach nieprzerwanej pracy i ciągłym użytkowaniu. Nigdy więcej tego nie zrobię :-)
karatedog
1
Tablica jest już gotowa i odbudowuje się, dzięki czemu mogę uzyskać dokładne modele dla każdego, kogo to obchodzi. Oryginalnymi dyskami twardymi były ST31000340NS, co oznacza, że ​​jest to wersja serwerowa tego, o który pytał Chopper3. Czy są one znane z niepowodzenia, czy coś? (Nowe to ST31000524NS.)
Warren Young,

Odpowiedzi:

27

!!!!! JEDEN !!!!!

Rób to pojedynczo, poważnie, nie myśl o robieniu tego w ŻADNY sposób w inny sposób.

Wszystko inne sprawdzi Twoje pełne umiejętności przywracania systemu.

Siekacz 3
źródło
3
Dwa elementy, które dodam do tej odpowiedzi, to (1) MODLITWA (do dowolnego bóstwa, które lubisz) i (2) MONITOROWANIE, kiedy wszystko wróci do bezpiecznego stanu (dzięki czemu będziesz wiedział, kiedy dyski ulegną awarii w przyszłości i możesz rozwiązać problem, zanim
wystąpią
3
Lub użyj RAID 10 </stockanswer>
Chopper3
1
Re: modlitwa , bez komentarza. :) Re: monitorowanie , opowiadam się za tym od lat; może to zapali ogień pod kimś. Odp: RAID-10 , za dużo danych na rynku ofert; kiedy pojawiły się dyski 3 TB, nie potroiliśmy redundancji, zmniejszyliśmy liczbę dysków o 1/3. Westchnienie. Re: gorące części , robimy to teraz, gdy dyski są wystarczająco duże, aby na to pozwolić, ale ten konkretny serwer miał 16 dysków w obudowie 16 dysków, kiedy 1 TB były największymi, jakie można uzyskać, i naprawdę potrzebowaliśmy wszystkich 14 dostępnych TB . Przejście na system z 24 napędami nie zadziałałoby; patrz poprzedni. :)
Warren Young,
2
Jeśli dyski już uległy awarii, nie ma powodu, aby je utrzymywać - raczej spodziewałbym się, że dwie kolejne odbudowy są bardziej stresujące dla innych dysków niż jeden.
Simon Richter,
1
+1, to. Podczas gdy dwie kolejne odbudowy zwiększają obciążenie i prawdopodobnie spowodują awarię trzeciego dysku przed zakończeniem obu, jest to również szybsza odbudowa, a jeśli dysk marginalny ulegnie awarii podczas odbudowywania drugiego dysku, nadal będziesz w trybie online. Zatem najszybszy i najbezpieczniejszy sposób na uzyskanie stanu odporności na awarie jest pojedynczo.
Joel Coel,
14

Czy masz dobre, najnowsze kopie zapasowe? Jeśli nie, czy uważasz, że możesz je zdobyć w rozsądnym czasie?

Byłbym szczerze bardziej zaniepokojony wyłączaniem uszkodzonego dysku w trybie offline podczas przebudowy niż cokolwiek innego - jeśli już zgłaszasz błędy SMART, to jesteś w połowie drogi.

Sugeruję, aby potwierdzić swoje kopie zapasowe, a następnie odbudowywać jeden dysk na raz, aby spróbować przywrócić go do stanu, w którym można zastąpić ten, który generuje błędy SMART (najpierw martwe dyski, ostatnie błędy miękkie).

Jeśli nie masz żadnych kopii zapasowych, jest to bzdura: tworzenie kopii zapasowej może spowodować wystarczającą liczbę miękkich błędów, aby oznaczyć dysk marginalny jako nieudany, podobnie jak próba przebudowy.

voretaq7
źródło
2
Większość lub wszystkie dane w tej tablicy są rodzajem pamięci podręcznej, aby uniknąć konieczności ciągłego pobierania terabajtów danych przez wolne łącze. Wszystkie te dane z pamięci podręcznej można wymienić, pobierając je ponownie przez kilka miesięcy (raz) lub wysyłając do witryny, która może kopiować z innej tablicy. Więc kopie zapasowe nie są problemem. Próbując zapobiec zapisywaniu tablicy, staramy się od kilku dni do tygodni przestoju wysyłać serwer do serwisu, ponownie wypełniać tablicę i odsyłać ją z powrotem.
Warren Young,
w takim przypadku to, co powiedział @ chopper3, jest prawie The Land of the Land: Odbuduj jeden dysk naraz i MÓDL SIĘ NAPRAWDĘ NAPRAWDĘ NAPRAWDĘ, że nie wyłączasz marginalnego dysku offline z dodatkowym ładowaniem odczytu.
voretaq7
Uff - cieszę się, że to słyszę.
Chopper3
0

Nie widzę sensu zmieniać go na „jeden dysk na raz”.

Oczywiście, jeśli RAID jest zdolny do „resilverowania” obu dysków jednocześnie ( które i tak są uszkodzone ), wygrywasz, pozwalając całej RAID odzyskać zdolność do wytrzymania do 2 awarii szybciej .

poige
źródło
-1

Moje 0,02. $

Ponieważ serwer jest już w trybie offline, uruchom ddrescue na dysku, który wkrótce ulegnie awarii, aby sklonować go na inny, rozsądny dysk.

Zamiast tego umieść nowy, rozsądny dysk w tablicy. Jeśli klonowanie się powiedzie, unikniesz ryzyka awarii dysku podczas 2 odbudowań.

Guillaume A.
źródło
Jest to sprzętowy kontroler RAID, pojedynczych dysków nie można adresować.
Chopper3