Moja macierz RAID 10 jest uszkodzona, jak mogę odzyskać moje dane?

0

Mam serwer z 4 dyskami w macierzy RAID 10. Niedawno mój serwer nie działał, ponieważ tablica nie wykrywa dysków. Obecnie tylko jeden dysk jest widziany przez kartę RAID, podczas gdy drugi dysk jest wyświetlany jako niedostępny. A 2 dyski pokazują wiele błędów. Niestety nie mam najnowszej kopii zapasowej Offsite.

Polecono mi sklonować macierz RAID 10 przy użyciu Acronis, ale istnieje możliwość, że może ona sklonować dane, ale nie będzie bootowalna lub może całkowicie zawieść w dowolnym momencie.

Jakie jest najbezpieczniejsze rozwiązanie do odzyskania danych w tym przypadku. Nie chcę stracić moich danych.

Car12
źródło
3
Jeśli 3 dyski uległy awarii z 10, oznacza to, że przekroczyłeś już liczbę dysków, które mogą ulec awarii.
Ramhound,
1
Dzięki za odpowiedź. Mój dostawca powiedział mi, że Dysk A i D nie są dostępne. A inni mogą zawodzić. Mogę spróbować odbudować tablicę, ale są szanse, że dyski stracą dane podczas procesu. Jakie są najbezpieczniejsze opcje odzyskiwania danych?
Car12
Nie będzie można odbudować macierzy ze względu na liczbę dysków, które są niedostępne i / lub uległy awarii. Masz 0% szans na odzyskanie danych przy wskazanej liczbie dysków, które są niedostępne.
Ramhound,
Wszystkie dyski są obecnie wyświetlane. Tablica została wykryta ponownie, ale obecnie jest w trybie offline. Nie byłem w stanie wymusić macierzy w trybie online, ponieważ jest ona uszkodzona i wyświetlił komunikat informujący, że nie ma wystarczającej liczby segmentów, aby wprowadzić ją do trybu online. Czy w tej sprawie można coś zrobić?
Car12
1
@Carmin: z czterema reagującymi, ale wadliwymi dyskami, rzeczy są potencjalnie możliwe do odzyskania, ale nie będzie to ani szybkie, ani łatwe. Zobacz odpowiedź TOOGAM (są firmy, które robią to profesjonalnie; w takim przypadku nie będzie to tanie ). Nadal możesz stracić niektóre pliki. Wygląda na to, że twój dysk trwał zbyt długo z niesprawdzonym, wadliwym stanem, dopóki usterka nie stała się możliwa do usunięcia; może to wskazywać na błąd w procesie konserwacji / inspekcji.
LSerni,

Odpowiedzi:

3

Po pierwsze, wiedz, że wiele osób lubi mówić „RAID nie jest kopią zapasową”. Powodem, dla którego firma powinna korzystać z macierzy RAID, jest minimalizacja przestojów. Powodem, dla którego firma powinna wykonać kopię zapasową danych, jest możliwość przywrócenia danych do poprzedniej wersji. Tak, technicznie RAID 1 zasadniczo „tworzy kopie zapasowe” danych z jednego dysku na drugi, ale wiele zagrożeń dla danych wpłynie nie tylko na jeden dysk, ale na oba. Tak więc cele RAID i tworzenia kopii zapasowych realizują bardzo różne rzeczy, dlatego wiele osób lubi mówić „RAID nie jest kopią zapasową”.

Obecnie tylko jeden dysk jest widziany przez kartę RAID, podczas gdy drugi dysk jest wyświetlany jako niedostępny. A 2 dyski pokazują wiele błędów.

Zgadzam się z Ramhoundem. Brzmi jakbyś był skazany. Przepraszam.

Jeśli tylko jeden dysk miał problemy, na pewno możesz sobie z tym poradzić. Jeśli jednak chcesz przywrócić rzeczy do „świetnej formy”, potrzebujesz co najmniej 2 dysków (i muszą to być odpowiednie dyski!), Aby wykonać dobre przywracanie w takim scenariuszu. Wygląda na to, że masz 3 dyski z problemami (jeden nie odpowiada, a 2 inne z błędami). W takim przypadku nie masz wystarczającej ilości pracy, aby rozwiązać to całkowicie (jeśli w ogóle), w takim przypadku jesteś skazany na utratę danych (być może katastrofalną utratę wszystkiego). Jeśli ten język brzmi zbyt ostro, przepraszam: nie chcę być nieczuły, ale raczej staram się faworyzować prostotę i przejrzystość.

Jeśli spróbujesz przywrócić RAID 1 (który ma dwie części), musisz przywrócić z części, która nie zawiera błędów. W przeciwnym razie wystąpią błędy. Jeśli nie możesz stwierdzić, które dyski zawierają błędy, możesz zacząć od utworzenia kopii zapasowej wszystkich dysków (przy użyciu kopii krok po kroku / kryminalistycznych, jak wspomniano później), aby w przypadku przywracania z niewłaściwymi dyskami możesz spróbować ponownie. Dlatego może być konieczne posiadanie dużej ilości dostępnej pojemności, aby zabezpieczyć ją najbezpieczniej.

Jeśli ciągłe wysiłki spowodują, że będziesz w stanie przywrócić niedziałający dysk do ponownego działania, a ten dysk jest dobry, być może będziesz w stanie uzyskać dobre przywrócenie pomimo dwóch dysków, które nie są w stanie poprawnie dać ci wszystkich dane. To może być możliwe. Może. Reszta tej odpowiedzi zbada tę możliwość.

Niestety, terminologia RAID nie jest wystarczająco uniwersalna, aby zapewnić nam jasność, aby wiedzieć, jakie dyski utraciłeś, na podstawie samych informacji, które podałeś do tej pory. Wspomniałeś o użyciu RAID 10. Cóż, to, że:

  • dysk RAID 1, który następnie został rozłożony na RAID 0,
  • lub RAID 0, który następnie został umieszczony w lustrze RAID 1?

Poprawna odpowiedź to...

jest to zależne od dostawcy.

Tak. Po prostu nie wiemy. Opieram tę konkluzję z artykułu na PC Guide o poziomach wielu RAID, który mówi, że RAID10 zwykle oznacza RAID 1, a następnie RAID 0 (co będzie dla Ciebie lepszym scenariuszem), ale niektóre ...

inne firmy odwracają warunki! Mogą nazywać RAID 0, a następnie techniką RAID 1 „RAID 1/0” lub „RAID 10” (być może z obawy, że ludzie pomyślą, że „RAID 01” i „RAID 1” to to samo). Niektórzy projektanci używają terminów „RAID 01” i „RAID 10” zamiennie. Rezultatem całego tego zamieszania jest to, że musisz zbadać, co dokładnie wdraża firma, gdy patrzysz na wiele macierzy RAID. Nie ufaj etykiecie.

Tak więc za każdym razem, gdy ktoś mówi RAID10, nie ufaj temu, co zrobił. Rozwiązać.

Jeśli masz lustrzane paski, więc układ wyglądał następująco:

AB = RAID1
CD = RAID1
(lustro dwóch RAID 1)

Następnie utrata dysków A i D powoduje degradację każdego macierzy RAID1, ale działa, a na pasku działają obie części, więc wszystko jest w porządku.

Jeśli masz paski, które są dublowane, twój układ wyglądał następująco:

AB = RAID0
CD = RAID0
dublowany ...

Następnie każdy RAID0 jest tracony i dublujesz dwa utracone dyski, więc nie masz nic do odzyskania.

Na szczęście wygląda na to, że większość implementacji RAID10 będzie lustrzanymi paskami, więc szanse są na twoją korzyść.

Zakładając, że układ jest dla Ciebie korzystny, przed wykonaniem jakiejkolwiek przebudowy chcesz uzyskać kopię zapasową dysków. Pozwól, że wyjaśnię: nie chcesz tworzyć kopii zapasowych plików. Nie chcesz tworzyć kopii zapasowych partycji. Chcesz wykonać kopię zapasową dysków. Całe dyski. Upewnij się, że proces tworzenia kopii zapasowej wykonuje pełne archiwum „bit za bitem”, czasami nazywane „kopią sądową”, które kopiuje WSZYSTKIE dane na dysku, w tym nieużywane bity i (co dla Ciebie ważne) metadane, takie jak sygnatury dysków, które RAID może być używane „oprogramowanie”. (Przez „oprogramowanie” niekoniecznie mam na myśli program przechowywany na dysku twardym, ale logikę, która może być wbudowana w niektóre posiadane obwody, w zależności od używanego RAID.)

Polecono mi sklonować macierz RAID 10 za pomocą Acronis

Nie polecam Acronis z powodu problemów, których doświadczyłem zawodowo. To powiedziawszy, wiem, że Acronis jest dość popularny. Moim wyborem dla tego scenariusza byłby dowolny Unix (który mógłby ewentualnie zawierać bootowalną płytę CD Acronis) i używać dd, prawdopodobnie w połączeniu z netcat (jeśli dyski są zdalne). Może to wymagać trochę nauki, ale jeśli wszystko pójdzie gładko, będę mieć dość pewności co do wyniku końcowego zadania tworzenia kopii zapasowej (w zależności od tego, czy docelowy dysk będzie odpowiednio niezawodny).

istnieje możliwość, że może on sklonować dane, ale nie będzie bootowalny lub może całkowicie zawieść w dowolnym momencie

Powiedziałbym „tak”, istnieje takie zagrożenie. Wierzę, że czasami odbudowy mogą się nie powieść z niezbyt wielkich powodów ... a ponawianie próby z innego dysku może działać cudownie. Dlatego naprawdę, naprawdę, naprawdę powinieneś uzyskać bardzo czystą kopię zapasową przed rozpoczęciem ponownej kompilacji. Zawsze upewnij się, że NIE używasz swojej jedynej kopii jakichkolwiek danych podczas rozpoczynania przebudowy.

Po utworzeniu idealnej kopii zapasowej (którą można dość łatwo zweryfikować, czy sprzęt nadal działa prawidłowo, wykonując porównanie bitów każdego bajtu na dysku, co może być łatwiejsze w systemie Unix niż w niektórych innych systemach operacyjnych ), a następnie masz raczej mało do stracenia, próbując odbudować. Bądź więc bardzo paranoikiem w kwestii prawidłowego wykonania kopii zapasowej, ale zrelaksuj się podczas możliwie (znacznie) dłuższego procesu ponownej kompilacji. (W tym momencie nic, co dzieje się podczas procesu przebudowy, nie powinno przysparzać ci żadnych problemów, chyba że masz również problemy z kopiami zapasowymi. Poza wieloma utraconymi dyskami musiałby być jeszcze jeden mało prawdopodobny problem, który jest raczej mało prawdopodobne, aby zostać skazanym ... jeśli twoja kopia zapasowa została wykonana dobrze).

Po upewnieniu się, że raport odbudowy powiódł się, sprawdź, czy dane zostały przywrócone w porządku (sprawdź dane z różnych sekcji, mając nadzieję na weryfikację wielu dysków), a następnie nie uważaj procesu „napraw ten problem” za zakończony, dopóki mieć działające rutynowe rozwiązanie do tworzenia kopii zapasowych.

TOOGAM
źródło
Uwielbiam tę odpowiedź. Czy chciałbyś uzyskać bardziej szczegółowe informacje dd(np. Dlaczego nie ddrescue?)? Zrobiłaby to dobra czerwień z wiki, ale zakładam, że każdy, kto znajduje się w sytuacji degradacji RAID, byłby bliski załamania nerwowego (wiem, że byłbym ;-)), więc dawanie im pewności co do swoich opcji jest możliwe najlepszy sposób, aby chronić je przed całkowitą utratą danych.
flolilo
1
ddrescue: wygląda na to, że mogą wystąpić obrażenia fizyczne, więc: dobra sugestia. Jest mniej powszechnie dostępny w różnych systemach rozruchowych Unix. Ta niedogodność może być warta przezwyciężenia w celu przywrócenia cennych danych. Moja odpowiedź została napisana z myślą o dążeniu do pełnego wyzdrowienia, dlatego podczas dyskusji zauważyłem „jeśli wszystko pójdzie gładko” dd. Spodziewałbym się, że pominięcie tylko niektórych danych na dysku miałoby wzmocniony negatywny efekt (ponieważ jest bardziej podatny na problemy z większą ilością danych), gdy RAID0 jest częścią obrazu. Może wpłynęłoby to nawet na proces odbudowy?
TOOGAM
@flolilolilo: O „re [a] d z wiki”: Opublikowałem własny przewodnik dotyczący tworzenia kopii zapasowych w / dd i netcat, więc nie zamierzam inwestować wysiłku w szukanie innych dokumentów stron trzecich do hiperłącza do . Właściwie ta odpowiedź zawiera już pewne informacje, które właśnie znalazłem z części własnej dokumentacji online. Kiedy dołączyłem do Stack Exchange, moderatorzy za bardzo narzekali, że moje posty odnoszą się do moich własnych dokumentów online, obawiając się, że cele moich postów mogą przechwytywać ruch. Zachowuję się więc (czasami nie odpowiadając, @ innym razem @ smutny koszt jakości moich odpowiedzi), wskazując na moją stronę bardzo rzadko .
TOOGAM
Odnośnie do „re [a] d z wiki”: Och, rozumiem. Muszę przyznać, że nie byłem świadomy „problemu” generowania ruchu. A zatem pełne wycofanie się z mojej prośby! W odniesieniu do ddrescue: Moja wiedza na temat ratowania danych jest czysto nieprofesjonalna, więc wybrałbym wszystko, co powiesz, i uzupełniłem braki wiedzą z innych stron, nie ośmielając się powiedzieć tych rzeczy tutaj (z powodu braku zaufania do mojej własnej jeszcze nie - zatwierdzona wiedza).
flolilo
@flolilolilo: Uważaj, aby nie dać komuś zbyt dużego uznania; to, że wydają się wiedzieć sporo, nie oznacza, że ​​są dokładne we wszystkim, co mówią. W moim przypadku staram się być dokładny, ale dwa ostatnie zdania mojego komentarza ddrescue (zaczynając od „oczekiwałbym”) opierają się bardziej na własnym czytaniu niż na faktycznym doświadczeniu zawodowym.
TOOGAM,