Odzyskaj z przebitej macierzy RAID

10

oto moja sytuacja.

Mam serwer Dell z kontrolerem Dell Perc 7i (kontroler LSI).

Miałem napęd, który dał mi ostrzeżenie o awarii, więc zadzwoniłem do ich wsparcia, a oni wyszli i wymienili napęd, a sama tablica została przebudowana, całkiem standard.

Dwa tygodnie później mam kolejny dysk z ostrzeżeniem o awarii. Pomyślałem, że może to była kiepska partia dysków lub przypadek itp. Więc kontaktuję się z pomocą techniczną i szukam bardziej dogłębnie. Zdaję sobie sprawę, że na jednym z pozostałych dysków były uszkodzone bloki, które nie uległy awarii i te złe bloki zostały skopiowane podczas przebudowy. Więc teraz mam złe bloki wszędzie i powoli zabijają moją tablicę. Przekonałem się, że nazywa się to tablicą Przebitą.

Więc ich rada polegała na wymianie wszystkich dysków, przebudowaniu macierzy i przywróceniu danych z kopii zapasowej. Z wyjątkiem tego, że mam ten problem od kilku tygodni, co oznacza, że ​​moje kopie zapasowe są złe ... i jeśli przywrócę dane z kopii zapasowej sprzed (miesiąc temu), to zabraknie mi około 4 tygodni danych z mojej bazy danych, które jest całkowicie nie do przyjęcia dla naszego biura.

Moje pytanie brzmi ... czy ktoś kiedykolwiek wyszedł z czegoś takiego bez utraty danych lub bez całości (wyrzuć to wszystko przez okno i zacznij od nowa)?

Znalazłem jeden link, który obejmował mój scenariusz, nie jestem pewien, czy rzuci on jakieś światło na sytuację: http://www.theprojectbot.com/raid/what-is-a-punctured-raid-array/

Każda pomoc lub kierunek będzie mile widziane! Co myślicie?

użytkownik72593
źródło

Odpowiedzi:

15

Zakładam, że twój system wciąż działa, więc najlepiej zrobić natychmiastową kopię zapasową, zrzucić dyski / macierz, odbudować i przywrócić z kopii zapasowej.

Złe bloki nie zawsze oznaczają, że kopie zapasowe również są złe. Jeśli nie wystąpiły problemy z wydajnością lub uszkodzone pliki, kopie zapasowe powinny być nadal wystarczająco kompletne, aby zakończyć przywracanie.

Aby przetestować, wykonaj najnowszą kopię zapasową i sprawdź najważniejsze dane. Jeśli nadal jest nienaruszony, prawdopodobnie masz dobrą kopię zapasową.

W tym momencie istnieje ryzyko, ponieważ nie można mieć 100% pewności, że kopie zapasowe są dobre lub że tworzenie kopii zapasowej teraz nie spowoduje utraty plików. Jednak macierzy będzie ostatecznie niepowodzeniem i wymusić przywracania tak, tak, to jest to jedyna realna możliwość.

Nathan C.
źródło
Rozumiem, teraz wszystko wydaje się działać dobrze. Więc jeśli mogę teraz wykonać pełną kopię zapasową mojego systemu, a ja wymienię dyski, odbuduję macierz i przywrócę tę pełną kopię zapasową ... czy ryzykuję powrót tej awarii? Czy może lepiej zainstalować ponownie system operacyjny i oprogramowanie oraz przywracać bazy danych tylko w celu zminimalizowania ryzyka?
user72593
Złe bloki zwykle nie występują na poziomie pliku. Zrobiłbym to tylko, jeśli znalazłeś uszkodzone pliki.
Nathan C
@NathanC Nie dostajesz „złych bloków”, dostajesz uszkodzone dane.
JamesRyan
@ user72593 To, że dziś możesz wykonać kopię zapasową plików, nie oznacza, że ​​nie będzie w nich brakujących części. Jedynym sposobem, aby zobaczyć, co jest dobre, czy nie, jest porównanie go z kopiami zapasowymi.
JamesRyan
1
@JamesRyan „Złe bloki” mogą znajdować się w dowolnym miejscu na dysku, w tym pliki wymiany, pliki tymczasowe lub wcześniej używane, ale teraz nieużywane miejsce. Gdy dysk ma złe bloki, nie zawsze oznacza to utratę danych.
Nathan C
8

W tej chwili wykonaj następujące czynności:

  • Przestań obracać kopie zapasowe lub usuwać stare dla tego systemu. Chcesz zachować wszystkie kopie zapasowe, które obecnie posiadasz.
  • Zrób pełną kopię zapasową serwera.

Mamy nadzieję, że dyski są wystarczająco dobre, aby Twoje dane pozostały nienaruszone i nie napotkasz żadnych problemów z uruchomieniem nowej pełnej kopii zapasowej.

Następnie złomuj te dyski i zbuduj nową macierz RAID. Gdy wszystko będzie gotowe, spróbuj przywrócić dane z kopii zapasowej, którą właśnie zrobiłeś. Przy odrobinie szczęścia to wszystko, co musisz zrobić.

Jeśli to się nie powiedzie, wypróbuj następną najstarszą i następną najstarszą itd. Pamiętaj, aby przetestować funkcjonalność systemu - tylko dlatego, że uruchamia się, nie oznacza to, że jest w pełni operacyjny. W szczególności przetestuj bazy danych pod kątem uszkodzeń.

Jeśli musisz przywrócić cały system ze starszej kopii zapasowej, nie ma problemu. Wykonuj najnowsze kopie zapasowe i przywracaj tylko pliki bazy danych i inne ważne pliki. Przetestuj je, aby upewnić się, że działają poprawnie. Ponownie, jeśli to się nie powiedzie, spróbuj następnej najstarszej.

Korzystanie z tego procesu minimalizuje utratę danych.

Dotacja
źródło
Rozumiem, to odpowiada na moje pytanie. Tak długo, jak moja kopia zapasowa jest nienaruszona, jestem dobry, jeśli nie, to ... muszę sobie z tym poradzić. Dzięki.
user72593
4

Odpowiedzi udzielone przez Granta i Nathana C są świetne, jeśli chodzi o sposób postępowania w przypadku tworzenia kopii zapasowych / przywracania oraz rozwiązywania kwestii integralności danych.

Oto kilka jaśniejszych szczegółów dotyczących obsługi zestawu RAID, gdy trzeba odtworzyć dysk wirtualny i przywrócić go z kopii zapasowej:

  • Sprawdź, czy masz dobrą kopię zapasową danych
  • Usuń istniejący dysk wirtualny; Wszystkie dyski powinny potem być w stanie „gotowym”
  • Utwórz nowy dysk wirtualny; Zalecane ustawienia: adaptacyjne wyprzedzanie odczytu, zapisywanie wstecz i buforowanie dysku wyłączone
  • Powinieneś mieć wirtualny dysk online z inicjalizacją w tle.
  • Kontynuuj przywracanie z kopii zapasowej; Inicjalizacja w tle zwykle trwa około 600 GB / godz. Dla wrzecion 7,2 tys., Więc daj inicjacji przewagę, jeśli przywracanie kopii zapasowej może przebiegać szybciej, w przeciwnym razie oprogramowanie do tworzenia kopii zapasowych może mieć problemy z opóźnieniem zapisu, gdy nowe miejsce nie będzie natychmiast dostępne przywracać.

Uwaga : Jeśli używasz RAID5, POWAŻNIE powinieneś rozważyć użycie RAID6 tym razem. RAID5 nie jest niezawodny w przypadku danych o znaczeniu krytycznym, zgodnie z najlepszymi standardami branżowymi dotyczącymi macierzy tego rozmiaru. Dyski SATA / NL-SAS o dużej pojemności mają również większe ryzyko napotkania URE podczas przebudowy, co skutkuje przebiciem takim jak ten, z którym masz do czynienia. RAID6 znacznie zmniejsza to ryzyko i jest ogólnie akceptowalny w przypadku krytycznych danych o obecnie dostępnych pojemnościach dysków.

JimNim
źródło