Jak odzyskać po awarii dysku w konfiguracji RAID 5?

15

Dziś rano awaria dysku na naszym serwerze bazy danych. Macierz dysków (3 dyski) jest skonfigurowana w konfiguracji RAID 5.

Czekając na wymianę dysku, przygotowujemy się do strategii odzyskiwania. Użytkownicy nadal pracują nad systemem, choć bardzo wolno (nie wiem dlaczego?).

Jak zainstalować nowy dysk - czy dane na tym dysku zostaną automatycznie odbudowane na podstawie parzystości, czy też jest inny proces, który powinniśmy wykonać?

Edycja: jest to sprzętowy kontroler RAID. (Dziękujemy za dotychczasowe odpowiedzi, doceniamy)

Philip Fourie
źródło
4
Nawiasem mówiąc, czas podjąć decyzję, co zrobić, jeśli dysk ulegnie awarii na serwerze krytycznym, zanim nastąpi awaria dysku na serwerze krytycznym.
David Schwartz

Odpowiedzi:

15

System działa bardzo wolno, ponieważ musi zrekonstruować brakujące dane, co wymaga dodatkowego procesora i operacji we / wy.

Jeśli masz brakujący dysk w konfiguracji RAID-5, nie masz strategii odzyskiwania . Jeśli inny dysk ulegnie awarii , utracisz swoje dane . Biegnij, nie idź do najbliższego sprzedawcy, u którego możesz otrzymać kompatybilną część objętą gwarancją producenta wysłaną przez tego samego dnia pilnego kuriera. Jeśli dostawca, od którego kupiłeś tablicę, jest już w trakcie pozyskiwania części, zdobądź obie części i odłóż drugą jako zapas.

Jeśli używasz RAID-5 jako systemu produkcyjnego, powinieneś rozważyć pozostawienie wolnego dysku w macierzy jako wolnego dysku.

Dodano - jeśli twoje logi nie znajdują się na osobnym woluminie (fizycznie oddzielnych dyskach) przenieś je do osobnego zestawu dysków, nawet tylko jednej pary kopii lustrzanych. Będzie to również zwycięstwo w zakresie wydajności, jeśli baza danych ma jakiekolwiek znaczące obciążenie, ponieważ rywalizacja o woluminy dziennika ma nieproporcjonalnie zły wpływ na wydajność.

Jeśli to możliwe, możesz także uczynić bazę danych bardziej niezawodną, ​​wykonując następujące czynności:

  1. Zamknij bazę danych.
  2. Wykonaj kopię zapasową bazy danych.
  3. Przenieś dzienniki na fizycznie oddzielny zestaw dysków (upewnij się, że ponownie skonfigurowałeś bazę danych, aby wiedziała, dokąd przeniesiono dzienniki).
  4. Uruchom ponownie bazę danych i aplikację.

Jeśli dzienniki znajdują się na osobnym woluminie, można je przywrócić i przywrócić z kopii zapasowej tylko wtedy, gdy awaria dysku nie naruszy dzienników. Dzienniki bazy danych powinny znajdować się na osobnym woluminie dyskowym z (między innymi) następujących powodów:

  • Wzorce użytkowania dzienników są przeważnie sekwencyjne, a wpisy dziennika są dołączane na końcu pliku (plik jest w rzeczywistości buforem pierścieniowym). Oznacza to, że duża liczba wpisów w dzienniku może zostać szybko zapisana, ponieważ aktywność poszukiwania dysku jest niewielka.

  • Jeśli współużytkują dyski fizyczne z bardzo losowym obciążeniem dostępowym (np. Tabele transakcyjne i indeksy), zostaną spowolnione nieproporcjonalnie, ponieważ aktywność wyszukiwania przez głowę zakłóca sekwencyjne zapisy.

  • Posiadanie dzienników na osobnym woluminie jest prawie zawsze wygraną wydajności i wymaga tylko jednej pary kopii lustrzanych, aby dzienniki mogły obsługiwać dość duże obciążenie. Oznacza to, że sprzęt do zrobienia tego jest dość tani, więc za dużą wygraną w zakresie wydajności i niezawodności jest niewielki koszt.

  • Jeśli tablica danych ulegnie awarii, dzienniki nie zostaną utracone. Jeśli masz odpowiednią strategię tworzenia kopii zapasowych, możesz przywrócić dane z kopii zapasowej i przejść dalej z dzienników. Oznacza to, że cała tablica może spaść na serwer, nie będąc ani jednym punktem awarii. Zarówno tablice dziennika, jak i danych muszą zawieść jednocześnie, aby spowodować utratę danych.

ConcernedOfTunbridgeWells
źródło
Dzięki za odpowiedź, szczególnie wyjaśniającą, dlaczego system działa wolno.
Philip Fourie,
Spot on. Sugerowałbym nawet wyłączenie go, dopóki nie pojawi się ten napęd zastępczy. Jak mówi Nigel, nie masz strategii odzyskiwania. Stracić kolejny dysk, stracić wszystko.
Stu Thompson,
Cześć Nigel, dziękuję za poświęcenie czasu i podzielenie się swoją wiedzą. To rzeczywiście świetna rada. Przekażę później informacje o wyniku odzyskiwania.
Philip Fourie,
5

1) Kopia zapasowa.

W tej chwili żadne dane nie zostały utracone. Jeśli kopie zapasowe nie są teraz aktualne, wykonaj kopię zapasową.

2) Przeczytaj instrukcję, zadzwoń do sprzedawcy itp.

Różne systemy RAID mają różne etapy wymiany dysku, a źle zrobione, ryzykujesz zniszczeniem całej macierzy. Nie wiedząc, jaki masz sprzęt / oprogramowanie RAID, możemy zgadywać tylko na podstawie wymaganych kroków.

Również niska wydajność wynika z tego, że RAID 5 w stanie zdegradowanym (tj. Jeden dysk nie działa) ma straszną wydajność odczytu. To, jak okropne zależy od tego, jak przechowywana jest parzystość i który dysk zginął, ale „dobrą” wiadomością jest niska wydajność przy braku jednego dysku, jest znanym problemem i nie jest przyczyną paniki.

DrStalker
źródło
4

Najpierw przeczytam instrukcję obsługi używanego sprzętu / oprogramowania - rozdział dotyczący odzyskiwania po awarii :)

Powinna to być prosta kwestia wymiany dysku i przebudowania macierzy.

Najważniejsze w takich przypadkach jest to, że dysk należy wymienić jak najszybciej, ponieważ jeśli inny dysk ulegnie awarii, prawdopodobnie stracisz dane. Powinieneś także zająć się przyczyną awarii - czy to dlatego, że dysk się starzeje? Czy powinieneś również wymienić inne? A może z powodu gwałtownego wzrostu mocy, ciepła lub wibracji?


źródło
1
prawdopodobnie stracisz dane? Zdecydowanie stracisz wszystkie dane z tablicy! Idź do Więzienia, nie przechodź Idź. (oczywiście kopie zapasowe).
Stu Thompson,
1

O ile rozumiem RAID5, kiedy wymieniasz uszkodzony dysk, jest on automatycznie odbudowywany z informacji przechowywanych na dwóch pozostałych. To, czy możesz „wymieniać” podczas pracy, nowy dysk na swoim miejscu, zależy od twojego systemu - być może będziesz musiał najpierw wyłączyć zasilanie. Tak czy inaczej, biorąc pod uwagę stosunkowo niski koszt dysków i znaczenie danych (przede wszystkim w wyniku decyzji o użyciu RAID5), naprawdę powinieneś mieć zapasowy dysk, siedzieć w szufladzie i być gotowy na taką ewentualność .

Niedawno zbudowałem dla siebie nowy komputer programistyczny i skonfigurowałem główne dyski danych pod RAID5. Zamówiłem jeszcze jeden dysk, niż to konieczne, aby przygotować zapasowy zapas na ten nagły moment (Mam nadzieję, że się nie wydarzy)

Teraz, kiedy zadałeś pytanie, chyba powinienem przeczytać więcej na ten temat.


źródło
W przypadku małych woluminów danych para lustrzana jest lepsza, ponieważ zazwyczaj ma lepszą prędkość dostępu sekwencyjnego niż mała RAID-5. Jeśli chcesz hot-swap, spójrz na niektóre systemy pól typu hot-swap na scsi4me.com
ConcernedOfTunbridgeWells
0

Całkowicie zależny od systemu. Co mówią podręczniki? Czy Twój sprzęt całkowicie obsługuje podłączanie nowych dysków podczas pracy od kontrolera do wnęki napędów? Czy masz ostatnie kopie zapasowe?


źródło
0

Post NXC ładnie podsumowuje. Na wypadek, gdyby nie wymieniłeś wadliwego dysku przed upływem sekundy, nadal istnieje duża szansa na odzyskanie prawie wszystkiego (czasem wszystkiego) przez wyspecjalizowaną usługę odzyskiwania. Dane nadal znajdują się na dyskach, a uszkodzony dysk można zwykle przywrócić do życia w specjalistycznym laboratorium z odpowiednim sprzętem. Jednak cena tej usługi jest dość wysoka. Posiadanie zapasowego dysku i odpowiednie kopie zapasowe (zgodnie z sugestią NXC) to zdecydowanie najlepsza droga w przyszłości.


źródło