Dziś rano awaria dysku na naszym serwerze bazy danych. Macierz dysków (3 dyski) jest skonfigurowana w konfiguracji RAID 5.
Czekając na wymianę dysku, przygotowujemy się do strategii odzyskiwania. Użytkownicy nadal pracują nad systemem, choć bardzo wolno (nie wiem dlaczego?).
Jak zainstalować nowy dysk - czy dane na tym dysku zostaną automatycznie odbudowane na podstawie parzystości, czy też jest inny proces, który powinniśmy wykonać?
Edycja: jest to sprzętowy kontroler RAID. (Dziękujemy za dotychczasowe odpowiedzi, doceniamy)
hardware
disaster-recovery
raid5
drive-failure
Philip Fourie
źródło
źródło
Odpowiedzi:
System działa bardzo wolno, ponieważ musi zrekonstruować brakujące dane, co wymaga dodatkowego procesora i operacji we / wy.
Jeśli masz brakujący dysk w konfiguracji RAID-5, nie masz strategii odzyskiwania . Jeśli inny dysk ulegnie awarii , utracisz swoje dane . Biegnij, nie idź do najbliższego sprzedawcy, u którego możesz otrzymać kompatybilną część objętą gwarancją producenta wysłaną przez tego samego dnia pilnego kuriera. Jeśli dostawca, od którego kupiłeś tablicę, jest już w trakcie pozyskiwania części, zdobądź obie części i odłóż drugą jako zapas.
Jeśli używasz RAID-5 jako systemu produkcyjnego, powinieneś rozważyć pozostawienie wolnego dysku w macierzy jako wolnego dysku.
Dodano - jeśli twoje logi nie znajdują się na osobnym woluminie (fizycznie oddzielnych dyskach) przenieś je do osobnego zestawu dysków, nawet tylko jednej pary kopii lustrzanych. Będzie to również zwycięstwo w zakresie wydajności, jeśli baza danych ma jakiekolwiek znaczące obciążenie, ponieważ rywalizacja o woluminy dziennika ma nieproporcjonalnie zły wpływ na wydajność.
Jeśli to możliwe, możesz także uczynić bazę danych bardziej niezawodną, wykonując następujące czynności:
Jeśli dzienniki znajdują się na osobnym woluminie, można je przywrócić i przywrócić z kopii zapasowej tylko wtedy, gdy awaria dysku nie naruszy dzienników. Dzienniki bazy danych powinny znajdować się na osobnym woluminie dyskowym z (między innymi) następujących powodów:
Wzorce użytkowania dzienników są przeważnie sekwencyjne, a wpisy dziennika są dołączane na końcu pliku (plik jest w rzeczywistości buforem pierścieniowym). Oznacza to, że duża liczba wpisów w dzienniku może zostać szybko zapisana, ponieważ aktywność poszukiwania dysku jest niewielka.
Jeśli współużytkują dyski fizyczne z bardzo losowym obciążeniem dostępowym (np. Tabele transakcyjne i indeksy), zostaną spowolnione nieproporcjonalnie, ponieważ aktywność wyszukiwania przez głowę zakłóca sekwencyjne zapisy.
Posiadanie dzienników na osobnym woluminie jest prawie zawsze wygraną wydajności i wymaga tylko jednej pary kopii lustrzanych, aby dzienniki mogły obsługiwać dość duże obciążenie. Oznacza to, że sprzęt do zrobienia tego jest dość tani, więc za dużą wygraną w zakresie wydajności i niezawodności jest niewielki koszt.
Jeśli tablica danych ulegnie awarii, dzienniki nie zostaną utracone. Jeśli masz odpowiednią strategię tworzenia kopii zapasowych, możesz przywrócić dane z kopii zapasowej i przejść dalej z dzienników. Oznacza to, że cała tablica może spaść na serwer, nie będąc ani jednym punktem awarii. Zarówno tablice dziennika, jak i danych muszą zawieść jednocześnie, aby spowodować utratę danych.
źródło
1) Kopia zapasowa.
W tej chwili żadne dane nie zostały utracone. Jeśli kopie zapasowe nie są teraz aktualne, wykonaj kopię zapasową.
2) Przeczytaj instrukcję, zadzwoń do sprzedawcy itp.
Różne systemy RAID mają różne etapy wymiany dysku, a źle zrobione, ryzykujesz zniszczeniem całej macierzy. Nie wiedząc, jaki masz sprzęt / oprogramowanie RAID, możemy zgadywać tylko na podstawie wymaganych kroków.
Również niska wydajność wynika z tego, że RAID 5 w stanie zdegradowanym (tj. Jeden dysk nie działa) ma straszną wydajność odczytu. To, jak okropne zależy od tego, jak przechowywana jest parzystość i który dysk zginął, ale „dobrą” wiadomością jest niska wydajność przy braku jednego dysku, jest znanym problemem i nie jest przyczyną paniki.
źródło
Najpierw przeczytam instrukcję obsługi używanego sprzętu / oprogramowania - rozdział dotyczący odzyskiwania po awarii :)
Powinna to być prosta kwestia wymiany dysku i przebudowania macierzy.
Najważniejsze w takich przypadkach jest to, że dysk należy wymienić jak najszybciej, ponieważ jeśli inny dysk ulegnie awarii, prawdopodobnie stracisz dane. Powinieneś także zająć się przyczyną awarii - czy to dlatego, że dysk się starzeje? Czy powinieneś również wymienić inne? A może z powodu gwałtownego wzrostu mocy, ciepła lub wibracji?
źródło
O ile rozumiem RAID5, kiedy wymieniasz uszkodzony dysk, jest on automatycznie odbudowywany z informacji przechowywanych na dwóch pozostałych. To, czy możesz „wymieniać” podczas pracy, nowy dysk na swoim miejscu, zależy od twojego systemu - być może będziesz musiał najpierw wyłączyć zasilanie. Tak czy inaczej, biorąc pod uwagę stosunkowo niski koszt dysków i znaczenie danych (przede wszystkim w wyniku decyzji o użyciu RAID5), naprawdę powinieneś mieć zapasowy dysk, siedzieć w szufladzie i być gotowy na taką ewentualność .
Niedawno zbudowałem dla siebie nowy komputer programistyczny i skonfigurowałem główne dyski danych pod RAID5. Zamówiłem jeszcze jeden dysk, niż to konieczne, aby przygotować zapasowy zapas na ten nagły moment (Mam nadzieję, że się nie wydarzy)
Teraz, kiedy zadałeś pytanie, chyba powinienem przeczytać więcej na ten temat.
źródło
Całkowicie zależny od systemu. Co mówią podręczniki? Czy Twój sprzęt całkowicie obsługuje podłączanie nowych dysków podczas pracy od kontrolera do wnęki napędów? Czy masz ostatnie kopie zapasowe?
źródło
Post NXC ładnie podsumowuje. Na wypadek, gdyby nie wymieniłeś wadliwego dysku przed upływem sekundy, nadal istnieje duża szansa na odzyskanie prawie wszystkiego (czasem wszystkiego) przez wyspecjalizowaną usługę odzyskiwania. Dane nadal znajdują się na dyskach, a uszkodzony dysk można zwykle przywrócić do życia w specjalistycznym laboratorium z odpowiednim sprzętem. Jednak cena tej usługi jest dość wysoka. Posiadanie zapasowego dysku i odpowiednie kopie zapasowe (zgodnie z sugestią NXC) to zdecydowanie najlepsza droga w przyszłości.
źródło