Mamy serwer Dell PowerEdge T410 z systemem CentOS, z macierzą RAID-5 zawierającą 5 dysków SATA Barracuda 3 TB SATA. Wczoraj system się zawiesił (nie wiem jak dokładnie i nie mam żadnych logów).
Po uruchomieniu systemu BIOS kontrolera RAID zobaczyłem, że spośród 5 dysków dysk 1 został oznaczony jako „brakujący”, a dysk 3 oznaczony jako „zdegradowany”. Zmusiłem kopię zapasową dysku 3 i zastąpiłem dysk 1 nowym dyskiem twardym (tego samego rozmiaru). BIOS wykrył to i zaczął odbudowywać dysk 1 - jednak utknął na% 1. Wskaźnik postępu wirowania nie drgnął całą noc; całkowicie zamrożone.
Jakie są moje opcje tutaj? Czy jest jakiś sposób na próbę odbudowy, oprócz skorzystania z profesjonalnej usługi odzyskiwania danych? Jak dwa dyski twarde mogą ulec awarii jednocześnie? Wydaje się to zbyt przypadkowe. Czy to możliwe, że dysk 1 uległ awarii i w wyniku tego dysk 3 „nie zsynchronizował się?” Jeśli tak, to czy jest jakieś narzędzie, którego mogę użyć, aby przywrócić go „w synchronizacji”?
źródło
Odpowiedzi:
Po zaakceptowaniu złej odpowiedzi bardzo mi przykro z powodu mojej heretyki (która już wielokrotnie zapisywała takie tablice).
Twój drugi udało dysk ma prawdopodobnie problem niewielki, może awarię bloku. To jest przyczyna, dla której narzędzie do złej synchronizacji złego oprogramowania raid5 uległo awarii.
Możesz łatwo wykonać kopię na poziomie sektora za pomocą narzędzia do klonowania dysku na niskim poziomie (na przykład gddrescue jest prawdopodobnie bardzo przydatny) i użyć tego dysku jako nowego dysku3. W takim przypadku tablica przetrwała z niewielkim uszkodzeniem danych.
Przykro mi, prawdopodobnie jest już za późno, ponieważ istota ortodoksyjnej odpowiedzi w tym przypadku: „wielokrotna porażka w rajdzie5, oto apokalipsa!”
Jeśli chcesz bardzo dobrego, nadmiarowego raidu, użyj raidu programowego w systemie Linux. Na przykład układ danych o superbloku rajdowym jest jawny i udokumentowany ... Naprawdę przepraszam za moją kolejną heretykę.
źródło
Masz awarię podwójnego dysku. Oznacza to, że Twoje dane zniknęły i będziesz musiał przywrócić dane z kopii zapasowej. Dlatego nie powinniśmy używać RAID 5 na dużych dyskach. Chcesz skonfigurować swój nalot, abyś zawsze był w stanie wytrzymać dwie awarie dysków, szczególnie w przypadku dużych wolnych dysków.
źródło
Twoje opcje to:
źródło
Jednoczesna awaria jest możliwa, a nawet prawdopodobna, z powodów podanych przez innych. Inną możliwością jest to, że jeden z dysków uległ awarii jakiś czas wcześniej i nie aktywnie go sprawdzałeś.
Upewnij się, że monitorowanie szybko wykryje wolumin RAID działający w trybie awaryjnym. Może nie dostałeś opcji, ale nigdy nie warto uczyć się tych rzeczy z BIOS-u.
źródło
Aby odpowiedzieć „Jak dwa dyski twarde mogą zawieść jednocześnie?” właśnie chciałbym zacytować z tego artykułu :
Tak więc RAID5 był niebezpieczny w 2009 roku. RAID6 też będzie wkrótce. Jeśli chodzi o RAID1, zacząłem robić je z 3 dysków. RAID10 z 4 dyskami jest również niepewny.
źródło
Wątek jest stary, ale jeśli czytasz, zrozum, kiedy dysk ulegnie awarii w macierzy RAID, sprawdź wiek dysków. Jeśli masz kilka dysków w macierzy RAID i mają one ponad 4-5 lat, istnieje duża szansa, że inny dysk ulegnie awarii. *** ZRÓB OBRAZ lub Kopię zapasową ** przed kontynuowaniem. Jeśli uważasz, że masz kopię zapasową, przetestuj ją, aby upewnić się, że możesz ją przeczytać i przywrócić z niej.
Powodem jest to, że nakładasz lata normalnego zużycia na pozostałe dyski, ponieważ obracają się z pełną prędkością przez wiele godzin. Im większa liczba 6-letnich dysków, tym większa szansa, że inny dysk ulegnie awarii. Jeśli jest to RAID5, a zdmuchniesz tablicę, świetnie, że masz kopię zapasową, ale przywrócenie dysku o pojemności 2 TB zajmuje 8 - 36 godzin, w zależności od rodzaju kontrolera RAID i innego sprzętu.
Rutynowo wymieniamy cały ul na serwerach produkcyjnych, jeśli wszystkie dyski są stare. Po co marnować czas na wymianę jednego dysku, a następnie czekać, aż następny ulegnie awarii w ciągu dnia, tygodnia, miesiąca lub dwóch. Choć są tak tanie jak dyski, nie jest to warte czasu przestoju.
źródło
Zazwyczaj przy zakupie dysków w dużej części od renomowanego sprzedawcy można poprosić, aby dyski pochodziły z różnych partii, co jest ważne z wyżej wymienionych powodów. Następnie właśnie dlatego istnieje RAID 1 + 0. Gdybyś używał 6 dysków w macierzy RAID 1 + 0, miałbyś 9 TB danych z natychmiastową redundancją, gdzie nie jest konieczne odbudowywanie woluminu.
źródło
Jeśli kontroler jest rozpoznawany przez dmraid (na przykład tutaj ) w systemie Linux, możesz użyć ddrescue do odzyskania uszkodzonego dysku na nowy i użyć dmraid do zbudowania tablicy zamiast kontrolera sprzętowego.
źródło