Dzisiaj wpadliśmy na najgorszy scenariusz i jesteśmy otwarci na wszelkiego rodzaju dobre pomysły.
Oto nasz problem:
Używamy kilku dedykowanych serwerów pamięci do hostowania naszych maszyn wirtualnych. Zanim przejdę dalej, oto specyfikacje:
- Dedykowana maszyna serwerowa
- Areca 1280 ml kontroler RAID, oprogramowanie wewnętrzne 1.49
- 12x dyski Samsung 1 TB
Skonfigurowaliśmy jeden zestaw RAID6 z 10 dyskami, które zawierają jeden wolumin logiczny. W systemie mamy dwie gorące części zamienne.
Dzisiaj jeden dysk twardy zawiódł. Zdarza się to od czasu do czasu, więc wymieniliśmy to. Po odbudowaniu drugi dysk nie powiódł się. Zwykle nie jest to zabawne. Zatrzymaliśmy ciężkie operacje IO, aby zapewnić stabilną odbudowę RAID.
Niestety dysk zapasowy zawiódł podczas przebudowy i wszystko się zatrzymało.
Teraz mamy następującą sytuację:
- Kontroler mówi, że zestaw nalotów jest odbudowywany
- Kontroler mówi, że wolumin się nie powiódł
Jest to system RAID 6 i dwa dyski uległy awarii, więc dane muszą być nienaruszone, ale nie możemy ponownie uruchomić woluminu online, aby uzyskać dostęp do danych.
Podczas wyszukiwania znaleźliśmy następujące informacje. Nie wiem, czy są dobre czy złe:
Odbicie lustrzane wszystkich dysków do drugiego zestawu napędów. Mielibyśmy więc możliwość wypróbowania różnych rzeczy, nie tracąc więcej niż już.
Próbuję odbudować tablicę w R-Studio. Ale nie mamy prawdziwego doświadczenia z oprogramowaniem.
Wyciągnięcie wszystkich dysków, ponowne uruchomienie systemu, zmiana na biografię kontrolera areca, ponowne wkładanie dysków twardych jeden po drugim. Niektórzy twierdzą, że dzięki temu system był online. Niektórzy twierdzą, że efekt wynosi zero. Niektórzy twierdzą, że wszystko wysadzili w powietrze.
Używanie nieudokumentowanych poleceń areca, takich jak „ratowanie” lub „LeVel2ReScUe”.
Kontakt z serwisem kryminalistycznym. Ale whoa ... pierwotne szacunki telefoniczne przekroczyły 20 000 €. Dlatego uprzejmie prosimy o pomoc. Może brakuje nam oczywistości?
I tak, oczywiście, mamy kopie zapasowe. Ale niektóre systemy straciły tydzień danych, dlatego chcielibyśmy uruchomić system ponownie.
Wszelka pomoc, sugestie i pytania są mile widziane.
źródło
dd
lustro wszystkich dysków, aby zapobiec większym uszkodzeniom i mieć plan awaryjny podczas pracy nad prawdziwym rozwiązaniem.Odpowiedzi:
Myślę, że opcja 1. jest najlepsza.
Weź 12x nowych dysków twardych, 1x nowy kontroler RAID Spróbuj wykonać kopię lustrzaną (dd if = of =) starych dysków na nowe dyski 1: 1 przy użyciu dowolnego Linux-a. Zbuduj nowy serwer przy użyciu 1x nowego kontrolera RAID oraz 12x nowych dysków twardych
Spróbuj odbudować tablicę na nowym serwerze. Sukces? Świetny. Zatrzymać.
Odbudowa nie powiodła się? Odzyskaj ponownie stare dyski na nowe, wypróbuj opcję i + 1
źródło
Niestety jest to bardzo powszechny scenariusz. Wiele lat temu odbyło się dobre badanie Google i okazuje się, że utrata danych z RAID może się zdarzyć podczas odbudowy macierzy. Może to wpływać na różne systemy RAID z różnym nasileniem. Oto scenariusz RAID6:
Dlaczego?
Pomyśl o tym: niech trochę danych, załóżmy, że pierwszy 3 blok pliku masz następujące bloki danych: A1 + A2 + A3 i następującą parzystość: Ap + Ap siedzi na hdd1 ... hdd5
Jeśli stracisz dwa dyski między 1 a 3, straciłeś dane, ponieważ danych nie można odzyskać, masz 2 parzystość i 1 blok danych.
Teraz ten sam scenariusz z 10 dyskami może być inny, ale sądzę, że poradził sobie w ten sam sposób, w jaki dzielisz dane na 8 bloków i zapisujesz parzystość na 2 innych dyskach i masz 2 części zapasowe. Czy znasz szczegóły konfiguracji kontrolera RAID?
Chciałbym zacząć odzyskiwać dane z kopii zapasowej poza siedzibą (myślę, że masz trochę), a usługa powróciła, próbując odzyskać jak najwięcej danych, używając Unixa i dd dysków do obrazów i używając go jako urządzenia pętlowego.
http://wiki.edseek.com/guide:mount_loopback
Musisz wiedzieć, jakiego rodzaju metadanych używa kontroler RAID, a jeśli masz szczęście, jest on obsługiwany w takim narzędziu, jak dmraid.
Ale to nie oznacza, że możesz w ogóle odzyskać dane, ponieważ pliki są zwykle dystrybuowane w wielu blokach, odzyskiwanie prawdopodobnie nie przywróci żadnych danych.
Więcej informacji o RAID:
https://raid.wiki.kernel.org/index.php/RAID_setup
źródło