Raid 1 mdadm (linux) odzyskiwanie po awarii dysku: DRDY err (UNC) ciągle się powtarza nie może się zalogować

2

W weekend otrzymałem kilka e-maili z naszego sieciowego serwera pamięci (tylko niestandardowe pudełko z oprogramowaniem RAID 1 dla dysków CentOS 5 i 2 2 TB), wskazujące na SMART wykryte problemy z jednym z dysków.

Zrobiłem status i 2 z nalotowanych partycji zostały oznaczone jako nieudane:

    [root@aapsan01 ~]# cat /proc/mdstat
Personalities : [raid1]
md1 : active raid1 sdb1[1] sda1[0]
      104320 blocks [2/2] [UU]

md0 : active raid1 sdb3[1] sda3[2](F)
      4064320 blocks [2/1] [_U]

md3 : active raid1 sdb5[1] sda5[0]
      1928860160 blocks [2/2] [UU]

md2 : active raid1 sdb2[1] sda2[2](F)
      20482752 blocks [2/1] [_U]

Tak więc ustawiłem wszystkie partycje sda ​​na „nie powiodło się”, pomyślnie usunąłem wszystkie lustra sda, włożyłem nowy identyczny dysk 2 TB (po wyłączeniu) i uruchomiłem. Teraz nie mogę się zalogować, ponieważ komunikaty o błędach powtarzają się po osiągnięciu tablicy rd md: autodetect podczas procesu rozruchu. Początkowo błędy wyglądały jak:

  DRDY err (UNC) -- exception emask media error

Teraz dostaję błędy we / wy. Próbowałem z uszkodzonym dyskiem usuniętym, a następnie z nim ponownie. Ten sam program. Zapisy, które znalazłem, pokazują, że jest to prosty proces odzyskiwania. Co daje? Czy ktoś napotkał coś podobnego? Wygląda na to, że proces rozruchu nadal trwa, choć przejście przez każdy etap zajmuje eony. Czy ktoś kiedykolwiek musiał czekać tak długo, aby dotrzeć do monitu? Mam nadzieję, że jeśli nie uda mi się dostać do monitu, mogę dostać się gdzieś z płytą ratunkową.

Flotsam N. Jetsam
źródło
1
Czy to nie niektóre partycje sdb, które zawiodły?
Linker3000,
Jak rozpoznać po wiadomości stat? Wiadomość e-mail otrzymana od demona mdadm brzmiała: „Może to być związane z komponentem device / dev / sda3”.
Flotsam N. Jetsam,
Spójrz na md2 - ma dwie partycje w tablicy wymienione w kolejności [sdb2] [sda2], a status pary jest wymieniony jako [_U], co oznacza, że ​​pierwsza partycja ([sdb2]) odpadła z parowania . Przeczytaj tutaj: howtoforge.com/replacing_hard_disks_in_a_raid1_array
Linker3000

Odpowiedzi:

1

Spójrz na md2 - ma dwie partycje w tablicy wymienione w kolejności [sdb2] [sda2], a status pary jest wymieniony jako [_U], co oznacza, że ​​pierwsza partycja ([sdb2]) odpadła z parowania . Przeczytaj tutaj: http://www.howtoforge.com/replacing_hard_disks_in_a_raid1_array . Mam nadzieję, że to załatwisz.

Linker3000
źródło
To bardzo pomocne. Widziałem na niej napisane w Internecie wpisy, ale nigdzie nie pamiętam, żeby ktokolwiek stwierdził na pewno, że strona podkreślenia wskazuje zły. Prawdopodobnie powinno to być intuicyjne, ale wydaje mi się, że byłem w trybie paniki i nie wpadł. Dzięki.
Flotsam N. Jetsam,
0

Jestem manekinem. Błędnie zidentyfikowałem wadliwy dysk i próbowałem użyć złego dysku podczas odzyskiwania. Dla każdego zainteresowanego możesz użyć lshal, aby uzyskać s / n złego dysku. przekieruj wyjście lshala do pliku dziennika, a następnie wyszukaj sda sdb lub cokolwiek mdadm lub SMART zidentyfikowane jako złe.

Flotsam N. Jetsam
źródło
0

Zgodnie z odpowiedzią Linker3000 zawartość dysku, który usunąłeś jako pierwszy, powinna być w porządku. Usuń dysk, o którym wiesz, że tak naprawdę jest uszkodzony, i spróbuj rozpocząć od samego dobrego dysku. Istnieje niewielka szansa, że ​​md oznaczył twój zdrowy dysk jako pozostający w tyle, gdy ponownie go dodałeś z obecnym uszkodzonym dyskiem. W takim przypadku musisz zacząć od Live CD / USB i ponownie aktywować RAID. Gdy system będzie działał poprawnie, możesz zacząć od nowa, wykonując zwykłe kroki, aby dodać nowy dysk do macierzy RAID 1.

Joachim Wagner
źródło