Mam smutną macierz RAID na karcie 3ware 9650SE-16ML. Nie mogę powiedzieć, czy właśnie doznałem awarii podwójnego dysku (bummer!) Lub czy źle to czytam. Wyjściowym wydaniem /c0 show all
jest:
Port Status Unit Size Blocks Serial
---------------------------------------------------------------
p0 DEGRADED u0 931.51 GB 1953525168 5QJ07MAH
p1 ECC-ERROR u0 931.51 GB 1953525168 5QJ0DCW9
p2 OK u0 931.51 GB 1953525168 5QJ0DW9C
p3 OK u0 931.51 GB 1953525168 5QJ0CKXJ
A awaria to (z show alarms
):
Ctl Date Severity Alarm Message
------------------------------------------------------------------------------
c0 [Sun Nov 20 07:47:23 2011] INFO Rebuild started: unit=0
c0 [Sun Nov 20 08:20:12 2011] ERROR Drive ECC error reported: port=1, unit=0
c0 [Sun Nov 20 08:20:12 2011] ERROR Source drive error occurred: port=1, unit=0
c0 [Sun Nov 20 08:20:12 2011] ERROR Rebuild failed: unit=0
c0 [Sun Nov 20 08:20:12 2011] INFO Rebuild paused: unit=0
Myślę , że to, co się stało, p0 nie powiodło się, a następnie p1 miał błąd ECC (inaczej moje dane zniknęły). Ale ... może nie? Pozostaje w 97% przebudowany, ale nie może ominąć tego błędu.
O ile wiem, poprzedni administrator wyłączył okresową weryfikację, co doprowadziło nas do tego stanu. To nie jest coś, o czym większość ludzi powinna się martwić dzięki swoim macierzom RAID 3Ware!
Aktualizacja
Po pobiciu go przez kilka dni zrobiłem bit IgnoreECC i został przebudowany, ale moje dane są ukryte. Porażka.
Odpowiedzi:
Błąd ECC oznacza, że na dysku znajduje się co najmniej jeden nieczytelny sektor. Jednak jeśli masz szczęście, ten sektor może nie być faktycznie używany przez system plików znajdujący się na tym woluminie, dlatego nadal możesz być w stanie skopiować dane z tablicy w tym stanie.
Istnieją również opcje ignorowania błędów ECC podczas przebudowy:
Jednak użycie tych opcji oznacza, że pasek RAID dotknięty uszkodzonym sektorem zostanie uszkodzony (nie jestem pewien, co dokładnie zrobi karta w tym przypadku - może zastąpić cały pasek zerami, a nawet losowymi danymi), dlatego „ odzyskane ”tablica może faktycznie mieć niewykrywalne uszkodzenie (jeśli dotknięty pasek znajdował się w środku pliku danych). Kopiowanie danych z tablicy do innego miejsca przed próbą odbudowy może być bezpieczniejsze (przynajmniej powinieneś dostać błędy podczas próby odczytania złego obszaru).
Powinieneś skonfigurować zaplanowaną weryfikację tablicy, aby wcześniej wychwytywała nieczytelne sektory, abyś mógł wymienić dysk, który właśnie zaczął się psuć.
źródło
Nigdy nie doświadczyłem dysku fizycznego (p0), aby przejść do stanu ZEGAREK, jednak możesz odzyskać dysk ECC-ERROR lub nawet napęd DEGRADED, usuwając je za pośrednictwem
a następnie wydanie ponownego skanowania
umieść je z powrotem w jednostce rajdowej przez
Napędy SATA, które zawiodły mnie z ECC-ERROR, byłem w stanie wskrzesić choćby tylko przez kilka godzin, zanim znowu poniosłem porażkę.
źródło
Jest bardzo prawdopodobne, że Twoje dane zniknęły. Błąd ECC oznacza nieodwracalny błąd podczas odczytu z tego dysku.
Jeśli nie masz kopii zapasowej, możesz spróbować zrzucić bieżący stan tablicy. Może to być możliwe, ponieważ kontroler nie wie, czy stracił dane, czy tylko pusty obszar (brakuje wglądu w system plików).
źródło