Co oznacza tw_cli 3Ware przez dysk „DEGRADED” w porównaniu z „ECC-ERROR”?

10

Mam smutną macierz RAID na karcie 3ware 9650SE-16ML. Nie mogę powiedzieć, czy właśnie doznałem awarii podwójnego dysku (bummer!) Lub czy źle to czytam. Wyjściowym wydaniem /c0 show alljest:

Port   Status           Unit   Size        Blocks        Serial
---------------------------------------------------------------
p0     DEGRADED         u0     931.51 GB   1953525168    5QJ07MAH            
p1     ECC-ERROR        u0     931.51 GB   1953525168    5QJ0DCW9            
p2     OK               u0     931.51 GB   1953525168    5QJ0DW9C            
p3     OK               u0     931.51 GB   1953525168    5QJ0CKXJ            

A awaria to (z show alarms):

Ctl  Date                        Severity  Alarm Message
------------------------------------------------------------------------------
c0   [Sun Nov 20 07:47:23 2011]  INFO      Rebuild started: unit=0
c0   [Sun Nov 20 08:20:12 2011]  ERROR     Drive ECC error reported: port=1, unit=0
c0   [Sun Nov 20 08:20:12 2011]  ERROR     Source drive error occurred: port=1, unit=0
c0   [Sun Nov 20 08:20:12 2011]  ERROR     Rebuild failed: unit=0
c0   [Sun Nov 20 08:20:12 2011]  INFO      Rebuild paused: unit=0

Myślę , że to, co się stało, p0 nie powiodło się, a następnie p1 miał błąd ECC (inaczej moje dane zniknęły). Ale ... może nie? Pozostaje w 97% przebudowany, ale nie może ominąć tego błędu.

O ile wiem, poprzedni administrator wyłączył okresową weryfikację, co doprowadziło nas do tego stanu. To nie jest coś, o czym większość ludzi powinna się martwić dzięki swoim macierzom RAID 3Ware!

Aktualizacja

Po pobiciu go przez kilka dni zrobiłem bit IgnoreECC i został przebudowany, ale moje dane są ukryte. Porażka.

Bill Weiss
źródło
Spróbuj Zamrażarka odzyskiwania metodę, jeśli jest jakaś ważne dane na nim.
Chris S,
Nie jestem przeciwny sztuczce zamrażania, ale nie dotyczy konkretnego trybu awarii, a nie tylko „zginął mój dysk”?
Bill Weiss,
Dysk oznaczony jako DEGRADED jest dyskiem docelowym operacji REBUILD.
wazoox,

Odpowiedzi:

7

Błąd ECC oznacza, że ​​na dysku znajduje się co najmniej jeden nieczytelny sektor. Jednak jeśli masz szczęście, ten sektor może nie być faktycznie używany przez system plików znajdujący się na tym woluminie, dlatego nadal możesz być w stanie skopiować dane z tablicy w tym stanie.

Istnieją również opcje ignorowania błędów ECC podczas przebudowy:

/cx/ux start rebuild disk=p [ignoreECC]
/cx/ux set ignoreECC=on|off

Jednak użycie tych opcji oznacza, że ​​pasek RAID dotknięty uszkodzonym sektorem zostanie uszkodzony (nie jestem pewien, co dokładnie zrobi karta w tym przypadku - może zastąpić cały pasek zerami, a nawet losowymi danymi), dlatego „ odzyskane ”tablica może faktycznie mieć niewykrywalne uszkodzenie (jeśli dotknięty pasek znajdował się w środku pliku danych). Kopiowanie danych z tablicy do innego miejsca przed próbą odbudowy może być bezpieczniejsze (przynajmniej powinieneś dostać błędy podczas próby odczytania złego obszaru).

Powinieneś skonfigurować zaplanowaną weryfikację tablicy, aby wcześniej wychwytywała nieczytelne sektory, abyś mógł wymienić dysk, który właśnie zaczął się psuć.

Siergiej Własow
źródło
Teraz robię trochę ignoreECC. Nie wyglądam świetnie na moje dane.
Bill Weiss
1
I tak, powinniśmy pozwolić od czasu do czasu sprawdzać tablice. Spekuluję, że facet, który to skonfigurował, wyłączył to ze względu na wydajność :(
Bill Weiss
Cóż, to przeszło przez przebudowę, ale nie na moich danych. Porażka. Nauczy nas to wyłączać weryfikację ...
Bill Weiss,
4

Nigdy nie doświadczyłem dysku fizycznego (p0), aby przejść do stanu ZEGAREK, jednak możesz odzyskać dysk ECC-ERROR lub nawet napęd DEGRADED, usuwając je za pośrednictwem

/c0 p1 remove

a następnie wydanie ponownego skanowania

/c0 rescan

umieść je z powrotem w jednostce rajdowej przez

maint rebuild c0 u0 p1

Napędy SATA, które zawiodły mnie z ECC-ERROR, byłem w stanie wskrzesić choćby tylko przez kilka godzin, zanim znowu poniosłem porażkę.

ZaphodB
źródło
3
Usunięcie napędu p1 w obecnym stanie prawdopodobnie całkowicie doprowadzi tablicę do węża.
Siergiej Własow,
Zrobiłem to z napędem p0 (przy założeniu, że był zły) i próbuje się odbudować, ale niemal natychmiast oznaczyło dysk jako ZEGARZONY. Porażka.
Bill Weiss,
1
AFAIR, podczas przebudowy dysk jest oznaczony jako ZEGARKI - patrz np . Tutaj . Co jest ważne, to status tablicy (ODBUDOWAĆ czy coś innego?).
Siergiej Własow,
Hm W rzeczywistości jest to przebudowa ... Wszystkie cztery dyski dużo flashują, to dobry znak, prawda?
Bill Weiss,
Odbudowa Stiiiiiil ... po 4 godzinach ma 37%. Porażka.
Bill Weiss,
2

Jest bardzo prawdopodobne, że Twoje dane zniknęły. Błąd ECC oznacza nieodwracalny błąd podczas odczytu z tego dysku.

Jeśli nie masz kopii zapasowej, możesz spróbować zrzucić bieżący stan tablicy. Może to być możliwe, ponieważ kontroler nie wie, czy stracił dane, czy tylko pusty obszar (brakuje wglądu w system plików).

Sven
źródło