Rozumiem argument dotyczący większego prawdopodobieństwa wystąpienia URE podczas przebudowy, jednak nie jestem pewien, jakie są tego rzeczywiste konsekwencje. Ta odpowiedź mówi, że cała odbudowa kończy się niepowodzeniem, ale czy to oznacza, że wszystkie dane są niedostępne? Dlaczego miałoby to być? Z pewnością pojedynczy URE z jednego sektora na dysku miałby wpływ tylko na dane związane z kilkoma plikami. Czy tablica nadal nie zostałaby odbudowana, z niewielkim uszkodzeniem kilku plików?
(Jestem szczególnie zainteresowany implementacją RAID5 w ZFS, ale logika wydaje się taka sama dla każdej implementacji RAID5).
raid
zfs
zfsonlinux
proces91
źródło
źródło
Odpowiedzi:
To zależy od konkretnej implementacji RAID:
większość sprzętowych macierzy RAID przerwie proces rekonstrukcji, a niektóre oznaczą tablicę jako nieudaną , co spowoduje jej obniżenie. Uzasadnieniem jest to, że jeśli URE wydarzy się podczas przebudowy RAID5, oznacza to, że niektóre dane zostaną utracone, więc lepiej jest całkowicie zatrzymać tablicę, niż ryzykując ciche uszkodzenie danych. Uwaga: niektóre sprzętowe RAID (głównie oparte na LSI) zamiast tego przebiją macierz, umożliwiając kontynuację przebudowy, jednocześnie zaznaczając dotknięty sektor jako nieczytelny (podobnie jak zachowuje się RAID oprogramowania Linux).
oprogramowanie linux RAID może zostać poinstruowane, aby a) zatrzymać przebudowę macierzy (jedyne zachowanie „starożytnych” kompilacji MDRAID / jąder) lub b) kontynuować proces przebudowy oznaczający niektóre LBA jako złe / niedostępne. Uzasadnieniem jest to, że lepiej pozwolić użytkownikowi dokonać wyboru: w końcu pojedynczy URE może znajdować się na wolnym miejscu, nie wpływając wcale na dane (lub wpływając tylko na nieistotne pliki);
ZRAID pokaże niektóre pliki jako uszkodzone, ale będzie kontynuował proces przebudowy (patrz tutaj przykład). Ponownie, uzasadnieniem jest to, że lepiej jest kontynuować i zgłosić się do użytkownika, umożliwiając mu dokonanie świadomego wyboru.
źródło
Jeśli wystąpi URE, nastąpi uszkodzenie danych w całym bloku, który zwykle ma rozmiar 256 KB-1 MB, ale nie oznacza to, że WSZYSTKIE dane w woluminie zostaną utracone. To, co nie jest tak świetne w RAID5, to zupełnie inna sprawa: sama odbudowa jest stresująca i istnieje duże prawdopodobieństwo, że dojdzie do awarii drugiego dysku z rzędu. W takim przypadku wszystkie dane zostałyby utracone.
źródło
Wyjaśniłbym to na odwrót;
Jeśli kontroler RAID nie zatrzymuje się na URE, co może się zdarzyć?
Żyłem na serwerze, RAID nigdy nie zauważył URE, a po przebudowie zaczęło się gromadzić uszkodzenie na całym woluminie RAID.
Po odbudowie dysk zaczął być coraz bardziej uszkodzony, a dane zaczęły być uszkodzone.
Dysk nigdy nie został wyrzucony z woluminu RAID, awaria kontrolera ma na celu ochronę integralności danych.
Ten przykład został napisany, abyś myślał, że kontroler nie może w ogóle przekazać woluminu za pomocą URE, dotyczy to integralności danych, ponieważ wolumin nie ma być kopią zapasową, ale odpornością na awarię dysku
źródło
Sugeruję przeczytanie tego pytania i odpowiedzi na nieco więcej informacji. Następnie ponownie przeczytaj pytanie, z którym się połączyłeś .
Kiedy ktoś mówi o tej sytuacji, że „awaria macierzy RAID” oznacza, że utraciłeś korzyści z macierzy RAID - straciłeś ciągły dostęp do danych, który był powodem, dla którego ustawiłeś macierz RAID.
Nie straciłeś wszystkich danych, ale najczęstszym sposobem na odzyskanie z jednego martwego dysku plus (niektóre) URE na (niektórych) pozostałych dyskach byłoby całkowite przebudowanie tablicy od zera, co będzie oznaczało przywrócenie wszystkich danych z kopii zapasowej.
źródło