Dlaczego ogólnie uważa się, że systemy RAID 5 nie są odpowiednie dla większych rozmiarów dysków? Czy to samo dotyczy RAID 6?
Odniesienie: http://www.zdnet.com/article/why-raid-5-stops-working-in-2009/
hard-drive
raid
Anthony
źródło
źródło
Odpowiedzi:
Powodem, dla którego RAID 5 może nie być niezawodny w przypadku dużych rozmiarów dysków, jest to, że statystycznie urządzenia pamięci masowej (nawet gdy działają normalnie) nie są odporne na błędy. Jest to tak zwane UBE (czasami URE), w odniesieniu do wskaźnika niemożliwych do odzyskania błędów bitowych , i jest podawane w błędach pełnego sektora na liczbę odczytanych bajtów. W przypadku obrotowych dysków twardych konsumenckich ta metryka jest zwykle określana na 10 ^ -14, co oznacza, że otrzymasz odczyt jednego uszkodzonego sektora na odczyt 10 ^ 14 bajtów. (Z powodu tego, jak działają wykładniki, 10 ^ -14 to to samo, co jeden na 10 ^ 14).
10 ^ 14 bajtów może brzmieć jak duża liczba, ale tak naprawdę to tylko garść pełnych odczytów przez nowoczesny duży (powiedzmy 4-6 TB) dysk. W przypadku RAID 5, gdy jeden dysk ulegnie awarii, nie ma żadnej redundancji, co oznacza, że żadnego błędu nie można naprawić: każdy problem z odczytem czegokolwiek z dowolnego innego dysku, a kontroler (sprzętowy lub programowy) nie będzie wiedział, co do zrobienia. W tym momencie twoja tablica się psuje.
RAID 6 dodaje drugi dysk redundancji do równania. Oznacza to, że nawet jeśli jeden dysk ulegnie całkowitej awarii, RAID 6 jest w stanie tolerować błąd odczytu na jednym z pozostałych dysków w macierzy w tym samym czasie i nadal skutecznie rekonstruować dane. To znacznie zmniejsza prawdopodobieństwo pojedynczego problemu powodującego niedostępność danych, chociaż nie eliminuje możliwości; w przypadku awarii jednego dysku, zamiast jednego dodatkowego dysku, który musi stworzyć problem z niemożnością odzyskania danych, teraz dwa dodatkowe dyski muszą rozwinąć problem w tym samym sektorze, aby mógł wystąpić problem.
Oczywiście, ta liczba 10 ^ -14 jest statystyczna , podobnie jak obrotowe dyski twarde zwykle mają cytowany statystyczny wskaźnik AFR (roczna awaryjność) rzędu 2,5%. Co oznaczałoby, że średni popęd powinien trwać 20–40 lat; najwyraźniej tak nie jest. Błędy zdarzają się partiami; możesz być w stanie odczytać 10 ^ 16 lub 10 ^ 17 bajtów bez żadnych oznak problemu, a następnie otrzymasz dziesiątki lub setki błędów odczytu w krótkiej kolejności.
RAID w rzeczywistości pogarsza ten drugi problem , narażając dyski na bardzo podobne obciążenia i środowisko (temperatura, wibracje, zanieczyszczenia mocy itp.). Sytuację dodatkowo pogarsza fakt, że wiele macierzy RAID jest uruchamianych i konfigurowanych jako grupa, co oznacza, że do czasu pierwszej awarii wszystkie dyski w macierzy będą aktywne przez prawie taką samą ilość czasu. Wszystko to sprawia, że skorelowane awarie są znacznie bardziej prawdopodobne: gdy jeden dysk ulegnie awarii, bardzo prawdopodobne jest, że dodatkowe dyski będą marginalne i wkrótce mogą ulec awarii. Jedynie stres związany z pełnym przejściem odczytu wraz z normalną aktywnością użytkownika może wystarczyć, aby spowodować awarię dodatkowego napędu. Jak widzieliśmy, w przypadku RAID 5 z jednym dyskiem niefunkcjonalnym,każdy błąd odczytu gdziekolwiek indziej spowoduje stały błąd i istnieje duże prawdopodobieństwo, że po prostu zatrzyma tablicę. Dzięki RAID 6 masz przynajmniej margines na dalsze błędy podczas procesu resilveringu.
Ponieważ UBE jest podane jako liczba odczytanych bajtów, a liczba odczytanych bajtów ma tendencję do dość korelacji z liczbą bajtów, które można zapisać, to, co kiedyś było dobrą konfiguracją z zestawem dysków 100 MB, może być konfiguracją marginalną z zestaw dysków 1 TB i może być całkowicie nierealistyczny z zestawem dysków 4-6 TB, nawet jeśli fizyczna liczba dysków pozostanie taka sama. (Innymi słowy, dziesięć dysków 100 MB w porównaniu do dziesięciu dysków 6 TB).
Właśnie dlatego RAID 5 jest obecnie ogólnie uważany za nieodpowiedni dla macierzy o wspólnych rozmiarach, aw zależności od konkretnych potrzeb zwykle zaleca się RAID 6 lub 1 + 0.
I to nawet nie dotyka szczegółów, że RAID nie jest kopią zapasową .
źródło
Zobacz: KALKULATOR DYSKÓW I IOPS oraz Wyjaśnienie IOPS i opóźnienia
Do obliczenia macierzy RAID po awarii można użyć formuł.
Założenie, że prawdopodobieństwo awarii dysku twardego jest równe.
Dla jasności, prawdopodobieństwo awarii innego RAID po 5 latach pracy i po nim w tabeli.
Prawdopodobieństwo awarii to awaria RAID DP (Synology) RAID 6. Zastosowanie
p
- niezawodność z wyszukiwania w centrum danych Google.Prawdopodobieństwo wykonania procedury odzyskiwania po awarii RAID 5, w zależności od pojemności.
źródło
Odpowiedz na swoje pierwsze pytanie. URE. Błąd odczytu nieodwracalny. Dysk może być OK, ale danych nie można odczytać, co uniemożliwia przebudowę, która w końcu jest taka sama jak dysk uszkodzony pod względem przebudowy. Myślałem, że artykuł dał właściwy wgląd na poziomie podstawowym.
Odpowiedz na drugie pytanie. To samo dotyczy RAID 6, ale w przypadku większych macierzy. Myślę, że chodziło o to, jeśli martwisz się o URE dla tablicy 12 TB, ponieważ specyfikacja mówi, że będziesz mieć 1 URE na każde 12 TB, wtedy potrzebujesz dodatkowego dysku nadmiarowego na każdy dodatkowy rozmiar 12 TB, aby obsłużyć wszystkie URE, których powinieneś się spodziewać spotkać.
Oznacza to, że przebudowa RAID 5 na 12 TB ma taką samą szansę na awarię (na współczynnik 10 ^ 14 URE) jak na macierz RAID 6 24TB. Ponownie jest to ekstrapolacja artykułu.
źródło
Powodem jest czas powrotu do zdrowia. Począwszy od śr. 2 TB wielkości czas na odzyskanie może stać się bardzo duży, a prawdopodobieństwo awarii w okresie odzyskiwania znacznie wzrasta. Dzięki RAID6 możesz odzyskać po awarii dwóch dysków, ale wraz ze wzrostem wielkości dysków 6 osiągniesz ten sam problem.
źródło
Rozumowanie UBE przedstawione w innych odpowiedziach jest wystarczające, ale większym problemem jest ryzyko awarii drugiego napędu podczas przebudowy.
Pamiętaj, że podczas przebudowywania macierzy dyski działają ze 100% obciążeniem, a biorąc pod uwagę rozmiar współczesnych dysków, przebudowa może potrwać kilka dni. O ile dyski nie są klasy korporacyjnej, to tak naprawdę się nie spodoba. Jest to główny powód, dla którego RAID5 nie jest odpowiedni dla większych rozmiarów dysków.
Należy również wziąć pod uwagę, że ludzie, którzy montują tablice dyskowe, zwykle zamawiają dyski od jednego dostawcy. Oznacza to, że wszystkie dyski w macierzy będą pochodzić z tej samej partii produkcyjnej. Jeśli jest to zła partia, może to oznaczać krótszą żywotność, mniejszą niezawodność, a nawet awarię wielu dysków w krótkim czasie. Nawet jeśli nie jest to zła partia, jeśli dyski zaczną kończyć żywotność, istnieje zwiększona szansa, że wiele dysków ulegnie awarii w krótkim czasie od siebie. Jest to zalecana praktyka przy budowaniu tablicy w celu podzielenia zamówienia na kilku dostawców lub poproszenie jednego dostawcy o przesłanie dysków z różnych partii, jeśli to możliwe. W ten sposób dyski częściej umierają w różnych momentach i nie jest prawdopodobne uzyskanie wielu dysków z niewłaściwej partii. Przypomnienia się zdarzają.
Zajrzyj do RAIDZ. Wspaniale. W szczególności spójrz na RAIDZ3 i zagnieżdżone RAIDZ. Synology ma coś o nazwie SynologyHybrid Raid, co ma kilka naprawdę fajnych zalet. Możesz zwiększyć rozmiary dysków w swojej macierzy, po prostu wymieniając jeden dysk na raz i czekając na przykład na zakończenie przebudowy.
źródło