Chcę porównać niezawodność różnych systemów RAID z dyskami konsumpcyjnymi (URE / bit = 1e-14) lub korporacyjnymi (URE / bit = 1e-15). Wzór na prawdopodobieństwo powodzenia przebudowy (ignorując problemy mechaniczne, które wezmę później pod uwagę) jest prosty:
error_probability = 1 - (1-per_bit_error_rate) ^ bit_read
Ważne jest, aby pamiętać, że jest to prawdopodobieństwo uzyskania co najmniej jednego URE, niekoniecznie tylko jednego.
Załóżmy, że chcemy 6 TB przestrzeni użytkowej. Możemy to uzyskać za pomocą:
RAID1 z 1 + 1 dyskami po 6 TB każdy. Podczas odbudowy odczytywamy 1 dysk o pojemności 6 TB, a ryzyko wynosi: 1- (1-1e-14) ^ (6e12 * 8) = 38% dla konsumentów lub 4,7% dla dysków korporacyjnych.
RAID10 z 2 + 2 dyskami po 3 TB każdy. Podczas odbudowy odczytujemy tylko 1 dysk o pojemności 3 TB (ten sparowany z dyskiem uszkodzonym!), A ryzyko jest niższe: 1- (1-1e-14) ^ (3e12 * 8) = 21% dla konsumenta lub 2,4% dla dyski korporacyjne.
RAID5 / RAID Z1 z 2 + 1 dyskami o pojemności 3 TB każdy. Podczas odbudowy odczytujemy 2 dyski o pojemności 3 TB każdy, a ryzyko wynosi: 1- (1-1e-14) ^ (2 * 3e12 * 8) = 38% dla dysków konsumenckich lub 4,7% lub dysków korporacyjnych.
RAID5 / RAID Z1 z dyskami 3 + 1 po 2 TB każdy (często używanymi przez użytkowników produktów SOHO, takich jak Synologys). Podczas odbudowy odczytujemy 3 dyski o pojemności 2 TB każdy, a ryzyko wynosi: 1- (1-1e-14) ^ (3 * 2e12 * 8) = 38% dla dysków konsumenckich lub 4,7% lub dysków korporacyjnych.
Obliczenie błędu dla tolerancji pojedynczego dysku jest łatwe, trudniejsze jest obliczenie prawdopodobieństwa w przypadku systemów tolerujących wiele awarii dysków (RAID6 / Z2, RAIDZ3).
Jeśli tylko pierwszy dysk zostanie użyty do odbudowy, a drugi zostanie ponownie odczytany od początku w przypadku lub URE, wówczas prawdopodobieństwo błędu jest obliczone powyżej pierwiastka kwadratowego (14,5% dla konsumenta RAID5 2 + 1, 4,5% dla konsumenta RAID1 1 + 2). Jednak przypuszczam (przynajmniej w ZFS, który ma pełne sumy kontrolne!), Że drugi parzystość / dostępny dysk jest odczytywany tylko w razie potrzeby, co oznacza, że potrzebnych jest tylko kilka sektorów: ile URE może wystąpić na pierwszym dysku? nie wiele, w przeciwnym razie prawdopodobieństwo błędu dla systemów tolerancji jednotarczowych wzrosłoby gwałtownie nawet bardziej, niż się spodziewałem.
Jeśli mam rację, drugi dysk parzystości praktycznie obniżyłby ryzyko do ekstremalnie niskich wartości.
Poza tym ważne jest, aby pamiętać, że producenci zwiększają prawdopodobieństwo URE dla dysków klasy konsumenckiej ze względów marketingowych (sprzedają więcej dysków klasy korporacyjnej), dlatego oczekuje się, że nawet dyski twarde klasy konsumenckiej osiągną odczyt 1E-15 URE / bit .
Niektóre dane: http://www.high-rely.com/hr_66/blog/why-raid-5-stops-working-in-2009-not/
Wartości, które podałem w nawiasach (dyski dla przedsiębiorstw), realistycznie dotyczą zatem także dysków konsumenckich. A prawdziwe dyski dla przedsiębiorstw mają jeszcze wyższą niezawodność (URE / bit = 1e-16).
Jeśli chodzi o prawdopodobieństwo awarii mechanicznych, są one proporcjonalne do liczby dysków i proporcjonalne do czasu potrzebnego na odbudowę.
Odpowiedzi:
To najlepsza odpowiedź, również z teorią prawdopodobieństwa:
http://evadman.blogspot.com/2010/08/raid-array-failure-probabilities.html?showComment=1337533818123#c7465506102422346169
źródło
Istnieje wiele witryn i artykułów, które próbują odpowiedzieć na to pytanie.
Ta strona ma kalkulatory dla poziomów RAID 0, 5, 10/50/60.
Artykuł w Wikipedii na temat poziomów RAID zawiera sekcje dotyczące wskaźników awaryjności RAID 0 i RAID 1.
RAID 0 :
RAID 1 :
Znalazłem również kilka artykułów na blogu na ten temat, w tym ten, który przypomina nam, że niezależne dyski w systemie (I w RAID) mogą wcale nie być tak niezależne:
źródło