Co liczy się jako „duża” tablica rajdowa 5?

11

Niedawny problem z Buffalo TeraStation NAS tutaj w moim biurze zmusił mnie do zbadania Raid 5.

Znalazłem kilka różnych artykułów mówiących o nieprzydatności korzystania z raid 5 na dużych tablicach lub na dużych dyskach

Oto jeden przykładowy artykuł, który mówi o problemach z przebudową tablicy z dużymi dyskami konsumentów.

Próbuję ustalić, co się liczy jako „duże”?

NAS, który tu mamy, to konfiguracja Raid 5 z 4 dyskami, każdy dysk ma 1 TB. Napęd uległ awarii i został wymieniony, tablica obecnie się odbudowuje.

Czy to ustawienie jest tak duże, że prawdopodobnie będzie miało problem podczas przebudowy?

Jak niezawodna jest ta konfiguracja do codziennego użytku?

Obrabować
źródło
2
Biorąc pod uwagę zwykłe obciążenie systemu, jak długo sterownik oczekuje na przebudowę? Co to jest MTBF dysków twardych? Jeśli masz te dwie liczby, znasz szansę na drugą - i katastrofalną - awarię podczas odbudowy RAID. Pamiętaj, że dyski twarde są najbardziej obciążone podczas przebudowy, więc powyższy wynik będzie niedoszacowaniem szansy na podwójną awarię.
MadHatter
3
Nawiasem mówiąc, wiesz, że RAID nie jest kopią zapasową, prawda?
cjc
5
@cjc, czy dodajesz tę perłę mądrości do każdego pytania RAID na SF, czy może coś w tym pytaniu sprawia, że ​​OP uważa, że ​​RAID jest kopią zapasową?
BlueCompute,
Tak, jestem tego świadomy. Wszystko jest zabezpieczone, właśnie chciałem przywrócić wszystko, ponieważ tablica rajdowa nie naprawiła się poprawnie.
Rob

Odpowiedzi:

18

Projektowanie niezawodności macierzy dyskowej:

  1. Znajdź współczynnik URE twojego dysku (producenci nie lubią mówić o awariach swoich dysków, więc być może będziesz musiał kopać, aby to znaleźć. Powinno to wynosić 1/10 ^ X, gdzie X wynosi około 12-18).
  2. Zdecyduj, jaki jest akceptowalny poziom ryzyka dla twoich potrzeb przechowywania †. Zazwyczaj jest to <0,5% szansa na awarię, ale może wynosić kilka procent w magazynie „scratch”, a dla danych krytycznych może wynosić <0,1.
  3. 1 - ( 1 - [Drive Size] x [URE Rate]) ^ [Data Drives‡] = [Risk]
    W przypadku tablic z więcej niż jednym dyskiem parzystości lub kopii lustrzanych z więcej niż parą dysków w kopii lustrzanej zmień wartość 1po Dyski w macierzy na liczbę dysków z parzystością / kopią lustrzaną.

Mam więc zestaw czterech dysków WD Green 1 TB w macierzy. Mają współczynnik URE 1/10 ^ 14. I używam ich jako magazynu na zarysowania. 1 - (1 - 1TB x 1/10^14byte) ^ 3=> 3.3%ryzyko niepowodzenia odbudowy macierzy po śmierci jednego napędu. Są świetne do przechowywania moich śmieci, ale nie umieszczam tam krytycznych danych.

† Określenie dopuszczalnej awarii jest długim i skomplikowanym procesem. Można to streścić jako Budget = Risk * Cost. Jeśli więc awaria będzie kosztować 100 USD i ma 10% szansy na wystąpienie, powinieneś mieć budżet w wysokości 10 USD, aby temu zapobiec. Rażąco upraszcza to zadanie określania ryzyka, kosztów różnych awarii i charakteru potencjalnych technik zapobiegania - ale masz pomysł. [Data Drives] = [Total Drives] - [Parity Drives]. Lustro z dwoma dyskami (RAID1) i RAID5 mają 1 dysk parzystości. Lustro z trzema dyskami (RAID1) i RAID6 mają 2 dyski parzystości. Możliwe jest posiadanie większej liczby dysków parzystości z RAID1 i / lub niestandardowymi schematami, ale nietypowych.


To równanie statystyczne ma jednak swoje zastrzeżenia:

  • Ta stawka URE jest stawką reklamowaną i jest zwykle lepsza w większości napędów zjeżdżających z linii montażowej. Możesz mieć szczęście i kupić dysk o rząd wielkości lepszy niż reklamowany. Podobnie możesz dostać napęd, który umiera z powodu śmiertelności niemowląt.
  • Niektóre linie produkcyjne mają złe przebiegi (w których wiele dysków w tym samym czasie ulega awarii), więc uzyskanie dysków z różnych partii produkcyjnych pomaga rozłożyć prawdopodobieństwo równoczesnej awarii.
  • Starsze dyski częściej umierają pod wpływem przebudowy.
  • Czynniki środowiskowe mają swoje żniwo:
    • Dyski, które są zwykle poddawane cyklom cieplnym, częściej umierają (np. Regularnie je włączają / wyłączają).
    • Wibracje mogą powodować różnego rodzaju problemy - zobacz wideo na temat IT krzyczącego na macierz dyskową .
  • „Istnieją trzy rodzaje kłamstw: kłamstwa, przeklęte kłamstwa i statystyki” - Benjamin Disraeli
Chris S.
źródło
Dyskiem, który wziąłem / wyjąłem / jest urządzenie Samsung HD103SI 1 TB. Myślę, że pozostałe trzy pozostałe dyski są takie same. Dysk zastępczy pochodzi od innego producenta, nie mam pod ręką szczegółów.
Rob
Wygląda na to, że szybkość tego dysku wynosi 1/10
Rob
1
Właśnie poprawiłem równania, przykład był poprawny, teraz oba są. Twoja tablica byłaby 1-(1-1099511627776*0.000000000000001)^3=> 0,00329. Masz wspornik na zewnątrz, ^3gdzie powinien być w środku; i powinno być jeszcze jedno zero w tej 1/10 ^ 15 rzeczy.
Chris S
2
Dysk o pojemności 1 TB miałby pojemność 1000000000000 bajtów, więc działa nieco mniej niż 3% | 0,3% w zależności od szybkości URE.
user9517
1
@IanRingrose Jest to poprawne statystycznie. Zajęłam się już twoimi konkretnymi obawami. Czy masz coś ważnego do dodania oprócz tego, co już zostało powiedziane?
Chris S
9

Powodem istnienia tego artykułu jest zwrócenie uwagi na nieodwracalne bity błędów na dyskach twardych. W szczególności tanie dyski „do komputera domowego”. Zazwyczaj mają one fabryczną specyfikację 1/10 ^ 14. To około 12,5 TB danych, co jeśli robisz RAID-5 z dyskami 2 TB ... trafiasz dość szybko.

Oznacza to, że powinieneś:

  • używaj mniejszych grup RAID i akceptuj wyższe marnowane miejsce.
  • Użyj RAID-6 i zaakceptuj dodatkową karę za zapis. (50% więcej niż RAID5)
  • Kupuj droższe dyski - „klasa serwerowa” ma specyfikację UBER 1/10 ^ 16, co oznacza, że ​​jest to kwestia sporna. (1,2PB jest lepszy niż 12,5 TB)

Sugerowałbym zazwyczaj, że RAID-6 jest ogólnie rzecz biorąc drogą naprzód, ale będzie cię to kosztować wydajność.

Sobrique
źródło