Czy konfiguracja dysku RAID 4 może ulec awarii, jeśli tylko jeden dysk twardy ulegnie awarii? [Zamknięte]

9

Jestem programistą. Nie mam dużego doświadczenia w sprzęcie. Z tego powodu używam zarządzanych serwerów.

Dziś rano jeden z dysków w naszej konfiguracji uległ awarii. Jednak pełna strona uległa awarii. Zapytałem mojego gospodarza, co się stało, a on odpowiedział, że dysk twardy uległ awarii w taki sposób, że kontroler RAID nie mógł działać poprawnie. Macierz została skonfigurowana jako RAID 4.

Czy widzieliście to kiedyś? Czy to możliwe?

Dziękuję za wszelką pomoc dotyczącą tego faceta. Muszę wiedzieć, czy mój host jest ze mną szczery.

Steve Rodrigue
źródło
Jeśli zginie więcej niż jeden dysk w macierzy, RAID ulegnie awarii (choć zależy to od konfiguracji RAID).
Rhys Evans
Krótka historia jest taka, że ​​twój dostawca jest ****** i działa na taniej stronie. To może być całkowicie do zaakceptowania, o ile jako klient zostaniesz ostrzeżony, że jego infrastruktura nie jest odporna na awarie i nie powoduje awarii napędu.
Łukasza 404
Zaktualizuj pytanie o typ nalotu (tj. Nalot 0,1,4,5,6 itd.).
Trevor Boyd Smith

Odpowiedzi:

22

Bardziej prawdopodobne jest, że twój dostawca używa dysków twardych, które nie są przeznaczone do RAID. Do tej kategorii należą zwykłe dyski SATA dla konsumentów.

Prawdopodobnym problemem jest to, że na dysku zaczęły pojawiać się błędy niekorygowalne odczytu (URE). Gdy dzieje się to na dysku klienta, dysk siedzi tam i ponawia operację odczytu (zwykle przez 30–60 sekund), aż się podda. RAID będzie czekać, aż dysk zgłosi błąd (30–60) sekund. Tak więc proste żądanie dla kilku sektorów może łatwo spowodować zatrzymanie serwera, podczas gdy uszkodzony dysk mierzy przez te operacje ponownej próby odczytu.

Dyski przeznaczone dla macierzy RAID mają albo ograniczone czasowo odzyskiwanie po błędzie (dla dysków SATA). TLER szybko zgłasza awarie kontrolerom, dzięki czemu kontroler może inteligentnie reagować na takie awarie (głównie inteligentnie; mam nadzieję). SCSI (także SAS) działa nieco inaczej. Zestaw poleceń SCSI umożliwia kontrolerowi określenie różnych limitów nakładów na odzyskiwanie dysków (WYBÓR TRYBU: ODZYSKIWANIE BŁĘDU RW). Kontroler RAID powinien szybko ustawić awarie dysków, kontroler może następnie sprawdzić, czy dysk uważa, że ​​działa poprawnie z poleceniem TUR, awaria dysku poza macierzą, jeśli występuje warunek sprawdzania.

Chris S.
źródło
Dobre wytłumaczenie.
sbrattla
11

Tak, jest to możliwe, nawet w scenariuszach, w których zdaniem macierzy tablica powinna przetrwać awarię.

Niektóre możliwości przyczyny niepowodzenia tablicy:

  • Więcej dysków uległo awarii, niż mógłby to zrobić tryb RAID. Na przykład:
    • RAID 0 (rozkładanie) nie może przetrwać awarii dysku.
    • RAID 1 może przetrwać awarie wszystkich dysków oprócz 1.
    • RAID 4/5 może przetrwać awarię 1 dysku.
    • RAID 6 może przetrwać 2 awarie dysków.
    • RAID 10 może przetrwać awarię nawet do 50% dysków, w zależności od tego, które dyski ulegają awarii.
  • Błąd w oprogramowaniu RAID lub oprogramowaniu kontrolera.
  • Błąd użytkownika
    • Ktoś wyciągnął za dużo dysków.
    • Ktoś wyciągnął dysk i nigdy go nie wymienił, a następnie inny dysk uległ awarii.
    • Macierz nie była monitorowana, co spowodowało awarię większej liczby dysków niż można było przeżyć.
  • Tanie kontrolery z dyskami klasy konsumenckiej są powszechnie znane jako awarie nawet w scenariuszach, które mogłyby przetrwać.
    • Dysk na poziomie konsumenta będzie próbował niemal w nieskończoność odczytać zły sektor, dopóki nie uzyska dobrego odczytu. Tani kontroler będzie czekać prawie w nieskończoność, aż taki dysk zwróci wynik. Czas oczekiwania może być tak długi, że system operacyjny się poddaje. Następnie przy ponownym uruchomieniu dyski nie reagują wystarczająco szybko na sterownik i zakłada się, że tablica uległa awarii.
    • Z drugiej strony dysk na poziomie przedsiębiorstwa szybko się poddaje, umożliwiając kontrolerowi pobranie danych z innego dysku. Ponadto dobry kontroler oznaczy dysk, który reaguje zbyt długo i nie może przejść dalej.
długa szyja
źródło
1
RAID 1 powinien przetrwać śmierć wszystkich dysków z wyjątkiem jednego w macierzy. To prawda, że ​​większość ludzi prawdopodobnie korzysta z konfiguracji RAID 1 z dwoma dyskami, co oznacza, że ​​może przetrwać tylko śmierć jednego dysku, ale nie jest to związane z RAID 1.
CVn
Ciekawe, więc jeśli jeden dysk w macierzy RAID 10 ulegnie awarii, powinieneś złamać inny dysk, ponieważ nie przetrwa on, jeśli tylko jeden dysk zostanie uszkodzony :-) Myślę, że powinieneś edytować swój post.
FLY
@ MichaelKjörling dobry punkt. Zredagowałem swój post.
longneck
@FLY masz rację, przeleciałem nad tym punktem. edytowane.
longneck
RAID4 powinien być RAID3. RAID3 jest pasowaniem bajtów z parzystością; RAID4 był implementacją ECC wymagającą ogromnej liczby dysków, których AFAIK nigdy nie zaimplementował.
Dan Is Fiddling By Firelight
8

Jeśli byłaby to implementacja RAID 0, to z pewnością w przypadku awarii jednego dysku stracisz tablicę i wszystkie dane z nią związane.

joeqwerty
źródło
Jest to implementacja RAID 4
Steve Rodrigue
11
hahaha - prawie mnie tam miałeś, co to naprawdę jest?
Chopper3
3
@ Chopper3 NetApp używa RAID4. Więc nie jest to zupełnie niesłychane, chociaż również mnie zachichotało. Może w ten sposób gospodarz mówi, że ma filtr NetApp lub coś takiego.
HopelessN00b
1
@ SteveRodrigue Czy na pewno jest to RAID 4?
MDMarra,
1
Jeśli rzeczywiście jest to RAID4 i tylko jeden dysk ulegnie awarii, wówczas powinno być możliwe zainstalowanie nowego dysku i przebudowanie tablicy, przynajmniej w zasadzie. Być może hosting miał na myśli awarię jednego z pozostałych dysków, gdy próbował to zrobić?
user3490,
2

Widziałem błędy oprogramowania układowego, które usuwają całą macierz RAID, gdy dysk ulegnie awarii lub gdy zaczyna zgłaszać rychłą awarię. Przepraszam, nie mam nic konkretnego do wskazania, ale tak, może się zdarzyć. Oczywiście nie jest to część specyfikacji RAID, ale zdecydowanie jest to błąd.

chutz
źródło
1

Tak, to możliwe. To nie powinno się zdarzyć, ale na pewno może. Wprowadź URE (nieodwracalny błąd odczytu), awarie kontrolera i błędy oprogramowania układowego i tym podobne.

Bez dodatkowych informacji (których Twój host prawdopodobnie nie dostarczy), nie można powiedzieć zdecydowanie w ten czy inny sposób, ale każdy, kto pracował z wieloma macierzami RAID, miał doświadczenia, w których cała tablica została utracona lub uległa awarii, gdy nie powinienem mieć.

( Nawiasem mówiąc, RAID4 nie jest często używanym poziomem RAID, ale powinien wytrzymać utratę dowolnego dysku . Nie oznacza to jednak, że zawsze będzie.)

Beznadziejny
źródło
1

Miałem wiele awarii dysku twardego, w których nie zawiodła mechanika, ale elektronika tworząca interfejs komunikacyjny. Ze względu na swój niewielki rozmiar wiele elementów elektronicznych jest bardzo wrażliwych na nawet niewielkie nieregularności elektryczne (może się to zdarzyć, gdy duże pobliskie silniki klimatyzacji są włączane / wyłączane itp., A zasilanie jest trochę tanie).

Kiedy wewnętrzne konwertery mocy lub kondensatory (bufory magazynujące energię) wypalają się, sygnały elektryczne generowane przez zewnętrzne złącza dysku twardego mogą i będą znacznie przekraczać specyfikację. Ponieważ napęd jest podłączony do kontrolera za pomocą drutów miedzianych, a często w serwerach wiele napędów ma wspólne połączenie kablowe, aby ułatwić instalację i zmniejszyć bałagan, może to łatwo zakłócić, a nawet trwale zniszczyć dowolną liczbę sąsiednich komponentów.

Nawiasem mówiąc, nie ma to wiele wspólnego z cenami. Prawdą jest, że drogie sterowniki i napędy MOGĄ używać części, które są bardziej tolerancyjne na nienormalne warunki lub mają lepszą osłonę, a przy elementach budżetowych istnieje większe prawdopodobieństwo, że otrzymasz części niestandardowe. Ale regularnie znajdowałem identyczne kondensatory na napędzie za 50 USD i 500 USD. A jeśli uszkodzony dysk twardy kieruje bezpośrednio 12 woltów z zasilacza do złącza SATA, ponieważ coś się zwarło, kontroler RAID zostanie usmażony, bez względu na to, ile liczb miałby ten koszt.

Nie dzieje się tak zwykle, ale zdecydowanie nie jest to niespotykane z mojego doświadczenia.

Jost
źródło
„często na serwerach wiele dysków ma wspólne połączenie kablowe” Nie w nowoczesnych środowiskach SAS lub SATA. Jest mało prawdopodobne z astronomicznego punktu widzenia, że ​​twój scenariusz miał miejsce właśnie tutaj; Nie sądzę, żeby kiedykolwiek słyszałem o śmierci elektroniki napędu i zabraniu ze sobą innych elementów. Podczas gdy 12v z pewnością usmażyłoby kontroler SATA lub SAS, komponenty logiczne bardzo rzadko są podłączone do 12v w jakikolwiek sposób, ponieważ obniżenie napięcia z 12 do 3,3 lub mniej jest bardzo skomplikowane w porównaniu ze źródłami 5v lub 3,3v. Jestem ciekawy, gdzie może się zdarzyć głowa tego rodzaju rzeczy; jeśli chcesz się podzielić?
Chris S
1

Tak, chyba cały nalot może się nie powieść po awarii jednego napędu. Pierwszy uszkodzony dysk zostanie wyłączony przez kontroler i nalot będzie nadal działał poprawnie. Ale po wymianie uszkodzonego dysku kontroler rozpoczyna odbudowę nalotu. Jeśli na jednym z pozostałych pozostałych dysków znajduje się ukryty problem z odczytem, ​​przebudowa uszkodzonego dysku może spowodować, że więcej dysków przejdzie w tryb offline (po wykryciu problemów z czytaniem podczas przebudowywania nalotu) ponownie, powodując cały nalot zawieść.

Pytagoras
źródło
Dlatego tablice RAID muszą być regularnie szorowane, aby wykryć problemy z odczytem lub zapisem.
Chris S