Jestem programistą. Nie mam dużego doświadczenia w sprzęcie. Z tego powodu używam zarządzanych serwerów.
Dziś rano jeden z dysków w naszej konfiguracji uległ awarii. Jednak pełna strona uległa awarii. Zapytałem mojego gospodarza, co się stało, a on odpowiedział, że dysk twardy uległ awarii w taki sposób, że kontroler RAID nie mógł działać poprawnie. Macierz została skonfigurowana jako RAID 4.
Czy widzieliście to kiedyś? Czy to możliwe?
Dziękuję za wszelką pomoc dotyczącą tego faceta. Muszę wiedzieć, czy mój host jest ze mną szczery.
Odpowiedzi:
Bardziej prawdopodobne jest, że twój dostawca używa dysków twardych, które nie są przeznaczone do RAID. Do tej kategorii należą zwykłe dyski SATA dla konsumentów.
Prawdopodobnym problemem jest to, że na dysku zaczęły pojawiać się błędy niekorygowalne odczytu (URE). Gdy dzieje się to na dysku klienta, dysk siedzi tam i ponawia operację odczytu (zwykle przez 30–60 sekund), aż się podda. RAID będzie czekać, aż dysk zgłosi błąd (30–60) sekund. Tak więc proste żądanie dla kilku sektorów może łatwo spowodować zatrzymanie serwera, podczas gdy uszkodzony dysk mierzy przez te operacje ponownej próby odczytu.
Dyski przeznaczone dla macierzy RAID mają albo ograniczone czasowo odzyskiwanie po błędzie (dla dysków SATA). TLER szybko zgłasza awarie kontrolerom, dzięki czemu kontroler może inteligentnie reagować na takie awarie (głównie inteligentnie; mam nadzieję). SCSI (także SAS) działa nieco inaczej. Zestaw poleceń SCSI umożliwia kontrolerowi określenie różnych limitów nakładów na odzyskiwanie dysków (WYBÓR TRYBU: ODZYSKIWANIE BŁĘDU RW). Kontroler RAID powinien szybko ustawić awarie dysków, kontroler może następnie sprawdzić, czy dysk uważa, że działa poprawnie z poleceniem TUR, awaria dysku poza macierzą, jeśli występuje warunek sprawdzania.
źródło
Tak, jest to możliwe, nawet w scenariuszach, w których zdaniem macierzy tablica powinna przetrwać awarię.
Niektóre możliwości przyczyny niepowodzenia tablicy:
źródło
Jeśli byłaby to implementacja RAID 0, to z pewnością w przypadku awarii jednego dysku stracisz tablicę i wszystkie dane z nią związane.
źródło
Widziałem błędy oprogramowania układowego, które usuwają całą macierz RAID, gdy dysk ulegnie awarii lub gdy zaczyna zgłaszać rychłą awarię. Przepraszam, nie mam nic konkretnego do wskazania, ale tak, może się zdarzyć. Oczywiście nie jest to część specyfikacji RAID, ale zdecydowanie jest to błąd.
źródło
Tak, to możliwe. To nie powinno się zdarzyć, ale na pewno może. Wprowadź URE (nieodwracalny błąd odczytu), awarie kontrolera i błędy oprogramowania układowego i tym podobne.
Bez dodatkowych informacji (których Twój host prawdopodobnie nie dostarczy), nie można powiedzieć zdecydowanie w ten czy inny sposób, ale każdy, kto pracował z wieloma macierzami RAID, miał doświadczenia, w których cała tablica została utracona lub uległa awarii, gdy nie powinienem mieć.
( Nawiasem mówiąc, RAID4 nie jest często używanym poziomem RAID, ale powinien wytrzymać utratę dowolnego dysku . Nie oznacza to jednak, że zawsze będzie.)
źródło
Miałem wiele awarii dysku twardego, w których nie zawiodła mechanika, ale elektronika tworząca interfejs komunikacyjny. Ze względu na swój niewielki rozmiar wiele elementów elektronicznych jest bardzo wrażliwych na nawet niewielkie nieregularności elektryczne (może się to zdarzyć, gdy duże pobliskie silniki klimatyzacji są włączane / wyłączane itp., A zasilanie jest trochę tanie).
Kiedy wewnętrzne konwertery mocy lub kondensatory (bufory magazynujące energię) wypalają się, sygnały elektryczne generowane przez zewnętrzne złącza dysku twardego mogą i będą znacznie przekraczać specyfikację. Ponieważ napęd jest podłączony do kontrolera za pomocą drutów miedzianych, a często w serwerach wiele napędów ma wspólne połączenie kablowe, aby ułatwić instalację i zmniejszyć bałagan, może to łatwo zakłócić, a nawet trwale zniszczyć dowolną liczbę sąsiednich komponentów.
Nawiasem mówiąc, nie ma to wiele wspólnego z cenami. Prawdą jest, że drogie sterowniki i napędy MOGĄ używać części, które są bardziej tolerancyjne na nienormalne warunki lub mają lepszą osłonę, a przy elementach budżetowych istnieje większe prawdopodobieństwo, że otrzymasz części niestandardowe. Ale regularnie znajdowałem identyczne kondensatory na napędzie za 50 USD i 500 USD. A jeśli uszkodzony dysk twardy kieruje bezpośrednio 12 woltów z zasilacza do złącza SATA, ponieważ coś się zwarło, kontroler RAID zostanie usmażony, bez względu na to, ile liczb miałby ten koszt.
Nie dzieje się tak zwykle, ale zdecydowanie nie jest to niespotykane z mojego doświadczenia.
źródło
Tak, chyba cały nalot może się nie powieść po awarii jednego napędu. Pierwszy uszkodzony dysk zostanie wyłączony przez kontroler i nalot będzie nadal działał poprawnie. Ale po wymianie uszkodzonego dysku kontroler rozpoczyna odbudowę nalotu. Jeśli na jednym z pozostałych pozostałych dysków znajduje się ukryty problem z odczytem, przebudowa uszkodzonego dysku może spowodować, że więcej dysków przejdzie w tryb offline (po wykryciu problemów z czytaniem podczas przebudowywania nalotu) ponownie, powodując cały nalot zawieść.
źródło