W naszym sklepie wiernie używamy RAID na wszystkich naszych stacjach roboczych, prawdopodobnie tylko dlatego, że wydaje się, że tak właśnie powinno być. Mówię o stacjach roboczych do symulacji naukowych z wykorzystaniem pokładowych układów RAID.
Ale słyszałem wiele horrorów RAID. Sam Stackoverflow miał awarię spowodowaną pośrednio przez kontroler RAID .
RAID chroni cię przed bardzo wąskim rodzajem awarii - fizyczną awarią dysku - ale jednocześnie wprowadza dodatkowe punkty awarii. Mogą występować problemy z kontrolerem RAID i często występują. Przynajmniej w naszym sklepie wydaje się, że kontrolery RAID zawodzą co najmniej tak często, jak same dyski. Możesz także łatwo coś zepsuć, wymieniając uszkodzony dysk.
Kiedy RAID jest warte kłopotów? Czy nie zyskujesz lepszego zwrotu z inwestycji, dodając więcej nadmiarowości do rozwiązań do tworzenia kopii zapasowych? Który typ RAID jest lepszy czy gorszy pod tym względem?
Edycja: Zmieniłem tytuł z oryginalnego „Czy RAID jest tego warte?”, Więc brzmi to mniej negatywnie
źródło
Odpowiedzi:
Nie martw się, RAID nie jest używany w świecie biznesu z powodu myślenia grupowego! Szansa na awarię przyzwoitych kontrolerów RAID jest znacznie niższa niż prawdopodobieństwo awarii dysku. Nie przypominam sobie, aby kiedykolwiek widziałem, jak kontroler RAID zawodzi w prawdziwym życiu, podczas gdy widziałem śmierć wielu dysków, zarówno w biurze, jak i centrum danych.
PS: Widzę twoje tagi. RAID nie jest kopią zapasową! :)
źródło
ZFS by SUN (także część OpenSolaris; Apples OSX - obecnie tylko do odczytu) nie tylko rajduje na różnych poziomach, ale zawsze sprawdza, czy dane zapisane na dysku rzeczywiście tam są. spójność jest kluczem! RAID jest bezużyteczny, jeśli nie można polegać na jego integralności . Wybierz porządny kontroler RAID (wolę HP) i przeszukuj RAID, aby okresowo znaleźć błędy.
Z drugiej strony strach przed oprogramowaniem (jako ZFS) zapewnia większą niezależność sprzętową, jeśli kontroler RAID umrze i nie będzie można go dokładnie wymienić.
źródło
Zawsze. Dyski są tanie, a twoje informacje nie. Ale używaj programowego RAID, aby mieć elastyczność, aby przejść do przodu lub zmienić sprzęt później (zaufaj mi, będziesz go potrzebować). Używaj także systemu plików sumowania kontrolnego, takiego jak ZFS, w celu ochrony przed cichym uszkodzeniem danych (co obecnie jest bardzo prawdopodobne w przypadku dużych dysków).
źródło
Dla tych z was, którzy twierdzą, że nie użyjecie sprzętowego RAID, ponieważ jeśli kontroler ulegnie awarii i nie będzie można uzyskać identycznego zamienionego wkrętu, to zrobicie to źle.
Jeśli dostępność jest dla Ciebie tak ważna, NIE powinieneś kupować taniego sprzętu. Jak powiedziano wcześniej, używaj dobrego kontrolera RAID, HP, LSI, Dell itp.
Jeśli kontroler został zakupiony od producenta komputera, tj. Serwera Dell, z kontrolerem RAID firmy Dell, Dell poinformuje cię, jak długo będą magazynować te części, zwykle w ciągu ponad 4 lat od momentu zakupu tego serwera.
Jeśli ponowne uruchomienie szybko oznacza, że nie możesz czekać na dostawę, powinieneś kupić sobie drugi zapasowy kontroler, niezależnie od tego, kto go wykonał.
Jeśli skonfigurujesz jako RAID 1, możesz czasami wziąć jeden z tych dysków i upuścić je na normalnym kontrolerze w celu odzyskania danych. Jeśli jest to dla Ciebie ważne, potwierdź / przetestuj to na kontrolerze, zanim znajdziesz się w krytycznej sytuacji.
Sprzętowa macierz RAID zapisała mój tyłek 2x. Raz na serwerze poczty e-mail jeden z dysków uległ awarii, dostałem powiadomienie e-mail z oprogramowania do monitorowania nalotów na tej maszynie, zadzwoniłem do Dell i następnego dnia miałem nowy dysk, włożyłem go i wszystko przebudował sam. ZERO przestojów w tym przypadku
Po drugie, awaria dysku na starym serwerze plików, który został wymieniony na 6 miesięcy. Kontroler działał nadal i przenieśliśmy wymianę serwera do tego tygodnia. Zaoszczędzono kupując nowy dysk (ponieważ nie był on ostrożny) i ponownie ZERO przestojów.
Wcześniej korzystałem z nalotów na oprogramowanie i po prostu nie przywracają tak ładnie, jak sprzętowe. Musisz przetestować konfigurację, oprogramowanie lub sprzęt, aby upewnić się, że działa i wiedzieć, co zrobić, gdy brązowe elementy uderzą w wentylator.
źródło
Awarie dysków twardych są znacznie bardziej prawdopodobne na serwerze niż na stacji roboczej na komputerze ...
Nie można po prostu powiedzieć „dodając więcej punktów awarii” bez uwzględnienia prawdopodobieństwa tej awarii. Zwłaszcza, że te mniej prawdopodobne punkty awarii są specjalnie na miejscu, aby obalić bardziej prawdopodobne uszkodzenie dysku twardego. Jak to ująłeś, zasadniczo stworzyłeś błąd podobny do zakładu Pascala .
Większość systemów RAID na płytach głównych do komputerów stacjonarnych to tanie hybrydy programowo-sprzętowe, z większością prac wykonanych w sterowniku oprogramowania. IMHO są kawałkami gówna używanego do sprzedaży użytkownikom zaawansowanym.
Z drugiej strony, dobry rzeczywisty sprzętowy RAID jest dość niezawodny i ma sprzęt do robienia swoich rzeczy bez (pomimo?) Systemu operacyjnego. Ale te stają się drogie, ponieważ prawdziwy sprzęt zwykle ma kopie zapasowe baterii i pełną tablicę XOR do obliczania sum kontrolnych itp. Jeszcze droższe, jeśli robi się to za pomocą SCSI.
Podsumowanie: Jeśli korzystasz z macierzy RAID opartych na płycie głównej, to nie, nie warto.
źródło
Chociaż kopie zapasowe i macierz RAID są rozwiązaniami różnych problemów, większość „problemów z macierzą RAID” jest bardzo podobna do najczęstszego problemu z kopią zapasową (tzn. Nikt nie testuje przywracania) - nikt nie testuje odzyskiwania systemu. Inne problemy z macierzą RAID są często bezpośrednim skutkiem tego, że ludzie nie rozumieją, co robi, a czego nie. Na przykład wiele osób uważa, że RAID gwarantuje integralność swoich danych - tak nie jest.
W przypadku stacji roboczych, jeśli używasz RAID-0 w celu poprawy wydajności aplikacji związanych z IO lub RAID-1/5/6, aby utrzymać naukowca w wysokości 100 USD / godzinę przy awarii dysku twardego o wartości 80 USD, używasz odpowiednio RAID. Po prostu nie myl nadmiarowości dysku z kopią zapasową i przetestuj procedury w celu zapewnienia, że twoi informatycy zajmą się odzyskiwaniem.
źródło
Istnieją dwa rodzaje macierzy RAID
Niektóre systemy operacyjne mają dobre rozwiązanie do rajdowania oprogramowania (nie ma to nic wspólnego z kiepskimi kartami wspomnianymi powyżej). Rajd na oprogramowanie do systemu Linux jest szczególnie dobry, jego wydajność jest naprawdę dobra.
Raid może tylko poprawić niezawodność, nie jest to rozwiązanie zapasowe. Pliki można przypadkowo usunąć, wadliwy dysk może zwrócić (i zduplikować) złe dane na inne dyski w macierzy RAID, więc nadal potrzebne jest prawdziwe rozwiązanie do tworzenia kopii zapasowych.
źródło
RAID doskonale nadaje się do pracy bez przestojów, ale nie zastępuje tworzenia kopii zapasowych. Jak powiedział kiedyś kolega: „Wiesz, że przypadkowo usunąłeś coś? Och, RAID oznacza po prostu, że możesz dostać się do więcej niż jednego napędu w tym samym czasie”.
To powiedziawszy, tego dnia, kiedy wpychasz głowę do biura szefa i mówisz jej: „Nawiasem mówiąc, serwer bazy danych miał wczoraj awarię dysku twardego - nigdy nie upadliśmy, zakończyliśmy przebudowę na wolne o 5 rano i Wysłałem zły dysk w ramach gwarancji ”- wtedy RAID jest bezcenny.
źródło
Jaki jest twój wskaźnik awarii dysków twardych i kontrolerów RAID? Awaria kontrolera RAID powinna być znacznie niższa niż dysków. Jeśli masz wysoki wskaźnik awarii, możesz przyjrzeć się swojemu otoczeniu, na przykład wyładowaniom elektrostatycznym, które mogą powodować problemy.
W przypadku stacji roboczych możesz użyć nalotu programowego zgodnie z sugestią Alakdae, ponieważ nie będziesz musiał martwić się utrzymywaniem zapasów precyzyjnego kontrolera sprzętowego. Jednak powinieneś mieć wszystkie ważne informacje przechowywane na swoich serwerach, które mają rajd sprzętowy i są zapisane na różnych nośnikach.
Producenci sprzętu serwerowego utrzymują kontrolery rajdowe, więc nawet jeśli jest to starszy kontroler, zwykle możesz go uzyskać, jeśli zajdzie taka potrzeba (będzie to jednak kosztować dość grosza).
źródło
Wygląda na to, że wiele z powyższych postów zapomina o pierwotnym pytaniu i dyskutuje o RAID 1. Pytanie brzmiało: „Kiedy RAID jest tego warte?”. Cóż, to zależy ... Jeśli programiści wykonują wiele operacji odczytu i zapisu na swoich stacjach roboczych, konfiguracja RAID 0 byłaby tego warta. Dodanie większej liczby dysków do RAID 0 oczywiście przyspieszy i poprawi wydajność, ALE zwiększy prawdopodobieństwo awarii (dysku lub kontrolera).
Pracuję dla szkoły pielęgniarskiej, w której wdrożono około 500 komputerów Dell i prawie żadna z nich nie korzysta z RAID. Wydaje mi się, że mój typ użytkowników nie dostrzega wystarczającej korzyści, aby dodać złożoność systemu RAID na każdym komputerze. Martwię się bardziej o odzyskiwanie danych i obrazowanie dysku niż o szybkość RAID 0 lub nadmiarowość RAID 1. Oczywiście nie mówię o naszych serwerach produkcyjnych, to inna historia. Odzyskiwanie danych jest kluczowe, dlatego polegamy na innych metodach tworzenia kopii zapasowych, aby zapewnić więcej niż tylko nadmiarowość dysku. Jakikolwiek RAID nie pomoże, jeśli użytkownik przypadkowo usunie plik.
Aby odpowiedzieć na twoje pytanie IMHO ... RAID 0 na stacji roboczej jest tego warte, gdy użytkownik potrzebuje wydajności. (Upewnij się tylko, że utworzono kopię zapasową wszystkich danych importu.) Jestem pewien, że możesz sprawdzić przepustowość danych w istniejącej konfiguracji, aby sprawdzić, czy jest wystarczająca. RAID 1 powinien być używany w środowisku serwerowym, gdzie dostępne są kontrolery RAID wyższej klasy. Na stacji roboczej nie jest to warte wysiłku, ponieważ komplikuje wdrażanie, obrazowanie dysku i naprawy. Wiele z tych stacji roboczych jest wyposażonych w kontrolery RAID zbudowane na płycie głównej. Dobrze jest wiedzieć, czy płyta główna wychodzi na maszynę, zawsze mogę umieścić dysk w innym systemie, aby uzyskać dane.
źródło
Oprogramowanie RAID dla systemu Linux jest doskonałe i faktycznie przewyższa sprzętową macierz RAID niższej klasy. Ma również kilka optymalizacji, które mogą być przydatne dla stacji roboczej. Na przykład, może odczytywać różne rzeczy na każdym dysku w tym samym czasie, skutecznie podwajając czasy odczytu losowego dostępu, co jest częstym przypadkiem zastosowania w przeciwieństwie do operacji związanych z szybkością transferu zoptymalizowanych przez RAID 0 .
Jeśli chodzi o niezawodność, jest to bardzo dobrze utrzymana część jądra Linuksa, używana przez miliony, bardzo dobrze radzi sobie z awariami sprzętowymi, więc jest to oczywiste zwycięstwo pod względem dostępności. Używam go na moich osobistych stacjach roboczych, a także na kilkudziesięciu serwerach niższej klasy od lat, niektóre całkiem ładowane, i nigdy nie mogłem przypisać mu żadnej winy. Jednak w międzyczasie doświadczyłem kilkunastu uszkodzonych dysków.
(Wyższe sprzętowe karty RAID mają jednak inne funkcje, takie jak pamięć podręczna zapisu podtrzymywana bateryjnie. Zasadniczo zwielokrotnia prędkość zapisu zsynchronizowanego dysku przez dziesięć. Jest to absolutnie konieczne w przypadku baz danych, prawdopodobnie całkiem bezużyteczne dla stacji roboczych.)
źródło
Właśnie miałem awarię kontrolerów RAID na dwóch (identycznych) serwerach, ponieważ mamy te dwa komputery, na których nie mieliśmy awarii jednego dysku twardego w całej firmie.
Myślę, że RAID na pulpicie to zły pomysł, tanie kontrolery RAID, które zamierzasz zainstalować na tych komputerach, zawiodą na długo przed rzeczywistym dyskiem twardym.
Na serwerach może już nie będę ufać kontrolerom RAID, upewnij się, że masz zapasową maszynę i dobre kopie zapasowe.
źródło
Jestem programistą i wszystkie nasze stacje robocze używają RAID dla dysków wewnętrznych. RAID 0. Zdecydowanie warto. Nigdy nie chcesz wracać do kompilacji z jednego napędu 7200 RPM po wypróbowaniu pary 15000s.
Zostałem zakwestionowany, jeśli to RAID lub dysk 15k skraca czas kompilacji. Nie wiem, do kompilacji pojedynczy szybki dysk może dać dokładnie taką samą wydajność. Jednak pojedynczy dysk SAS nie jest szczególnie duży dla współczesnego komputera, więc w drogim macierzy RAID wciąż jest miejsce. To i wątpię, czy RAID kiedykolwiek pogorszy wydajność systemu.
Myślę, że ten rodzaj RAID jest z pewnością odpowiedni dla stacji roboczej i prawdopodobnie najlepiej go wykonać przy użyciu niedrogich kontrolerów pokładowych. Po stronie serwera większość naszych serwerów ma jakąś formę macierzy RAID dla dysku systemu operacyjnego, a dane znajdują się w osobnej tablicy o odpowiedniej formie. Nie wiem o naszych serwerach produkcyjnych, ale nasze serwery deweloperskie (których mamy sporo) nigdy nie miały awarii kontrolera, ale mieliśmy awarię dysków. W jednym przypadku mieliśmy awarię połowy tablicy systemu operacyjnego na pudełku SQL, podczas gdy była ona odbudowywana, drugi dysk nie działał! Czasami RAID1 to po prostu za mało!
źródło
Na naukowe stacje robocze może być tego warte, JEŚLI systemy te działają lepiej z danymi przechowywanymi lokalnie, w przeciwieństwie do udostępniania na serwerze plików. Jednak dla ogółu ludności powiedziałbym „nie”. Nie warto kłopotać się i boleć głowy, gdy wszystko, czego naprawdę potrzebujesz, to przywrócić dane, które powinny być przechowywane w zasobach.
źródło
RAID przydaje się tylko wtedy, gdy absolutnie pozytywnie nie można nieoczekiwanie wyłączyć serwera. Używamy RAID na wszystkich naszych serwerach w naszym centrum danych, gdzie nie ma innej formy redundancji. Na przykład nie używamy RAID na naszych serwerach WWW, ponieważ wciąż działa 10 innych.
Test lakmusowy brzmi: „jeśli dysk pęka w środku nocy i nie może czekać do 9 rano, potrzebuje RAID”
źródło
RAID jest warty kłopotów, jeśli masz kontroler zasilany bateryjnie.
W przypadku aplikacji serwerowych, które często fdatasync () logują pliki (co nie jest rzadkością w bazach danych) ze względu na trwałość, będziesz musiał pisać te same bloki w kółko. To zabije wydajność IO, jeśli nie masz kontrolera zasilanego baterią.
Jeśli masz kontroler zasilany bateryjnie, wiele zapisów nawet nie dotrze do dysków, zamiast tego pozostanie w pamięci, dopóki nie zostaną zastąpione innym zapisem. To coś dobrego.
Redundancja jest premią, ale nie jest niezbędna, ponieważ ważne rzeczy powinny być redundantne na poziomie systemu.
źródło
Tanie implementacje RAID są okropne.
Masz do wyboru, według kolejności niezawodności:
Wszystko inne wymaga kłopotów i rzeczywiście może skutkować niższą ogólną niezawodnością niż rozwiązanie inne niż RAID.
Zastanów się, co zrobić, jeśli kontroler ulegnie awarii, a producent nie działa.
Zastanów się, czy możesz naprawić problemy z widoczną awarią podwójnego dysku spowodowaną problemami z zasilaniem / okablowaniem.
To dwa przykłady spośród setek.
źródło
W przypadku stacji roboczych macierz RAID prawdopodobnie nie jest tego warta w porównaniu z posiadaniem nowego systemu, na którym można przywracać dane ...
Wielu mówiło o RAID 0 ... to nie jest po to, by pomóc w dostępności. Dwukrotnie zwiększasz ryzyko awarii wolumenu, ponieważ po śmierci jednego dysku tracisz wszystko. RAID 0 polega na szybkim dostępie do odczytu / zapisu na woluminie i zapewnianiu większej ilości miejsca. Jedynym sposobem, w jaki mogłoby to pomóc w środowisku biznesowym, jest wzięcie dwóch macierzy RAID 0 i ich odbicie lustrzane jako RAID 1.
Jak już wspomniano, RAID nie jest rozwiązaniem kopii zapasowej.
RAID również nie jest idealny. Myślę, że ten post z bloga tego faceta podsumowuje, co myślę o RAID i kiedy warto: Myślisz o RAID?
Na stacji roboczej powinna istnieć możliwość skłonienia jednej osoby do korzystania z innego systemu podczas wdrażania zamiennika. Dlaczego warto korzystać z RAID? Jego dane powinny być przechowywane na serwerze, na którym zarządzanie, integralność danych i kopie zapasowe są scentralizowane. Stacja robocza powinna być skonfigurowana w taki sposób, aby mogła być okresowo aktualizowana lub zmieniana w miarę możliwości finansowych, a RAID to kolejna warstwa kosztów i bólu głowy do zarządzania (plus problemy z zużyciem energii i ogrzewaniem z dodatkowymi napędami i impozycją przepływu powietrza). W większości przypadków dla firm prawdopodobnie znacznie bardziej opłacalne jest włożenie pieniędzy z karty RAID na większy dysk, a jeśli używasz RAID na pokładzie, nadal będziesz mieć problemy, ponieważ ma tendencję do wiązania RAID sformatuj płytę główną (zresztą i tak nie jest to prawda RAID ... znaleziono ją w wyszukiwarkach Google jako „fałszywy nalot”.
źródło
Po co zawracać sobie głowę stacją roboczą? Na pewno wszystkie centralne katalogi i dane są przechowywane centralnie. Właśnie tam chcesz użyć raidu.
źródło
Jeśli martwisz się o awarię kontrolera napędu, musisz również wziąć pod uwagę awarię serwera - wentylatory, płyta główna, pamięć RAM, sieć ... a następnie musisz również wziąć pod uwagę awarię routera, okablowanie oraz zasilanie ... i należy również wziąć pod uwagę awarię centrum danych (powódź, pożar, błąd ludzki), a następnie rozważyć awarię sieci zewnętrznej (odcięcie kabli - w niektórych miejscach cały czas!).
Krótko mówiąc, możesz martwić się przestojami witryny tak bardzo, że nigdy nie zawracasz sobie głowy umieszczaniem czegokolwiek w Internecie! Możesz też uwzględnić ryzyko niepowodzenia w stosunku do kosztów redundancji i uzyskać bardziej realistyczne podejście. I wszystkich rzeczy wymienionych, dysk twardy jest pojedynczy najprawdopodobniej punkt awarii.
To znaczy obok błędu ludzkiego. Kto pisał „
shutdown -h now
”, gdy chcieli zrestartować .... :(źródło
Moim wielkim zmartwieniem są dyski, ponieważ wydaje się, że nie można kupić tanich produktów:
Najważniejsze uwagi dostawcy:
„Większość kontrolerów RAID zaprojektowano z myślą o przekroczeniu limitu czasu określonego polecenia, jeśli napęd dyskowy przestanie odpowiadać w określonym przedziale czasowym. W rezultacie dysk pojawi się poza linią lub zostanie oznaczony jako zły, a klient zostanie ostrzeżony. Dyski klasy korporacyjnej (lub dyski zaprojektowane dla środowisk RAID) mają limit ponownych prób, zanim sektor zostanie oznaczony jako zły. Ten limit ponownych prób umożliwia napędowi zareagowanie na kontroler RAID w oczekiwanym czasie. Podczas gdy dyski stacjonarne mogą współpracować z kontrolerem RAID, macierz stopniowo przestaje działać w miarę starzenia się dysku i może spowodować utratę danych.
To wydaje mi się szalone, kolejna gotcha, która zapewnia, że dostawcy dysków otrzymają wiele zwrotów od ludzi, którzy „nie wiedzą lepiej”. Przeczytałem jednak, że Google sporządził oficjalny dokument (nie można tego znaleźć), który pokazuje, że nie ma różnicy w niezawodności dysku między dwiema „klasami” oferowanymi przez dostawców pamięci masowej. Wątpię jednak, czy Google używa sprzętowych kontrolerów RAID w swojej beżowej flocie.
Być może mdadm (w Linuksie) ma ustawienia, których można użyć, aby poradzić sobie z bardziej niecierpliwymi ustawieniami w oprogramowaniu sprzętowym do dysków stacjonarnych?
Być może w rzeczywistości wszyscy płacą za gwarancję poprzez okres „przerwania” w oprogramowaniu kontrolera?
źródło