Czy potrzebuję drugiego kontrolera RAID w celu zapewnienia odporności na uszkodzenia?

9

Mam zainstalowany serwer z 3 dyskami twardymi o łącznej pojemności 6. Planujemy go maksymalnie zwiększyć, ale nasz konsultant zasugerował także zakup drugiego kontrolera RAID „w celu zapewnienia nadmiarowości” w celu obsługi nowych dysków. Dla mnie to nie ma większego sensu. Nawet gdy drugi kontroler RAID obsługuje połowę dysków, nadal utknęliśmy tylko z połową naszych dysków / programów / danych, jeśli jeden z kontrolerów zginie (co nie jest dużo lepsze niż uruchamianie bez żadnego). Umieszczamy vmware na serwerze, a on niejasno wspomniał o niektórych zaawansowanych funkcjach odporności na awarie / przełączania awaryjnego, ale jeśli dyski są niedostępne z powodu awarii kontrolera, jak to powinno działać?

Licząc tylko powody nadmiarowości, a nie wydajność, dlaczego miałbym chcieć mieć drugi kontroler RAID na moim serwerze?

raid fault-tolerance Bigbio2002
źródło

Widziałem historię, kiedy zawiódł jedyny kontroler RAID, dzięki czemu wielodyskowa pamięć RAID, którą sam obsługiwał, była nie tylko bezużyteczna, ale nawet wszystkich danych tam niemożliwych do odzyskania. To był ciężki cios dla firmy. Ostatecznie większość danych została zrekonstruowana z plików znalezionych na stacjach roboczych. Całkowity wstyd. Zawsze odbijaj dane w niezależnym klastrze dysków z oczywiście innym kontrolerem. Nigdy nie zakładaj, że RAID 6 uratuje ci życie we wszystkich przypadkach, jeśli będziesz polegać na jednej małej karcie, która nagrzewa się do 80 ° C podczas pracy przez wiele lat 7/24.

h22

Odpowiedzi:

11

W projekcie „wysokiej dostępności z pojedynczym pudełkiem”, tak, chciałbyś drugiego kontrolera, najlepiej również na drugiej magistrali. Ale takie podejście ustąpiło miejsca tańszemu projektowi opartemu na klastrowaniu, w którym awaria jednego urządzenia nie zatrzymuje usługi. To zależy od tego, czy planujesz używać środowiska klastrowego, czy polegać na pojedynczym pudełku. Nawet jeśli twoja odpowiedź brzmi: posiadanie podwójnych kontrolerów może być postrzegane jako zwiększające złożoność i być może nadmierne umiejętności.

edytuj - na podstawie twojego komentarza na temat używania ESXi do drugiego pytania muszę powiedzieć, że jego klastrowanie jest wspaniałe , mamy wiele 32-drogowych klastrów, które działają doskonale.

Siekacz 3
źródło

AFAIK, nie będziemy używać klastrowania. Jakie korzyści przydałby mi drugi kontroler w jednym pudełku? Czy istnieje coś takiego jak przełączanie awaryjne kontrolera?

Bigbio2002,

1

Nie w świecie ESX / ESXi nie - jeden byłby w porządku, upewnij się, że masz kontroler, który utworzy jedną dużą tablicę R10 ze wszystkich 6 dysków, ale pozwoli ci na utworzenie tych 2 TB (lub mniej) dysków logicznych w porządku. Seria HP Pxxx pozwala to zrobić przy okazji.

Chopper3

7

Drugi kontroler RAID, który jest aktywnie używany, nie służy do nadmiarowości. Tylko jeśli jest to kontroler rezerwowy, w którym przełączasz wszystkie dyski, gdy pierwszy umiera. Masz wtedy redundancję (dla kontrolera). Ale uważaj na to, jak tu zamieszczono .

Zatem RAID służy do nadmiarowości dysków prowadzącej do pojedynczego punktu awarii w kontrolerze. Mając na drugi (nieużywany) kontroler może rozwiązać ten problem, jak mogłoby przełączać cały dysk na nowy. Jeśli to działa, zależy od innych czynników ...

Nie jestem native speakerem, ale dla mnie „tolerancja na awarie” to coś innego niż „redundancja”. Czy ktoś, kto mówi po angielsku, może mi tutaj pomóc?

mailq
źródło

Redundancja jest sposobem na uzyskanie odporności na uszkodzenia :). Szukałem czegoś w stylu zimnego trybu gotowości lub kontrolera awaryjnego. Czy jest to obsługiwana funkcja, czy też musiałbym ręcznie wymieniać karty?

Bigbio2002,

Nigdy nie widziałem kontrolera, w którym przełączanie dysków odbywa się automatycznie. Dzieje się tak dlatego, że nie szukałem go, lub dlatego, że nie wyobrażam sobie, jak należy kable między jednym dyskiem a dwoma kontrolerami.

mailq

Dyski z podwójnym portem są dość powszechne w środowiskach korporacyjnych (pomyśl o półkach SAN) - ale oczywiście ceny rosną 2 lub 3 razy.

adapttr

3

W jednym urządzeniu potrzebne są dwa kontrolery RAID podłączone do dwóch różnych kompleksów głównych PCI-E, aby uzyskać pełną nadmiarowość podsystemu we / wy. Można to osiągnąć za pomocą dwóch różnych konfiguracji:

korzystaj z kosztownych podwójnie dyskowych dysków SAS, a każde łącze SAS jest podłączone do innego kontrolera. W ten sposób każdy kontroler jest podłączony do każdego dysku. Oczywiście, dwa kontrolery nie mogą działać na dyskach jednocześnie; pewna forma blokowania / ogrodzenia jest niezbędna do koordynowania dostępu do dysków. SCSI ma specjalne postanowienia zapewniające niezbędny mechanizm ogrodzenia, ale muszą one być koordynowane przez odpowiednie oprogramowanie. Innymi słowy, nie można po prostu podłączyć dysku do dwóch kontrolerów i nazwać go dniem; potrzebujesz raczej odpowiedniej konfiguracji oprogramowania, aby działało bez problemów;
używaj normalnych i tańszych pojedynczych dysków SAS / SATA, łącząc ich połowę z każdym kontrolerem. Na przykład w przypadku 6 dysków należy podłączyć 3 dyski do kontrolera i 3 dyski do innego kontrolera. Na każdym kontrolerze skonfiguruj odpowiednio macierz RAID (np .: RAID 5 lub RAID1). Następnie na poziomie systemu operacyjnego można skonfigurować programową macierz RAID między dwiema macierzami dyskowymi, uzyskując pełną nadmiarowość macierzy. Chociaż jest tańsze, to rozwiązanie ma tę dodatkową wadę, że skutecznie zmniejsza o połowę pojemność pamięci (ze względu na poziom oprogramowania RAID1).

Kluczowym problemem w obu przypadkach jest to, że nie masz pełnej nadmiarowości systemu: problem z płytą główną / procesorem może doprowadzić do awarii całego systemu, niezależnie od ilości posiadanych kontrolerów / dysków.

Z tego powodu ostatnio rzadko stosuje się tego rodzaju nadmiarowość w pudełku (poza wdrożeniami SAN klasy średniej / wyższej); raczej klastrowanie / dublowanie sieciowe zyskuje szeroką trakcję. Dzięki klastrowaniu (lub dublowaniu sieci) masz pełną nadmiarowość systemu, ponieważ pojedynczy uszkodzony system nie może negować dostępu do danych. Oczywiście grupowanie ma swoje pułapki, więc nie jest to srebrna / łatwa kula, ale w niektórych sytuacjach jej zalet nie można zaprzeczyć. Co więcej, możesz również użyć asynchronicznego zapisu lustrzanego sieci, aby uzyskać nadmiarowość danych prawie w czasie rzeczywistym w różnych lokalizacjach geograficznych, dzięki czemu jedno katastrofalne zdarzenie nie spowoduje spustoszenia w danych.

Shodanshok
źródło

W przypadku niektórych rodzajów danych kopia, która jest tylko w połowie zaktualizowana (ponieważ synchronizacja nie powiodła się w połowie), może być bezużyteczna. Baza danych jest typowym przykładem, ale także różne kody źródłowe i zestawy danych z dużą ilością małych plików, które są od siebie ściśle zależne.

h22

Zależy to od podstawowego mechanizmu replikacji. Na przykład DRBD umożliwia korzystanie z pełnej (protokół C) lub prawie pełnej (protokół B) replikacji synchronicznej. Oznacza to, że gdy zapis jest potwierdzany na hoście źródłowym, jest on faktycznie zatwierdzany na zdalnym hoście również Innymi słowy, bariery zapisu są honorowane na obu hostach). Dzięki takiej gwarancji każdy solidny system plików / baza danych powinien zostać przywrócony bez problemów.

shodanshok

Tak, niektóre bazy danych obsługują replikację, a niektóre inne aplikacje również. Z tymi są oczywiście znacznie łatwiejsze w pracy.

h22

1

Potrzebujesz dwuportowych dysków SAS, aby zapewnić faktyczne przełączanie awaryjne na wielu kontrolerach. Chociaż istnieją, jest zdecydowanie odznaczony - nie w przedziale cenowym pojedynczego serwera, który ma tylko pamięć wewnętrzną.

Są to technologie często stosowane w systemach SAN, w których śmierć kontrolera jest prawdziwym problemem.

W przypadku pojedynczego serwera bez innych funkcji przełączania awaryjnego drugi kontroler nic nie zyska - będzie to po prostu kosztować więcej pieniędzy i zapewnić konsultantowi większy zysk.

adapttr
źródło