Czy kontrolery RAID często mają problemy ze zgodnością marki dysków SATA?

22

Zmagaliśmy się z kontrolerem RAID na naszym serwerze bazy danych, Lenovo ThinkServer RD120. Jest to rebrandowany Adaptec, który Lenovo / IBM nazywa ServeRAID 8k .

Poprawiliśmy ServeRAID 8k do najnowszej i najlepszej:

  • Wersja bios RAID
  • Wersja biuletynu RAID
  • Sterownik systemu Windows Server 2008

Ten kontroler RAID miał wiele krytycznych aktualizacji BIOS-u, nawet w krótkim 4-miesięcznym okresie, w którym go posiadaliśmy, a historia zmian jest po prostu… cóż, przerażająca.

Wypróbowaliśmy zarówno strategie zapisu jak i zapisu na logicznych dyskach RAID. Nadal występują sporadyczne błędy we / wy przy dużej aktywności dysku. Nie są one powszechne, ale poważne, gdy się zdarzają, ponieważ powodują przekroczenia limitu czasu operacji we / wy programu SQL Server 2008, a czasami awarię pul połączeń SQL.

Na końcu naszej liny rozwiązywaliśmy ten problem. Brakowało trudnych rzeczy, takich jak wymiana całego serwera lub wymiana sprzętu RAID, zaczęliśmy desperacko.

Kiedy pierwszy raz dostałem serwer, miałem problem z brakiem rozpoznania wnęki na napęd nr 6. Dziwnie zmieniając dyski twarde na inną markę, co dziwne, naprawiłem to - i aktualizację RAID BIOS (po raz pierwszy z wielu razy) naprawiłem na stałe, więc mogłem używać oryginalnego „niekompatybilnego” napędu we wnęce 6. Na przeczucie, zacząłem zakładać, że dyski twarde Western Digital SATA, które wybrałem, były w jakiś sposób niezgodne z kontrolerem ServeRAID 8k.

Zakup 6 nowych dysków twardych był jedną z tańszych opcji na stole, więc wybrałem 6 dysków twardych Hitachi (alias IBM, alias Lenovo) zgodnie z teorią, że kontroler RAID IBM / Lenovo ma większe szanse na pracę z dyskami, którymi zwykle jest sprzedawany z.

Wygląda na to, że przeczucie się opłaciło - przeszliśmy trzy najcięższe dni obciążenia (poniedziałek, wtorek, środa) bez żadnego błędu we / wy. Wcześniej regularnie mieliśmy co najmniej jedno „zdarzenie” we / wy w tym przedziale czasowym. Wygląda na to, że zmiana marki dysku twardego naprawiła nasze sporadyczne problemy z We / Wy RAID!

Chociaż rozumiem, że IBM / Lenovo prawdopodobnie testuje kontroler RAID wyłącznie na dyskach twardych własnej marki, niepokoi mnie to, że kontroler RAID miałby tak subtelne problemy we / wy z dyskami twardymi poszczególnych marek.

Więc moje pytanie brzmi: czy tego rodzaju niezgodność dysków SATA jest wspólna dla kontrolerów RAID? Czy istnieją jakieś marki dysków, które działają lepiej niż inne, czy też są „sprawdzane” względem konkretnego kontrolera RAID? Przyjąłem, że wszystkie dyski twarde SATA na rynku towarowym są do siebie podobne i będą działać całkiem dobrze w każdym kontrolerze RAID (o wystarczającej jakości).

Jeff Atwood
źródło

Odpowiedzi:

6

Tak , spotkałem się z tym z kartami niskiej klasy i błędnymi sterownikami. Jednak nie , nie na aktualnej rebrandowanej karcie Adaptec. Wow to wszystko co mogę powiedzieć. Jedną rzecz do rozważenia, być może jest to bardziej błąd napędu niż kontroler RAID.

Nie mam dobrej odpowiedzi, ale ponieważ wydaje się, że wyczerpałeś większość opcji innych niż wymiana karty, (i wymiana dysków załatwiła sprawę), oto kilka pomysłów, które możesz rozważyć przy rozwiązywaniu problemów:

  • Dyski WD były dyskami RE (RAID Edition), prawda? Ograniczone w czasie odzyskiwanie po błędzie jest ważne, więc jeśli go nie masz, a dysk próbuje odzyskać sektor, dostaniesz dłuższą pauzę z tego dysku. Jeśli kontroler RAID jest cierpliwy i nie upuszcza dysku, będziesz miał duży problem.

  • Sprawdź dane SMART na usuniętych dyskach i sprawdź, czy jest coś interesującego.

Kolejny komentarz na temat znaczenia funkcji ograniczonego czasowo odzyskiwania po błędzie (TLER) od wsparcia dostawcy NAS / RAID:

Jak wspomniałem wcześniej, zawsze zalecamy klientom używanie dysków klasy korporacyjnej, jeśli używają dysków w ustawieniach RAID. Dyski na poziomie korporacyjnym mają bardziej spójny czas reakcji, dzięki czemu RAID będzie bezpieczniejszy.

TorgoGuy
źródło
nie wiem, ale wykonali oni „specyficzne dla RAID odzyskiwanie po ograniczonym czasie”, jak pokazano na karcie specyfikacji tutaj. newegg.com/Product/Product.aspx?Item=N82E16822136143
Jeff Atwood
Tak, masz właściwe. (Zwróć uwagę na RE2 wymienione w tytule.) To zepsuło tę teorię! Oczywiście nadal sprawdzałbym dane SMART na wszelki wypadek (tak, wiem, że to rzadko przydatne) ...
TorgoGuy
okazuje się, że dyski były w końcu trochę niestabilne. Brent Ozar odziedziczył nasze stare dyski i musiał RMA przynajmniej jeden z nich z powodu dziwności.
Jeff Atwood
interesująca pokrewna dyskusja na temat funkcji TLER, którą niektórzy dostawcy uważają za specjalny bit oprogramowania, który odwracają, aby uczynić dyski magicznie „przedsiębiorczymi” .. fatwallet.com/forums/expired-deals/993547
Jeff Atwood
13

Nawet w przypadku zwykłych twardych dysków stacjonarnych innych niż RAID kupowanie dysków od dostawcy (przy oczekiwanym niedorzecznym znaczniku) może często mieć znaczenie. Na przykład Apple ostrożnie wysyła tylko dyski, które są w stanie honorować F_FULLSYNC fcntl()flagę Mac OS X , co znacznie poprawia niezawodność działania kopii zapasowych Time Machine .

Ponownie, jest to zwykły waniliowy pulpit bez RAID. Coś bardziej złożonego niż to i na pewno chcesz kupić, jeśli nie własne dyski drogie producenta, to przynajmniej modele napędów, które na pewno znasz, znajdują się na liście „zatwierdzonych” dostawcy.

Więc, aby odpowiedzieć na twoje pytanie, czy to jest powszechne? Powiedziałbym, że tak, bardziej powszechne niż mogłoby się wydawać, nawet poza sferą przedsiębiorstwa.

John Siracusa
źródło
Zdecydowanie dostałbym modele napędów, które sprzedawca zazwyczaj sprzedaje, jeśli zamierzasz wykonać modernizację dysku DIY, aby obniżyć koszty. Polecam również nie kupować napędów (lub kontrolerów), z którymi system dopiero się zaczął dostarczać, więc nie znajdziesz tego, kto znajdzie błędy! Z tego powodu SATA wydaje się bardziej niestabilna niż SAS z jakiegoś powodu ...
Christopher Edwards
4

Nie sądzę, że jest to powszechne. Jednak jak tylko zaczniesz korzystać z kontrolerów pamięci masowej dla przedsiębiorstw, niezależnie od tego, czy są to kontrolery SAN, czy niezależne kontrolery RAID, zazwyczaj warto raczej ściśle przestrzegać ich listy zgodności.

Możesz zaoszczędzić trochę pieniędzy na cenie naklejki, kupując tani asortyment dysków, ale to prawdopodobnie jeden z ostatnich obszarów, na których chciałbym zaoszczędzić pieniądze - biorąc pod uwagę znaczenie danych w większości scenariuszy.

Innymi słowy, wyraźna niezgodność jest bardzo rzadka, ale zalecane jest wyraźne przestrzeganie zgodności.

Mark S. Rasmussen
źródło
4

Nie marzyłbym o użyciu dysków SATA dla serwera - żaden z nich nie ma oczekiwanego cyklu pracy dysku o jakości serwera i nie ma bogatego zestawu poleceń SCSI / SAS do monitorowania wydajności i kondycji dysku. Serwery Lenovo są tanie i świetne, jeśli masz wiele serwerów, z których żaden nie jest tak ważny, ale istnieje powód, dla którego serwery HP z serii 300 stanowią 40% rynku - działają. W szczególności ich kontrolery dysków „SmartArray” są niezrównane pod względem niezawodności i wydajności, a ich gwarancja przed awarią jest pożądanym dodatkiem. Nie najtańszy, ale ile wart jest twój czas? Kupuję ich serwery (no cóż, Compaq po raz pierwszy TB) od dwudziestu lat i nie mam żadnych problemów z zakupem 500-800 nowych serwerów rocznie. Poważnie je sprawdź.

Siekacz 3
źródło
2

Odpowiedź jak zawsze brzmi „to zależy”.

W przypadku niektórych pamięci masowych dla przedsiębiorstw (powiedzmy EMC) dostawca specjalnie zakwalifikuje dyski, a nawet przejdzie do zakresu ładowania niestandardowego oprogramowania układowego.

Jak mówi Mark, uważam, że najlepiej jest śledzić listę zatwierdzoną przez dostawcę, jeśli taka istnieje. Początkowe oszczędności kosztów są przeważone przez czas poświęcony na polowanie na gremliny.

Jauder Ho
źródło
to prawda, ale „specjalne” dyski Hitachi SATA firmy Lenovo kosztują 250 USD, a ten sam dysk Hitachi mogę kupić za 60 USD. To różnica prawie 5-krotnie, innymi słowy .. 1250 USD w porównaniu do 300 USD. Jestem gotów przeprowadzić eksperymenty na wielki ..
Jeff Atwood
Wiem, że znaczniki są czasem śmieszne, powinieneś zobaczyć ceny napędów EMC! Ale sprowadza się to do tego, jak bardzo cenisz swoje dane. Posiadanie niezawodnego magazynu kosztuje $$$. Don MacAskill z Smugmug zachwycał się Sun 7410 i to może być coś, co chcesz sprawdzić.
Jauder Ho
Zastanawiam się, czy jest obsługiwana karta 3ware. Przez lata miałem z nimi dobre doświadczenia.
Jauder Ho
2

Masz kontroler SAS, może to być problem. Podczas gdy protokół SAS może być wykorzystywany do tunelowania poleceń ATA, sygnalizacja na poziomie fizycznym jest nieco inna (SAS wykorzystuje wyższe napięcie i szerszy mechanizm różnicowy). Prawie wszystkie kontrolery są w stanie komunikować się bezpośrednio z dyskami SATA, ale jeśli na środku jest (duża? Gówna?) Płyta, sygnał może zostać zakłócony. Zwykle w świecie korporacyjnym podłączanie sterowników SATA bezpośrednio do kontrolera SAS nie jest oficjalnie obsługiwane, powinieneś użyć interposer (mała karta logiczna, która łączy się bezpośrednio z dyskiem, który z jednej strony rozumie pełny protokół SAS, z drugiej mówi ATA - w ten sposób płyta montażowa przenosi wyższą sygnalizację SAS).

Nieco powiązane: miksowanie dysków SAS i SATA na tej samej płycie montażowej zwykle kończy się niepowodzeniem, ponieważ sygnalizacja wszystkich dysków (w tym SAS) jest obniżona do poziomu SATA.

Luca Tettamanti
źródło
1

Najprawdopodobniej dyski WD wymagają aktualizacji oprogramowania układowego . Zobacz tę notatkę IBM, aby pobrać i zastosować aktualizację. Jak widać z instrukcji , dyski WD są dalekie od jedynych z problemami.

Jeśli zamierzasz umieścić dyski w obciążającym środowisku serwera, z pewnością napotkasz więcej problemów niż w typowej konfiguracji pulpitu dla entuzjastów.

Mógłbyś może wypowiedzieć się na temat, dlaczego zdecydował się przejść z klasy pulpit Deskstar serii dysków zamiast / RAID klasy Enterprise Ultrastar serii? Czy uważasz, że dodatkowy koszt nie jest wart dodatkowej niezawodności i szybkości?

Peter Stuer
źródło
jeśli chodzi o dyski twarde, wierzę w wiele z nich - tanie i łatwo wymienialne macierze, których wydajność pochodzi ze skali.
Jeff Atwood,
Zachowaj ostrożność, używając dysków klasy stacjonarnej z kontrolerami pamięci klasy korporacyjnej. Dyski klasy korporacyjnej (zwykle) obsługują polecenia i zapytania, których dyski klasy stacjonarnej nie obsługują. Serwer korporacyjny, który kiedyś odziedziczyłem, korzystał z dysków klasy komputerowej i widziałem częste błędy, gdy kontroler próbował uzyskać informacje o temperaturze i kondycji dysków z dysków. Ponieważ kontrolery korporacyjne zakładają, że będziesz używać dysków korporacyjnych, kontroler nie mógł z wdziękiem obsługiwać dysku, który nie odpowiedział na te zapytania (ponieważ nie była to obsługiwana konfiguracja). To wszystko bardzo YMMV
bta
0

Jako inżynier współpracujący z kontrolerami RAID mogę powiedzieć, że niektóre dyski mają problemy z niektórymi kontrolerami RAID. Każdy dysk ma swoje dziwactwa, a każdy model dysku wymieniony na liście „kompatybilnych urządzeń” kontrolera będzie miał swoje dziwactwa uwzględnione przez kontroler. Aby model napędu pojawił się na liście, musi spełniać standardy producenta kontrolera dotyczące wydajności i niezawodności. Każdy dysk niewymieniony na tej liście może działać, ale ponieważ nie przeszedł tak rygorystycznych testów, jak „zatwierdzone” urządzenia, YMMV.

W szczególności protokół SATA pozwala na stosowanie specyficznych dla dostawcy (niestandardowych) poleceń, które mogą być zdefiniowane przez napęd lub kontroler. W twoim przypadku możesz zobaczyć kontroler, który oczekuje, że dysk zareaguje na określone zastrzeżone polecenie lub dysk, który spodziewa się zobaczyć zastrzeżone polecenie, które nigdy nie nadejdzie.

Inną możliwością jest to, że problematyczne dyski nie zachowują się zbyt dobrze przy pewnych obciążających obciążeniach, a zachowanie, które widzisz, wystarczyło, aby Adaptec / IBM nie wymienił tego modelu napędu jako obsługiwanego.

Niestety protokoły pamięci (SATA, SAS itp.) Nie są tak ładne, jak inne znormalizowane interfejsy (USB, PCI itp.), W których wszystko czego potrzebujesz to magistrala i urządzenie, które mówią tym samym językiem i wszystko jest w porządku. Zwłaszcza jeśli chodzi o sprzęt klasy korporacyjnej, producenci urządzeń i producenci napędów spędzają dużo czasu i energii na współpracy, zapewniając, że klienci uzyskują najlepszą możliwą wydajność z konfiguracji używanych przez większość klientów (tj. Przy użyciu napędów poza lista obsługiwanych urządzeń). Dysk niewymieniony na tej liście mógł zostać zaprojektowany tak, aby działał optymalnie z kontrolerem innej marki, a widoczne błędy są efektem ubocznym optymalizacji.

bta
źródło