Wysoka awaryjność dużych napędów?

24

Niedawno wdrożyłem serwer z 5 dyskami 1 TB (nie wspominam o ich marce, ale była to jedna z dwóch dużych). Początkowo ostrzegano mnie przed uzyskiwaniem dysków o dużej pojemności, ponieważ znajomy poinformował mnie, że mają one bardzo niski współczynnik MTBF, i lepiej byłoby uzyskać dyski o większej pojemności, ponieważ nie są one „przesuwane do granic możliwości” pod względem tego, co technologia sobie poradzi.

Od tego czasu trzy z pięciu dysków uległy awarii. Na szczęście udało mi się wymienić i odbudować tablicę przed awarią następnego dysku, ale bardzo mnie to martwi.

Jakie są Twoje myśli? Czy właśnie dostałem je w kiepskiej partii? A może dyski nowsze / o większej pojemności są bardziej podatne na awarie niż dyski wypróbowane i przetestowane?

Mark Henderson
źródło
2
Dlaczego nie wspominasz o marce? Myślę, że twoja partia to 7200.11 cudów, o których wiadomo, że mają tendencję do wczesnej śmierci.
Dani
W rzeczywistości były to Western Digitals ...
Mark Henderson
Dla przypomnienia wziąłem je wszystkie i odzyskałem wszystkie nowe, a one działają już od dwóch miesięcy bez żadnych problemów.
Mark Henderson
Miałem podobne doświadczenie. 16 napędów 1,5 TB. W pierwszych 4 miesiącach 4 ciężko zawiodło. W ciągu następnych trzech lat jedna miękka awaria.
David Schwartz

Odpowiedzi:

19

Prawdopodobnie masz złą partię. Z tego powodu denerwuję się wdrażaniem tablic zbudowanych z dysków z tej samej partii - prawdopodobnie mają one podobną żywotność, co sprawia, że ​​uzyskiwanie zamienników może być bardzo ekscytujące, gdy jeden z nich zawiedzie.

Nie jest wykluczone, że w dyskach występuje jakaś wada projektowa, co zdecydowanie zdarzyło się wcześniej; jednak zwykle Internet jest pełen skarg na dysk, jeśli naprawdę jest z nim coś nie tak, w przeciwieństwie do zwykłego hałasu w tle, który można znaleźć na cokolwiek.

David Mackintosh
źródło
6
+1 Spróbuj albo rozdzielić zakupy, pozyskać od różnych sprzedawców lub mieszać marki, aby to złagodzić.
Rob Allen
Lub można to złagodzić, „wypalając” dyski pochodzące z tego samego miejsca w tym samym czasie. Uruchom przeciwko nim program intensywnie zapisujący przez kilka godzin / dni; rozłożone czasy trwania, aby zasymulować odmienne starzenie. Stworzyłem prosty program o nazwie DriveTest, który zapisuje losowe dane psuedo, a następnie odczytuje je z powrotem i weryfikuje w celu „wypalenia” i jednoczesnego wykonania prostego stanowiska testowego. Ta wskazówka nie jest zalecana w przypadku dysków SSD.
rkagerer
13

Trudno odpowiedzieć na to pytanie, chyba że masz zasoby dużej organizacji. Zobacz badania Google dotyczące awarii dysku twardego .

Dokonując znacznego zakupu dysków, określę przybliżony rozmiar dysku przy najniższym koszcie na bajt, który jest generalnie starszy o jedną generację niż najnowszy. Ma to sens, że poprawią niezawodność tego pokolenia.

Knox
źródło
1
1,5 do 2 TB to teraz najnowsza zaleta, więc czy 1 TB nie spełnia twoich kryteriów? Są całkiem tanie.
Mark Ransom
Bardzo dobra uwaga.
Knox
10

Więcej talerzy + więcej głów oznacza większą szansę na niepowodzenie.

Weź dwa popularne dyski twarde WD

640 GB = dwa talerze
1 TB = trzy talerze

    WD Black 640GB vs 1TB comparison

Drive Ready Time 11 sec  13
R/W Power watts  8.3     8.4
Idle Power watts 7.7     7.8
Standby watts    1       1
Max shock        300g    250g
Performance seek 29      33
Quiet seek       26      29

Ten dodatkowy talerz = więcej hałasu, większe zużycie energii, więcej ciepła, wolniejszy czas gotowości napędu, bardziej podatny na uszkodzenia wstrząsowe i więcej wibracji.

Gdyby stworzyli ten sam napęd z tylko jednym talerzem, miałby jeszcze lepszą specyfikację. W tym przypadku są to dyski klasy konsumenckiej, ale są to dyski klasy wyższej z podwójną pamięcią podręczną i 5-letnią gwarancją. Zobaczysz podobną matematykę, jeśli dokładnie przejrzysz dokumentację dotyczącą dowolnej marki lub stylu tradycyjnego dysku twardego (talerze obrotowe). Z fizyki wynika, że ​​więcej talerzy sprawia, że ​​napęd jest mniej niezawodny.

Jeff Hengesbach miał również rację, kiedy powiedział

Głównym problemem w przypadku „dużych” dysków jest czas przebudowy w przypadku awarii. Im większy dysk, tym dłuższa jest przebudowa, tym większe jest okno na dodatkową awarię dysku i potencjalną utratę macierzy. W przypadku „dużych” dysków wartość biznesowa dostępności powinna określać poziom akceptowalnego ryzyka (utraty macierzy), który będzie decydował o wyborze poziomu macierzy RAID i liczbie dysków (więcej dysków = większe prawdopodobieństwo awarii dysku).

dodaj niewielką dawkę Graeme Perrow

Dysk z pięćdziesięcioma milionami sektorów ma dziesięć razy większą szansę na uszkodzenie niż dysk z pięcioma milionami sektorów. Zakładam, że wskaźnik awarii wśród dużych dysków i małych dysków jest tutaj taki sam, co prawdopodobnie nie jest dobrym założeniem

Więcej talerzy = źle
Więcej miejsca do przechowywania to mieszana torba. Plusy i minusy tego są liczne.
Im więcej sektorów, tym większa szansa na błędy. Niekoniecznie liniowa, ale zdecydowanie czynnik.

Chyba, że ​​potrzebujesz więcej miejsca niż niezawodności, sugerowałbym trzymanie się dysków pojedynczych lub podwójnych. Potrzebne są badania, a w niektórych przypadkach szczęście, aby dowiedzieć się, co dostaniesz przy zamawianiu dysków, ponieważ niektórzy producenci nie tylko unikają publikowania liczby talerzy, że w rzeczywistości mogą sprzedawać więcej niż jeden dysk pod tym samym numerem części.

Weźmy na przykład WD3200AAKS, że jest wersja z jednym talerzem 320 GB i wersja z podwójnym talerzem 320 GB (160 GB x 2). Oprócz tego używa się wielu etykiet i obudów dysków, więc nie można łatwo patrzeć na dysk i wiedzieć, który talerz jest w środku. Jedynym sposobem, aby wiedzieć, jest wyszukiwanie online, aby wiedzieć, że WD3200AAKS-00B3A0 i WD3200AAKS-75VYA0 powiedzą ci, który jest pojedynczy talerz, ale żaden sprzedawca nie powie ci, co dostaniesz.

pplrppl
źródło
1
Łał. To kilka dogłębnych rzeczy! Dzięki! Do tej pory nawet nie brałem pod uwagę liczby ruchomych części (talerzy).
Mark Henderson
3

Uważam, że wyższy niż normalny wskaźnik awaryjności wskazuje na każdą nową technologię. Zawsze mówiono mi, żeby nigdy nie kupować pierwszego roku modelowego samochodu, poczekaj, aż naprawią błędy. Powiedziałbym, że to samo prawdopodobnie dotyczy wielu innych rzeczy, w tym dysków twardych.

Logan
źródło
1
Mogę zaświadczyć o analogii całego samochodu (analogie samochodowe nigdy nie zbłądzą, prawda?). Przyznaję, że spieszyłem się i nie zbadałem go właściwie, a teraz płacę cenę!
Mark Henderson
3

Nie jestem pewien, czy można powiedzieć, że „duże” dyski mają wyższy MTBF, czy nie. Mam wielki system nazwisk z garstką dysków o pojemności 750 GB i przez ponad 2 lata żaden z nich nie zawiódł (750 było „dużych” 2 lata temu). Ale znam też duży system nazw, który został zbudowany, gdy 250 GB było duże i ta tablica przewróciła się kilka razy. Debata MTBF jest świętą wojną.

Głównym problemem w przypadku „dużych” dysków jest czas przebudowy w przypadku awarii. Im większy dysk, tym dłuższa jest przebudowa, tym większe jest okno na dodatkową awarię dysku i potencjalną utratę macierzy. W przypadku „dużych” dysków wartość biznesowa dostępności powinna określać poziom akceptowalnego ryzyka (utraty macierzy), który będzie decydował o wyborze poziomu macierzy RAID i liczbie dysków (więcej dysków = większe prawdopodobieństwo awarii dysku).

SATA / RAID dla biznesu pojawiło się w ostatnich kilku latach. Nie sądzę, by wielkie nazwiska oferowałyby to, gdyby wiedzieli, że będzie to poważny problem z pomocą techniczną lub źródło rozczarowania klientów. Byłbym ciekawy, czy Twoja niezawodność będzie postępować teraz, gdy zastąpisz część oryginalnej partii.

Jeff Hengesbach
źródło
1

Czy wszystkie są na tym samym komputerze lub kontrolerze dysku? Powiedziałeś, że musisz odbudować tablicę. Jeśli tak jest, to może coś jest nie tak z kontrolerem, zasilaczem lub pamięcią . Jeśli nie, zgadłbym również wadliwą partię napędów. Ponadto może występować problem ze zgodnością z dowolnymi konkretnymi dyskami używanymi z tym konkretnym kontrolerem.

Zastanawiam się także, kiedy ludzie mówią, że większe dyski mają wyższy współczynnik MTBF, jak to jest obliczane. Powiedzmy, że masz dyski 2x250 GB i 1x500 GB. Być może jest to naiwne, ale czy dysk, który pomieści dwa razy więcej danych, może zawieść? Wydaje mi się, że nie wiem, czy MTBF zawiera błędy odczytu lub zapisu, czy też oznacza to, że dysk ulega mechanicznej awarii. Czy ktoś wie, czy istnieje ścisły standard branżowy i definicja MTBF dla dysków twardych?

Kyle Brandt
źródło
1

Oto kilka rzeczy, które sprawdziłbym: 1) Czy numery seryjne na dyskach są dość zbliżone? Jeśli tak, możesz mieć wadliwą partię 2) Jak wygląda środowisko, w którym żyje twój serwer? Czy miałeś ostatnio problemy z awarią innego sprzętu? 3) Czy dyski to dyski Seagate Barracuda? Występują problemy z tymi dyskami. Zobacz ten artykuł w Computerworld . 4) Czy te dyski są częścią systemu? czy sam je kupiłeś? Jeśli kupiłeś dyski OEM, nie ma sposobu, aby zapewnić, że dyski były obsługiwane ostrożnie przed ich zakupem.

Osobiście miałem niesamowite szczęście z dyskami twardymi. Miałem tylko dwa dyski, które uległy awarii. Tylko jedna z tych awarii była na dysku, którego faktycznie używałem. Jednak wokół mnie widziałem, jak wiele osób traci dane na dyskach twardych.

cyberkni
źródło
Hmm, tak, wszyscy są bardzo blisko, ale to były WD, nie Seagates, i tak, to były dyski OEM ... kilka rzeczy, których tam nie rozważałem ...
Mark Henderson
1

Wyższy wskaźnik awaryjności dużych dysków może być po prostu funkcją wielkości dysków. Dysk z pięćdziesięcioma milionami sektorów ma dziesięć razy większą szansę na uszkodzenie niż dysk z pięcioma milionami sektorów. Zakładam, że wskaźnik awarii wśród dużych dysków i małych dysków jest tutaj taki sam, co prawdopodobnie nie jest dobrym założeniem - jak ktoś inny powiedział, fakt, że dyski terabajtowe są wciąż stosunkowo nowe, prawdopodobnie mają wyższy wskaźnik awaryjności do zaczynać się.

W twoim przypadku brzmi to jak zła partia dysków.

Graeme Perrow
źródło
1

Jeśli wszystkie dyski zostały zakupione w tym samym czasie z tego samego miejsca, możliwe, że wszystkie pochodzą z jednej niepewnej partii.

Przy zestawianiu macierzy RAID generalnie zalecam trochę miksowanie dysków, tj. Mieszankę producentów lub przynajmniej dysków różnych dostawców (aby zmniejszyć ryzyko, że wszystkie dyski pochodzą z jednej wadliwej partii).

Innym zaleceniem, które chciałbym zrobić, jest użycie mniejszych dysków, jeśli to możliwe (tj. Masz fizyczną przestrzeń dla dysków i portów kontrolera, aby je zawiesić), więc zamiast woluminu RAID 1 lub dwóch dysków 1 TB masz RAID 10 czterech jednostek 500 Gb. W ten sposób, gdy dysk się zepsuje, przebudowuje się tylko mniejszą tablicę, która jest częścią większej tablicy, zamiast odbudowywać całą tablicę (skracając czas, w którym tablica nie jest kompletna), a także oferuje nieco większą redundancję (w czterech z sześciu scenariuszy „awarii dwóch dysków jednocześnie” będzie działać macierz RAID10 z 4 dyskami). Możesz zrobić to samo z czesaniem mniejszych macierzy R5 w macierz R50, jeśli jest to obsługiwane przez kontroler / oprogramowanie RAID.

Być może jestem zbyt paranoikiem, ale bałem się ufać 1 TB danych na jednym dysku, nawet jeśli ten dysk jest częścią nadmiarowej tablicy.

Oczywiście w grze występują ograniczenia fizyczne, które mogą sprawić, że technika będzie dla ciebie niepraktyczna, ograniczenia poboru mocy również, więc YMMV. Jako „na przykład”, gdy tablica lub tablice nie są praktyczne: wolałbym mieć cztery dyski jako R10 na jednym z naszych serwerów tutaj zamiast większych dysków w tablicy R1, ale fizycznie nie ma miejsca , zakup / budowanie zewnętrznej macierzy skończyło się, a my nie mogliśmy wykorzystać miejsca na istniejącej macierzy, ponieważ dane musiały być fizycznie oddzielone od wszystkich innych danych ze względu na wymogi ochrony danych.

David Spillett
źródło
1

Ktoś przeprowadził bardzo szczegółowe badanie tego problemu większych dysków. Ma to związek z utrzymaniem stałego poziomu błędu bitowego, mimo że rozmiar dysku się zwiększył, oraz dłuższego czasu potrzebnego na odbudowę większych dysków. Obydwie łączą się, by doprowadzić drugą awarię podczas przebudowy do rzeczywistości. Wybrałbym dyski o pojemności 500 GB lub mniejszej w macierzach RAID.

Bobcov
źródło
1

Zawsze używaj dysków twardych o mniejszej pojemności do celów produkcyjnych. Nigdy nie sprawdzałem fizyki, ale mniejsze dyski po prostu rzadziej się psują. Tak zawsze mi wszyscy mówili.

Alakdae
źródło
0

Czy stworzyłeś tablicę zawierającą dyski z tej samej partii i wszystkie wysłane od tego samego dostawcy? Powiedziano mi, że to zła rzecz ...

thijs
źródło
0

Rozważ RAID-6. Szansa na błąd odczytu podczas rekonstrukcji RAID-5 jest bardzo realna. Lub RAID-Z z ZFS.

Brian Carlton
źródło