Średni czas między awariami - SSD

32

Średni czas między awariami lub MTBF na tym SSD liście 1,500,000godzin.

To dużo godzin. 1,500,000godziny to mniej więcej 170lata. Ponieważ wynalazkiem tego konkretnego dysku SSD jest wojna powojenna, skąd wiedzą, co to jest MTBF?

Kilka opcji, które mają dla mnie sens:

  • Newegg ma po prostu literówkę
  • Wydaje mi się, że definicja średniego czasu między awariami nie jest
  • Używają pewnego rodzaju ekstrapolacji statystycznej, aby oszacować, jaki byłby MTBF

Pytanie:

W jaki sposób uzyskuje się średni czas między awariami (MTFB) dla dysków SSD / HDD?

OSE
źródło
Powiązane: serverfault.com/q/257693/126632
Michael Hampton

Odpowiedzi:

34

Producenci napędów określają niezawodność swoich produktów w oparciu o dwa powiązane wskaźniki: roczny wskaźnik awaryjności (AFR), który jest procentem dysków w populacji, które zawiodły w teście, skalowanych do rocznego oszacowania; i średni czas do awarii (MTTF).

Wskaźnik AFR nowego produktu jest zazwyczaj szacowany na podstawie przyspieszonych testów trwałości i warunków skrajnych lub na podstawie danych z wcześniejszych produktów. MTTF jest szacowany jako liczba mocy w godzinach rocznie podzielona przez AFR. Powszechnym założeniem dla dysków w serwerach jest to, że są one zasilane przez 100% czasu.

http://www.cs.cmu.edu/~bianca/fast/

MTTF wynoszący 1,5 miliona godzin wydaje się dość wiarygodny.

To byłby z grubsza test z 1000 napędami działającymi przez 6 miesięcy i 3 dyskami ulegającymi awarii.
AFR wynosiłby (2 * 6 miesięcy * 3) / (1000 dysków) = 0,6% rocznie, a MTTF = 1 rok / 0,6% = 1460 967 godzin lub 167 lat.

Innym sposobem spojrzenia na tę liczbę jest to, że masz 167 dysków i pozostawiasz je na rok, producent twierdzi, że średnio zobaczysz awarię jednego dysku.

Ale spodziewam się, że jest to po prostu stały „losowy” wskaźnik awarii mechanicznych / elektronicznych.

Zakładając, że wskaźniki awaryjności podążają za krzywą wanny , jak wspomniano w komentarzach, zespół marketingowy producenta może nieco masować liczby niezawodności, na przykład nie włączając DOA'S (martwy w dniu przyjazdu, jednostki, które przeszły kontrolę jakości, ale zawiodły, gdy użytkownik końcowy instaluje je) i rozszerzając definicję DOA, aby wykluczyć również te z wczesnego skoku awarii. A ponieważ testy nie są wykonywane wystarczająco długo, nie zobaczysz też efektów związanych z wiekiem.

Myślę, że okres gwarancji jest lepszym wskazaniem na to, jak długo producent naprawdę oczekuje trwałości dysku SSD!
To na pewno nie zostanie zmierzone za dziesięciolecia lub stulecia ...


Z MTBF związana jest niezawodność związana ze skończoną liczbą cykli zapisu, które komórki NAND mogą obsługiwać. Wspólną miarą jest całkowita pojemność zapisu, zwykle w TB. Oprócz innych wymagań wydajnościowych jest to jeden duży ogranicznik.

Aby umożliwić wygodniejsze porównanie dysków różnych marek i różnej wielkości, trwałość zapisu jest często przekształcana w dzienną pojemność zapisu jako ułamek pojemności dysku.

Zakładając, że
dysk może działać tak długo, jak długo jest objęty gwarancją: dysk SSD o pojemności 100 GB może mieć 3-letnią gwarancję i pojemność zapisu 50 TB:

        50 TB
---------------------  = 0.46 drive per day write capacity.
3 * 365 days * 100 GB

Im wyższa liczba, tym lepiej nadaje się dysk do intensywnego zapisu we / wy.
W chwili obecnej (koniec 2014 r.) Dyski SSD z serwerami wartości mają wartość 0,3-0,8 dysku / dzień, średni zakres stale rośnie z 1-5, a high-end wydaje się wystrzelić w górę z poziomem wytrzymałości zapisu do 25 * pojemność dysku dziennie przez 3-5 lat.

Niektóre rzeczywiste testy pokazują, że czasami twierdzenia dostawcy mogą zostać znacznie przekroczone, ale jazda samochodem daleko poza granice dostawcy nie zawsze jest rozważana przez przedsiębiorstwo ... Zamiast tego kupuj dyski o odpowiednich specyfikacjach dla swoich celów.

HBruijn
źródło
1
Należy pamiętać, że konwersja z AFR do MTTF zakłada stały AFR. Jest to zdecydowanie nieprawdziwe w przypadku rzeczy z ruchomymi częściami (np. Dyski twarde) i może nie być prawdą w przypadku dysków SSD.
Mark
Zdecydowanie prawda. IIRC występuje wczesny skok awarii, potem okres niskiej awarii, a następnie stały wzrost AFR wraz ze wzrostem wieku. Dodaj zmieniające się czynniki środowiska, a rzeczywista liczba na świecie będzie znacznie wyższa. Jak wspomniano w @Chris S, okres gwarancji może być lepszym miernikiem, który może mieć wpływ na rzeczywisty świat.
HBruijn,
Dobry widok otrzeźwiający, że MTBF na 1 500 000 godzin oznacza naprawdę „Jeśli mam 1000 SSD takich jak ten, 3 prawdopodobnie zawiedzie w ciągu 6 miesięcy (niektóre nawet wcześniej)…”. +1 (a ponieważ testy trwają krótko, spodziewaj się, że żywotność tych nie przekroczy zbyt wiele gwarancji ... „MTBF” prawdopodobnie spada znacznie, gdy twój dysk osiągnie N lat)
Olivier Dulac
1
@HBruijn Dziękujemy za twoją pouczającą odpowiedź. Zjawisko, o którym mówisz (wczesny skok awarii, okres niskich awarii, a następnie stały wzrost awarii) jest opisane krzywą wanny .
OSE
19

Niestety MTBF nie jest tym, co myśli większość ludzi ...

  • Nie chodzi o to, jak długo potrwa pojedynczy dysk.

    Producenci oczekują, że ich dyski będą działać tak długo, jak gwarancja, po czym tak naprawdę nie jest to ich problem. Starsze elektromagnetyczne dyski twarde z płytami zostaną zatarte po około 10 latach. Układy scalone działają wyjątkowo długo, ale inne elementy (zwłaszcza kondensatory) zużywają się po dość przewidywalnej liczbie cykli.

  • To jest , jak wiele z tych dysków trzeba byłoby się spodziewać 1 napęd na niepowodzenie co godzinę.

    Jak zauważyli inni, producenci przeprowadzają różne testy w rozsądnym czasie i określają wskaźnik awaryjności. Istnieje wiele różnic w tego rodzaju testach, a marketing często ma „wkład” co do ostatecznej liczby. Niezależnie od tego dokładają oni wszelkich starań, aby dowiedzieć się, ile dysków będzie potrzebnych do uśrednienia jednej awarii na godzinę.

    W sytuacjach z mniejszą liczbą napędów można wnioskować o statystycznym prawdopodobieństwie awarii na podstawie MTBF, ale należy pamiętać, że awarie w dobrze zaprojektowanych produktach powinny przebiegać zgodnie z krzywą „wanny” - to znaczy wyższymi wskaźnikami awarii, gdy urządzenia są początkowo oddawane do użytku i później okres gwarancji wygasł, z niższymi wskaźnikami awarii pomiędzy.

Chris S.
źródło
2

Pochodzą one z oceny statystycznej opartej na małej liczebności próby i krótkim czasie. Naprawdę nie ma powszechnie uzgodnionej metody ani procesu, więc jest to po prostu głupie „marketing”.

Ten artykuł może to trochę wyjaśnić. A Wikipedia ma pewne formuły, które mogą być tym, czego szukasz?

Zasadniczo w przypadku prawie wszystkiego (w tym ogólnych urządzeń gospodarstwa domowego, takich jak zmywarka do naczyń), kilka produktów działa przez X czasu. Ile awarii wystąpi w tym okresie jest używanych do obliczenia MTFB.

Oczywiście nie jest możliwe prowadzenie produktów przez cały cykl życia, tj. Dyski SSD, które będą trwać długo. Są one w większości ograniczone liczbą zapisów, a nie usterką mechaniczną (do czego służy MTFB)

Bhavicp
źródło
2

Złą wiadomością o MTBF jest to, że powszechnie stosowane metody oceny zakładają równomierne rozłożenie obciążenia zapisu między wszystkimi komórkami NAND. Ale komórki są pogrupowane w klastry, a gdy jedna pojedyncza komórka ulegnie awarii - cały klaster zostanie oznaczony jako martwy i zastąpiony nową z rezerwy. Zazwyczaj rezerwa stanowi około 20% wolumenu SSD. Po wyczerpaniu rezerwy cały dysk SSD zostanie oznaczony jako martwy.

Dysk SSD IRL zawiera trwałe dane oraz dane niestabilne. Wyobraź sobie, że masz 90% dysku SSD wypełnionego danymi statycznymi, a 10% reszty jest pod dużym obciążeniem zapisu. Kontroler SSD rozkłada obciążenie na dostępne bezpłatne klastry. To 10% wyczerpuje ich żywotność 10 razy szybciej niż szacujesz. Będą one ponownie zastępowane z rezerwy do końca.

W naprawdę złym przypadku, gdy ilość trwałych / niestabilnych danych wynosi 30: 1 lub więcej, na przykład - stos zdjęć i stosunkowo niewielka baza danych popularnej strony internetowej, twój dysk SSD umrze za rok.

Jeden z moich klientów był pod wrażeniem właściwości SSD i nalegał, aby wyposażyć swój serwer DBMS w parę. W ciągu następnych 12 miesięcy wymieniliśmy oba z nich dwukrotnie.

Jednak zgodnie z materiałami marketingowymi żywotność dysku SSD wynosi 170 lat. Pewnie.

Kondybas
źródło
1

MTBF nie ma znaczenia przy pomiarze wytrzymałości dysku SSD, ponieważ dysk SSD nie jest wrażliwy na czas jak zwykły wirujący dysk HDD, ale na liczbę ponownych zapisów dla komórek SSD. Bardziej istotną miarą dla dysku SSD jest zapis danych na dysku dziennie (DWPD) . Na przykład niektóre dyski SSD klasy korporacyjnej o pojemności 3,2 TB byłyby 3 DWPD na 5 lat.

Czasami dostawca SSD zapewnia wytrzymałość w kategoriach (Total) Terabytes Written (TBW) lub „Write Cycles”, które można łatwo przetłumaczyć na DWPD i odwrotnie, znając czas i maksymalną przepustowość dla danego dysku SSD.

W podanym przykładzie z dyskiem SSD 3,2 TB:
TBW = DriveSize * Lata * DWPD;
TBW = 3,2 TB * 5 * 365 * 3d = 17520 TB przez 5 lat

Jeśli dysk zapewnia 80 MB
bajtów na sekundę trwałej przepustowości zapisu, wówczas WriteCycles = DWPD * Lata;
WriteCycles = 3 * 365 * 5 = 5475 wszystkich cykli zapisu dla danego dysku

Ważne jest, aby zauważyć, że obliczamy najgorszy przypadek, jeśli zapewnisz 100% przepustowości wykorzystania dysku (co najprawdopodobniej nie jest możliwe).

BBK
źródło