Mean Time to Failure (MTTF): Kiedy producenci dysków publikują to, jak należy interpretować ich liczby?

10

Średni czas do awarii (MTTF) jest zwykle podawany w godzinach, a po przeprowadzeniu niektórych obliczeń wydaje się, że dysk powinien ulec awarii dopiero po upływie dużej liczby lat.

Wygląda na to, że dyski wymagają naprawy częściej. Czy ktoś wie, dlaczego tak jest?

Uznałem, że w tej metodzie jest coś podejrzanego. Czy interpretuję tu coś nie tak?

Kaitlyn Mcmordie
źródło

Odpowiedzi:

14

Po pierwsze:

MTTF = średni czas do awarii
MTTR = średni czas do naprawy
MTBF = średni czas między awariami = MTTF + MTTR

MTBF jest często mniej więcej równy MTTF, ponieważ naprawa może potrwać godzinę, a MTTF może trwać kilkadziesiąt tysięcy godzin. Ale również MTBF często nie ma zastosowania, ponieważ wadliwe produkty nie są naprawiane, ale po prostu wymieniane, ponieważ naprawa kosztuje więcej niż wymiana.

Obliczanie MTTF jest złożoną metodą statystyczną polegającą na obliczaniu prawdopodobieństwa niepowodzenia każdej poszczególnej części. I nie jest to kwestia liniowa, jak ludzie czasem zakładają. Jeśli masz MTTF wynoszący 1000 000 godzin, nie oznacza to, że na 1000 urządzeń nastąpi awaria po 1000 godzinach lub że wystąpi awaria na 1000 000 urządzeń po 1 godzinie.
Wiele urządzeń elektronicznych stosuje się do „krzywej wanny” ,

wprowadź opis zdjęcia tutaj

tam, gdzie na początku jest wiele awarii, to przez długi czas prawie żadnych awarii, a pod koniec życia liczba awarii ponownie wzrasta. Na dyskach twardych znajdują się również części mechaniczne, które mają bardziej liniową krzywą uszkodzenia; to powoli wzrasta od 1 dnia.

Jeśli producent podaje na przykład 1000 000 godzin MTTF (najczęściej POH lub Power-On Hours), oznacza to, że dysk powinien trwać średnio > 100 lat. Niektóre dyski będą działać dłużej, niektóre zawiodą wcześniej. Tak więc pomimo 1000 000 godzin jest całkowicie możliwe, aby mieć awarię po 1000 godzinach. Raz miałem awarię napędu w ciągu tygodnia, a potem musicie przemyśleć krzywą wanny. Dysk zastępczy obraca się szczęśliwie od ponad 50 000 godzin.

stevenvh
źródło
3
Warto zwrócić uwagę na fakt, że wczesne awarie są często nazywane wypalaniem. Producenci, którzy mają znacznie niższe wczesne awarie, często uruchamiają urządzenia w fazie docierania. Również, że czyste elektronika nie wykazują zużywają się okres i tylko palić w.
Kortuk
1
Pamiętaj, że podczas obliczania MTTF (lub MTBF) zwykle używasz tylko jednego rozkładu do modelowania awarii. Dlatego obliczenia te oparte są na rozkładzie „śmiertelności niemowląt”, „normalnym życiu” lub „zużyciu na koniec życia”. Jedyną rzeczą, która wyróżnia te trzy rozkłady, jest parametr kształtu Weibulla, jeśli używasz Weibulla jako podstawowego rozkładu. Jedynym przypadkiem, w którym awarie wynikałyby z rozkładu „normalnego życia”, jest sytuacja, w której czas nie miałby wpływu na wskaźnik awaryjności, a zatem rozkład byłby wykładniczy.
2
MTTF jest przede wszystkim przydatny jako wskaźnik tego, jakiego rodzaju życia należy oczekiwać od urządzenia lub widżetu. Z oczywistych względów nie może to być dokładna prognoza daty awarii urządzenia. Jest to jedynie szacunek oparty na analizie statystycznej dostępnych danych i należy go traktować wyłącznie jako taki. Przydatne do budżetowania (jak długo należy tutaj amortyzować lub amortyzować koszty) i planowania (jak długo możemy oczekiwać, że widżet będzie działał, zanim będziemy musieli zdobyć następny).
music2myear
Po pierwsze, czym dokładnie jest „awaria dysku”?
Kaitlyn Mcmordie
2
@Kaitlyn - Chyba masz na myśli złe sektory. Powiedziałbym, że awaria dysku występuje wtedy, gdy nie można już czytać ani zapisywać na dysku. Zwykle błąd mechaniczny, taki jak wypadek głowy. Zwykle dzieje się tak, gdy wciąż pozostaje wiele dobrych sektorów.
stevenvh
4

Jeżeli MTBF użytkuje dany sprzęt na poziomie 1 000 000 godzin, nie oznacza to, że można oczekiwać, że jakikolwiek sprzęt przetrwa 1 000 000 godzin. Oznacza to raczej, z grubsza, że ​​jeśli 1 000 000 sztuk urządzeń, które mieszczą się w ich znamionowym okresie użytkowania, są eksploatowane przez godzinę lub 100 000 sztuk w ciągu dziesięciu godzin (ale nadal w ciągu nominalnego okresu użytkowania), lub 60 000 000 w ciągu jednej minuty itp. na działce będzie mniej więcej jedna awaria. Należy pamiętać, że znamionowy okres użytkowania usługi jest całkowicie prostopadły do ​​MTBF. Rozważ następujące dwa typy widżetów:

  1. Każdy widget, niezależnie od wieku, ma 0,1% szansy na awarię co godzinę.
  2. Z każdego miliarda widżetów wszystkie oprócz jednego będą działać dokładnie 61 minut, a następnie umrą; ten umrze po 30 minutach; Widgety mają określony okres użytkowania 60 minut.

Pierwszy typ widgetu miałby średni czas życia wynoszący około 1000 godzin, a także miałby MTBF około 1000 godzin. Drugi miałby średni czas życia wynoszący 61 minut, ale średni czas MTBF wynoszący 1 000 000 000 godzin w okresie użytkowania. Choć może wydawać się dziwne stwierdzenie, że drugie urządzenie ma MTBF, który jest prawie miliard razy dłuższy niż oczekiwany okres użytkowania, MTBF nie jest wcale bez znaczenia.

Załóżmy, że ktoś przeprowadzi eksperyment, który wymaga, aby 1 000 000 urządzeń działało idealnie przez godzinę, po czym wszystkie zostaną zezłomowane. Jeśli jakieś urządzenie ulegnie awarii, cały eksperyment zostanie zniszczony. Co byłoby bardziej przydatne - urządzenie, które wytrzyma średnio 1000 godzin, ale ma średni czas MTBF tylko 1000 godzin, lub urządzenie, które przetrwa najwyżej 61 minut, ale miałoby tylko jedną z miliardową szansą na niepowodzenie spotkać ten znak?

supercat
źródło
Podsumowując, nie powinniśmy postrzegać MTBF wynoszącego 10 ^ 6 godzin jako „średniego czasu życia” określonego dysku, a raczej jako miernika dotyczącego czasu życia wielu dysków?
Kaitlyn Mcmordie
@Kaitlyn Mcmordie: Termin „dożywotni” nie ma tak naprawdę zastosowania; śmierć nie oznacza porażki ani odwrotnie. Producent urządzenia pamięci masowej może określić procedury, których należy przestrzegać, aby uniknąć utraty danych; takie procedury mogą obejmować przeniesienie wszystkich danych z dowolnego urządzenia, które daje wskazanie „bezpośrednie zagrożenie” na nowe urządzenie (po skopiowaniu danych stare urządzenie zostanie uznane za „martwe”). Jeśli w wyniku takiego zdarzenia nie nastąpi utrata danych, nie oznacza to awarii. Utrata danych z dowolnego urządzenia, jednak nawet pozornie zdrowego, jest awarią. Nie ma nic wspólnego z życiem.
supercat
2

Dodanie do odpowiedzi stevenvha: wszyscy znani producenci dysków robią wypalanie nowych urządzeń, podobnie jak producenci komponentów elektronicznych. Na dyskach twardych istnieje nie tylko ogólny MTBF i MTTF, ale także indywidualne statystyki awarii dla bloków dysków. Innymi słowy: niektóre części wirującego „talerza” na dysku mogą zawieść, podczas gdy większość nadal odczytuje / zapisuje poprawnie. Tak zwane „uszkodzone sektory” mogą zostać wykryte, a następnie zmapowane przez oprogramowanie wewnętrzne napędu.

Wszystkie dyski zawierają obecnie dodatkowe sektory w rezerwie, które można następnie wykorzystać zamiast sektorów uszkodzonych. Jest to po prostu środek ostrożności producenta: gdyby tego nie zrobili, nie mogliby sprzedać dysku o deklarowanej pojemności. Jeśli wbudują dodatkowe x% ukrytych sektorów jako rezerwę, zwiększą koszty o około <x%, ale osiągną znacznie wyższą ogólną wydajność produkcji.

Dyski dzisiaj przechowują wiele uszkodzonych sektorów, które można również odczytać za pomocą odpowiedniego oprogramowania. Ten i inne parametry kondycji dysku (np. Temperatura) nazywane są wartościami SMART .

Teraz, gdy producent wykona test wypalenia dysku, a niektóre sektory mają prawie awarię i zostały ponownie mapowane przez wewnętrzne oprogramowanie napędu, parametr SMART „Zła liczba sektorów” jest ustawiony na 0. Następnie napęd jest dostarczany do klientów.

Zwykle po procesie wygrzewania klient już nie widzi początku wspomnianej krzywej wanny. Mamy szczęście i z czasem widzimy jedynie wzrost prawdopodobieństwa niepowodzenia.

Więc jeśli spojrzysz na MTTF cytowany przez producenta, w przypadku dowolnego modelowania awarii, które możesz chcieć zrobić, możesz zignorować początek krzywej wanny.

por
źródło
Dziękuję Ci. A tak w ogóle, czy masz pojęcie, co oznacza termin „awaria serwera”?
Kaitlyn Mcmordie
Oczywistym znaczeniem jest błąd napotkany przez komputer, który świadczy usługi na rzecz innych. I uważam, że to czas, w którym powinieneś zadawać pytania na serverfault.com ;-) Nie mogłem nic na ten temat znaleźć w FAQ
cfi
-2

Powinieneś interpretować to jako marketing. W rzeczywistości nie znają dokładnego MTBF (średniego czasu między awariami), więc używają różnych sztuczek, aby go oszacować, i pokazują wyższe liczby dla dysków „korporacyjnych”, aby uzasadnić swój koszt.

W rzeczywistości opłaca się producentom dysków twardych, aby ich dyski uległy awarii wkrótce po zakończeniu gwarancji.

Jako teoria spisku uważam, że masowa awaria Seagate 7200.11 była błędem w implementacji „programowanej śmierci”, powodując awarię dysków przed końcem gwarancji, więc musieli to „naprawić” przez aktualizację oprogramowania.

BarsMonster
źródło
Nie kupuję tego spisku.
1
@Federico Russo: Dlaczego? Myślisz, że to zwykły błąd programisty, powodujący blokowanie dysków twardych w stanie niemożliwym do odzyskania po określonej liczbie godzin?
BarsMonster,
2
-1: Analiza statystyczna służy do określania liczb MTBF i jest znana pewnej statystyce - nie używają one tylko „różnych sztuczek”. Będziesz potrzebować kilku znaczących źródeł, aby poprzeć swoje twierdzenia, że ​​dyski dla przedsiębiorstw są po prostu wyższymi liczbami, że dyski twarde ulegają awarii po upływie gwarancji i że Seagate stosuje w swoich dyskach wszelkiego rodzaju „programowaną śmierć”.
Kevin Vermeer
1
W najlepszym interesie producentów napędów leży wykazanie wyższej MTTF niż ich konkurencji. +1
tyblu,
Czym dokładnie jest awaria dysku? Co się liczy dla jednego?
Kaitlyn Mcmordie