Po pierwsze:
MTTF = średni czas do awarii
MTTR = średni czas do naprawy
MTBF = średni czas między awariami = MTTF + MTTR
MTBF jest często mniej więcej równy MTTF, ponieważ naprawa może potrwać godzinę, a MTTF może trwać kilkadziesiąt tysięcy godzin. Ale również MTBF często nie ma zastosowania, ponieważ wadliwe produkty nie są naprawiane, ale po prostu wymieniane, ponieważ naprawa kosztuje więcej niż wymiana.
Obliczanie MTTF jest złożoną metodą statystyczną polegającą na obliczaniu prawdopodobieństwa niepowodzenia każdej poszczególnej części. I nie jest to kwestia liniowa, jak ludzie czasem zakładają. Jeśli masz MTTF wynoszący 1000 000 godzin, nie oznacza to, że na 1000 urządzeń nastąpi awaria po 1000 godzinach lub że wystąpi awaria na 1000 000 urządzeń po 1 godzinie.
Wiele urządzeń elektronicznych stosuje się do „krzywej wanny” ,
tam, gdzie na początku jest wiele awarii, to przez długi czas prawie żadnych awarii, a pod koniec życia liczba awarii ponownie wzrasta. Na dyskach twardych znajdują się również części mechaniczne, które mają bardziej liniową krzywą uszkodzenia; to powoli wzrasta od 1 dnia.
Jeśli producent podaje na przykład 1000 000 godzin MTTF (najczęściej POH lub Power-On Hours), oznacza to, że dysk powinien trwać średnio > 100 lat. Niektóre dyski będą działać dłużej, niektóre zawiodą wcześniej. Tak więc pomimo 1000 000 godzin jest całkowicie możliwe, aby mieć awarię po 1000 godzinach. Raz miałem awarię napędu w ciągu tygodnia, a potem musicie przemyśleć krzywą wanny. Dysk zastępczy obraca się szczęśliwie od ponad 50 000 godzin.
Jeżeli MTBF użytkuje dany sprzęt na poziomie 1 000 000 godzin, nie oznacza to, że można oczekiwać, że jakikolwiek sprzęt przetrwa 1 000 000 godzin. Oznacza to raczej, z grubsza, że jeśli 1 000 000 sztuk urządzeń, które mieszczą się w ich znamionowym okresie użytkowania, są eksploatowane przez godzinę lub 100 000 sztuk w ciągu dziesięciu godzin (ale nadal w ciągu nominalnego okresu użytkowania), lub 60 000 000 w ciągu jednej minuty itp. na działce będzie mniej więcej jedna awaria. Należy pamiętać, że znamionowy okres użytkowania usługi jest całkowicie prostopadły do MTBF. Rozważ następujące dwa typy widżetów:
Pierwszy typ widgetu miałby średni czas życia wynoszący około 1000 godzin, a także miałby MTBF około 1000 godzin. Drugi miałby średni czas życia wynoszący 61 minut, ale średni czas MTBF wynoszący 1 000 000 000 godzin w okresie użytkowania. Choć może wydawać się dziwne stwierdzenie, że drugie urządzenie ma MTBF, który jest prawie miliard razy dłuższy niż oczekiwany okres użytkowania, MTBF nie jest wcale bez znaczenia.
Załóżmy, że ktoś przeprowadzi eksperyment, który wymaga, aby 1 000 000 urządzeń działało idealnie przez godzinę, po czym wszystkie zostaną zezłomowane. Jeśli jakieś urządzenie ulegnie awarii, cały eksperyment zostanie zniszczony. Co byłoby bardziej przydatne - urządzenie, które wytrzyma średnio 1000 godzin, ale ma średni czas MTBF tylko 1000 godzin, lub urządzenie, które przetrwa najwyżej 61 minut, ale miałoby tylko jedną z miliardową szansą na niepowodzenie spotkać ten znak?
źródło
Dodanie do odpowiedzi stevenvha: wszyscy znani producenci dysków robią wypalanie nowych urządzeń, podobnie jak producenci komponentów elektronicznych. Na dyskach twardych istnieje nie tylko ogólny MTBF i MTTF, ale także indywidualne statystyki awarii dla bloków dysków. Innymi słowy: niektóre części wirującego „talerza” na dysku mogą zawieść, podczas gdy większość nadal odczytuje / zapisuje poprawnie. Tak zwane „uszkodzone sektory” mogą zostać wykryte, a następnie zmapowane przez oprogramowanie wewnętrzne napędu.
Wszystkie dyski zawierają obecnie dodatkowe sektory w rezerwie, które można następnie wykorzystać zamiast sektorów uszkodzonych. Jest to po prostu środek ostrożności producenta: gdyby tego nie zrobili, nie mogliby sprzedać dysku o deklarowanej pojemności. Jeśli wbudują dodatkowe x% ukrytych sektorów jako rezerwę, zwiększą koszty o około <x%, ale osiągną znacznie wyższą ogólną wydajność produkcji.
Dyski dzisiaj przechowują wiele uszkodzonych sektorów, które można również odczytać za pomocą odpowiedniego oprogramowania. Ten i inne parametry kondycji dysku (np. Temperatura) nazywane są wartościami SMART .
Teraz, gdy producent wykona test wypalenia dysku, a niektóre sektory mają prawie awarię i zostały ponownie mapowane przez wewnętrzne oprogramowanie napędu, parametr SMART „Zła liczba sektorów” jest ustawiony na 0. Następnie napęd jest dostarczany do klientów.
Zwykle po procesie wygrzewania klient już nie widzi początku wspomnianej krzywej wanny. Mamy szczęście i z czasem widzimy jedynie wzrost prawdopodobieństwa niepowodzenia.
Więc jeśli spojrzysz na MTTF cytowany przez producenta, w przypadku dowolnego modelowania awarii, które możesz chcieć zrobić, możesz zignorować początek krzywej wanny.
źródło
Powinieneś interpretować to jako marketing. W rzeczywistości nie znają dokładnego MTBF (średniego czasu między awariami), więc używają różnych sztuczek, aby go oszacować, i pokazują wyższe liczby dla dysków „korporacyjnych”, aby uzasadnić swój koszt.
W rzeczywistości opłaca się producentom dysków twardych, aby ich dyski uległy awarii wkrótce po zakończeniu gwarancji.
Jako teoria spisku uważam, że masowa awaria Seagate 7200.11 była błędem w implementacji „programowanej śmierci”, powodując awarię dysków przed końcem gwarancji, więc musieli to „naprawić” przez aktualizację oprogramowania.
źródło