Jaka jest najwyższa normalna temperatura SMART dla dysków HGST Helium Ultrastar 8TB 7200 RPM SAS 12 Gb / s?

Właśnie otrzymałem nowy serwer Dell R730xd 2U z przednimi kieszeniami na dyski 12 * 3,5 "+ tacę środkową 4 * 3,5", umieszczoną nad modułami RAM i procesorami. Podłączyłem 16 * HGST Helium 8Tb 7200 RPM SAS 12 Gb / s i uruchomiłem 2 * 8 * 8 TB woluminów RAID6 w tle.

Sprawdzam temperaturę napędów za pomocą smartctl. Podczas gdy napędy przednie są chłodne w zakresie od 33 ° C do 37 ° C, napędy środkowej części # 14..17 mają 45 ° C, 46 ° C, 51 ° C, 54 ° C - w tym drugim najbardziej mnie martwi przegrzanie. Inicjatywa trwała zaledwie kilka godzin.

iDRAC informuje, że wlot powietrza wynosi 22 ° C, a wylot 44 ° C. Wentylatory obracają się z prędkością ~ 4,3k RPM. Wirują z prędkością ~ 15k, jeśli pokrywa jest wyłączona.

Obrazowanie termiczne pokazuje, że # 17 jest najgorętszy z temperaturą obudowy wynoszącą 47 ° C.

Nie jestem jeszcze pewien, czy jest coś z tym konkretnym dyskiem, czy też chodzi o lokalizację dysku - zweryfikuje, usuwając VD i zamieniając dwa miejsca na dyskach - zaktualizuje ten post z obserwacjami.

Dane techniczne MFG mówią, że normalna temperatura otoczenia podczas pracy T wynosi do 60 ° C ( link )

Moim zdaniem wzrost temperatury wpływa na żywotność dysku.

Jednak dwa tylne napędy Flex Bay w moim starszym R720xd mają 15kRPM i zawsze były w temperaturze około 55 ° C, nadal żyją po ponad 3 latach.

Ponadto poprosiłem HGST o wsparcie dla ich stanowiska.

Kolejny temat dotyczący błędu serwera wskazuje na badania Google, stwierdzając, że T jest czynnikiem po kilku latach. ( link )

UPD1 (20151102): Producent odpowiedział szybko: „Ten napęd może pracować w temperaturach od 5 do 60 C. Napęd powinien normalnie pracować poniżej 50 ° C. Jeśli pracuje w stabilnej temperaturze 55 ° C, wówczas działa nieco cieplej niż zwykle, ale nadal znajduje się w bezpiecznym zasięgu ”.

UPD2: Zamieniłem # 14 i # 17 miejsc - przegrzanie jest zależne od lokalizacji, prawa strona (patrząc od przodu do tyłu) jest cieplejsza niż lewa strona, a były numer 14 na miejscu nr 17 pokazywał najwyższą temperaturę 56C i dawny numer 17 na poziomie # 14 miejsce było fajne w 40-45 ° C. Dostosowanie iDRAC-> Sprzęt-> Wentylatory-> Konfiguracja-> Przesunięcie prędkości wentylatora do „Przesunięcia niskiej prędkości wentylatora (+ 23%)” (6,8kRPM na biegu jałowym vs 4,4kRPM domyślnie, przy inicjacji RAID) spowodowało najwyższe temperatury dla # 14 i # 17 od 49 ° C i 54 ° C do 40 ° C i 47 ° C. Ustawienie wentylatorów na 15kRPM (poprzez ustawienie domyślnej reakcji na karty PCI innych firm - mam jedną) podnosi temps do 34C i 39C kosztem dodatkowego zużycia energii + 120W (340W vs 230W).

Oczywiście nie używam dysków zatwierdzonych przez firmę Dell. Dell nie oferuje obecnie napędów 8 TB dla tego serwera, a 6 TB SAS kosztuje 830 USD za sztukę. Mam 8 TB Helium SAS za 498 USD, dzięki czemu koszt TB-u przed RAID wynosił od 138 do 62 USD. Później zdałem sobie sprawę, że oprogramowanie firmy Dell (i obsługiwane przez kontroler cyklu eksploatacji) może być w lepszej komunikacji z chłodzeniem, a także otrzymywać aktualizacje oprogramowania układowego za pośrednictwem LC.

Kolejna miła niespodzianka - zamiana nr 14 i nr 17 nie spowodowała przebudowy macierzy RAID - kontroler po prostu pobierał dyski w nowych lokalizacjach bez słowa w logach.

UPD 20160426: Teraz, po wdrożeniu wielu R730xd z 12 + 4 wyposażonymi w HGST 8T 12G SAS lub Seagate 8Tb 12G SAS, widzę, że w każdym z nich # 14 jest ~ 10 ° C chłodniejszy niż # 17 i częściowo naprawia, aby doprowadzić go do 40-47 ° C zakres ma zwiększyć ustawienie prędkości wentylatorów w iDRAC do + 30%.

hard-drive dell sas smart smartctl kuz8
źródło

Zaczynam się martwić, jeśli przekroczy 70 ° C.

Konrad Gajewski

Odpowiedzi:

Wszystko poniżej 55-60 C powinno być w porządku. W każdym razie, naprawdę niebezpieczne dla napędu mechanicznego są powtarzalne skoki termiczne , w których napęd nagrzewa się i szybko się ochładza. Równie niebezpieczne są powtarzane cykle spinon / spinoff.

Jak stwierdził EEAA, jeśli jest to obsługiwana konfiguracja firmy DELL, nie powinieneś się obawiać.

Shodanshok
źródło

Dodaję to jako wskaźnik do niektórych bardziej odpowiednich badań, które są nowsze niż praca Google i wydaje się mieć pewien rygor w swojej metodologii.

Backblaze, ludzie pod zasobnikami pamięci, przeprowadzili analizę wskaźnika awaryjności w zależności od temperatury według modelu napędu i w większości przypadków nie znaleźli żadnej korelacji. W przypadku trzech modeli (dwóch Seagate Barracudas i Hitachi Deskstar) korelacja ma znaczenie statystyczne (nie mówią, jaki jest próg istotności, ale przypuszczam, że według liczb 95% z medycznego standardu, na podstawie liczb), i w jednym z tych przypadków jest dość silny.

Ich wniosek, który w całości odtwarzam, jest taki

Ogólnie rzecz biorąc, nie ma korelacji między temperaturą roboczą a wskaźnikami awaryjności. Jedynym wyjątkiem są dyski Seagate Barracuda 1.5 TB, które zawodzą nieco bardziej, gdy są cieplejsze.

Tak długo, jak długo prowadzisz dyski w dopuszczalnym zakresie temperatur roboczych, utrzymywanie ich niższej temperatury nie ma znaczenia.

Więc w twoim przypadku powiedziałbym, że nie miałeś żadnego prawdziwego problemu. (Oświadczenie: Nie mam połączenia z Backblaze.)

Szalony Kapelusznik
źródło

Liczby Blackblaze są zawsze interesujące, ale istnieje pewien haczyk: ich środowisko jest znacznie bardziej narażone na wibracje niż standardowe instalacje regałów. Wynika to z tego, w jaki sposób montowany jest dysk na dyski z 48/96 dyskami na dysk. Oznacza to, że ich dyski mają tendencję do znacznie większego uszkodzenia w wyniku nadmiernych wibracji niż typowe dyski.

shodanshok

@ shodanshok Myślałem o twoim punkcie i nie sądzę, że go akceptuję. Szukają korelacji między działaniem T a wskaźnikami awaryjności; chyba że sądzisz, że wskaźniki awarii oparte na wibracjach są również skorelowane z T, to wydaje mi się, że każda ogólnie zwiększona awaria związana z wibracjami (tj. tło) zostałaby całkowicie rozkręcona przez ich analizę (cieszę się, że mogę to poprawić w tej kwestii, ale będziesz musiał zrobić coś więcej niż tylko twierdzić, że tak nie jest).

MadHatter

Chodzi mi o to, że awarie wywołane przez wibracje powinny dominować w wynikach Blackblaze, więc nie jest zaskoczeniem, że awarie wywołane temperaturą są „tracone” w hałasie. W każdym razie zgadzam się z tobą - w 20-60 ° C sama temperatura nie powinna mieć znaczącego wpływu na żywotność dysku twardego.

shodanshok

@shodanshok tak, tak myślałem, że masz na myśli. Co mam na myśli to, że jeśli awarie drgań związanych nie koreluje z temperaturą następnie chociaż ich obecność oznacza, że nie można porównywać ceny awarii backblaze do innych ludzi, jeśli spojrzeć na sygnał związanych z temperaturą w ciągu danych backblaze, tym wibracje indukowane awarie całkowicie znikają. Czy to nie jest jasne?

MadHatter,

tak, mam to, co masz na myśli :)

shodanshok

Producenci serwerów poświęcają dużo pieniędzy na projektowanie swoich systemów, aby były niezawodne i działały zgodnie ze specyfikacją wszelkich komponentów innych firm, które mogą być uwzględnione. Dell nie gwarantowałby tych dysków, gdyby oczekiwano ich krótkiej żywotności.

Jeśli Dell twierdzi, że jest to obsługiwana konfiguracja, nie martw się o to. Nowoczesny sprzęt jest znacznie bardziej odporny na wysokie temperatury niż sprzęt sprzed 10-15 lat. Masz macierz RAID i jesteś chroniony przed awariami dwóch dysków. IMHO powinieneś poświęcić czas na pracę nad czymś innym niż zgadywanie zarządzania temperaturą tego serwera.

EEAA
źródło

Dziękuję za odpowiedź, oczywiście, że skracam rogi, uzyskując certyfikat innej firmy niż Dell, ale dyski SAS dla przedsiębiorstw z 5-letnią gwarancją (dłuższą niż 3-letni standard Dell) za 1/2 ceny naklejek Dell. Z czasem zrozumiałem, że to nie tylko naklejka Dell, ale może to być również aktualizacja oprogramowania układowego napędu za pośrednictwem kontrolera cyklu życia. Zdarzały się epickie przypadki, w których tablice RAID zginęły z powodu błędów w oprogramowaniu układowym, gdy zostały one zbudowane na dyskach z tej samej partii z tymi samymi godzinami działania. Ale w przypadku 50% różnicy cenowej mogę sobie pozwolić na kilka zapasowych dysków zewnętrznych.

kuz8