Właśnie otrzymałem nowy serwer Dell R730xd 2U z przednimi kieszeniami na dyski 12 * 3,5 "+ tacę środkową 4 * 3,5", umieszczoną nad modułami RAM i procesorami. Podłączyłem 16 * HGST Helium 8Tb 7200 RPM SAS 12 Gb / s i uruchomiłem 2 * 8 * 8 TB woluminów RAID6 w tle.
Sprawdzam temperaturę napędów za pomocą smartctl. Podczas gdy napędy przednie są chłodne w zakresie od 33 ° C do 37 ° C, napędy środkowej części # 14..17 mają 45 ° C, 46 ° C, 51 ° C, 54 ° C - w tym drugim najbardziej mnie martwi przegrzanie. Inicjatywa trwała zaledwie kilka godzin.
iDRAC informuje, że wlot powietrza wynosi 22 ° C, a wylot 44 ° C. Wentylatory obracają się z prędkością ~ 4,3k RPM. Wirują z prędkością ~ 15k, jeśli pokrywa jest wyłączona.
Obrazowanie termiczne pokazuje, że # 17 jest najgorętszy z temperaturą obudowy wynoszącą 47 ° C.
Nie jestem jeszcze pewien, czy jest coś z tym konkretnym dyskiem, czy też chodzi o lokalizację dysku - zweryfikuje, usuwając VD i zamieniając dwa miejsca na dyskach - zaktualizuje ten post z obserwacjami.
Dane techniczne MFG mówią, że normalna temperatura otoczenia podczas pracy T wynosi do 60 ° C ( link )
Moim zdaniem wzrost temperatury wpływa na żywotność dysku.
Jednak dwa tylne napędy Flex Bay w moim starszym R720xd mają 15kRPM i zawsze były w temperaturze około 55 ° C, nadal żyją po ponad 3 latach.
Ponadto poprosiłem HGST o wsparcie dla ich stanowiska.
Kolejny temat dotyczący błędu serwera wskazuje na badania Google, stwierdzając, że T jest czynnikiem po kilku latach. ( link )
UPD1 (20151102): Producent odpowiedział szybko: „Ten napęd może pracować w temperaturach od 5 do 60 C. Napęd powinien normalnie pracować poniżej 50 ° C. Jeśli pracuje w stabilnej temperaturze 55 ° C, wówczas działa nieco cieplej niż zwykle, ale nadal znajduje się w bezpiecznym zasięgu ”.
UPD2: Zamieniłem # 14 i # 17 miejsc - przegrzanie jest zależne od lokalizacji, prawa strona (patrząc od przodu do tyłu) jest cieplejsza niż lewa strona, a były numer 14 na miejscu nr 17 pokazywał najwyższą temperaturę 56C i dawny numer 17 na poziomie # 14 miejsce było fajne w 40-45 ° C. Dostosowanie iDRAC-> Sprzęt-> Wentylatory-> Konfiguracja-> Przesunięcie prędkości wentylatora do „Przesunięcia niskiej prędkości wentylatora (+ 23%)” (6,8kRPM na biegu jałowym vs 4,4kRPM domyślnie, przy inicjacji RAID) spowodowało najwyższe temperatury dla # 14 i # 17 od 49 ° C i 54 ° C do 40 ° C i 47 ° C. Ustawienie wentylatorów na 15kRPM (poprzez ustawienie domyślnej reakcji na karty PCI innych firm - mam jedną) podnosi temps do 34C i 39C kosztem dodatkowego zużycia energii + 120W (340W vs 230W).
Oczywiście nie używam dysków zatwierdzonych przez firmę Dell. Dell nie oferuje obecnie napędów 8 TB dla tego serwera, a 6 TB SAS kosztuje 830 USD za sztukę. Mam 8 TB Helium SAS za 498 USD, dzięki czemu koszt TB-u przed RAID wynosił od 138 do 62 USD. Później zdałem sobie sprawę, że oprogramowanie firmy Dell (i obsługiwane przez kontroler cyklu eksploatacji) może być w lepszej komunikacji z chłodzeniem, a także otrzymywać aktualizacje oprogramowania układowego za pośrednictwem LC.
Kolejna miła niespodzianka - zamiana nr 14 i nr 17 nie spowodowała przebudowy macierzy RAID - kontroler po prostu pobierał dyski w nowych lokalizacjach bez słowa w logach.
UPD 20160426: Teraz, po wdrożeniu wielu R730xd z 12 + 4 wyposażonymi w HGST 8T 12G SAS lub Seagate 8Tb 12G SAS, widzę, że w każdym z nich # 14 jest ~ 10 ° C chłodniejszy niż # 17 i częściowo naprawia, aby doprowadzić go do 40-47 ° C zakres ma zwiększyć ustawienie prędkości wentylatorów w iDRAC do + 30%.
Odpowiedzi:
Wszystko poniżej 55-60 C powinno być w porządku. W każdym razie, naprawdę niebezpieczne dla napędu mechanicznego są powtarzalne skoki termiczne , w których napęd nagrzewa się i szybko się ochładza. Równie niebezpieczne są powtarzane cykle spinon / spinoff.
Jak stwierdził EEAA, jeśli jest to obsługiwana konfiguracja firmy DELL, nie powinieneś się obawiać.
źródło
Dodaję to jako wskaźnik do niektórych bardziej odpowiednich badań, które są nowsze niż praca Google i wydaje się mieć pewien rygor w swojej metodologii.
Backblaze, ludzie pod zasobnikami pamięci, przeprowadzili analizę wskaźnika awaryjności w zależności od temperatury według modelu napędu i w większości przypadków nie znaleźli żadnej korelacji. W przypadku trzech modeli (dwóch Seagate Barracudas i Hitachi Deskstar) korelacja ma znaczenie statystyczne (nie mówią, jaki jest próg istotności, ale przypuszczam, że według liczb 95% z medycznego standardu, na podstawie liczb), i w jednym z tych przypadków jest dość silny.
Ich wniosek, który w całości odtwarzam, jest taki
Więc w twoim przypadku powiedziałbym, że nie miałeś żadnego prawdziwego problemu. (Oświadczenie: Nie mam połączenia z Backblaze.)
źródło
Producenci serwerów poświęcają dużo pieniędzy na projektowanie swoich systemów, aby były niezawodne i działały zgodnie ze specyfikacją wszelkich komponentów innych firm, które mogą być uwzględnione. Dell nie gwarantowałby tych dysków, gdyby oczekiwano ich krótkiej żywotności.
Jeśli Dell twierdzi, że jest to obsługiwana konfiguracja, nie martw się o to. Nowoczesny sprzęt jest znacznie bardziej odporny na wysokie temperatury niż sprzęt sprzed 10-15 lat. Masz macierz RAID i jesteś chroniony przed awariami dwóch dysków. IMHO powinieneś poświęcić czas na pracę nad czymś innym niż zgadywanie zarządzania temperaturą tego serwera.
źródło