Czy na serwerze z dwoma procesorami normalne jest, aby jeden procesor działał cieplej niż drugi?

51

Mam podwójny serwer Opteron z systemem Linux z libvirt do obsługi kilku maszyn wirtualnych. Maszyny wirtualne działają dobrze, a serwer działa OK, ale zauważam, że jeden procesor zawsze działa w temperaturze około 69 ° C (przepustnica w temperaturze 70 ° C), a drugi około 15 ° C.

To nie wydaje mi się normalne? Czy nie powinny być nieco bliżej temperatury?

Nie jestem pewien, jak dalej rozmyślać. Może na jednym z procesorów nie ma wystarczającej ilości pasty termicznej?

Edycja: płyta główna to ASUS KGPE-D16 i chłodzona przez dwa wentylatory Noctua NH-U9DO .

Zauważ, że uważam, że temperatury mogą być stopniowe powyżej temperatury otoczenia, a nie wartości bezwzględne? Gdy serwer jest na biegu jałowym, temperatura procesora spada do 2 ° C i 13 ° C. Korzystam z konfiguracji lmsensorów stąd

samoz
źródło
1
Jaka jest marka / model serwera?
ewwhite
2
Jak rozkład obciążenia procesora? mpstat -P ALL 1na Linuksie pomoże
Christopher Perrin
3
brzmi jak uszkodzony czujnik temperatury
Matcheek
14
15C jest najprawdopodobniej zepsutym cenzorem ...
Reaces
Wygląda na zepsuty lub źle skalibrowany czujnik. Jeśli możesz zrestartować serwer, spójrz na BIOS, który powinien wyświetlać prawidłowe wartości.

Odpowiedzi:

106

Problemem okazał się źle dopasowany radiator. Może źle dopasowany nie jest właściwym opisem. Okazuje się, że na radiator należy nałożyć pastę termiczną, a nie plastikową osłonę, która przechodzi nad radiatorem.

wprowadź opis zdjęcia tutaj

Po zdjęciu plastikowej osłony procesor jest ładny i fajny, dziękuję wszystkim!

samoz
źródło
51
+1 tylko dlatego, że to śmieszne
HBruijn
9
Masz na myśli, że ktoś zostawił plastikową osłonę na swoim miejscu, a następnie nałożył na nią pastę, a następnie na nią radiator? Epicki.
TomTom
4
Baaaaaahaaahaaahahahaa !!
Craig
8
Uwielbiam to, jak możesz zobaczyć warunki, ograniczoną gwarancję i politykę zwrotów w tle. :)
Lekkość ściga się z Monicą
6
Jeśli to sprawia, że ​​czujesz się mniej głupi (i nie będzie), zrobiłem podobnie z moim nowym biurowym ekspresem do kawy. Kawa była zbyt zimna, żeby się napić, a ja pakowałem ją z powrotem, by wrócić do sklepu, zanim dysk z tektury ochronnej spadł z elementu grzejnego :)
Martin James
25

Z mojego doświadczenia wynika, że ​​sparowane elementy w obudowie działają w różnych temperaturach, ponieważ przepływ powietrza nie jest wszędzie taki sam. Oto wykres temperatury dysku twardego z mojego pudełka colo. Dyski są dublowane, więc obciążenia na nich są prawie identyczne.

Munin wykres temperatur HDD w ciągu ostatniego roku

Jak widać, śledzą się nawzajem, ale nie są takie same; są one również średnio w odstępie tylko 6C. Niezależnie od tego, czy czujniki zgłaszają temperaturę bezwzględną czy przegrzanie, różnica 55 ° C pod obciążeniem wydaje się bardzo błędna. Jeśli masz pewność, że dane są prawidłowe, to biorąc pod uwagę różnicę spoczynkową spada do 10 ° C, co jest różnicą, którą widzę z powodu przepływu powietrza, podejrzewam, że źle dopasowany radiator.

Szalony Kapelusznik
źródło
1
Korzystając z mpstat (dzięki Christopher Perrin, dzięki!) Potwierdziłem, że obciążenie jest dość równomiernie rozłożone. Rzeczy są teraz na biegu jałowym w + 3 ° C i + 20 ° C. Spróbuję bawić się radiatorem, żeby sprawdzić, czy jest luźny. Czy uważasz, że może to być problem z pastą termiczną?
samoz
Jest to bardzo możliwe (a zwłaszcza, gdy zaczniesz wiggować).
MadHatter
8

Nie jest. Chyba że masz poważne problemy z przepływem powietrza. Lub jedna z chłodnic jest zła. Temperatura BĘDZIE różna - ale nie tak bardzo (70 vs. 15 stopni Celsjusza).

Biorąc pod uwagę, jak niski jest 15 stopni, zakładam (a) że czujnik jest wyłączony (naprawdę przechowujesz serwer w tak chłodnym pomieszczeniu?).

Zakładam również, że jeden procesor po prostu nie działa, z jakiegokolwiek powodu.

Małe różnice są normalne. Niektóre mogą być większe (przepływ powietrza przychodzi mi do głowy). ale tutaj mówimy o jednym, który jest ZIMNY.

TomTom
źródło
2

Może to być chłodzenie lub nierównomierne obciążenie (biorąc pod uwagę różnicę temperatur, Twoja sytuacja prawdopodobnie jest nierównomierna). Powinieneś użyć czegoś takiego jak prime95, aby równomiernie załadować wszystkie rdzenie i sprawdzić, czy temperatury nadal się różnią. Jeśli nie, musisz zrównoważyć maszyny wirtualne, sprawdź, czy aplikacje są wielowątkowe i zajęte. Jak to zrobić, zależy od twojego oprogramowania i indywidualnego obciążenia, więc tak naprawdę nie wchodzi w zakres pytania. Pamiętaj, że nie ma realnej korzyści, jeśli nie masz wystarczającej ilości obciążenia, aby uzupełnić pojedynczy procesor / rdzeń, w rzeczywistości Twoja maszyna wirtualna może celowo unikać używania drugiej jednostki centralnej, aby mogła przejść do trybów oszczędzania energii na wielu systemy CPU.

Jeśli zawęziłeś to do chłodzenia. Mała różnica do 10 ° C może być za małą (lub za dużą!) Pastą termiczną. Większa różnica wskazuje na poważny problem lub różnicę między chłodzeniem procesora. Możliwe, że zablokowano przepływ powietrza, luźny radiator itp.

JamesRyan
źródło
0

Musiałbym się zgodzić z wadliwą temperaturą. czujnik, ponieważ 15C to tylko 59F !!! Chyba że komputer znajduje się w wyjątkowo mroźnym centrum danych, wyobrażam sobie, że temperatura powietrza otoczenia byłaby wyższa niż 59F! Próbujesz przypisać maszyny wirtualne do rdzenia niskotemperaturowego i sprawdzić, czy jest jakaś zmiana; jeśli nie, podejrzewam, że czujnik jest wadliwy.

Możesz także spojrzeć na wynik dmesg(komunikaty rozruchowe) i sprawdzić, czy jest tam coś niezwykłego.

J. Simons
źródło