HP ProLiant DL360 G7 zawiesza się na ekranie „Kalibracja mocy i termiczna”

41

Mam nowy system HP ProLiant DL360 G7 , który ma trudny do odtworzenia problem. Serwer losowo zawiesza się na ekranie Trwa kalibracja zasilania i termiczna ... podczas procesu POST . Zwykle następuje to po rozruchu / ponownym uruchomieniu z zainstalowanego systemu operacyjnego.

wprowadź opis zdjęcia tutaj

W tym momencie system zatrzymuje się na czas nieokreślony. Wydanie resetu lub zimnego rozruchu za pomocą elementów sterowania mocą ILO 3 powoduje normalne uruchomienie systemu bez żadnych zdarzeń.

Gdy system jest w tym stanie, interfejs ILO 3 jest w pełni dostępny, a wszystkie wskaźniki kondycji systemu są w porządku (wszystkie zielone). Serwer znajduje się w klimatyzowanym centrum danych z połączeniami zasilania do PDU. Temperatura otoczenia wynosi 17 ° C. System został umieszczony w 24-godzinnej pętli testowania komponentów przed wdrożeniem bez awarii.

Podstawowym systemem operacyjnym tego serwera jest VMWare ESXi 5. Początkowo próbowaliśmy wersji 5.0, a później wersji 5.1. Oba zostały wdrożone za pomocą rozruchu i rozruchu PXE. Ponadto testujemy z nieosłoniętymi instalacjami Windows i Red Hat Linux.

Systemy HP ProLiant mają kompleksowy zestaw opcji systemu BIOS. Wypróbowaliśmy domyślne ustawienia oprócz statycznego profilu o wysokiej wydajności. Wyłączyłem ekran powitalny rozruchu i po prostu dostaję migający kursor w porównaniu do powyższego zrzutu ekranu. Wypróbowaliśmy też kilka „najlepszych praktyk” VMWare dotyczących konfiguracji BIOS-u . Widzieliśmy poradę HP, która wydaje się przedstawiać podobny problem , ale nie naprawiła naszego konkretnego problemu.

Podejrzewając problem ze sprzętem, kazałem dostawcy wysłać identyczny system do dostawy tego samego dnia. Nowy serwer był w pełni identyczny, z wyjątkiem dysków. Przenieśliśmy dyski ze starego serwera na nowy. Wystąpił ten sam problem z losowym uruchamianiem na zastępczym sprzęcie.

Teraz oba serwery działają równolegle. Problem pojawia się losowo na ciepłych butach. Zimne buty nie wydają się mieć problemu. Patrzę na niektóre bardziej ezoteryczne ustawienia BIOS-u, takie jak wyłączenie Turbo Boost lub całkowite wyłączenie funkcji kalibracji mocy. Mógłbym spróbować, ale nie powinny być konieczne.

jakieś pomysły?

--edytować--

Szczegóły systemu:

  • DL360 G7 - 2 x sześciordzeniowe procesory X5670
  • 96 GB pamięci RAM (12 x 8 GB niskonapięciowych modułów DIMM)
  • 2 dyski twarde SAS 15 GB o pojemności 146 GB
  • Nadmiarowe zasilacze 2 x 750 W.

Wszystkie oprogramowanie układowe aktualne od najnowszego pakietu serwisowego HP dla wersji DVD ProLiant.

Dzwoniąc do HP i przeglądając interwebz, widziałem wzmiankę o złej interakcji ILO 3, ale dzieje się tak również z serwerem na fizycznej konsoli. HP zasugerowało również źródło zasilania, ale znajduje się ono w szafie centrum danych, która z powodzeniem zasila inne systemy produkcyjne.

Czy jest jakaś szansa, że ​​może to być słaba interakcja między niskonapięciowymi modułami DIMM a zasilaczami o mocy 750 W. Ten serwer powinien być obsługiwaną konfiguracją.

ewwhite
źródło
2
Jakiś sposób na wyeliminowanie dysków jako możliwej przyczyny? Czy jest szansa, że ​​możesz przetestować na alternatywnych dyskach SAS lub SATA?
ErnieTheGeek
Tak, przetestowany ze znanym dobrym zestawem dysków w drugim systemie. Działają równolegle.
ewwhite
1
Jedyny raz, kiedy widziałem to w systemie (także DL360 G7), w którym próbowałem użyć karty innej niż HP, aby zapewnić pamięć. Kiedy miałem zarówno kartę SmartArray, jak i tę drugą, zrobiło to. Kiedy wyjąłem jedno z nich, minęło. To nie twój problem, ale przekazuję to, na co wpadłem.
sysadmin1138
1
Być może coś związanego z siecią? Spróbuj powielić, nie podłączając się do sieci.
ErnieTheGeek,
1
@TheCleaner Wyłączanie dynamicznego ograniczenia mocy nie jest opcją na serwerach G7. Został wprowadzony do serii Gen8 ProLiant.
ewwhite

Odpowiedzi:

43

Tak więc, po dodaniu trzeciego systemu do miksu i napotkaniu tego samego problemu, zaczęliśmy kwestionować środowisko. Wykopałem kopię Przewodnika rozwiązywania problemów z serwerami HP ProLiant i znalazłem schemat blokowy problemów POST pokazany poniżej.

wprowadź opis zdjęcia tutaj

Ostrożnie przebiegając kroki na wykresie, zdaliśmy sobie sprawę, że stałą na wszystkich serwerach był przełącznik KVM podłączony do wózka awaryjnego centrum danych. Był to KVM klasy konsumenckiej z obsługą USB. Zgodnie z wyróżnionym węzłem na schemacie blokowym: Czy znasz dobry KVM? , Nie mogłem odpowiedzieć jednoznacznie.

Odłączyliśmy serwery od przełącznika KVM i uruchomiliśmy automatyczny rozruch sleep 300; rebootw sekwencji rc.local. Serwery nie miały z tym żadnych problemów, niezależnie od normalnego modułu DIMM, modułów DIMM niskiego napięcia, mocy zasilacza itp.

Wszystko to było wynikiem złej interakcji z przełącznikiem KVM USB. Dzięki temu, że była to konsola, zapewniłoby nam to awarię, gdybyśmy jej szukali. Samospełniające się ...

ewwhite
źródło
2
Wow, to dobrze! Cieszę się, że to zrobiłeś.
nedm
7
Święta Wrona. +1 do pytania i odpowiedzi. Dobra robota; Prawdopodobnie bym to przeoczył. „Znane dobre”? Oczywiście jest dobrze znany - działa, prawda?
mfinni
Dziękuję Ci bardzo!!! zdecydowanie był to KVM. Wystarczy odłączyć wideo i podłączyć monitor bezpośrednio, a serwer ponownie będzie działał płynnie. Po załadowaniu systemu operacyjnego ponownie podłączyłem KVM. Myślę, że problem został spowodowany, gdy przypadkowo dotknąłem kabli z tyłu serwera. System zatrzymał się i reaguje tylko na tę radę.
1
Wiesz, jak KVM to spowodowałoby?
TheLQ
@TheLQ Przyczyną tego problemu było tanie urządzenie KVM na poziomie konsumenta. Być może wystąpił problem z klawiaturą.
ewwhite 10.10.2013