Mam nowy system HP ProLiant DL360 G7 , który ma trudny do odtworzenia problem. Serwer losowo zawiesza się na ekranie „ Trwa kalibracja zasilania i termiczna ... ” podczas procesu POST . Zwykle następuje to po rozruchu / ponownym uruchomieniu z zainstalowanego systemu operacyjnego.
W tym momencie system zatrzymuje się na czas nieokreślony. Wydanie resetu lub zimnego rozruchu za pomocą elementów sterowania mocą ILO 3 powoduje normalne uruchomienie systemu bez żadnych zdarzeń.
Gdy system jest w tym stanie, interfejs ILO 3 jest w pełni dostępny, a wszystkie wskaźniki kondycji systemu są w porządku (wszystkie zielone). Serwer znajduje się w klimatyzowanym centrum danych z połączeniami zasilania do PDU. Temperatura otoczenia wynosi 17 ° C. System został umieszczony w 24-godzinnej pętli testowania komponentów przed wdrożeniem bez awarii.
Podstawowym systemem operacyjnym tego serwera jest VMWare ESXi 5. Początkowo próbowaliśmy wersji 5.0, a później wersji 5.1. Oba zostały wdrożone za pomocą rozruchu i rozruchu PXE. Ponadto testujemy z nieosłoniętymi instalacjami Windows i Red Hat Linux.
Systemy HP ProLiant mają kompleksowy zestaw opcji systemu BIOS. Wypróbowaliśmy domyślne ustawienia oprócz statycznego profilu o wysokiej wydajności. Wyłączyłem ekran powitalny rozruchu i po prostu dostaję migający kursor w porównaniu do powyższego zrzutu ekranu. Wypróbowaliśmy też kilka „najlepszych praktyk” VMWare dotyczących konfiguracji BIOS-u . Widzieliśmy poradę HP, która wydaje się przedstawiać podobny problem , ale nie naprawiła naszego konkretnego problemu.
Podejrzewając problem ze sprzętem, kazałem dostawcy wysłać identyczny system do dostawy tego samego dnia. Nowy serwer był w pełni identyczny, z wyjątkiem dysków. Przenieśliśmy dyski ze starego serwera na nowy. Wystąpił ten sam problem z losowym uruchamianiem na zastępczym sprzęcie.
Teraz oba serwery działają równolegle. Problem pojawia się losowo na ciepłych butach. Zimne buty nie wydają się mieć problemu. Patrzę na niektóre bardziej ezoteryczne ustawienia BIOS-u, takie jak wyłączenie Turbo Boost lub całkowite wyłączenie funkcji kalibracji mocy. Mógłbym spróbować, ale nie powinny być konieczne.
jakieś pomysły?
--edytować--
Szczegóły systemu:
- DL360 G7 - 2 x sześciordzeniowe procesory X5670
- 96 GB pamięci RAM (12 x 8 GB niskonapięciowych modułów DIMM)
- 2 dyski twarde SAS 15 GB o pojemności 146 GB
- Nadmiarowe zasilacze 2 x 750 W.
Wszystkie oprogramowanie układowe aktualne od najnowszego pakietu serwisowego HP dla wersji DVD ProLiant.
Dzwoniąc do HP i przeglądając interwebz, widziałem wzmiankę o złej interakcji ILO 3, ale dzieje się tak również z serwerem na fizycznej konsoli. HP zasugerowało również źródło zasilania, ale znajduje się ono w szafie centrum danych, która z powodzeniem zasila inne systemy produkcyjne.
Czy jest jakaś szansa, że może to być słaba interakcja między niskonapięciowymi modułami DIMM a zasilaczami o mocy 750 W. Ten serwer powinien być obsługiwaną konfiguracją.
źródło
Odpowiedzi:
Tak więc, po dodaniu trzeciego systemu do miksu i napotkaniu tego samego problemu, zaczęliśmy kwestionować środowisko. Wykopałem kopię Przewodnika rozwiązywania problemów z serwerami HP ProLiant i znalazłem schemat blokowy problemów POST pokazany poniżej.
Ostrożnie przebiegając kroki na wykresie, zdaliśmy sobie sprawę, że stałą na wszystkich serwerach był przełącznik KVM podłączony do wózka awaryjnego centrum danych. Był to KVM klasy konsumenckiej z obsługą USB. Zgodnie z wyróżnionym węzłem na schemacie blokowym: Czy znasz dobry KVM? , Nie mogłem odpowiedzieć jednoznacznie.
Odłączyliśmy serwery od przełącznika KVM i uruchomiliśmy automatyczny rozruch
sleep 300; reboot
w sekwencjirc.local
. Serwery nie miały z tym żadnych problemów, niezależnie od normalnego modułu DIMM, modułów DIMM niskiego napięcia, mocy zasilacza itp.Wszystko to było wynikiem złej interakcji z przełącznikiem KVM USB. Dzięki temu, że była to konsola, zapewniłoby nam to awarię, gdybyśmy jej szukali. Samospełniające się ...
źródło