Jak uzyskać powiadomienie, gdy maszyna z systemem Linux wyposażona w pamięć ECC rozpozna awarię pamięci? Interesują mnie zarówno błędy, które można naprawić, jak i błędy, których nie można naprawić.
- jeśli wiadomość jest napisana do dmesg / syslog, to już jest w porządku, ale chciałbym wiedzieć, czego szukać
- instalacja dodatkowych demonów (takich jak smartmontools dla dysków twardych) jest dopuszczalna
- Innym sposobem byłoby monitorowanie Nagios / Icinga
- nie wszystkie monitorowane maszyny mają IPMI
Interesujące systemy mają płyty Supermicro (X9SCM-F), w odniesieniu do HP N54L Microserver jestem tylko ciekawostką, ale nie przejmuję się zbytnio. Wszystkie systemy działają w systemie Linux Debian lub Ubuntu.
mcelog
podczas monitorowania syslog wydaje się być właściwą drogą.Odpowiedzi:
Jądro Linux obsługuje wykrywanie i korekcja błędów ( EDAC ) funkcje niektórych chipsetów. W obsługiwanym systemie z ECC status kontrolera pamięci jest dostępny poprzez sysfs:
Drzewo katalogów w tych lokalizacjach powinno odpowiadać Twojemu sprzętowi, np .:
W zależności od sprzętu może być konieczne jawne załadowanie odpowiedniego sterownika edac, patrz:
edac-utils
Pakiet zapewnia frontend wiersza poleceń oraz biblioteka dla dostępu do tych danych, na przykład:Możesz skonfigurować jakieś zadanie cron, które okresowo wywołuje
eac-util
i przekazuje wyniki do twojego systemu monitorowania, gdzie możesz następnie skonfigurować niektóre powiadomienia.Poza tym bieganie
mcelog
jest ogólnie dobrym pomysłem. Zależy od systemu, ale nie dające się naprawić / skorygowane błędy ECC są prawdopodobnie zgłaszane również jako wyjątek kontroli maszyny ( MCE ). To znaczy, nawet krótkie okresy dławienia procesora z powodu wyższej temperatury są zgłaszane jako MCE.źródło
mcelog
monitoruje kontroler pamięci i zgłasza zdarzenia błędu pamięci do syslog, aw niektórych konfiguracjach może offline uszkodzone strony pamięci . Jest to oczywiście dodatek do jego zwykłego użycia do monitorowania wyjątków sprawdzania komputera i szeregu innych błędów sprzętowych.Większość dystrybucji Linuksa ma skonfigurowaną usługę do uruchamiania go jako demona, np. Dla EL 6:
źródło
To zależy od sprzętu serwera. Whitebox lub system Supermicro poradzą sobie z tym inaczej niż Dell, HP czy IBM ...
Jedną z wartości dodanych funkcji wysokiej klasy serwerów jest poziom integracji sprzętu / systemu operacyjnego. Ładniejsze serwery zgłaszają to, czego szukasz, jako część agentów zarządzania i / lub rozwiązania zarządzania pozapasmowego (ILO, DRAC, IPMI).
Powinieneś używać narzędzi rodzimych dla twojej platformy sprzętowej.
Fragment serwerów HP ProLiant z systemem Linux i agentami HP Management:
i
lub bardziej dotkliwy
lub najgorsze ... Ignorowanie błędu przez 6 dni, aż do awarii serwera z powodu złej pamięci RAM
Zostały one zarejestrowane, wysłano pułapki SNMP i e-maile.
Zasadniczo w buforze pierścieniowym jądra zobaczysz wyjątki sprawdzania maszyny, dzięki czemu możesz sprawdzić
dmesg
lub uruchomić mcelog . W moich doświadczeniach ze sprzętem Supermicro bez IPMI nie złapałem wszystkiego, a mimo to błędy RAM prześlizgnęły się przez pęknięcia i spowodowały awarie. Niestety doprowadziło to do archaicznych zasad wypalania pamięci RAM przed wdrożeniem systemu.źródło