„Mce: [Błąd sprzętowy]: zarejestrowane zdarzenia sprawdzania komputera” pojawia się w syslog. Co powinienem zrobić?

19

Zainstalowałem najnowszą wersję OSSEC (2.8.1) i włączyłem również powiadomienia e-mail. I otrzymuję mnóstwo tego rodzaju powiadomień z informacją, że wystąpił błąd sprzętowy i coś o mce:

OSSEC HIDS Notification.
2015 Apr 04 20:09:22

Received From: Bath-Towel->/var/log/syslog
Rule: 1002 fired (level 2) -> "Unknown problem somewhere in the system."
Portion of the log(s):

Apr  4 20:09:21 Bath-Towel kernel: [ 1873.680872] mce: [Hardware Error]: Machine check events logged



 --END OF NOTIFICATION

Co to dokładnie oznacza? Co oznacza skrót Mce? Czy ten pozorny błąd sprzętowy jest czymś, o co powinienem się martwić?


Informacje o systemie operacyjnym:

Description:    Ubuntu 14.10
Release:    14.10
Eric Carvalho
źródło
Będziesz musiał trochę przeczytać o ossec, zapoznaj się z zasadami - ossec-docs.readthedocs.org/en/latest/manual/rules-decoders . Interfejs sieciowy pomaga, ponieważ zawiera wiele wyjaśnień - ossec.net/wiki/index.php/OSSECWUI:Install
Panther
ossec jest prawdopodobnie źle obsługiwany lub nie na temat, ponieważ nie ma go w repozytoriach ubuntu
Panther
1
W ogóle nie chodzi o OSSEC. Otrzymałeś to powiadomienie, ponieważ OSSEC znalazł słowo „error” w syslog. Chociaż nie sądzę, że jest to nie na temat, prawdopodobnie dostaniesz więcej pomocy z Uniksa i Linuksa lub Awarii serwera .
Eric Carvalho,
4
@ bodhi.zazen Wszystko, co musi zrobić, aby być na temat, jest uruchamiane na Ubuntu. To nie znaczy, że oczywiście otrzymasz odpowiedź.
Seth

Odpowiedzi:

23

Wyjątek sprawdzania maszyny :

Maszyna Check Exception (MCE) jest rodzajem błędu sprzętu komputerowego, który występuje, gdy centralna jednostka przetwarzająca komputer wykrywa problem sprzętowy.

W komputerze wystąpił błąd sprzętowy, a jądro zarejestrowało zdarzenie w buforze. Możesz użyć mcelogdo logowania i przeglądania zdarzeń sprawdzania komputera. Z mcelogstrony man :

Procesory X86 zgłaszają błędy wykryte przez CPU jako zdarzenia sprawdzania komputera (MCE). Mogą to być uszkodzenia danych wykryte w pamięci podręcznej procesora, w pamięci głównej przez zintegrowany kontroler pamięci, błędy przesyłania danych na magistrali lub interfejsie procesora lub inne błędy wewnętrzne. Możliwymi przyczynami mogą być promieniowanie kosmiczne, niestabilne zasilacze, problemy z chłodzeniem, zepsuty sprzęt, niesprawne systemy lub pech.

Większość błędów może być skorygowanych przez CPU za pomocą wewnętrznych mechanizmów korekcji błędów. Niepoprawione błędy powodują wyjątki sprawdzania maszyny, które mogą zabić procesy lub spanikować maszynę. Niewielka liczba poprawionych błędów zwykle nie stanowi powodu do niepokoju, ale duża liczba może wskazywać na awarię w przyszłości.

Kiedy wystąpi poprawiony lub odzyskany błąd, jądro x86 zapisuje rekord opisujący MCE w wewnętrznym buforze pierścieniowym dostępnym przez urządzenie / dev / mcelog. mcelog pobiera błędy z / dev / mcelog, dekoduje je do formatu czytelnego dla człowieka i drukuje na standardowym wyjściu lub opcjonalnie w dzienniku systemowym.

Jeśli nie zauważyłeś awarii, prawdopodobnie błąd został pomyślnie naprawiony. Mimo to radzę zainstalować, mcelogaby śledzić takie zdarzenia:

sudo apt-get install mcelog

Zdarzenia zostaną zarejestrowane /var/log/mcelog. Możesz także uruchomić:

sudo mcelog --client

zapytać mcelogdemona o błędy.

Eric Carvalho
źródło
2
Zastanawiam się, dlaczego błędy MCE nie są zapisywane bezpośrednio w dzienniku systemowym ... prawdopodobnie z jakiegoś dobrego powodu
Xen2050 10.04.16
2
@ Xen2050 Ponieważ dekodowanie wiadomości zależy od architektury i nie zawsze jest dokumentowane przez producentów sprzętu. Błąd może zostać wygenerowany nawet przez magistralę PCIe.
Mircea Vutcovici
4
@ Xen2050: Na moim komputerze Fedora 25 wiadomości MCE są zapisywane w dzienniku, z którym mogę je zobaczyć journalctl -b.
Martin Ueding