Próbuję zrozumieć komunikat MCE, aby dowiedzieć się, który moduł pamięci jest zły na serwerze. Ten komunikat pojawia się na /var/log/kern.log
jednym serwerze, który dziś zawiesza się dwa razy.
Apr 13 22:39:22 mbox kernel: [36247975.116860] sbridge: HANDLING MCE MEMORY ERROR
Apr 13 22:39:22 mbox kernel: [36247975.116867] CPU 0: Machine Check Exception: 0 Bank 5: 8c00004000010090
Apr 13 22:39:22 mbox kernel: [36247975.116869] TSC 0 ADDR 4a0d75900 MISC 21405cdc86 PROCESSOR 0:206d7 TIME 1428957562 SOCKET 0 APIC 0
Apr 13 22:39:22 mbox kernel: [36247975.951013] EDAC MC0: 1 CE memory read error
Podejrzewam, że zły moduł pamięci. Serwer to 2x Xeon E5-2650 z modułami pamięci 8x8Go (8 gniazd pamięci dla każdego procesora)
Oto populacja modułu pamięci z lshw
:
*-memory:0
description: System Memory
physical id: 2d
slot: System board or motherboard
*-bank:0
description: DIMM DDR3 1333 MHz (0,8 ns)
product: 9965516-197.A
vendor: Kingston
physical id: 0
serial: B83AE5C2
slot: P1_DIMMA1
size: 8GiB
width: 64 bits
clock: 1333MHz (0.8ns)
*-bank:1
description: DIMM Synchronous [empty]
product: Dimm1_PartNum
vendor: Dimm1_Manufacturer
physical id: 1
serial: Dimm1_SerNum
slot: P1_DIMMA2
width: 64 bits
*-bank:2
description: DIMM DDR3 1333 MHz (0,8 ns)
product: 9965516-048.A
vendor: Kingston
physical id: 2
serial: EC309238
slot: P1_DIMMB1
size: 8GiB
width: 64 bits
clock: 1333MHz (0.8ns)
*-bank:3
description: DIMM Synchronous [empty]
product: Dimm4_PartNum
vendor: Dimm4_Manufacturer
physical id: 3
serial: Dimm4_SerNum
slot: P1_DIMMB2
width: 64 bits
*-bank:4
description: DIMM DDR3 1333 MHz (0,8 ns)
product: 9965516-048.A
vendor: Kingston
physical id: 4
serial: E9305438
slot: P1_DIMMC1
size: 8GiB
width: 64 bits
clock: 1333MHz (0.8ns)
*-bank:5
description: DIMM Synchronous [empty]
product: Dimm7_PartNum
vendor: Dimm7_Manufacturer
physical id: 5
serial: Dimm7_SerNum
slot: P1_DIMMC2
width: 64 bits
*-bank:6
description: DIMM DDR3 1333 MHz (0,8 ns)
product: 9965516-048.A
vendor: Kingston
physical id: 6
serial: E7305738
slot: P1_DIMMD1
size: 8GiB
width: 64 bits
clock: 1333MHz (0.8ns)
*-bank:7
description: DIMM Synchronous [empty]
product: Dimm10_PartNum
vendor: Dimm10_Manufacturer
physical id: 7
serial: Dimm10_SerNum
slot: P1_DIMMD2
width: 64 bits
*-memory:1
description: System Memory
physical id: 3f
slot: System board or motherboard
*-bank:0
description: DIMM DDR3 1333 MHz (0,8 ns)
product: 9965516-197.A
vendor: Kingston
physical id: 0
serial: B63A08C3
slot: P2_DIMME1
size: 8GiB
width: 64 bits
clock: 1333MHz (0.8ns)
*-bank:1
description: DIMM Synchronous [empty]
product: Dimm1_PartNum
vendor: Dimm1_Manufacturer
physical id: 1
serial: Dimm1_SerNum
slot: P2_DIMME2
width: 64 bits
*-bank:2
description: DIMM DDR3 1333 MHz (0,8 ns)
product: 9965516-048.A
vendor: Kingston
physical id: 2
serial: EA309638
slot: P2_DIMMF1
size: 8GiB
width: 64 bits
clock: 1333MHz (0.8ns)
*-bank:3
description: DIMM Synchronous [empty]
product: Dimm4_PartNum
vendor: Dimm4_Manufacturer
physical id: 3
serial: Dimm4_SerNum
slot: P2_DIMMF2
width: 64 bits
*-bank:4
description: DIMM DDR3 1333 MHz (0,8 ns)
product: 9965516-048.A
vendor: Kingston
physical id: 4
serial: E7305938
slot: P2_DIMMG1
size: 8GiB
width: 64 bits
clock: 1333MHz (0.8ns)
*-bank:5
description: DIMM Synchronous [empty]
product: Dimm7_PartNum
vendor: Dimm7_Manufacturer
physical id: 5
serial: Dimm7_SerNum
slot: P2_DIMMG2
width: 64 bits
*-bank:6
description: DIMM DDR3 1333 MHz (0,8 ns)
product: 9965516-048.A
vendor: Kingston
physical id: 6
serial: E7305B38
slot: P2_DIMMH1
size: 8GiB
width: 64 bits
clock: 1333MHz (0.8ns)
*-bank:7
description: DIMM Synchronous [empty]
product: Dimm10_PartNum
vendor: Dimm10_Manufacturer
physical id: 7
serial: Dimm10_SerNum
slot: P2_DIMMH2
width: 64 bits
*-memory:2 UNCLAIMED
physical id: 7
*-memory:3 UNCLAIMED
physical id: 9
Jak widać, na banku nr 5 nie ma modułu pamięci, który. Więc moje pytanie brzmi: czy zgadzasz się, że ten komunikat dotyczy awarii pamięci? A jeśli tak, to jak mogę znaleźć moduł, który należy wymienić?
Może pomóc zainstalować mceloga i uruchomić go jako demona, może pomóc w dostarczaniu lepszych raportów. Nadal są tajemnicze, ale jest nieco więcej informacji, aby znaleźć zwinięty moduł DIMM.
mcelog może również obsługiwać problemy w czasie rzeczywistym, wyłączając strony z nadmiernymi błędami pamięci, a tym samym dając ci większą szansę na dłuższe działanie komputera do momentu jego odzyskania.
źródło
Niektórzy dostawcy twierdzą, że kilka błędów, które można naprawić w określonym czasie, nie jest szkodliwych.
Na przykład Oracle twierdzi, że wymień moduł DIMM, gdy nastąpi jedno z następujących zdarzeń:
Ponad 24 możliwe do naprawienia błędy (CE) powstają w ciągu 24 godzin od pojedynczego modułu DIMM, a żaden inny moduł DIMM nie wykazuje dalszych znaków CE.
Moduł DIMM nie testuje pamięci w systemie BIOS z powodu błędów niekorygowalnych pamięci (UCE).
Występują UCE i dochodzenie pokazuje, że błędy powstały z pamięci.
Zauważ 24 błędy w ciągu 24 godzin.
https://docs.oracle.com/cd/E19150-01/820-4213-11/dimms.html
Również,
W ostatnim punkcie HP mówi coś podobnego, że może to być tylko oprogramowanie wewnętrzne serwera, które źle wykrywa błędy pamięci. Mówią, że w wielu przypadkach aktualizacja oprogramowania naprawia fałszywe alarmy. Może to być szczególnie prawdziwe, jeśli zacząłeś otrzymywać MCE z różnych modułów DIMM.
źródło