Jak znaleźć uszkodzony moduł pamięci na podstawie komunikatu MCE?

11

Próbuję zrozumieć komunikat MCE, aby dowiedzieć się, który moduł pamięci jest zły na serwerze. Ten komunikat pojawia się na /var/log/kern.logjednym serwerze, który dziś zawiesza się dwa razy.

Apr 13 22:39:22 mbox kernel: [36247975.116860] sbridge: HANDLING MCE MEMORY ERROR
Apr 13 22:39:22 mbox kernel: [36247975.116867] CPU 0: Machine Check Exception: 0 Bank 5: 8c00004000010090
Apr 13 22:39:22 mbox kernel: [36247975.116869] TSC 0 ADDR 4a0d75900 MISC 21405cdc86 PROCESSOR 0:206d7 TIME 1428957562 SOCKET 0 APIC 0
Apr 13 22:39:22 mbox kernel: [36247975.951013] EDAC MC0: 1 CE memory read error 

Podejrzewam, że zły moduł pamięci. Serwer to 2x Xeon E5-2650 z modułami pamięci 8x8Go (8 gniazd pamięci dla każdego procesora)

Oto populacja modułu pamięci z lshw:

 *-memory:0
      description: System Memory
      physical id: 2d
      slot: System board or motherboard
    *-bank:0
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-197.A
         vendor: Kingston
         physical id: 0
         serial: B83AE5C2
         slot: P1_DIMMA1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:1
         description: DIMM Synchronous [empty]
         product: Dimm1_PartNum
         vendor: Dimm1_Manufacturer
         physical id: 1
         serial: Dimm1_SerNum
         slot: P1_DIMMA2
         width: 64 bits
    *-bank:2
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-048.A
         vendor: Kingston
         physical id: 2
         serial: EC309238
         slot: P1_DIMMB1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:3
         description: DIMM Synchronous [empty]
         product: Dimm4_PartNum
         vendor: Dimm4_Manufacturer
         physical id: 3
         serial: Dimm4_SerNum
         slot: P1_DIMMB2
         width: 64 bits
    *-bank:4
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-048.A
         vendor: Kingston
         physical id: 4
         serial: E9305438
         slot: P1_DIMMC1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:5
         description: DIMM Synchronous [empty]
         product: Dimm7_PartNum
         vendor: Dimm7_Manufacturer
         physical id: 5
         serial: Dimm7_SerNum
         slot: P1_DIMMC2
         width: 64 bits
    *-bank:6
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-048.A
         vendor: Kingston
         physical id: 6
         serial: E7305738
         slot: P1_DIMMD1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:7
         description: DIMM Synchronous [empty]
         product: Dimm10_PartNum
         vendor: Dimm10_Manufacturer
         physical id: 7
         serial: Dimm10_SerNum
         slot: P1_DIMMD2
         width: 64 bits
 *-memory:1
      description: System Memory
      physical id: 3f
      slot: System board or motherboard
    *-bank:0
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-197.A
         vendor: Kingston
         physical id: 0
         serial: B63A08C3
         slot: P2_DIMME1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:1
         description: DIMM Synchronous [empty]
         product: Dimm1_PartNum
         vendor: Dimm1_Manufacturer
         physical id: 1
         serial: Dimm1_SerNum
         slot: P2_DIMME2
         width: 64 bits
    *-bank:2
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-048.A
         vendor: Kingston
         physical id: 2
         serial: EA309638
         slot: P2_DIMMF1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:3
         description: DIMM Synchronous [empty]
         product: Dimm4_PartNum
         vendor: Dimm4_Manufacturer
         physical id: 3
         serial: Dimm4_SerNum
         slot: P2_DIMMF2
         width: 64 bits
    *-bank:4
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-048.A
         vendor: Kingston
         physical id: 4
         serial: E7305938
         slot: P2_DIMMG1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:5
         description: DIMM Synchronous [empty]
         product: Dimm7_PartNum
         vendor: Dimm7_Manufacturer
         physical id: 5
         serial: Dimm7_SerNum
         slot: P2_DIMMG2
         width: 64 bits
    *-bank:6
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-048.A
         vendor: Kingston
         physical id: 6
         serial: E7305B38
         slot: P2_DIMMH1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:7
         description: DIMM Synchronous [empty]
         product: Dimm10_PartNum
         vendor: Dimm10_Manufacturer
         physical id: 7
         serial: Dimm10_SerNum
         slot: P2_DIMMH2
         width: 64 bits
 *-memory:2 UNCLAIMED
      physical id: 7
 *-memory:3 UNCLAIMED
      physical id: 9

Jak widać, na banku nr 5 nie ma modułu pamięci, który. Więc moje pytanie brzmi: czy zgadzasz się, że ten komunikat dotyczy awarii pamięci? A jeśli tak, to jak mogę znaleźć moduł, który należy wymienić?

Matg
źródło

Odpowiedzi:

10

Te błędy pochodzą z klasy EDAC - Error Detection And Correction urządzenia edac_mc.

Zdarzenia, które otrzymujesz, są zdarzeniami CE (błędy korygujące). Są to oznaki, że moduł DIMM zaczyna działać wadliwie.

EDAC nie zgłosił żadnej konkretnej informacji o tym, który wiersz pamięci lub kanał dotyczy, więc trudno jest powiedzieć, który z nich należy wymienić, dopóki ten nie zawiedzie.

ale spójrz na: / sys / devices / system / edac / mc / mc *, a to może ci powiedzieć nieco więcej o tym, który wiersz / dimm może być wadliwy.

Na przykład

ls -s /sys/devices/system/edac/mc/mc0 total 0 0 ce_count 0 csrow1 0 csrow4 0 csrow7 0 reset_counters 0 size_mb 0 ce_noinfo_count 0 csrow2 0 csrow5 0 device 0 sdram_scrub_rate 0 ue_count 0 csrow0 0 csrow3 0 csrow6 0 mc_name 0 seconds_since_reset 0 ue_noinfo_count

spójrz na pole ce_count.

na marginesie :

System może nadal działać, ale z mniejszym bezpieczeństwem. Zapobiegawcza konserwacja i proaktywna wymiana części modułów pamięci DIMM wykazujących CE może zmniejszyć prawdopodobieństwo wystąpienia przerażających zdarzeń w UE (błąd nieusuwalny) i „paniki” systemu.

więcej informacji na temat edac tutaj:

https://www.kernel.org/doc/Documentation/edac.txt

kamger
źródło
lub uruchom ponownie, a na ekranie rozruchowym GRUB-a wybierz memtest, który może dać ci nieco więcej informacji.
kamger
Nie ma już wiadomości MCE dziś rano (nie ma fizycznego dostępu do serwera), czekam, aż sprawdzi edac, dobry pomysł!
Matg
1

Może pomóc zainstalować mceloga i uruchomić go jako demona, może pomóc w dostarczaniu lepszych raportów. Nadal są tajemnicze, ale jest nieco więcej informacji, aby znaleźć zwinięty moduł DIMM.

mcelog może również obsługiwać problemy w czasie rzeczywistym, wyłączając strony z nadmiernymi błędami pamięci, a tym samym dając ci większą szansę na dłuższe działanie komputera do momentu jego odzyskania.

Baruch Even
źródło
Dzięki, właśnie to zrobiłem, ale nie ma więcej błędów od pierwszego postu. Postanowiliśmy wymienić wszystkie moduły DIMM.
Matg
Czasami błędy są przelotne, a czasem są po prostu powiązane z bardzo konkretnymi lokalizacjami, które są rzadko dotykane. Gdyby błędy się nie powtarzały, osobiście nie zastąpiłbym ściemniaczy i po prostu kontynuowałbym monitorowanie, ale wymiana jest również ważna.
Baruch Even
1

Niektórzy dostawcy twierdzą, że kilka błędów, które można naprawić w określonym czasie, nie jest szkodliwych.

Na przykład Oracle twierdzi, że wymień moduł DIMM, gdy nastąpi jedno z następujących zdarzeń:

  • Ponad 24 możliwe do naprawienia błędy (CE) powstają w ciągu 24 godzin od pojedynczego modułu DIMM, a żaden inny moduł DIMM nie wykazuje dalszych znaków CE.

  • Moduł DIMM nie testuje pamięci w systemie BIOS z powodu błędów niekorygowalnych pamięci (UCE).

  • Występują UCE i dochodzenie pokazuje, że błędy powstały z pamięci.

Zauważ 24 błędy w ciągu 24 godzin.

https://docs.oracle.com/cd/E19150-01/820-4213-11/dimms.html

Również,

Jeśli więcej niż jeden moduł DIMM doświadczył wielu oznakowań CE, przed wymianą modułów DIMM należy wykluczyć inne możliwe przyczyny oznakowania CE.

W ostatnim punkcie HP mówi coś podobnego, że może to być tylko oprogramowanie wewnętrzne serwera, które źle wykrywa błędy pamięci. Mówią, że w wielu przypadkach aktualizacja oprogramowania naprawia fałszywe alarmy. Może to być szczególnie prawdziwe, jeśli zacząłeś otrzymywać MCE z różnych modułów DIMM.

Tagar
źródło