Jak mogę znaleźć, która pamięć zawiera błąd CE?

12

W /var/log/kern.log:

kernel: [13291329.657499] EDAC MC0: 48 CE error on CPU#0Channel#2_DIMM#0 (channel:2 slot:0 page:0x0 offset:0x0 grain:8 syndrome:0x0)

To jest edacdziennik, jedna z pamięci ma cebłąd.

Przeczytałem edac doc

Dual channels allows for 128 bit data transfers to the CPU from memory.
Some newer chipsets allow for more than 2 channels, like Fully Buffered DIMMs
(FB-DIMMs). The following example will assume 2 channels:


            Channel 0   Channel 1
    ===================================
    csrow0  | DIMM_A0   | DIMM_B0 |
    csrow1  | DIMM_A0   | DIMM_B0 |
    ===================================

    ===================================
    csrow2  | DIMM_A1   | DIMM_B1 |
    csrow3  | DIMM_A1   | DIMM_B1 |
    ===================================

i znajdź kanał błędu:

$ grep "[0-9]" /sys/devices/system/edac/mc/mc*/csrow*/ch*_ce_count
/sys/devices/system/edac/mc/mc0/csrow0/ch0_ce_count:0
/sys/devices/system/edac/mc/mc0/csrow0/ch1_ce_count:0
/sys/devices/system/edac/mc/mc0/csrow0/ch2_ce_count:144648966
/sys/devices/system/edac/mc/mc0/csrow1/ch0_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow0/ch0_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow0/ch1_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow0/ch2_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow1/ch0_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow1/ch1_ce_count:0

i powinien być mc0/csrow0/ch2, podobnie jak dokument, modułem DIMM DIMM_C0i może być znaleziony przez dmidecode:

Ale nie mogę znaleźć tego modułu DIMM, więc nie wiem, która pamięć ma problem:

$ dmidecode -t memory | grep 'Locator: PROC'
        Locator: PROC 1 DIMM 2A
        Locator: PROC 1 DIMM 1D
        Locator: PROC 1 DIMM 4B
        Locator: PROC 1 DIMM 3E
        Locator: PROC 1 DIMM 6C
        Locator: PROC 1 DIMM 5F
        Locator: PROC 2 DIMM 2A
        Locator: PROC 2 DIMM 1D
        Locator: PROC 2 DIMM 4B
        Locator: PROC 2 DIMM 3E
        Locator: PROC 2 DIMM 6C
        Locator: PROC 2 DIMM 5F

Istnieje 12 miejsc, a 9 miejsc ma pamięć.

Więc skąd mam wiedzieć, która pamięć ma problem?


Suplement:

System Information
        Manufacturer: HP
        Product Name: ProLiant DL180 G6
Tanky Woo
źródło
Co to za serwer? Producent i model serwera.
ewwhite
@ewwhite, cześć, zaktualizowałem pytanie o informacje o systemie.
Tanky Woo,
Z jakiego systemu operacyjnego korzystasz?
ewwhite
@ Nowy system operacyjny to Ubuntu 12.04Kernel3.10.20
Tanky Woo
Och, przepraszam ... Ubuntu nie jest tak naprawdę obsługiwane na tym sprzęcie , więc tracisz możliwość jego prawidłowego monitorowania, nie używając RHEL / CentOS / Debian / SuSE ...
ewwhite

Odpowiedzi:

8

Prawdopodobny problem z modułem DIMM - Locator: PROC 1 DIMM 5F

Procesor # 0 Kanał # 2_DIMM # ​​0 oznacza:

PROC 1, 
1D,2A = Channel 0  
3E,4B = Channel 1
5F,6C = Channel 2

5F = DIMM 0
6C = DIMM 1

Edytować:

Przy zadawaniu pytań więcej informacji jest zawsze lepsze ... Uproszczenie producenta i modelu serwera uprościłoby to:

Oto schemat pamięci od HP ProLiant DL180 G6 Quickspecs :

wprowadź opis zdjęcia tutaj

Moja sugestia, że ​​moduł DIMM w gnieździe nr 1 procesora jest poprawny ... Ale to sprzęt HP. Nie powinieneś zgadywać !!

Powinieneś używać agentów zarządzania HP, ponieważ mogą oni ostrzegać i podawać szczegółowe informacje o kondycji i stanie sprzętu ...

[root@veloce ~]# hpasmcli
HP management CLI for Linux (v2.0)
Copyright 2008 Hewlett-Packard Development Group, L.P.

--------------------------------------------------------------------------
This server ProLiant DL180 G6  , is a Proliant 100 Series Server.
NOTE: Some hpasmcli commands may not be supported on 100 series servers.
      Type 'help' to get a list of all top level commands.
--------------------------------------------------------------------------
hpasmcli> show dimm
Cartridge #:    0
Processor #:    1
Module #:       2
Present:        Yes
Form Factor:    fh
Memory Type:    5h
Size:           4096 MB
Speed:          1333 MHz
Status:         N/A

Cartridge #:    0
Processor #:    1
Module #:       1
Present:        Yes
Form Factor:    fh
Memory Type:    5h
Size:           4096 MB
Speed:          1333 MHz
Status:         N/A

Cartridge #:    0
Processor #:    1
Module #:       4
Present:        Yes
Form Factor:    fh
Memory Type:    5h
Size:           4096 MB
Speed:          1333 MHz
Status:         N/A

Cartridge #:    0
Processor #:    1
Module #:       6
Present:        Yes
Form Factor:    fh
Memory Type:    5h
Size:           4096 MB
Speed:          1333 MHz
Status:         N/A
ewwhite
źródło
dzięki, czy jest jakiś związany z tym dokument?
Tanky Woo,
@TankyWoo Tak, patrz wyżej.
ewwhite
PROC1 DIMM 5Fnie masz pamięci. Czyli oznacza to, że miejsce nie jest tak naprawdę potwierdzone? Czy powinienem dodać kopię lustrzaną hp deb i zainstalować, hpamscliaby uzyskać właściwy moduł DIMM?
Tanky Woo,
Mam zainstalowany hp-healthi Statusjest N/Ataki sam jak wklejone wyjście.
Tanky Woo,
Uruchom, hplog -vaby sprawdzić wpisy w dzienniku HP IML.
ewwhite