Jak monitorować stan dysku twardego za kontrolerem RAID Dell PERC H710 za pomocą CentOS 6?

26

Mam serwer Dell działający CentOS 6przy użyciu PERC H710karty kontrolera RAID z konfiguracją RAID 5 i chcę monitorować awarię dysku twardego / status pracy kontrolera RAID.

Następnie powinienem móc użyć skryptu bash do monitorowania stanu dysku twardego i wysyłania e-maili z alertami, jeśli coś pójdzie nie tak.

LSI MegaRAID SASNarzędzie poleceń (O Narzędzia LSI MegaRAID SAS Linux) dla CentOS / Red Hat / Linux nie obsługuje PERC H710 i smartctlnie obsługuje go albo.

Na podstawie witryny firmy Dell CentOSIS nie jest obsługiwane dla tego serwera ( NX3200 PowerVault) i nie mogłem pobrać żadnego programu linux do monitorowania dysku twardego.

[root@server ~]# lspci | grep RAID
03:00.0 RAID bus controller: LSI Logic / Symbios Logic MegaRAID SAS 2208 [Thunderbolt] (rev 05)


[root@server ~]# smartctl -a /dev/sda
smartctl 5.43 2012-06-30 r3573 [x86_64-linux-2.6.32-431.el6.x86_64] (local build)
Copyright (C) 2002-12 by Bruce Allen, http://smartmontools.sourceforge.net

Vendor:               DELL
Product:              PERC H710
Revision:             3.13
User Capacity:        299,439,751,168 bytes [299 GB]
Logical block size:   512 bytes
Logical Unit id:      ....
Serial number:        ....
Device type:          disk
Local Time is:        Tue Apr 15 16:38:30 2014 SGT
Device does not support SMART

Error Counter logging not supported
Device does not support Self Test logging

Czy ktoś wie, jak monitorować stan dysku twardego podczas rajdu sprzętowego w Dell PERC H710 z CentOS 6?

Xianlin
źródło

Odpowiedzi:

26

SMART nie jest ostatnim słowem w monitorowaniu dysku lub pamięci !! Jest to komponent, ale nowoczesne kontrolery RAID używają go wraz z innymi metodami do określania kondycji dysków i macierzy.

Zakładam, że jest to kontroler PERC na serwerze Dell PowerEdge.

Normalnym podejściem do monitorowania kondycji sprzętu Dell przyjaznym dla systemu Linux jest instalacja agentów Dell OMSA dla systemu Linux za pośrednictwem Yum - http://linux.dell.com/wiki/index.php/Repository/OMSA#Yum_setup

yum install srvadmin-allzainstaluje pełny zestaw agentów. Po zainstalowaniu możesz użyć omreportpolecenia, aby uzyskać informacje o swojej tablicy.

Przykłady:

$ omreport storage vdisk

$ omreport storage pdisk controller=0

$ omreport storage vdisk controller=0 vdisk=1
ewwhite
źródło
7
spowoduje to zainstalowanie dodatkowych komponentów, takich jak serwer WWW / ssl na moich komputerach z systemem Linux, ale wygląda na to, że nie mam innego wyboru! Nienawidzę dodawać niepotrzebnych pakietów do mojego serwera.
Xianlin
2
Uważaj na potencjalny wyciek pamięci z jednego z tych programów OMSA. Zdarzyło mi się to powoli w ciągu 3-4 tygodni, potem boom, brak pamięci dla Linuksa.
bksunday,
1
Tak, wyciek jest w dsm_sa_snmpd (więc uruchamiam 'killall -9 dsm_sa_snmpd', rozwiązany).
markusN
5
Kontrolery PERC 7xx i 8xx są tylko kontrolerami LSI Megaraid, a narzędzie LSI MegaCLI będzie działać dobrze, jeśli nie chcesz skazywać systemu bibliotekami Dell i innymi usługami i / lub modułami jądra, które upuszczają w tych dniach. Istnieje wiele ściągawek MegaCLI, skryptów monitorowania nagios i wskazówek dostrajania wydajności dla pliku binarnego LSI. To tylko moje osobiste preferencje i opinia. Jestem minimalistką.
Aaron
@Xianlin, to nie do końca prawda. Tak, zainstaluje dużo śmieci, ale zobacz moją odpowiedź. Nie chciałem dodawać niepotrzebnych pakietów, więc wymyśliłem tylko te, których potrzebowałem do przechowywania.
Mike S,
25

Możesz zobaczyć status SMART dysków za pomocą polecenia smartctl i jego -dargumentu. Na przykład, aby zobaczyć pierwszy dysk w tablicy:

# smartctl -a /dev/sda -d sat+megaraid,00
smartctl 5.43 2012-06-30 r3573 [x86_64-linux-2.6.32-358.6.2.el6.x86_64] (local build)
Copyright (C) 2002-12 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF INFORMATION SECTION ===
Device Model:     ST91000640NS
Serial Number:    ........
LU WWN Device Id: . ...... .........
Firmware Version: AA08
User Capacity:    1,000,204,886,016 bytes [1.00 TB]
Sector Size:      512 bytes logical/physical
Device is:        Not in smartctl database [for details use: -P     showall]
ATA Version is:   8
ATA Standard is:  ATA-8-ACS revision 4
Local Time is:    Thu Jul 10 11:21:52 2014 WEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
Warning: This result is based on an Attribute check.
...
...
#

To jest na Scientific Linux 6 (inny system operacyjny oparty na RHEL6) z smartmontools-5.43-1.el6.x86_64.

Jonathan Barber
źródło
-d megaraid,0wystarczyło w smartctl 6.6linii poleceń. W DEVICESCANciągu w /etc/smartd.confnim potrzebne-d removable
Stuart Cardall
9

Przyjęta odpowiedź zaleca zuchwałość yum install srvadmin-all. Blecch Oto, jak sprawić, by było nieco mniej bezczelnie (ale nadal nieźle), na platformie HP można uzyskać znacznie szczuplejsze. Ale dygresję ...) Rozumiem przez to, że instaluję tylko te komponenty, które są niezbędne do zarządzania pamięcią masową na twoim komputerze .

BTW, bezpośrednia odpowiedź na pytanie użytkownika znajduje się w pozycji „Pokaż dyski fizyczne na vdisk 0” na poniższej liście.

wget -q -O - http://linux.dell.com/repo/hardware/latest/bootstrap.cgi > bootstrap.cgi
bash bootstrap.cgi
yum install srvadmin-base
yum install srvadmin-storageservices

Dodaj do roota .bashrc:

export PATH=$PATH:/opt/dell/srvadmin/bin

Cieszyć się:

Polecenia RAID

  • Pokaż wszystkie dyski fizyczne na kontrolerze 0

    $ omreport storage pdisk controller=0
    
  • Pokaż wszystkie dyski logiczne na kontrolerze 0

    $ omreport storage vdisk controller=0
    
  • Pokaż wszystkie dyski fizyczne na vdisk 0

    $ omreport storage pdisk controller=0 vdisk=0
    
  • Ponownie skonfiguruj dysk vdisk na raid1 z raid0 ( COOL !!!! )

    $ sudo omconfig storage vdisk action=reconfigure controller=0 vdisk=1 raid=r1 pdisk=0:0:2,0:0:3
    
  • Utwórz dysk vdisk na nowym dysku:

    $ sudo omconfig storage controller controller=0 action=clearforeignconfig
    $ sudo omconfig storage controller controller=0 action=createvdisk raid=r0 size=max pdisk=0:0:2
    

Więcej informacji

BTW, ponieważ jest to tylko karta LSI MegaCLI marki Dell, odpowiedź Hana Solo może być jeszcze lepsza! Jednak jeszcze go nie wypróbowałem.

Słodycz

Oto przykład danych wyjściowych omreportu przesłanych przez grep w celu uzyskania pysznego pakietu danych:

$ omreport storage pdisk controller=0 vdisk=0 | grep -v ": Not "
List of Physical Disks belonging to root

Controller PERC H700 Integrated (Embedded)
ID                              : 0:0:0
Status                          : Ok
Name                            : Physical Disk 0:0:0
State                           : Online
Power Status                    : Spun Up
Bus Protocol                    : SAS
Media                           : HDD
Failure Predicted               : No
Revision                        : HT64
T10 PI Capable                  : No
Certified                       : Yes
Encryption Capable              : No
Capacity                        : 136.13 GB (146163105792 bytes)
Used RAID Disk Space            : 136.13 GB (146163105792 bytes)
Available RAID Disk Space       : 0.00 GB (0 bytes)
Hot Spare                       : No
Vendor ID                       : DELL(tm)
Product ID                      : ST9146852SS
Serial No.                      : 6TB1AFDT
Part Number                     : CN0X162K7262213800JTA01
Negotiated Speed                : 6.00 Gbps
Capable Speed                   : 6.00 Gbps
Sector Size                     : 512B
Manufacture Day                 : 05
Manufacture Week                : 10
Manufacture Year                : 2011
SAS Address                     : 5000C500395E44C5

ID                              : 0:0:1
Status                          : Ok
Name                            : Physical Disk 0:0:1
State                           : Online
Power Status                    : Spun Up
Bus Protocol                    : SAS
Media                           : HDD
Failure Predicted               : No
Revision                        : HT64
T10 PI Capable                  : No
Certified                       : Yes
Encryption Capable              : No
Capacity                        : 136.13 GB (146163105792 bytes)
Used RAID Disk Space            : 136.13 GB (146163105792 bytes)
Available RAID Disk Space       : 0.00 GB (0 bytes)
Hot Spare                       : No
Vendor ID                       : DELL(tm)
Product ID                      : ST9146852SS
Serial No.                      : 6TB1AFEY
Part Number                     : CN0X162K7262213800FPA01
Negotiated Speed                : 6.00 Gbps
Capable Speed                   : 6.00 Gbps
Sector Size                     : 512B
Manufacture Day                 : 05
Manufacture Week                : 10
Manufacture Year                : 2011
SAS Address                     : 5000C500395E3C1D
Mike S.
źródło
@slm Jeśli chodzi o edycję - czy to naprawdę działa bez rootowania? Obecnie nie mam przede wszystkim omreport / omconfig, ale nie jestem pewien, czy jakikolwiek użytkownik może po prostu utworzyć dysk vdisk. „$” W wierszu poleceń oznacza zwykłego użytkownika, a nie użytkownika root.
Mike S
Tak, właśnie to zrobiłem innego dnia, kiedy miałem do czynienia z Dell 730, wszystkie dyski cmd oprócz tych 2, które wykonują „tworzenie”, nie wymagały rootowania, naprawię.
slm
6

Walczyłem również o to, aby działał w CentOS i znalazłem działający pakiet tutaj http://mirror.ndchost.com/software/lsi/

o nazwie „ MegaCli-8.07.10-1.noarch.rpm

Odwołanie do polecenia http://hwraid.le-vert.net/wiki/LSIMegaRAIDSAS

Mam nadzieję, że to pomoże.

Han Solo
źródło
1
Absolutnie się zgodziłbym, użyj / opt / megacli / MegaCli64 -PDList -aALL | grep -i firmware, a powie ci, czy dyski fizyczne są w porządku. (Polecenie pochodzi z erikimh.com/megacli-cheatsheet - zobacz, jeśli użyłem niewłaściwego). Zasadniczo opieka nad najazdem świetnie sprawdza się w monitorowaniu dysków, więc po prostu śledź swoją opinię o stanach działania dysków.
Niektóre Linux Nerd
3
smartctl -d megaraid,00 -a /dev/sda
Got MegaRAID inquiry.. FUJITSU MBE2147RC       D906
Device: FUJITSU  MBE2147RC        Version: D906
Serial number: xxxx
Device type: disk
Transport protocol: SAS
Local Time is:
użytkownik311347
źródło
8
Zastanów się nad przeczytaniem Jak napisać dobrą odpowiedź? w naszym centrum pomocy, a następnie popraw odpowiedź. Twoje Dowództwo może technicznie być rozwiązaniem, o którym już wspomniano w innych, znacznie starszych odpowiedziach, a niektóre wyjaśnienia są mile widziane. Z góry dziękuję.
HBruijn
1
W drugiej odpowiedzi użyto „sat + megaraid”, co nie działało dla mnie. (Racja, nie znałem dobrze polecenia smartctl i nie wiedziałem, jak zmienić polecenie, aby zadziałało). Ta odpowiedź poprowadziła mnie na właściwą ścieżkę i działa dla mnie.
Yongwei Wu
1

perccliPolecenie może również pokazać wam wiele informacji napędowego jeśli zapytać go ładnie:

# /opt/MegaRAID/perccli/perccli64 /c0/e32/s0 show all
Controller = 0
Status = Success
Description = Show Drive Information Succeeded.


Drive /c0/e32/s0 :
================

-------------------------------------------------------------------------
EID:Slt DID State DG       Size Intf Med SED PI SeSz Model            Sp
-------------------------------------------------------------------------
32:0      0 UGood -  278.875 GB SAS  HDD N   N  512B ST3300657SS      U
-------------------------------------------------------------------------

EID-Enclosure Device ID|Slt-Slot No.|DID-Device ID|DG-DriveGroup
DHS-Dedicated Hot Spare|UGood-Unconfigured Good|GHS-Global Hotspare
UBad-Unconfigured Bad|Onln-Online|Offln-Offline|Intf-Interface
Med-Media Type|SED-Self Encryptive Drive|PI-Protection Info
SeSz-Sector Size|Sp-Spun|U-Up|D-Down/PowerSave|T-Transition|F-Foreign
UGUnsp-Unsupported|UGShld-UnConfigured shielded|HSPShld-Hotspare shielded
CFShld-Configured shielded|Cpybck-CopyBack|CBShld-Copyback Shielded


Drive /c0/e32/s0 - Detailed Information :
=======================================

Drive /c0/e32/s0 State :
======================
Shield Counter = 0
Media Error Count = 0
Other Error Count = 0
Drive Temperature =  40C (104.00 F)
Predictive Failure Count = 1
S.M.A.R.T alert flagged by drive = Yes

Tę czynność należy powtórzyć dla każdego gniazda obudowy, a przynajmniej nie znalazłem sposobu, aby wydrukować wszystko za jednym razem perccli.

Jest również łatwy w instalacji w porównaniu do innych, bardziej wszechstronnych opcji:

# curl -C - -O 'https://downloads.dell.com/FOLDER04470715M/1/perccli_7.1-007.0127_linux.tar.gz'
# tar xzvf ../perccli_7.1-007.0127_linux.tar.gz
# cd Linux/
# yum localinstall perccli-007.0127.0000.0000-1.noarch.rpm
# cd /opt/MegaRAID/perccli/

percclito NIE kompleksowy pakiet monitoring jak Delll OMSA, ale to brzmi jak wielu ludzi nie chce czegoś potrzebują kompleksowego i zamiast godnej, prostego narzędzia.

Steve Bonds
źródło
-1

Cześć Mam podobną kartę Dell PERC / LSI i musiałem sprawdzić stan RAID. LSI ma narzędzie o nazwie sas2ircu, które uważam za całkiem przydatne, jest też wersja dla systemu Windows i Linux.

mike_coreit
źródło