Jak sprawdzić, czy dysk nie działa w ESXi / co oznaczają te błędy?

Mam serwer z uruchomionym VMware ESXi v4.1.0 348481. Ma sprzętowy RAID10 i dysk zapasowy SATA. Mam uruchomioną maszynę wirtualną, która ma swój podstawowy plik startowy vmdk w magazynie danych RAID10 i 600 GB vmdk w magazynie danych dysku zapasowego SATA. VM uruchamia system Linux Debian z jądrem FreeBSD i używa ZFS jako napędu kopii zapasowej.

EDYCJA: Dysk nie jest bezpośrednio podłączony do maszyny wirtualnej. Jest on używany jako magazyn danych VMware, a maszyna wirtualna ma vmdk w magazynie danych napędu SATA. Magazyn danych nie jest pełny (tylko 65%)

Zalogowałem się na serwerze przy użyciu protokołu SSH i stwierdziłem, że kopia zapasowa zeszłej nocy została zawieszona i / zfs listlub zpool listobie. Więc otworzyłem wirtualną konsolę w ESXi i przykro mi było widzieć:

Ten zrzut ekranu mnie zasmuca

(da1:mpt0:0:1:0): READ(10). CDC: 28 0 19 97 3a 50 0 0 2d 0
(da1:mpt0:0:1:0): CAM status: SCSI Status Error
(da1:mpt0:0:1:0): SCSI status: Check Condition
(da1:mpt0:0:1:0): SCSI sense: MEDIUM ERROR info:4862ec asc:11,4 (Unrecovered read error - auto reallocate failed)
(da1:mpt0:0:1:0): READ(10). CDC: 28 0 19 97 3a 50 0 0 2d 0
(da1:mpt0:0:1:0): CAM status: SCSI Status Error
(da1:mpt0:0:1:0): SCSI status: Check Condition
(da1:mpt0:0:1:0): SCSI sense: MEDIUM ERROR info:4862ec asc:11,4 (Unrecovered read error - auto reallocate failed)

Próbowałem zrestartować maszynę wirtualną i otrzymałem komunikat, że system jest wyłączany w celu ponownego uruchomienia, a następnie zawiesił się. (^ C pojawia się, ale nie zabija shutdown). I nie może przerwać lub lub procesy - Nic się nie dzieje, gdy próbuję.kill -9zpool list zfs listrsync

Czy to wskazuje na awarię dysku SATA? Czy może to być po prostu błąd ESXi?
Jak w kliencie vSphere mogę stwierdzić, czy dysk nie działa? Nie widziałem żadnych oznak, wszystko w stanie kondycji sprzętu wygląda dobrze i nic nie widziałem w konfiguracji pamięci.
Jak mam stąd postępować? Czy powinienem po prostu mocno zrestartować maszynę wirtualną?

AKTUALIZACJA: Właśnie ponownie uruchomiłem maszynę wirtualną. Po powrocie online zapasowy zpool był jednak online:

root@timestandstill:/home/jnet# zpool status -v
  pool: backup
 state: ONLINE
status: One or more devices has experienced an error resulting in data
        corruption.  Applications may be affected.
action: Restore the file in question if possible.  Otherwise restore the
        entire pool from backup.
   see: http://www.sun.com/msg/ZFS-8000-8A
 scrub: none requested
config:

        NAME        STATE     READ WRITE CKSUM
        backup      ONLINE       0     0     0
          da1       ONLINE       0     0     0


errors: Permanent errors have been detected in the following files:

        /backups/someserver/home/someuser/public_html/somedir/calendar/someuser/calendars/somefile.ics

Opieram się mocno na wymianie napędu ...

vmware-esxi drive-failure debian Josh
źródło

Błędy te rzeczywiście wskazują, że jeden z dysków SATA napotkał wystarczającą liczbę uszkodzonych bloków, aby zabrakło miejsca na realokację bloków. Ten dysk jest zły i należy go wymienić. Nie jestem pewien, gdzie w kliencie vSphere te informacje są wyświetlane, ale wpisy w dzienniku są dość jasne.

Jeśli twój sprzęt na to pozwala, wymiana na gorąco powinna być wykonalna. W przeciwnym razie będziesz musiał zamknąć wszystko, aby dokonać zmiany. Jeśli ta maszyna wirtualna nie zamknęła się po 30 minutach, nadszedł czas, aby ją zakończyć. Jest to ryzykowne, ale jeśli jest naprawdę zawieszone, nie ma za wiele.

sysadmin1138
źródło

Dzięki @ sysadmin1138. Więc chociaż te błędy pojawiają się w maszynie wirtualnej, wyraźnie wskazuje to na prawdziwy problem sprzętowy? IE to nie tylko dziwactwo VMware?

Josh

@Josh Jeśli bezpośrednio zaprezentowałeś dysk SATA maszynie wirtualnej, na pewno to zobaczysz. W przypadku przechowywania kopii zapasowej plików jestem mniej pewien; być może w magazynie danych zabrakło miejsca.

sysadmin1138

Powinienem to wyjaśnić. Jest to pamięć oparta na plikach. Magazyn danych ma dużo miejsca: jest to dysk o pojemności 1 TB, a VMDK ma pojemność 600 GB, nic więcej nie znajduje się na dysku. Tak czy inaczej, to oczywiście coś złego, więc jeśli ktoś inny nie wyjaśni mi, co to może być, wymienię dysk.

Josh

Jak sprawdzić, czy dysk nie działa w ESXi / co oznaczają te błędy?

Odpowiedzi: