Sprawdź błędy dysku twardego / oznaki awarii na serwerze CentOS

14

Jaki jest najlepszy sposób sprawdzenia błędów HDD i wczesnych oznak awarii w CentOS?

centos hard-drive corruption inac
źródło

1

jak częste powinny być kontrole? dziennie, tygodniowo?

inac

3

Poleciłbym zainstalować smartmon ( http://sourceforge.net/apps/trac/smartmontools/wiki ) na twoim komputerze. To oprogramowanie, które może sprawdzić kondycję twoich dysków, w przeciwnym razie będzie to sprawdzanie / var / log / messages lub / var / log / syslog dla wszelkich wzmianek o błędach SCSI

Paweł
źródło

wydaje się, że smartmon, chociaż jego statystyki wspominają, że wyłapałby tylko 60% uszkodzonych dysków. Gdybym ustawił smartmon na codzienne skanowanie, czy rzeczywiście pomogłoby to HDD umrzeć szybciej - to jest Seagate 7200.10?

inac

@inac smartmon pomoże hdds umrzeć szybciej? Gdzie to przeczytałeś? Dodaj adres URL.

030

2

dmesg

Jądro będzie rejestrować wszelkie komunikaty diagnostyczne dotyczące urządzeń I / O, dzięki czemu można je sprawdzić za pomocą polecenia dmesg.

Banjer
źródło

ale musiałbyś uruchomić to ręcznie lub cronjob dmesg zrzut do vi?

inac

zarówno. możesz utworzyć skrypt, aby zrzucić go za pomocą „dmesg> dmesg.dump.txt” i uruchamiać go codziennie z cronem.

Banjer

1

Możesz uruchomić fsck na urządzeniu, aby sprawdzić błędy.

cdated
źródło

0

Jak mówi Paul, dzienniki SMART są dobrym miejscem do sprawdzenia.

Polecam także uruchamianie BadBlocks . Jeśli masz kartę RAID, być może będziesz musiał użyć monitorowania.

Dentrasi
źródło

0

Monitorowanie SMART to dobry sposób. Jako root, smartctl -a /dev/hdagdzie hda jest dyskiem, który chcesz ... może to być hdb, sda itp. Zalecam również ustawienie twojego adresu e-mail w / etc / aliases jako osobę, która powinna otrzymywać pocztę roota.

To bardzo niejasna odpowiedź. Jeśli masz serwer jednego z dużych producentów (Dell, HP itp.), Są większe szanse na lepsze możliwości monitorowania.

churnd
źródło

0

Możesz spróbować pełnego sprawdzenia partycji / dev / sda1 (na przykład) jak

fsck -f /dev/sda1

lub spróbuj wykonać pełny test nieniszczący zapisu i odczytu dla danej partycji

badblocks -vn /dev/sda1

Liibo
źródło

/dev/sda1 is mounted; it's not safe to run badblocks!

030

e2fsck: Cannot continue, aborting.

030

@ 030 Upuść na poziom działania, na którym dysk główny nie jest podłączony.

awiebe

Sprawdź błędy dysku twardego / oznaki awarii na serwerze CentOS

Odpowiedzi: