Powiedzmy, że twój serwer miał 6 zdrowych dysków twardych. Napęd ulega awarii (nie można go zamontować / wykryć, wypadnie z rajdu z błędami) lub ulega awarii (SMART pogarsza się itp.). Musisz wymienić zły dysk. Po otwarciu skrzynki zobaczysz ... sześć identycznych dysków twardych.
Jak rozpoznać, który z nich nie jest już zdrowy / montowany / funkcjonuje?
Systemem byłby system Linux, najprawdopodobniej serwer Ubuntu, korzystający z co najmniej prostego oprogramowania RAID. Dyski twarde byłyby SATA i podłączone bezpośrednio do płyty głównej. (bez kontrolera RAID)
Nie chcę losowo odłączać dysków, dopóki nie wybiorę właściwego. Wszystkie dyski wydają się identyczne ze mną; Wyobrażam sobie, że istnieje jakiś powszechny sposób na określenie, który dysk jest nieświadomy. Czy ktoś ma jakieś wskazówki / porady / najlepsze praktyki? Dzięki!
EDYCJA: Chciałem, żeby to było „uogólnione” w sposób falisty, ale po prostu okazało się, że jest „niekompletne” i „okropne”. Mój błąd!
źródło
Odpowiedzi:
Miałem dokładnie ten problem na serwerze (wieżowym), tak jak to wyjaśniłeś, i było to łatwe:
smartctl wyświetli numer seryjny napędu
Sprzedawcy czasami wysyłają własne narzędzia, takie jak hdparm, które robią to samo.
Więc wypisz numer seryjny uszkodzonego dysku, a następnie użyj lusterka dentystycznego i latarki, aby znaleźć dysk.
Na stojaku zwykle masz lampki sygnalizacyjne, jak mówili inni, ale założę się, że to samo miałoby zastosowanie.
źródło
Naklejanie naklejek na dyski (w zależności od konstrukcji tacy) może być niemożliwe. Zanim dysk umrze, naklejki mogą wyschnąć i spaść.
ledctl (z pakietu ledmon) jest naprawdę dobrym rozwiązaniem.
lub
zapali się lampka awarii napędu na obudowie dla określonego napędu. Podałem dwa przykłady, aby zilustrować, że nie ma znaczenia JAK zidentyfikujesz dysk. Możesz użyć numeru seryjnego, nazwy itp. ... Można użyć dowolnej dostępnej informacji. Dyski są wymieniane na wiele sposobów w ścieżce / dev / i / dev / disk /.
Aby wyłączyć światło, po prostu uruchom je ponownie, zmieniając locate na locate_off w następujący sposób:
źródło
Zwykle trzeba mieć nadzieję, że połączenia są w jakiś sposób oznakowane, a następnie pracować na podstawie tożsamości uszkodzonego urządzenia. Na przykład ... a ktoś musiałby skomentować, aby mnie poprawić ... jeśli masz dwa kanały IDE, masz do 2 dysków na każdym, możesz mieć sda, sdb, sdc i sdd. Jeśli SDD nie powiedzie się, będzie to drugi dysk na kablu drugiego kanału IDE.
Jeśli jest to SATA i podobnie jak system, który mam na zapleczu, porty są oznaczone dla każdego z dysków sata. Ponownie, litery dysków zaczynają się od „do”, niezależnie od tego, do czego prowadzą dyski, zaczynając od portu 0 złączy SATA i przesuwając się w górę.
Jeśli istnieją jakiekolwiek różnice produkcyjne, dmesg | grep sd lub dmesg | grep hd powinny dać pewne wskazówki.
Jeśli masz dostępne numery seryjne, myślę, że polecenie hdparm może ci je dać w oprogramowaniu, abyś mógł je w ten sposób prześledzić. Jeśli tak jest, możesz chcieć gdzieś oznaczyć dyski, więc nie musisz się tym martwić, gdy znajdziesz jakiś problem.
... wiedziałem, że istnieje inny powód, dla którego wolę sprzętową macierz RAID niż programową macierz RAID ... migające lampki. Naprawdę lubię mrugające światła.
EDYCJA: smartctl, nie hdparm, podaje numer seryjny. Mój błąd.
źródło
Niektóre dyski wyświetlają „plik” lokalizacji, w
/sys
którym można powtórzyć 1, aby włączyć lampkę wskaźnika lokalizacji lub 0, aby wyłączyć.źródło
Sześć wewnętrznych HDDS? Jeśli są to zewnętrzne dyski z funkcją wymiany podczas pracy, nośnik wymiany podczas pracy prawdopodobnie ma lampkę błędu, która pomaga zidentyfikować uszkodzony dysk. Również wiele programów do zarządzania rajdami ma opcję flashowania światła na konkretnym dysku, aby ustalić, który jest który. Jeśli wszystkie są wewnętrzne bez świateł, oznacza to, że program RAID mówi ci, które identyfikatory są dobre, i patrzysz na identyfikatory SCSI itp., Aby je rozgryźć. Jeśli są ustawione na automatyczne, to dokument kontrolera RAID powinien powiedzieć, w jakiej kolejności w łańcuchu SCSI przypisane są identyfikatory. Powodzenia. Zrób kopię zapasową teraz, gdy wszystko jeszcze działa!
źródło
Przynajmniej oprogramowanie / kontroler RAID, który powiedział ci o uszkodzonym dysku, powinien poinformować cię, który dysk się zepsuł (numer identyfikacyjny). 0 jest zwykle tym w lewym górnym rogu, przesuwającym się w dół, a następnie w prawo (jeśli jest w dwóch lub więcej kolumnach). Porty są prawdopodobnie oznaczone.
źródło
Krótka odpowiedź - „lsscsi” Szczegółowa odpowiedź - „lshw -c disk” pokaże porty HDD i SATA, w których te są podłączone.
źródło
Jeśli nie masz światła lokalizacji i nie możesz łatwo znaleźć numerów seryjnych na zewnątrz dysków, czasami ta tandetna technika może pomóc: stworzyć DUŻĄ aktywność na tym konkretnym dysku, a następnie poszukaj dysku z diodą LED aktywności na stałe . Najlepiej jest przeprowadzić bardziej szczegółową kontrolę numeru seryjnego, ale może to pomóc w zawężeniu wyszukiwania.
Na przykład:
# while true; do dd if=/dev/disk/by-id/scsi-drive-that-is-dying of=/dev/null; sleep 1; done
(Pętla while nie jest technicznie potrzebna, ale będzie utrzymywać ruch podczas przechodzenia do centrum danych. „Uśpienie 1” pomaga uniknąć dużego obciążenia procesora spowodowanego przez szybką pętlę, jeśli „dd” zawiedzie z powodu powiedzenia .. . dysk jest odłączany).
źródło
Gdy wszystko inne zawiedzie, możesz zidentyfikować nie uszkodzone dyski i pracować wstecz.
Niezależnie od tego, które lampki aktywności napędów NIE zapalą się, są prawdopodobnie złe (i mam nadzieję, że to tylko jedna). Pamiętaj, że jeśli masz skonfigurowane części zapasowe, również się nie zapalą.
źródło
Powinny być oznaczone na podwoziu i odpowiadać oprogramowaniu RAID.
W naszych komputerach Dell nie są takie, jak myślisz. W naszym 0: 0 to lewy dolny róg, 0: 1 to górny lewy, 0: 2 to dolny środkowy itd. Na wszystkich serwerach, z których korzystałem (z wyjątkiem zadań domowych), oprogramowanie RAID wskaże port i będzie to oznaczone.
źródło
scsirastools ma zestaw narzędzi, które pozwalają przeprowadzać różne testy diagnostyczne na dyskach SCSI. Możesz także użyć sgmon, aby wyłączyć dysk pod kontrolą oprogramowania. Pozwoliłoby to przynajmniej zidentyfikować fizyczny dysk, który można zlokalizować za pomocą diagnostyki.
Jeśli masz sprzętowy kontroler RAID, system BIOS lub oprogramowanie zarządzające kontrolera powinno mieć narzędzie umożliwiające identyfikację uszkodzonych dysków.
źródło