Mam mały serwer Ubuntu działający w domu, z 2 dyskami twardymi. Istnieją dwa naloty na oprogramowanie (raid1) na dyski, zarządzane przez mdadm, które moim zdaniem są nieistotne, ale i tak o nich wspominają.
Oba dyski twarde są Western Digital i były używane od około 2 lat, kiedy jeden z nich zaczął wydawać odgłosy kliknięcia i zmarł. Pomyślałem, że może to naturalne po 2 latach, więc kupiłem nowy i zsynchronizowałem tablice rajdowe. Po około miesiącu drugi dysk również zmarł.
Nie nabrałem podejrzeń, ponieważ oba dyski zostały zakupione w tym samym czasie, nie jest zaskakujące, aby zobaczyć oba obok siebie, więc kupiłem kolejny.
Do tej pory 2 stare dyski uległy awarii i 2 zupełnie nowe w systemie. Po miesiącu zmarł jeden z nowych dysków. To wtedy zaczęło być podejrzane. Ponieważ komputer został złożony z kilku naprawdę starych części (myślę, że AthlonXP), pomyślałem, że winowajcą może być kontroler SATA płyty głównej. Oczywiście nie można łatwo zamieniać części w starym komputerze takim jak ten, więc kupiłem cały system, nowy MB, nowy procesor, nową pamięć RAM. Odebrałem właśnie uszkodzony dysk, ponieważ był objęty gwarancją, i wymieniono go.
Czyli do 2 uszkodzonych dysków ze starych i 1 zepsutych dysków z nowych. Bez problemów przez 1 miesiąc. Po tym błędzie ponownie pojawiały się błędy w / var / log / messages, a mdadm zgłaszał awarie macierzy RAID. Zaczęłam odrywać włosy. Wszystko jest nowe w systemie, zależy od trzeciego zupełnie nowego dysku twardego, po prostu nie jest możliwe, aby wszystkie nowe dyski, które kupiłem, były wadliwe.
Zobaczmy, co wciąż jest powszechne ... kable. Dobra, długi strzał, wymieńmy kable SATA. Odbierz dysk twardy, uśmiechnij się do faceta przy ladzie i powiedz, że mam pecha. Zastępuje dysk twardy. Wracam do domu, mija miesiąc, a jeden z dysków twardych znowu się zawodzi. Nie żartuję.
Dwa zupełnie nowe dyski twarde uległy awarii. Może to błąd w systemie operacyjnym. Zobaczmy, co mówi narzędzie testujące producenta. Pobierz narzędzie testowe, wypal je na płycie CD, uruchom ponownie, pozostaw testowanie dysku twardego na noc. Test mówi, że dysk jest uszkodzony i powinienem wykonać kopię zapasową wszystkiego, jeśli nadal mogę. Nie wiem, co się dzieje, ale to nie wygląda na problem z oprogramowaniem, coś zdecydowanie uderza w dyski twarde.
Powinienem teraz wspomnieć, że cały system znajduje się w pudełku na buty. Ponieważ istnieje mnóstwo „budowania własnej skrzynki IKEA”, pomyślałem, że nie powinno być żadnych problemów z wrzuceniem rzeczy do pudełka i upychaniem go gdzieś. Pudełko jest dobrze wentylowane, ale pomyślałem, że może dyski się przegrzały. Nie ma na to innej możliwej odpowiedzi. Więc zabrałem dysk twardy z powrotem, wymieniłem go (po raz trzeci) i kupiłem chłodnice dysku twardego.
I właśnie teraz słyszę dźwięk zagłady. kliknij kliknij whizzzzzzzzz . SSH do pudełka:
You have new mail!
mail
r 1
DegradedArrayEvent on /dev/md0 ...
wyjście dmesg:
[47128.000051] ata3: lost interrupt (Status 0x50)
[47128.000097] end_request: I/O error, dev sda, sector 58588863
[47128.000134] md: super_written gets error=-5, uptodate=0
[48043.976054] ata3: lost interrupt (Status 0x50)
[48043.976086] ata3.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen
[48043.976132] ata3.00: cmd c8/00:18:bf:40:52/00:00:00:00:00/e1 tag 0 dma 12288 in
[48043.976135] res 40/00:00:00:4f:c2/00:00:00:00:00/00 Emask 0x4 (timeout)
[48043.976208] ata3.00: status: { DRDY }
[48043.976241] ata3: soft resetting link
[48044.148446] ata3.00: configured for UDMA/133
[48044.148457] ata3.00: device reported invalid CHS sector 0
[48044.148477] ata3: EH complete
Podsumować:
- Brak możliwości przegrzania
- 6 dysków uległo awarii, 4 z nich były fabrycznie nowe. Nie jestem teraz pewien, czy dwie oryginalne były wadliwe lub cierpiały tak samo jak nowe.
- W systemie nie ma nic wspólnego oprócz systemu operacyjnego, którym jest teraz Ubuntu Karmic (zaczął od Jaunty). Nowy MB, nowy procesor, nowa pamięć RAM, nowe kable SATA.
- Nie, małe dziury na dysku twardym nie są zakryte
Płaczę. Naprawdę. Nie mam teraz twarzy, aby wrócić do sklepu, nie jest możliwe, aby 4 dyski uległy awarii w ciągu 4 miesięcy.
Kilka pomysłów, o których myślałem: czy to możliwe, że coś popsuję podczas dzielenia dysków na partycje i ponownej synchronizacji? Czy może być tak źle, że fizycznie psuje dysk? (ponieważ narzędzie dostarczone przez dostawcę mówi, że dysk jest uszkodzony) Robię partycjonowanie za pomocą fdisk i używam tego samego rozmiaru bloku dla partycji raid1 (sprawdzam dokładne rozmiary bloków za pomocą fdisk -lu)
Czy to możliwe, że jądro Linuxa lub mdadm, lub coś nie jest kompatybilne z dokładnie taką marką dysków twardych i je miażdży?
Czy to możliwe, że może to być pudełko na buty? Spróbuj umieścić go gdzie indziej? Teraz jest pod półką, więc wilgotność również nie stanowi problemu. Czy to możliwe, że normalna obudowa komputera rozwiąże mój problem (wtedy sama się zastrzelę)? Jutro dostanę zdjęcie.
Czy jestem po prostu przeklęty?
Każda pomoc lub spekulacja są bardzo mile widziane.
Edycja : Listwa zasilająca jest zabezpieczona przed przepięciem.
Edycja2 : Przeprowadziłem się między tymi 4 miesiącami, więc prawdopodobieństwo, że przyczyną jest „brudna” energia elektryczna w obu miejscach, jest bardzo niskie.
Edycja3 : Sprawdziłem napięcia w BIOSie (nie mogłem pożyczyć multimetru) i wszystkie wydają się poprawne, największa rozbieżność występuje w 12V, ponieważ dostarcza 11,3. Czy powinienem się tym martwić?
Edit4 : Umieściłem zasilacz mojego komputera stacjonarnego na serwerze. BIOS zgłosił znacznie dokładniejsze odczyty napięcia, a także pomyślnie przebudował macierz RAID1, co zajęło około 3-4 godzin, więc teraz czuję się trochę pozytywnie. Dostanie jutro nowy zasilacz do przetestowania tego. Ponadto dołączając obraz o pudełku: (zignoruj trzeci dysk)
źródło
Odpowiedzi:
Czy twój zasilacz też jest stary? Być może jest to zbyt niskie / zbyt duże obciążenie napędu, które powoduje awarię. Jeśli masz multimetr, spróbuję zmierzyć napięcie, które działa na dyskach twardych i obserwuj je przez pewien czas. Innym winowajcą może być „brudna” energia elektryczna, więc UPS może być w porządku, aby „oczyścić” moc zasilającą zasilacz.
źródło
Zgadzam się z innymi: moc.
Jednak z niespodzianką.
WSZYSTKIE elementy muszą mieć WSPÓLNE uziemienie - podwozie jest typowe, ale w twoim przypadku, kto wie! Jestem pewien, że spowodowałoby to „dryfowanie ziemi” .
Chcesz, aby wszystkie komponenty były powiązane z jednym uziemieniem ORAZ tym uziemieniem związanym z uziemieniem z „sieci energetycznej” zakładu. To jest ważne.
BTW, możliwe, że cały twój stary sprzęt jest nadal OK! Przekonałem się, że sprzęt, który był obsługiwany z niestabilnym zasilaczem, czasami przeżywa to OK, jeśli zapewnione jest odpowiednie zasilanie.
Mam nadzieję, że to pomoże.
RT
źródło
To jest stary post i oryginalne pytanie może już nie dotyczyć osoby zadającej pytanie. Jednak w przypadku odniesień do osób budujących budżetowy komputer Power nie jest wszechstronnym problemem związanym z napędami dysków. Moim zdaniem, jako inżynier ds. Wdrażania certyfikowany przez EMC, jest to myląca odpowiedź, aby winić zasilacz jako jedyną odpowiedzialną stronę, biorąc pod uwagę, że komputer znajduje się w pudełku z kartą.
Dyski twarde wibrują i chociaż nie ma określonej pozycji, pionowej lub poziomej, która zwiększa lub zmniejsza żywotność dysku, istnieje jednak czynnik wibracji, który tworzy dysk twardy z wrzecionami. Wyświetlane tutaj dyski leżą w pudełku z kartą. Jest to przykład inżynierii budżetowej, a napędy wibracyjne siedzą na boku, dodatkowo zwiększając rezonans na talerzu. Chociaż nie jest to odpowiedź sama w sobie, niewłaściwie zamontowane dyski twarde MOGĄ prowadzić do uszkodzenia dysku z powodu wibrującego talerza, który zakłóca prawidłowe czytanie i zapisywanie głowic odczytu i zapisu.
Zasilanie, tanie zasilacze są zawsze złe dla komputerów w ogóle, jednak jest mało prawdopodobne, aby zasilacz zabił dyski twarde, a nie inne wrażliwe elementy na płycie. Ten system jest w kartonowym pudełku, więc inżynieria i moc mogły doprowadzić do bardziej katastrofalnej awarii, ale niekoniecznie do jego uszkodzenia dysku. Jest to możliwe, ale w tym przypadku nie udowodnione.
Ciepło: ciepło może zniszczyć dysk, jednak jeśli nie był gorący w dotyku w momencie awarii, ciepło nie jest winowajcą. Pudełko z kartą nie jest dobrym osiągnięciem inżynierii dla komputera PC lub serwera. Lepiej jest przykręcić swoje części do biurka komputerowego lub stołu roboczego, przynajmniej byłyby uziemione.
Soft RAID i tanie dyski. Biorąc pod uwagę pudełko z kartą i stare części widoczne na zdjęciu, wydaje się, że używasz standardowych dysków stacjonarnych i Soft RAID. Dyski stacjonarne można umieścić na kontrolerze RAID, jednak wraz ze wzrostem liczby operacji we / wy na dysku zwiększa się prawdopodobieństwo uszkodzenia dysku. Dyski obrazowane w tym przypadku nie znajdują się na sprzętowym kontrolerze RAID, ale są grupowane razem ze składnikiem oprogramowania na płycie głównej. Nie jest to idealne rozwiązanie dla dysków twardych. Zwiększa to obciążenie procesora, a wiadomo, że miękkie macierze RAID zawierają błędy i przedwcześnie zabijają dyski twarde. Prawdopodobnie miękka macierz RAID zabiła te dyski przede wszystkim.
Zapobieganie przyszłym kompilacjom: jeśli czytasz to i widzisz ten stary scenariusz użytkownika za pośrednictwem pytania Google lub co innego:
- upewnij się, że dyski są prawidłowo zamontowane w stabilnej obudowie dysku twardego. Przykręć dyski za pomocą co najmniej 4 śrub dysku twardego lub użyj specjalnych sań dyskowych dołączonych do ramy montażowej.
-Upewnij się, że masz odpowiedni przepływ powietrza w swojej obudowie, dyski twarde w macierzy RAID mają zwykle więcej operacji we / wy na dysku i będą znacznie gorętsze niż w przypadku indywidualnego montowania woluminu fizycznego.
-Nie używaj taniego zasilacza. Brudna moc zabija drogie części komputerowe. Upewnij się również, że Twój zasilacz zapewnia wystarczającą moc, aby obsłużyć żądane obciążenie pracą.
-Użyj karty kontrolera RAID! Nigdy nie używaj miękkiej macierzy RAID na płycie głównej. Soft RAID zmniejszają wydajność dysku i zwiększają prawdopodobieństwo awarii dysku bardziej niż karty kontrolera RAID.
-RAID ogólnie zwiększa ryzyko awarii dysku ze względu na zwiększoną liczbę operacji we / wy we wszystkich woluminach. Im większa pula połączonych dysków, tym większa szansa na awarię dysków. Jeśli RAIDujesz dyski, zawsze korzystaj z dysków parzystości i części zapasowych. Możesz utracić swoje dane, jeśli RAID 0 2-3 dyski. Jeśli masz 3 dyski, użyj RAID 5! 6 dysków w macierzy RAID 5 (4 + 1) z funkcją hot spare jest idealne, jeśli dyski są objęte gwarancją. Jeśli nie możesz sobie pozwolić na więcej dysków lub dyski nie są objęte gwarancją, nie używaj RAID.
-Dyski stacjonarne nie są dyskami Enterprise. Dyski stacjonarne są podobne do dysków Enterprise, ale nie są zaprojektowane do obsługi dużych obciążeń spowodowanych kontrolerami RAID. Jeśli kupisz dyski stacjonarne od newegg i RAID je na naszej płycie głównej, prawdopodobnie zauważysz awarię co najmniej jednego dysku w pierwszym roku. Im dłużej operujesz maszyną na macierzy RAID, tym więcej operacji we / wy zapisywanych jest na dysku, a tym większe prawdopodobieństwo awarii woluminu. Połącz tanie dyski z tanim dyskiem RAID płyty głównej, a będziesz cierpieć.
Jest prawdopodobne, że ten użytkownik doświadczył wszystkich tych czynników na swoim serwerze pudełka na buty. Tania moc, zły przepływ powietrza, stare tanie dyski nieprawidłowo zamontowane w obudowie i miękka macierz RAID płyty głównej ... wszystko to zwiększa szanse na uszkodzenie dysku.
źródło
Nie mogę sobie wyobrazić, jak masz dobrą wentylację i chłodzenie w pudełku na buty? Naprawdę powinieneś wydać 50 lub 60 dolarów na prawdziwą obudowę komputera?
Listwy zasilające chronią tylko przed skokami napięcia; powszechnymi problemami w sprzęcie elektronicznym jest zbyt niskie napięcie (brak napięcia) i przepięcie (wzrost napięcia). Częstym zjawiskiem jest również szum EMI - jakiś czas temu mieliśmy niestabilny komputer, który okazał się być spowodowany bieżnią na tym samym obwodzie (osobiście zweryfikowałem to bez wątpienia). Spowodowałoby to wyłączenie modemu w trybie offline i od czasu do czasu zawieszanie się systemu.
Ponadto ciągłe narażenie na hałas i fluktuacje zasilacza z czasem uszkadzają zasilacz, z czasem obniżając jakość energii dostarczanej do elektroniki.
EDYCJA: Fluktuacje mocy elektrycznej można izolować do określonych obwodów. Co ważniejsze, urządzenia o wysokim poborze prądu, takie jak kuchenki mikrofalowe, lodówki, bieżnie, kuchenki itp. Mogą mieć znaczący wpływ na jakość energii w tym obwodzie. A rzeczy takie jak lodówki mają także ciągły cykl włączania / wyłączania, który z kolei brąznieje i zwiększa moc na linii, gdy silnik włącza się i wyłącza.
Ponadto, jeśli jesteś obsługiwany przez to samo przedsiębiorstwo energetyczne, mogą mieć ciągłe problemy z dostarczaniem napięcia przez płytę. Ciągłe wahania między 105 V a 125 V będą miały negatywny wpływ na elektronikę (jak rozumiem).
źródło
To naprawdę brzmi jak problemy z zasilaniem.
Jeśli masz gwałtowne wzrosty mocy, wiele tanich listew zasilających będzie działać tylko raz - i zwykle nie ma oznak, że już nie chronią.
Dobry UPS może pomóc - niektóre z wyższej klasy faktycznie generują energię z akumulatorów i ciągle się ładują, zapewniając całkowicie izolowane zasilanie. Jedyną wadą jest to, że mogą być głośne.
źródło
W rzeczywistości producenci dysków twardych nie drukują informacji dotyczących pozycji roboczych na swoich dyskach, ale ustawienie dysków twardych na bokach jest całkowicie w porządku. Ostatnim razem, gdy sprawdzałem te informacje, dyski mogły być ustawione płasko lub na bokach i pod kątem do 5 lub 10 stopni od tych pozycji. Układanie ich do góry nogami lub łączniki skierowane do góry lub do dołu nie są legalne. Złącza skierowane w górę lub w dół były najlepszą pozycją do transportu około 15 lat temu. To są najnowsze informacje na ten temat.
Mam ten sam błąd na zupełnie nowym zielonym dysku twardym WD o pojemności 500 GB, a twoje kable SATA wyglądają jak moje i podejrzewam je bardzo źle.
Problem uziemienia nie jest właściwie złą rzeczą, komponenty powinny być uziemione przez prawidłowy montaż na metalowej obudowie, ale nie zrobienie tego nie powinno stanowić problemu, jeśli wszystkie złącza i kable są w 100% sprawne.
Oczywiście zły zasilacz może zrobić wiele złych rzeczy dla całego systemu, testowałbym z nowym zasilaczem jak najszybciej, najlepiej z wszystkim zamontowanym na porządnej obudowie.
Powodzenia
źródło
Zgadzam się, że winowajcą jest prawdopodobnie zły grunt. Należy jednak rozważyć przegrzanie jako możliwą przyczynę. Jeśli dyski są gorące w dotyku, to są zbyt gorące. Umieść na nich wentylator.
źródło
Możesz sprawdzić, czy zostały one przegrzane, patrząc na wartości SMART. Uziemienie obudowy nie jest konieczne, ponieważ wiele nośników typu hot swap jest plastikowych i nie uziemionych. Uziemienie za pomocą kabla SATA powinno być wystarczające. Mocowanie ich na stałe MOŻE pomóc w problemach z wibracjami. Głowa nie dotyka talerza, ale unosi się nieco nad nim, a uderzenie w talerz może powodować zakłócenia drobnych cząstek, co ostatecznie może doprowadzić do awarii głowy.
źródło
Prawdopodobnie powinieneś zaktualizować swoją instalację Ubuntu. Kilka miesięcy (lat?) Temu znaleziono błąd, który powoduje zwiększone zużycie dysku twardego w instalacjach Ubuntu.
Sprawdź ten link o tym problemie / błędzie: Wysoka częstotliwość cykli ładowania / rozładowywania na niektórych dyskach twardych może skrócić żywotność
źródło
Czy obok twojej (całkowicie nieekranowanej) pudełka na buty mogą znajdować się duże głośniki, lodówki, klimatyzatory, silniki elektryczne lub inne źródła magnetyczne?
źródło
Zgadzam się, że zła ziemia może być przyczyną tragedii związanej z przechowywaniem. Chciałbym jednak również „naprawić” dyski twardsze bardziej szczelnie, ponieważ wibracje mogą powodować trwałe uszkodzenie.
źródło
Sprawdź rozdzielacze mocy, które dzielą moc na wentylatory napędu. Przerywane złącze może spowodować utratę zasilania dysku w krytycznym momencie i awarię. Zdecydowanie potrzebuję obudowy na solidne podłoże między MB, zasilaczem i HD.
źródło
myślę, że umieszczenie dysków twardych po bokach może przyczynić się do niepowodzenia ich prawidłowego działania, ponieważ w większości przypadków dyski twarde są montowane płasko w obudowach komputerów.
źródło