Dziesiątki spontanicznych restartów

0

Pracuję nad systemem opartym na SUSE Linux, który działa 24 godziny na dobę, 7 dni w tygodniu, i robił to przez około 3 lata, chociaż nie mogę powiedzieć, że w tym czasie nie został ponownie uruchomiony.
9 czerwca najwyraźniej nastąpiło zamknięcie witryny, ale nie wiem, jak to zamknięcie zostało wykonane.
Od tego czasu nastąpił niezliczony natychmiastowy restart.

Błąd wystąpił w praktycznie każdej możliwej sytuacji testowej, np. Aplikacje użytkownika działające lub nie, archiwizujące dane lub nie, rejestrujące nowe dane lub nie, uruchamiające fsck po co najmniej 20 awariach lub po prostu nic nie robiące.

  • Pamięć RAM została wymieniona.

  • Wentylator chłodzący na radiatorze procesora został wymieniony, ponieważ był dość głośny (chociaż większy wentylator wieje na niego tylko około 20 mm).

  • Zasilacz został wymieniony, a zielony przewód jest uziemiony, aby zapobiec wyłączeniu.

Wydaje się, że powoduje to, że ponowne uruchamianie jest nieco rzadsze.

Najwyraźniej chociaż tego nie zrobiłem, uruchomiono na nim fsck [prawdopodobnie] [dysk 250 GB ma partycję około 220 GB], ale nie wiem, czy wszystkie partycje zostały sprawdzone. Ale najwyraźniej działa nieprzerwanie od 2 dni.

Czy ktoś może zasugerować, jakie problemy mogą spowodować, że Linux natychmiast umrze i uruchomi się ponownie?

Steve
źródło
Jak powiedzieli inni, brzmi to jak problem sprzętowy. Ale w przyszłości powinieneś rozważyć regularne zaplanowane ponowne uruchamianie, tak jak powinieneś regularnie planować przestoje na łatanie. W tej chwili nie wiadomo, czy jakakolwiek zmiana konfiguracji dokonana w ciągu ostatnich 3 lat może być przyczyną problemu. Skrócenie tego czasu jest bardzo warte.
Jenny D.

Odpowiedzi:

0

Brzmi dla mnie jak problem sprzętowy. Może to być temperatura, zasilacz lub mobo.

Możesz sprawdzić dzienniki /var/log/*lub dane wyjściowe dmesgpolecenia w poszukiwaniu wskazówek

Pamięć RAM została wymieniona. Zmęczony wentylator chłodzący na radiatorze procesora został wymieniony jako dość głośny, chociaż większy wentylator wieje tylko około 20 mm od niego. Zasilacz został wymieniony, a zielony przewód jest uziemiony, aby zapobiec wyłączeniu, ale to tylko oznaczało, że ponowne uruchomienie jest nieco mniejsze opóźniony.

Sprawdziłbym za pomocą czujników lm lub w „ / proc / acpi / thermal_zone ” (jeśli dotyczy ciebie) pod kątem jakichkolwiek oznak przegrzania.

Petter H.
źródło