LInux: Jak zdiagnozować / wyizolować, co powoduje „losowe” zawieszanie się i spontaniczne ponowne uruchamianie?

20

(pierwotnie opublikowany na serverfault )

Więc zamiast zgadywać, jaka jest przyczyna (chociaż moje pieniądze są na sterownikach NVIDIA), gdzie zaczynam szukać pewnych faktów?

Przeglądałem / var / log kilka razy, ale jest tam mnóstwo rzeczy i nie mogę (jeszcze) dostrzec ważnych bitów.


Tło: krótka wersja

Przeprowadziłem się z WinXP do Ubuntu Karmic zaraz po tym, jak stał się dostępny.

Od tego czasu miałem serię pozornie przypadkowych awarii, które objawiają się jako:

  • spontaniczny restart
  • całkowite zablokowanie, gdy klawiatura i mysz USB przestają reagować (aż do wyłączenia wszystkich diod LED). Również zwykle nie będę mógł ssh do skrzynki, kiedy to się stanie.

Przeprowadziłem wiele poszukiwań, a Nvidia wydaje się być główną podejrzaną, ale nie mam pojęcia, od czego zacząć szukać prawdziwej przyczyny.

Użytkownik błędu serwera zasugerował sprawdzenie pamięci RAM za pomocą MemtextX86 +. Nie znaleziono błędów. Sugerowano również monitorowanie temperatury karty graficznej, nad którą teraz patrzę.

Inne niż sugestie ktoś?



Tło: długa wersja

Czasami mogę przejść cały tydzień bez awarii, a następnie mieć 5 w ciągu 2 dni.

Zmotywowany chęcią wyeliminowania potencjalnych podejrzanych, z czasem wprowadziłem kilka zmian, ale bezskutecznie:

  • Pierwotnie korzystałem z KVM do wirtualizacji, teraz używam VirtualBox OSE
  • Miałem NFS działający w jądrze, ale teraz używam Samby
  • Korzystałem z Compiz, ale od tego czasu to wyłączyłem
  • Mam wersję 64-bitową Karmic do 32-bitowej (również z innych powodów)
  • Próbowałem Ubuntu, Kubuntu i Xubuntu. Ten sam problem za każdym razem (choć ostatnio wydaje się, że częściej występuje w Gnome niż w XFCE).
  • Zwróciłem sterownik Nvidia z wersji 185 z powrotem do wersji 96 (moduł jądra Linux x86 NVIDIA 96.43.13 czw 25 czerwca 18:42:21 PDT 2009). To wydaje się być zmniejszona częstotliwość błędów.


W zależności od tego, co się dzieje w tym czasie, może się to różnić. Następujące są powszechne, ale niekoniecznie były uruchamiane przy każdej awarii:

  • Firefox 3.5
  • VirtualBox OSE z 1 lub 2 maszynami wirtualnymi z systemem Windows XP
  • Skype
  • Rhythmbox lub Exaile


Mój sprzęt ma 2-3 lata:

  • Core 2 Duo 6300
  • 4 GB pamięci RAM
  • jakaś rasa płyty głównej Intela tego rocznika
  • dwugłowicowa karta graficzna Asus z chipsetem Nvdia GeForce 7300 GS
  • 2 x dyski twarde SATA
  • podwójne monitory (stąd polegam na zastrzeżonych sterownikach NVIDIA)


Jestem na bieżąco z aktualizacjami systemu.

Mam nadzieję, że powyższe dane mogą skłonić kogoś do zasugerowania określonego typu dziennika lub konfiguracji, który byłby wart zbadania.


Aktualizacja 1

właśnie miał wypadek, w którym głośniki oszalały. Zrobiłem trochę googlingu i wydaje się, że PulseAudio miało kilka problemów w przeszłości. Nie jestem jeszcze pewien, czy jest to istotne, ale PulseAudio będzie działał za każdym razem, gdy miałem awarię.


Aktualizacja 2

Śledzenie linku @ CarlF do Przewodnika Debian Sysadmin doprowadziło mnie do magicznego klucza sysrq, który spróbuję przy następnej awarii. Nie to da mi wiele wskazówek co do przyczyny, ale przynajmniej mam nadzieję, że będę mógł z wdziękiem się zamknąć.


Aktualizacja 3

Czujniki lm informują, że mój procesor graficzny pracuje w temperaturze prawie 70C / 158F - to interesujące. Gdybym musiał zgadywać, powiedziałbym, że to ważna wskazówka.


Aktualizacja 4

Uderzaj wnętrza systemu za pomocą airdustera wkrótce po mojej ostatniej aktualizacji - wynik netto: od tego czasu tylko jedna awaria. Nazywam to problemem termicznym.

LRE
źródło
3
Doskonałe formatowanie i informacje podstawowe. Chciałbym, żeby wszystkie pytania były takie. +1.
John T

Odpowiedzi:

8

Dobre rady można znaleźć w Przewodniku administratora Debiana: http://www.debian-administration.org/articles/492

CarlF
źródło
Ciekawe, co mają do powiedzenia na temat nieinformacyjnych dzienników będących oznaką prawdziwych problemów ze sprzętem. Mam sześć godzin przerwy między ostatnim wpisem / var / log / wiadomości a ponownym uruchomieniem. Hmmmm
LRE
zaakceptowano na tej podstawie, że link wyjaśnił, że nic w logach nie równa się problemowi sprzętowemu - poprowadź mnie we właściwym kierunku.
LRE,
4

Pierwszą rzeczą, którą możesz chcieć sprawdzić, czy występują problemy sprzętowe podczas uruchamiania. Proces uruchamiania rejestruje dane z bufora pierścieniowego jądra w /var/log/boot.log. Po uruchomieniu systemu nowe wiadomości są opróżniane do tego bufora i można wyświetlić jego aktualny stan za pomocą dmesgpolecenia. Ważnym dziennikiem, który chcesz również zbadać, jest /var/log/messages. Będzie to zawierać znaczniki czasu, udogodnienia oraz priorytety błędów i aplikacji, która je wygenerowała. Posiadanie dostępnego znacznika czasu jest bezcennym zasobem podczas debugowania błędów.

Przypadkowe zawieszanie się na pewno wiąże się jednak ze sprzętem. Spróbuj ponownie zainstalować cały sprzęt na płycie głównej i daj mu memtest86 + run.

John T.
źródło
Widzę wiersz w / var / log / messages, który mówi „imklog 4.2.0, log source = / var / run / rsyslog / kmsg started”. Czy to dobry wskaźnik rozruchu systemu? Jeśli tak, mogę użyć tego do wskazania obszaru dziennika, z którego mogę skanować z powrotem.
LRE
Tak, uważam, że jest to jedna z pierwszych, jeśli nie pierwsza linia po starcie. Jest to moduł wejściowy dziennika jądra.
John T
2

Czy próbowałeś ponownie umieścić pamięć, procesor i inne układy? Możesz także spróbować uruchomić inny system operacyjny (FreeDOS), aby wyeliminować niektóre możliwości.

Wskazówka: powinieneś być w stanie całkiem dobrze korzystać z dwóch monitorów przez Gnome bez korzystania ze sterowników NVIDIA.

Nerdfest
źródło
najlepiej, jak mogłem powiedzieć, że zdecydowanie potrzebuję zastrzeżonych sterowników NVIDIA do korzystania z podwójnych monitorów. Możesz wskazać mi właściwy kierunek, aby ich nie potrzebować?
LRE
Mogę się mylić Rozejrzałem się trochę i widzę odniesienia do xinerama (dla których myślę, że sterownik ma rozszerzenia), ale nic nie dotyczy niezastrzeżonych sterowników. Niestety nie mam maszyny z kartą nVidia do zabawy.
Nerdfest