System przestaje działać

2

Używam Debiana (3.2.63-2 + deb7u2 x86_64) jako podstawy do wykonywania bardzo czasochłonnych obliczeń. Mój problem polega na tym, że po pewnym czasie pracy (kilka tygodni), a nawet przy niewielkim obciążeniu obliczeń (np. 50% procesorów) komputer przestaje działać, jak gdyby spał lub hibernował, i w tym momencie muszę zresetować system.

Czytałem dużo dyskusji na temat wyłączania spania / hibernacji, gdy ekran staje się czarny. Ale podejrzewam, że to nie jest mój problem. W rzeczywistości komputer nie ma ekranu, klawiatury ani myszy, a jedynie połączenie Ethernet. Ponadto zainstalowałem tylko terminal (nie zainstalowano interfejsu użytkownika) i ssh, aby zalogować się do komputera. Dlatego nie mam pojęcia, co może być nie tak.

Dlatego każdy ma pomysł, jak rozwiązać ten problem.

PS Mam ten problem na więcej niż jednym komputerze. W jednej z konfiguracji używam komputerów z procesorami Intel i płytami głównymi ASUS. W innych używam serwerów SUPERMICRO również z procesorami Intel.

cesb
źródło
Czy sprawdziłeś, czy nie ma wycieków pamięci?
Linef4ult,
Nie. Jak mogę to zrobić?
cesb
Cóż, jeśli twój czas na zadanie wynosi kilka tygodni, rozpocznij zadanie i zapisz bieżące wykorzystanie pamięci dla jego procesów, następnie ssh z powrotem i sprawdź ponownie powiedz 2 tygodnie później. Jeśli jest znacznie większy, albo program jest zaprojektowany w ten sposób i potrzebujesz więcej pamięci, aby wykonać X, albo pojawia się błąd i jego nieszczelna pamięć, którą należy załatać.
Linef4ult
Dobrze. Sprawdzę.
cesb