Zdarzyło mi się już dwa razy w ciągu kilku dni, kiedy mój serwer całkowicie przestaje działać, co oznacza, że http, ssh, ftp, dns, smtp, w zasadzie WSZYSTKIE usługi przestają odpowiadać, jakby serwer został wyłączony, z wyjątkiem tego, że nadal odpowiada na ping , co najbardziej mnie buforuje.
Mam kilka skryptów php, które powodują duże obciążenie (procesor i pamięć) na serwerze w krótkich seriach, używanych przez małą grupę użytkowników, ale zwykle serwer „doskonale” przetrwa te serie, a kiedy zejdzie nigdy nie pokrywają się z takimi szczytami w użyciu (nie mówię, że nie można tego powiązać, ale nie dzieje się to zaraz po nich).
Nie proszę was, abyście magicznie byli w stanie powiedzieć mi ostateczną przyczynę tych awarii, moje pytanie brzmi: czy istnieje jeden proces, którego śmierć może spowodować, że wszystkie te usługi spadną jednocześnie? Zabawne jest to, że wszystkie usługi sieciowe ulegają awarii, z wyjątkiem ping. Gdyby serwer zjadł 100% procesora przez jakiś proces, nie zareagowałby również na ping. Jeśli Apache ulegnie awarii z powodu (na przykład) zepsutego skryptu php, wpłynie to tylko na http, a nie na ssh i dns .... itd.
Mój system operacyjny to Cent OS 5.6
Co najważniejsze, po ponownym uruchomieniu serwera, na jakie logi systemowe powinienem patrzeć? / var / log / messages nie ujawnia niczego podejrzanego.
źródło
malloc()
1 GB pamięci RAM nie oznacza, że zamierzasz go użyć, więc menedżer pamięci śledzi, ile pamięci ma program i ile pamięci program faktycznie używał i faktycznie działa dobrze przez większość czasu. Przynajmniej dopóki więcej niż jeden program nie zechce zużywać całego 1 GB, tak mu się wydaje.Zwykle jest to problem z We / Wy lub podsystemem dyskowym. Często będzie to połączone z wyjątkowo wysoką średnią obciążeniem systemu. Na przykład system wyszczególniony na poniższym wykresie przestał odpowiadać (ale był możliwy do pingowania), gdy skrypt działał nieprawidłowo, blokował kilka plików i ładunek wzrósł do 36 ... w systemie 4-procesorowym.
Usługi działające w pamięci RAM i niewymagające dostępu do dysku nadal działają ... Tak więc stos sieciowy (ping) jest włączony, ale inne usługi przestają działać, gdy wymagany jest dostęp do dysku ... SSH, gdy odwołany jest klucz lub potrzebne wyszukiwanie hasła. SMTP ma tendencję do zamykania się, gdy średnie obciążenie osiągnie około 30 ...
Gdy system jest w tym stanie, spróbuj użyć pilota w
nmap
stosunku do adresu IP serwera, aby zobaczyć, co jest grane.Twoje logowanie prawdopodobnie nie działa, jeśli jest to problem z dyskiem lub pamięcią ...
Czy możesz opisać konfigurację sprzętu? Czy to jest maszyna wirtualna? Jaki jest układ pamięci?
Więcej niż logowanie, chcesz sprawdzić, czy możesz wykreślić wydajność systemu i zrozumieć, kiedy to się dzieje. Sprawdź, czy koreluje to z określoną aktywnością.
źródło