Wysokie obciążenie serwera nagios - ile testów usługi dla serwera nagios jest zbyt wiele?

9

Mam serwer nagios z systemem Ubuntu z procesorem Intel 2,0 GHz, macierzą RAID10 i 400 MB pamięci RAM. Monitoruje w sumie 42 usługi na 8 hostach, z których większość jest sprawdzana za pomocą wtyczki check_http nawet 5 minut, niektóre co minutę. Ostatnio obciążenie serwera nagios przekroczyło 4, często nawet do 6. Serwer również uruchamia kaktusy, zbierając statystyki co minutę dla 6 hostów.

Zastanawiam się, z iloma usługami powinien obsługiwać taki sprzęt? Czy obciążenie jest tak duże, ponieważ przekraczam granice sprzętu, czy też ten sprzęt powinien być w stanie obsłużyć 42 kontrole usług plus kaktusy? Jeśli sprzęt jest nieodpowiedni, czy powinienem dodać więcej pamięci RAM, więcej rdzeni lub szybszych rdzeni? Jakie kontrole sprzętu / usługi są uruchomione przez innych?

Josh
źródło
Jak teraz wygląda użycie pamięci RAM na serwerze? Jak również wygląda użycie procesora? Jeśli tak jest, jakie procesy to ustalają?
3dinfluence 28.01.10
Czy rozwiązałeś problem? Mamy ten sam problem. Średnia wartość obciążenia wynosi 12 ..
John

Odpowiedzi:

7

Musisz dowiedzieć się, gdzie jest twoje wąskie gardło ...

Prowadzę monitor nagios, który sprawdza ponad 400 hostów za pomocą sprawdzeń http, ping i ssh. (wraz z wieloma innymi kontrolami pasywnymi i nscd)

Jest to na serwerze 2xQuadCore z 4 dyskami SAS w RAID10.

Podejrzewam, że masz spory o IO, ponieważ pisanie do wielu rrds jest bardzo nieefektywne.

Musisz dowiedzieć się, który proces zajmuje twoje zasoby. (kaktusy, nagios lub coś innego)

Do sprawdzania IO lubię iotop. Zainstaluj iotop (pakiet 9.04 działa na 8.04)

Ale w przeciwnym razie top powinien również pomóc ci znaleźć wieprza.

Kaktusy raz na minutę są dość agresywne. (Prowadzę mój co 5 m)

Jednym z podejść, jakie słyszałem o rywalizacji o zapisywanie rrd, jest umieszczenie swoich sklepów rrd na ramdisk / tmpfs. (pamiętaj, aby od czasu do czasu zsynchronizować to z trwałym miejscem do przechowywania)

Powodzenia.

Joel K.
źródło
Dzięki. Przyjrzę się temu. Prawdopodobnie to kaktusy generują obciążenie i zobaczę, czy istnieje sposób na przeniesienie rrds do tmpfs. Lub po prostu dodaj więcej pamięci RAM, aby serwer mógł buforować pliki rrds. Obawiam się, że jeśli uruchamiam kaktusy co 5 minut, mogą pojawić się skoki obciążenia trwające tylko 1 lub 2 minuty, których całkowicie bym przegapił ...
Josh
6

Chyba że kaktusy generują większość obciążenia, powinieneś być w stanie przeprowadzić o wiele więcej kontroli niż na twoim sprzęcie.

Używam nagios na maszynie wirtualnej FreeBSD działającej na Microsoft Virtual Server na starym, powolnym komputerze (Pentium 3 1GHz z wolnym dyskiem PATA). Maszyna wirtualna ma tylko 128 MB pamięci RAM, a wydajność jest ogromna.

Jednak średnie obciążenie wynosi około 0,2, uruchamiając 158 kontroli na 42 hostach.

Hmallett
źródło
Dzięki. Chciałbym zaakceptować obie odpowiedzi! Twój był bardzo pomocny, wskazuje mi, że winowajcą jest prawdopodobnie winowajca.
Josh
2

Na starym PIII z 256 MB pamięci RAM aktywnie monitoruję około 230 różnych usług. To samo urządzenie obsługuje również MRTG i HylaFAX dla wszystkich naszych przychodzących faksów i robi to całkiem wygodnie.

John Gardeniers
źródło
Bardzo pomocna informacja. To wskazuje mi, że winowajcami są prawdopodobnie winowajcy, a nie nagios. Dzięki!
Josh
1

Na tym sprzęcie powinieneś być w stanie uruchomić mnóstwo czeków nagios. Przeprowadzamy podobną konfigurację z około 70 czekami i Nagiosgraph - główną różnicą jest dodana pamięć RAM (jest tania, więc podbiłbym pudełko do 2 Gb).

Spróbuj uruchomić top lub ps -aux, aby sprawdzić, czy procesor jest przeciążony, ale wątpię. Możesz także sprawdzić dokumenty równoległe nagios, aby sprawdzić, czy Twoja instalacja próbuje uruchomić zbyt wiele kontroli na raz, zamiast szeregować je.

hurfdurf
źródło