Jak monitorujesz serwer monitorowania?

14

Dlatego uruchamiamy Groundworks (wraz z Nagios) na CentOS, aby monitorować nasze różne serwery i procesy. Mam skonfigurowane automatyczne wysyłanie wiadomości e-mail i SMS-ów, gdy sytuacja osiągnie stan OSTRZEŻENIE lub KRYTYCZNY. Zwykle działa to idealnie. Jednak dwukrotnie mieliśmy problemy z Postfix na tym serwerze, na którym Postfix decyduje się przestać wysyłać wiadomości e-mail. Ostatni czas trwał 4 dni, ponieważ nikt z nas tego nie zauważył.

To prowadzi mnie do ważnego pytania: jak mam monitorować mój serwer monitorowania?

organicveggie
źródło
5
Quis custodiet ipsos custodes?
James L
Heh Juvenal. Ładnie zagrane.
organicveggie,
Kto ogląda stróżów? : D
Florent Courtay,
1
@organicveggie, Serwer monitorowania jest również serwerem ... Jakie problemy napotkasz, używając serwera monitorowania do monitorowania serwera monitorowania?
Pacerier,

Odpowiedzi:

12

Oczywiście z drugim serwerem monitorującym. Drugi może być znacznie prostszy, ponieważ wszystko, co musi zrobić, to monitorować pierwszy. I oczywiście powinien to monitorować główny system monitorowania.

Jeśli twoja grupa jest częścią większej organizacji z oddzielną infrastrukturą IT, być może uda Ci się zorganizować usługę monitorowania innej grupy w celu obejrzenia twojej.

Możesz również upewnić się, że serwer codziennie wysyła komunikat „w porządku” i nabrać zwyczaju szukania go. (Jest to skuteczne tylko wtedy, gdy nie jesteś już przytłoczony rutynowymi wiadomościami.)

mattdm
źródło
14

Inne osoby sugerują wysyłanie regularnych wiadomości, które mówią, że wszystko jest w porządku, ale osobiście nie zgadzam się z tym. Monitorowanie powinno być ciche, chyba że wystąpi problem i nigdy nie powinno polegać na tym, że użytkownik zauważy, że coś jest nie tak, jak „Och, nie dostałem tej codziennej wiadomości e-mail od kilku dni”. Zwłaszcza jeśli więcej niż jedna osoba odpowiada na alerty, każda może myśleć, że druga osoba już usunęła codzienny komunikat „Wszystko w porządku”.

Mamy zewnętrzną usługę (której są setki, ale używamy robaków ) do przeprowadzania kontroli HTTP naszego serwera monitorowania, aby upewnić się, że działa i może połączyć się z Internetem. To nasza główna troska o monitorowanie tego. Następnie nasz serwer Nagios monitoruje wszystkich serwerów Nagios naszych klientów.

Ale poruszasz dobrą rację. Prawdopodobnie powinniśmy dodać adres URL HTTP, który sprawdza kolejki postfix i jeśli to pokazuje niezwykłą liczbę wiadomości, które prawdopodobnie oznacza, że ma każdy w kolejce, a następnie podnieść alarm. Inną opcją byłoby użycie różnych metod powiadomień, powiedzmy, że agent dostarczający SMS-y inny niż SMTP, a także SMTP, których obecnie używamy.

W naszym przypadku nie pamiętam jednak, że kiedykolwiek mieliśmy śmierć serwera pocztowego. Oczywiście wszystko, do czego służy serwer pocztowy, to wysyłanie alertów Nagios, więc konfiguracja jest bardzo prosta i prawie nigdy się nie zmienia.

Sean Reifschneider
źródło
2
Zwykłe komunikaty OK nie są tak przydatne: nie można w sposób wiarygodny nakłonić osoby do podjęcia działania w przypadku braku bodźca.
Tim Williscroft,
@Tim: Przepraszamy, ale „brak bodźca” nie opisuje sytuacji, w której nie otrzymano oczekiwanego e-maila. W takim przypadku uważam, że zostałbym „pobudzony” do zbadania, dlaczego wiadomość nie dotarła. Ale może to tylko ja. :)
Steven poniedziałek
1
Myślę, że piszę przy użyciu terminów psychologicznych, które nie oznaczają tego, co myślisz. Psychologia behawioralna i psychologia lotnicza mają wiele do powiedzenia inżynierom systemowym. Pole to zostało mocno rozwinięte w czasie II wojny światowej, aby umożliwić załogom w wieku 18–20 lat latanie najnowocześniejszymi samolotami bez awarii i pozostawienie uwagi do ich prawdziwych zadań wojskowych. Właśnie dlatego samoloty mają główne światło ostrzegawcze, a nie światło „wszystko jest w porządku”. TLDR (nie sądzę, że to słowo oznacza to, co według ciebie oznacza)
Tim Williscroft,
1
Jestem bardzo przekonany, że systemy nie powinny hałasować, chyba że coś wymaga uwagi ze strony człowieka. Mamy skończoną uwagę, a komputery mogą nas łatwo przytłoczyć drobnymi uderzeniami, takimi jak „Jestem żywy!”. Co więcej, rzeczy, które się pojawiają, które nie wskazują na problemy, powodują, że ludzie myślą o ignorowaniu rzeczy. Bardzo ciężko pracuję, aby upewnić się, że gdy coś przychodzi do człowieka, jest to coś, co naprawdę musi zobaczyć. Pracuję z kimś, kto każdego dnia przegląda różne dzienniki. Oczywiście jest tak zajęty, że nie może wyjść na lunch ...
Sean Reifschneider,
1
Zgadzam się, że usługi nie powinny wysyłać zbyt wielu wiadomości, w przeciwnym razie ludzie szybko zaczną je ignorować. Jeśli jednak system monitorowania jest poprawnie skonfigurowany, nie powinno być dużo wiadomości. Oczywiście, mamy politykę dotyczącą potwierdzania powiadomień od Groundworks / Nagios, która skutecznie zatrzymuje wiadomości na pewien czas. Jeśli jest to przerwa długoterminowa, wyłączamy monitorowanie systemu lub usługi. W rezultacie codzienna wiadomość „Jestem żywy” jest właściwie całkiem rozsądna.
organicveggie,
5

Oczywiście twój postfiks też powinien być monitorowany, ale to już inny temat;)

Używam wtyczki sprawdzającej Nagios do przeglądarki Firefox , zawsze działa ona na pasku stanu na każdym komputerze, z którego regularnie korzystam.

Ponadto mam niestandardowy skrypt na hoście zewnętrznym, który pinguje hosta nagios i wysyła SMS-y, jeśli nie odpowiada na pingi.

Do tej pory (ponad 5 lat) działało to dobrze (pukanie do drewna).

Aleksandar Ivanisevic
źródło
2

Do monitorowania monitorowania serwera (w naszym przypadku nagios), darmowy lub podstawowy plan Pingdom lub alertfox działa świetnie.

BXAtWork
źródło
Dobre sugestie. Ale w tym przypadku nasz serwer monitorowania nie jest dostępny poza zaporą. Pingdom i Alertfox tak naprawdę nie działają dla nas.
organicveggie,
1

Po pierwsze: niech wysyła wiadomości „Jestem żywy” raz lub dwa razy dziennie. Po drugie, w tym celu uruchamiam starą maszynę, która ma inny modem GSM, mały UPS itp. Oraz dedykowane (bezpośrednie) połączenie z głównym serwerem monitorowania. Ten pomaga również w punkcie trzecim: Upewnij się, że regularnie sprawdzasz status swoich systemów monitorowania. Mały pomocniczy system monitorowania cały czas wyświetla stronę stanu systemu podstawowego w moim biurze.

Sven
źródło
1

Jeśli twój serwer monitorowania jest dostępny z Internetu, powinieneś go monitorować przez zewnętrznego dostawcę (np. Websitepulse i in.).

tex
źródło