Jak monitorujesz serwer monitorowania?

14

Dlatego uruchamiamy Groundworks (wraz z Nagios) na CentOS, aby monitorować nasze różne serwery i procesy. Mam skonfigurowane automatyczne wysyłanie wiadomości e-mail i SMS-ów, gdy sytuacja osiągnie stan OSTRZEŻENIE lub KRYTYCZNY. Zwykle działa to idealnie. Jednak dwukrotnie mieliśmy problemy z Postfix na tym serwerze, na którym Postfix decyduje się przestać wysyłać wiadomości e-mail. Ostatni czas trwał 4 dni, ponieważ nikt z nas tego nie zauważył.

To prowadzi mnie do ważnego pytania: jak mam monitorować mój serwer monitorowania?

email monitoring postfix nagios sms organicveggie
źródło

5

Quis custodiet ipsos custodes?

James L

Heh Juvenal. Ładnie zagrane.

organicveggie,

Kto ogląda stróżów? : D

Florent Courtay,

1

@organicveggie, Serwer monitorowania jest również serwerem ... Jakie problemy napotkasz, używając serwera monitorowania do monitorowania serwera monitorowania?

Pacerier,

12

Oczywiście z drugim serwerem monitorującym. Drugi może być znacznie prostszy, ponieważ wszystko, co musi zrobić, to monitorować pierwszy. I oczywiście powinien to monitorować główny system monitorowania.

Jeśli twoja grupa jest częścią większej organizacji z oddzielną infrastrukturą IT, być może uda Ci się zorganizować usługę monitorowania innej grupy w celu obejrzenia twojej.

Możesz również upewnić się, że serwer codziennie wysyła komunikat „w porządku” i nabrać zwyczaju szukania go. (Jest to skuteczne tylko wtedy, gdy nie jesteś już przytłoczony rutynowymi wiadomościami.)

mattdm
źródło

14

Inne osoby sugerują wysyłanie regularnych wiadomości, które mówią, że wszystko jest w porządku, ale osobiście nie zgadzam się z tym. Monitorowanie powinno być ciche, chyba że wystąpi problem i nigdy nie powinno polegać na tym, że użytkownik zauważy, że coś jest nie tak, jak „Och, nie dostałem tej codziennej wiadomości e-mail od kilku dni”. Zwłaszcza jeśli więcej niż jedna osoba odpowiada na alerty, każda może myśleć, że druga osoba już usunęła codzienny komunikat „Wszystko w porządku”.

Mamy zewnętrzną usługę (której są setki, ale używamy robaków ) do przeprowadzania kontroli HTTP naszego serwera monitorowania, aby upewnić się, że działa i może połączyć się z Internetem. To nasza główna troska o monitorowanie tego. Następnie nasz serwer Nagios monitoruje wszystkich serwerów Nagios naszych klientów.

Ale poruszasz dobrą rację. Prawdopodobnie powinniśmy dodać adres URL HTTP, który sprawdza kolejki postfix i jeśli to pokazuje niezwykłą liczbę wiadomości, które prawdopodobnie oznacza, że ma każdy w kolejce, a następnie podnieść alarm. Inną opcją byłoby użycie różnych metod powiadomień, powiedzmy, że agent dostarczający SMS-y inny niż SMTP, a także SMTP, których obecnie używamy.

W naszym przypadku nie pamiętam jednak, że kiedykolwiek mieliśmy śmierć serwera pocztowego. Oczywiście wszystko, do czego służy serwer pocztowy, to wysyłanie alertów Nagios, więc konfiguracja jest bardzo prosta i prawie nigdy się nie zmienia.

Sean Reifschneider
źródło

2

Zwykłe komunikaty OK nie są tak przydatne: nie można w sposób wiarygodny nakłonić osoby do podjęcia działania w przypadku braku bodźca.

Tim Williscroft,

@Tim: Przepraszamy, ale „brak bodźca” nie opisuje sytuacji, w której nie otrzymano oczekiwanego e-maila. W takim przypadku uważam, że zostałbym „pobudzony” do zbadania, dlaczego wiadomość nie dotarła. Ale może to tylko ja. :)

Steven poniedziałek

1

Myślę, że piszę przy użyciu terminów psychologicznych, które nie oznaczają tego, co myślisz. Psychologia behawioralna i psychologia lotnicza mają wiele do powiedzenia inżynierom systemowym. Pole to zostało mocno rozwinięte w czasie II wojny światowej, aby umożliwić załogom w wieku 18–20 lat latanie najnowocześniejszymi samolotami bez awarii i pozostawienie uwagi do ich prawdziwych zadań wojskowych. Właśnie dlatego samoloty mają główne światło ostrzegawcze, a nie światło „wszystko jest w porządku”. TLDR (nie sądzę, że to słowo oznacza to, co według ciebie oznacza)

Tim Williscroft,

1

Jestem bardzo przekonany, że systemy nie powinny hałasować, chyba że coś wymaga uwagi ze strony człowieka. Mamy skończoną uwagę, a komputery mogą nas łatwo przytłoczyć drobnymi uderzeniami, takimi jak „Jestem żywy!”. Co więcej, rzeczy, które się pojawiają, które nie wskazują na problemy, powodują, że ludzie myślą o ignorowaniu rzeczy. Bardzo ciężko pracuję, aby upewnić się, że gdy coś przychodzi do człowieka, jest to coś, co naprawdę musi zobaczyć. Pracuję z kimś, kto każdego dnia przegląda różne dzienniki. Oczywiście jest tak zajęty, że nie może wyjść na lunch ...

Sean Reifschneider,

1

Zgadzam się, że usługi nie powinny wysyłać zbyt wielu wiadomości, w przeciwnym razie ludzie szybko zaczną je ignorować. Jeśli jednak system monitorowania jest poprawnie skonfigurowany, nie powinno być dużo wiadomości. Oczywiście, mamy politykę dotyczącą potwierdzania powiadomień od Groundworks / Nagios, która skutecznie zatrzymuje wiadomości na pewien czas. Jeśli jest to przerwa długoterminowa, wyłączamy monitorowanie systemu lub usługi. W rezultacie codzienna wiadomość „Jestem żywy” jest właściwie całkiem rozsądna.

organicveggie,

5

Oczywiście twój postfiks też powinien być monitorowany, ale to już inny temat;)

Używam wtyczki sprawdzającej Nagios do przeglądarki Firefox , zawsze działa ona na pasku stanu na każdym komputerze, z którego regularnie korzystam.

Ponadto mam niestandardowy skrypt na hoście zewnętrznym, który pinguje hosta nagios i wysyła SMS-y, jeśli nie odpowiada na pingi.

Do tej pory (ponad 5 lat) działało to dobrze (pukanie do drewna).

Aleksandar Ivanisevic
źródło

2

Do monitorowania monitorowania serwera (w naszym przypadku nagios), darmowy lub podstawowy plan Pingdom lub alertfox działa świetnie.

BXAtWork
źródło

Dobre sugestie. Ale w tym przypadku nasz serwer monitorowania nie jest dostępny poza zaporą. Pingdom i Alertfox tak naprawdę nie działają dla nas.

organicveggie,

1

Po pierwsze: niech wysyła wiadomości „Jestem żywy” raz lub dwa razy dziennie. Po drugie, w tym celu uruchamiam starą maszynę, która ma inny modem GSM, mały UPS itp. Oraz dedykowane (bezpośrednie) połączenie z głównym serwerem monitorowania. Ten pomaga również w punkcie trzecim: Upewnij się, że regularnie sprawdzasz status swoich systemów monitorowania. Mały pomocniczy system monitorowania cały czas wyświetla stronę stanu systemu podstawowego w moim biurze.

Sven
źródło

1

Jeśli twój serwer monitorowania jest dostępny z Internetu, powinieneś go monitorować przez zewnętrznego dostawcę (np. Websitepulse i in.).

tex
źródło

Jak monitorujesz serwer monitorowania?

Odpowiedzi: