Przeprowadziłem badania nagios, opennms i zenoss, ale nie jestem pewien, czy znalazłem to, czego szukam.
Główną siłą napędową dla mnie w tej chwili jest monitorowanie kopii zapasowych. Obejmuje to mysql, mssql i ewentualnie niektóre kopie zapasowe systemu plików.
Mamy narzędzie, które otacza proces tworzenia kopii zapasowych dla różnych systemów i zbiera statystyki. Przedmioty takie jak:
- liczba kopii zapasowych baz danych
- rozmiar pliku kopii zapasowej db
- rozmiar skompresowanego pliku kopii zapasowej db
- czas na kopię zapasową
- czas na skompresowanie pliku
Chcę mieć możliwość A) otrzymywania powiadomień, jeśli zadania nie są uruchamiane zgodnie z harmonogramem B) być w stanie ustawić progi dla statystyk, które wyzwalałyby powiadomienia C) Chcę mieć możliwość trendowania i wykresowania statystyk
Planuję wysłać te informacje do aplikacji monitorującej za pośrednictwem HTTP POST. Lub aplikacja monitorująca może również pobrać go z pliku dziennika.
Będziemy jednak mieć inne procesy z innymi „arbitralnymi” (z punktu widzenia systemu monitorowania) stacjami, które będą chciały monitorować i wykazywać tendencję, dlatego elastyczność jest bardzo ważna.
Narzędzie lub narzędzia powinny także być w stanie generalnie monitorować i trendować interfejsy sieciowe, obciążenie serwera itp. Kiedy już uruchomimy monitorowanie kopii zapasowych, będziemy chcieli również uwzględnić te elementy.
Dzięki.
Dalsze działania :
Postanowiłem wypróbować następujące w podanej kolejności:
- Zabbix: wydawał się bardziej „jednym oknem” niż inne i był łatwy do zainstalowania w Ubuntu Lucid RC
- opsview
- Nagios w / nagvis, pnp4nagios, nagiosgraph
- kaktusy z wtyczką npc
- Munin: trochę przestraszony prostotą, ale na dłuższą metę może to okazać się błogosławieństwem
Odeślemy wiadomość po podjęciu decyzji, może minąć trochę czasu.
źródło
powinno to być dość łatwe do skonfigurowania za pomocą zabbix.
ustawianie niestandardowych (i bardzo potężnych) progów jest łatwe - możesz napisać dowolne wyrażenie, które Ci się podoba, więc możliwe jest coś w rodzaju „powiadom mnie, jeśli więcej niż 3 z tych 5 serwerów nie utworzyło pomyślnej kopii zapasowej”. możesz także użyć 6 różnych poziomów ważności i eskalacji, aby uzyskać elastyczne powiadomienia i powiadomienia.
zabbix ma rozbudowane funkcje przechowywania i wizualizacji danych - wszystkie dane są przechowywane w bazie danych, a do wykreślenia pojedynczej metryki nie potrzebujesz żadnej konfiguracji - otrzymujesz po prostu wykres „za darmo”. dla długoterminowego przechowywania i trendów obliczane są średnie z jednej godziny.
jeśli chodzi o przenoszenie danych o kopiach zapasowych do zabbix, istnieje wiele możliwości. możesz odczytać go z plików, możesz uruchomić niestandardowe polecenia, możesz wypchnąć go z monitorowanego komputera za pomocą narzędzia wiersza poleceń zabbix_sender ... i może być kilka innych podejść.
rozszerzenie jest łatwe - dowolne niestandardowe polecenie zwracające dane może służyć do gromadzenia, przechowywania i wizualizacji tych danych.
oczywiście możliwe jest ogólne monitorowanie systemów operacyjnych, aplikacji, urządzeń snmp i ipmi i tak dalej.
źródło
wykonanie
kopie zapasowe są koordynowane przez backupninja . używam go tylko jako opakowania dla moich skryptów bash - aby mieć pojedynczy dziennik kopii zapasowej. każdy skrypt zaczyna się od
więc pojawia się błąd w logach, gdy którekolwiek z poleceń [np. mysqldump lub rsync] nie powiedzie się.
wszystkie kopie zapasowe kończą się w repozytorium rdiff, więc mam n dni przyrostów.
wszystkie kopie zapasowe są przesyłane przy użyciu rsync do centralnego serwera pamięci.
na serwerze pamięci wszystkie kopie zapasowe są weryfikowane codziennie, a po pomyślnej weryfikacji danych na dysku lokalnym są kopiowane na zewnętrzny dysk USB.
weryfikacja
backupninja.log na wszystkich serwerach jest monitorowany przez nagios. sprawdzam, czy zawierają tylko wiadomości DEBUG i INFO. wszystko inne wywołuje alarm.
każda kopia zapasowa „dotyka” pliku testowego, którego obecność i aktualność jest monitorowana na centralnym serwerze repozytorium kopii zapasowych z nagios.
dodatkowo sprawdzane są bardziej krytyczne zrzuty sql pod kątem ich wielkości [nie tylko świeżości] i kompletności [np. na końcu zrzutów mysql oczekuję świeżego znacznika czasu w
wszystkie archiwa rdiff są weryfikowane codziennie, zanim dane zostaną zsynchronizowane z dyskiem USB, a następnie ponownie po zsynchronizowaniu. więc nawet jeśli przesyłanie nocne zostanie przerwane, będę mieć spójne repozytorium tylko na dysku USB. wynik sprawdzania jest zapisywany w pliku, którego zawartość i świeżość sprawdzane są przez nagios.
Dyski USB są obracane co tydzień i na wszelki wypadek są przechowywane offline. może to być przesada w przypadku większych ilości danych, ale działa dobrze w przypadku ~ 300 GB wolno zmieniających się plików / zrzutów.
trendy
Używam prostej niestandardowej wtyczki Munin, aby wykreślić rozmiar diff / danych dla każdego repozytorium rdiff.
czas potrzebny do wykonania można sprawdzić w dziennikach backupninja, ale na razie nie przejmuję się tym.
źródło
nagios mogą robić trendy, ale musisz wypisać perfdata ( http://nagios.sourceforge.net/docs/1_0/perfdata.html ) we wtyczce. Jeśli użyjesz pnp4nagios http://docs.pnp4nagios.org/pnp-0.4/start, wszystko zostanie dla ciebie wykreślone.
Przekonałem się, że korzystanie z opsview http://www.opsview.org/ jest znacznie łatwiejsze niż konfigurowanie nagios i pnp4nagios. Zwłaszcza jeśli jesteś jedynym doświadczonym administratorem linux w pracy. Opsview to nagio ze świetnym webui, które pozwala na prawie wszystkie działania z przeglądarki internetowej. Ponieważ jest to nagios, możesz używać wszystkich wtyczek nagios, z których korzystałeś w przeszłości. Świetne narzędzie.
źródło
Nagios do powiadamiania, kaktusy do tworzenia wykresów oraz niektóre skrypty powłoki lub perla zrobią dokładnie to, co chcesz. Dzięki ich połączeniu możesz zrobić prawie wszystko, w zależności od wysiłku, jaki chcesz włożyć.
źródło
Polecam OpenNMS . Pakiet jest całkowicie otwarty, aktywnie wspierany i regularnie ulepszany. W celach informacyjnych znalazłem na ich informacjach o konfiguracji wiki, aby monitorować Symantec Backup Exec .
Z ich strony internetowej ..
Ujawnienie: Nie mam tu żadnych interesów handlowych, ale właściciel grupy OpenNMS , wspomnianej wyżej „organizacji usług komercyjnych, szkoleń i wsparcia” jest moim przyjacielem.
źródło
Można to łatwo zrobić za pomocą Circonus ( http://circonus.com/ ). Rutynowo importujemy takie metryki z DTD XML Resmon.
źródło