Obecnie używam Request Tracker ( http://www.bestpractical.com/rt )
Wszystkie zdarzenia konserwacyjne otrzymują powiązany bilet w kolejce „systemowej”. Uwagi o napotkanych problemach, kto zrobił, co zadziałało, kiedy itd. Są wprowadzane do biletu wraz z niezbędnymi zatwierdzeniami.
W tej chwili nasze powtarzające się zadania (kwartalne łatanie itp.) Są tworzone ręcznie, ale można je łatwo zautomatyzować (zadanie cron + e-mail).
Koordynacja tego, kto wykonuje tę pracę, jest dla nas stosunkowo łatwa, ponieważ w naszej grupie administracyjnej są tylko 2 osoby, ale w miarę powiększania się planu jest stworzenie biletu głównego na imprezy konserwacyjne i wykorzystanie biletów podrzędnych przypisanych do odpowiedzialnych stron w celu delegowania pracy .
Codzienne czynności (kontrole dzienników itp.) To kolejna sprawa: mam to wszystko zautomatyzowane:
- InterMapper monitoruje ogólny stan serwerów (zapytania SNMP w poszukiwaniu wysokiego obciążenia, małej ilości miejsca na dysku itp.), Funkcjonalność naszych interfejsów internetowych i wiele innych rzeczy, które mogą wskazywać na problemy.
- Syslog-NG zbiera logi od naszych hostów i przekazuje je za pośrednictwem szeregu skryptów, które sprawdzają oczywistą złą jakość. Od czasu do czasu spoglądam na dzienniki, aby sprawdzić poczytalność skryptów, ale nie jest to regularnie planowane.
W przypadku pracy projektowej jest wypychany z aplikacji Project Management (zintegrowana poczta e-mail i kalendarz z możliwością dokumentowania szczegółowej pracy i planowania jej dla określonych osób).
W przypadku konserwacji, aktualizacji, poprawek itp. Mamy system biletowy, który mniej więcej integruje się z naszym procesem zarządzania zmianami w celu obsługi zgłoszeń i harmonogramów.
W przypadku całkowicie napędzanej wewnętrznie pracy i pracy w długich cyklach (kwartalnych, rocznych itp.):
Przypomnienia o czynnościach są kalendarzowe. Istnieje nieformalna / półformalna dokumentacja („wiki”) dotycząca ogólnego harmonogramu.
Istnieje pewna ilość „poradników” i dokumentacji procedur dotyczących wykonywania zadań i jest dostępna dla całego zespołu, ale ludzie mają własne „czarne księgi” administracyjne i dzienniki z notatkami i przepisami.
źródło
System monitorowania może pomóc w tych sprawach:
Dokumentujemy każdą rundę comiesięcznej konserwacji w pliku Word Doc z polami wyboru. Każdego miesiąca zapisujemy raport w folderze na naszym serwerze NAS. Monitorujemy minimalny wiek pliku w folderze. Jeśli minimalny wiek pliku przekracza 40 dni, pojawia się alarm.
Jedną częścią naszej rutynowej konserwacji jest ponowne uruchamianie wybranych serwerów i urządzeń raz w miesiącu. Używamy czujników „system uptime” (SNMP / WMI) w naszym oprogramowaniu do monitorowania, a jeśli czas pracy przekracza 40 dni, pojawia się alarm.
W przypadku kopii zapasowych monitorujemy minimalny wiek pliku w folderze kopii zapasowych każdego serwera na naszym serwerze NAS. Jeśli minimalny wiek pliku przekracza 10 dni, pojawia się alarm.
źródło
Używam Checkpanel ( https://checkpanel.com ) do zarządzania moimi cyklicznymi zadaniami konserwacyjnymi. Zapewnia listy kontrolne wielokrotnego użytku i łatwy interfejs do rejestrowania wyników każdej kontroli.
Po sprawdzeniu elementu nie jest on po prostu „zrobiony”, ale pozostaje dostępny do dalszych kontroli. Każda kontrola jest rejestrowana, dzięki czemu można łatwo przejrzeć historię wszystkich poprzednich kontroli danego elementu - w tym opcjonalne szczegóły (np. Komunikaty o błędach w przypadku nieudanych kontroli).
Możesz ustawić cykliczne dla każdego elementu, aby upewnić się, że sprawdzasz go co najmniej raz w tygodniu / co 2 dni / itd. Istnieje skonsolidowany widok wszystkich należnych elementów. Jeśli chcesz, możesz również otrzymywać codzienne wiadomości e-mail ze wszystkimi należnymi pozycjami.
Istnieje szablon list kontrolnych konserwacji serwera, którego można użyć jako podstawy do własnych list kontrolnych. Inne szablony obejmują listy kontrolne dla aplikacji internetowych, WordPress i wiele innych.
Ujawnienie: Jestem założycielem Checkpanel.
źródło