Jak * ty * śledzisz i dokumentujesz rutynowe czynności konserwacyjne?

10

Jakiego oprogramowania lub systemu używacie z powodu awarii serwera, aby przypominać o rutynowej konserwacji? Jak tworzysz listę kontrolną i rejestrujesz różne elementy, które chcesz sprawdzić? Czy masz wewnętrzny dokument procesowy? Czy masz cron co tydzień z przypomnieniami, aby sprawdzić dzienniki systemowe?

Czy pracujesz również w zespole, który zajmuje się konserwacją systemu, a jeśli tak, to w jaki sposób koordynujesz, kto wykona konserwację?

Jeśli używasz systemu śledzenia błędów / problemów do wprowadzania zadań, czy masz zadanie CRON do wykonywania zadań cyklicznych?

Zak
źródło

Odpowiedzi:

5

Obecnie używam Request Tracker ( http://www.bestpractical.com/rt )
Wszystkie zdarzenia konserwacyjne otrzymują powiązany bilet w kolejce „systemowej”. Uwagi o napotkanych problemach, kto zrobił, co zadziałało, kiedy itd. Są wprowadzane do biletu wraz z niezbędnymi zatwierdzeniami.

W tej chwili nasze powtarzające się zadania (kwartalne łatanie itp.) Są tworzone ręcznie, ale można je łatwo zautomatyzować (zadanie cron + e-mail).

Koordynacja tego, kto wykonuje tę pracę, jest dla nas stosunkowo łatwa, ponieważ w naszej grupie administracyjnej są tylko 2 osoby, ale w miarę powiększania się planu jest stworzenie biletu głównego na imprezy konserwacyjne i wykorzystanie biletów podrzędnych przypisanych do odpowiedzialnych stron w celu delegowania pracy .


Codzienne czynności (kontrole dzienników itp.) To kolejna sprawa: mam to wszystko zautomatyzowane:

  • InterMapper monitoruje ogólny stan serwerów (zapytania SNMP w poszukiwaniu wysokiego obciążenia, małej ilości miejsca na dysku itp.), Funkcjonalność naszych interfejsów internetowych i wiele innych rzeczy, które mogą wskazywać na problemy.
  • Syslog-NG zbiera logi od naszych hostów i przekazuje je za pośrednictwem szeregu skryptów, które sprawdzają oczywistą złą jakość. Od czasu do czasu spoglądam na dzienniki, aby sprawdzić poczytalność skryptów, ale nie jest to regularnie planowane.
voretaq7
źródło
2

Prawidłowo zaimplementowana automatyzacja eliminuje potrzebę wykonywania zadań i list kontrolnych. Dlaczego ręcznie chcesz sprawdzać rzeczy, gdy masz komputery, które mogą wykonywać pracę znacznie efektywniej i wydajniej?

Wszystko, co wymaga okresowej kontroli, jest sprawdzane przez system monitorowania. Rutynowe zadania są zautomatyzowane, gdy tylko jest to praktyczne, i wysyłane są przypomnienia dotyczące tych kilku zadań, które należy wykonać ręcznie. Dokumentacja to inna sprawa, ale zrobione dobrze, twoje komputery mogą w większości tworzyć własną dokumentację.

Przestań szukać lepszych ręcznych sposobów i zacznij szukać lepszych automatycznych sposobów wykonywania dowolnej pracy. Komputery są po to, aby dla nas pracować, a nie my dla nich.

John Gardeniers
źródło
Dobra zasada: administrator systemu powinien zawsze być zarówno kompetentny, jak i leniwy. Chęć nie wykonywania pracy doprowadzi dobrych administratorów do wdrożenia dobrej automatyzacji.
voretaq7
Podam konkretny przykład: muszę monitorować łatki bezpieczeństwa dla Apache, a następnie wygenerować nową kompilację i przetestować ją, gdy pojawi się łatka. Rutynową częścią jest monitorowanie nowej wersji Apache. Nie można po prostu aktualizować bezpośrednio z (głównego) repozytorium, ponieważ nie będzie miał skompilowanych prawidłowych modułów. Ponadto, należy przeprowadzić audyt, aby upewnić się, że wersje zostały sprawdzone. Czy to ma większy sens?
Zak
Nie chcę też rzucić najnowszej partii żadnego oprogramowania, dopóki kompilacja nie przejdzie kontroli jakości. Duża część kontroli jakości jest zautomatyzowana, ale nie wszystkie.
Zak
I czy istnieje powód, dla którego nie można wszystkich skryptować? Zautomatyzowane sprawdzanie aktualizacji, wysyłanie alertu, gdy niektóre są dostępne, a następnie kompilacja i instalacja skryptowa, gotowe do przetestowania. Pozwól, aby maszyna wykonała większość pracy i powie Ci, kiedy wymagana jest twoja uwaga.
John Gardeniers,
1

W przypadku pracy projektowej jest wypychany z aplikacji Project Management (zintegrowana poczta e-mail i kalendarz z możliwością dokumentowania szczegółowej pracy i planowania jej dla określonych osób).

W przypadku konserwacji, aktualizacji, poprawek itp. Mamy system biletowy, który mniej więcej integruje się z naszym procesem zarządzania zmianami w celu obsługi zgłoszeń i harmonogramów.

W przypadku całkowicie napędzanej wewnętrznie pracy i pracy w długich cyklach (kwartalnych, rocznych itp.):

Przypomnienia o czynnościach są kalendarzowe. Istnieje nieformalna / półformalna dokumentacja („wiki”) dotycząca ogólnego harmonogramu.

Istnieje pewna ilość „poradników” i dokumentacji procedur dotyczących wykonywania zadań i jest dostępna dla całego zespołu, ale ludzie mają własne „czarne księgi” administracyjne i dzienniki z notatkami i przepisami.

damorg
źródło
1

System monitorowania może pomóc w tych sprawach:

  • Dokumentujemy każdą rundę comiesięcznej konserwacji w pliku Word Doc z polami wyboru. Każdego miesiąca zapisujemy raport w folderze na naszym serwerze NAS. Monitorujemy minimalny wiek pliku w folderze. Jeśli minimalny wiek pliku przekracza 40 dni, pojawia się alarm.

  • Jedną częścią naszej rutynowej konserwacji jest ponowne uruchamianie wybranych serwerów i urządzeń raz w miesiącu. Używamy czujników „system uptime” (SNMP / WMI) w naszym oprogramowaniu do monitorowania, a jeśli czas pracy przekracza 40 dni, pojawia się alarm.

  • W przypadku kopii zapasowych monitorujemy minimalny wiek pliku w folderze kopii zapasowych każdego serwera na naszym serwerze NAS. Jeśli minimalny wiek pliku przekracza 10 dni, pojawia się alarm.

Dirk Paessler
źródło
1

Używam Checkpanel ( https://checkpanel.com ) do zarządzania moimi cyklicznymi zadaniami konserwacyjnymi. Zapewnia listy kontrolne wielokrotnego użytku i łatwy interfejs do rejestrowania wyników każdej kontroli.

Po sprawdzeniu elementu nie jest on po prostu „zrobiony”, ale pozostaje dostępny do dalszych kontroli. Każda kontrola jest rejestrowana, dzięki czemu można łatwo przejrzeć historię wszystkich poprzednich kontroli danego elementu - w tym opcjonalne szczegóły (np. Komunikaty o błędach w przypadku nieudanych kontroli).

Możesz ustawić cykliczne dla każdego elementu, aby upewnić się, że sprawdzasz go co najmniej raz w tygodniu / co 2 dni / itd. Istnieje skonsolidowany widok wszystkich należnych elementów. Jeśli chcesz, możesz również otrzymywać codzienne wiadomości e-mail ze wszystkimi należnymi pozycjami.

Istnieje szablon list kontrolnych konserwacji serwera, którego można użyć jako podstawy do własnych list kontrolnych. Inne szablony obejmują listy kontrolne dla aplikacji internetowych, WordPress i wiele innych.

Ujawnienie: Jestem założycielem Checkpanel.

Florian Sander
źródło