Przeprowadzanie analizy pierwotnej przyczyny

9

Chcę dowiedzieć się więcej na temat przeprowadzania analizy przyczyn źródłowych. Często nasz dział informuje użytkownika o ponownym uruchomieniu komputera (system Windows XP), który faktycznie „naprawia” wiele problemów. Kiedy mi się spieszy (a czasem zarabia co godzinę, przyczynia się do tego), mogę spróbować znaleźć obejście, aby szybko rozwiązać problem, zamiast przeprowadzać analizę pierwotnych przyczyn.

Przez większość czasu szukam tych informacji w plikach dziennika lub przeglądarce zdarzeń. Czasami używam narzędzi Sysinternals lub czasami uruchamiam sniffer pakietów. Prawdopodobnie nie używam programów Sysinternals tak często, jak powinienem. Przydałby się również pewien wgląd w to, w jaki sposób korzystasz z tych narzędzi, kiedy i dlaczego.

Wiem, że jest to szeroko otwarte pytanie, ale czy mógłbyś krótko wyjaśnić swoją metodologię, narzędzia itp., Których używasz? Wygląda na to, że wielu administratorów na SF korzysta z bardziej szczegółowego procesu, o którym chciałbym dowiedzieć się więcej. Jeśli to pomoże zawęzić pytanie, byłbym najbardziej zainteresowany narzędziami, wskazówkami, sztuczkami itp. Dotyczącymi serwerów i klientów Windows w środowisku AD.

jftuga
źródło

Odpowiedzi:

5

Zrozumienie głównej przyczyny problemu zależy od problemu - Twój początkowy instynkt patrzenia na pliki dziennika / narzędzia sysinternals / sniffery pakietów jest ogólnie poprawny.
Dodałbym uruchomienie narzędzia MS Malicious Software Removal Tool i dobrego programu AV w systemach Windows (i upewnienie się, że nie mają czegoś takiego jak CyberDefender lub inne złośliwe oprogramowanie AV-trojan).

Ludzie z Stack Exchange są zwolennikami metody „5 Whys” ( http://en.wikipedia.org/wiki/5_Whys , także ten ładny krótki plik PDF, który pokazuje go w akcji ). Jest to bardzo cenne narzędzie do analizy przyczyn pierwotnych.


Poza tym pomaluję dwie szerokie kategorie i niektóre pytania, które zwykle zadaję / rzeczy, które sprawdzam:

Tajemnicze zachowanie niezwiązane z siecią,
np. „Program Word ciągle się zawiesza”

Podstawowe pytania, które należy zadać:

  1. Co się zmieniło?
    (Nie bierz odpowiedzi „nic” - to pierwsze kłamstwo. Nowe oprogramowanie, łatki itp. Liczą się.)
  2. Co robiłeś, kiedy miałeś problem?
    (Spróbuj wyodrębnić jak najwięcej szczegółów tutaj - w moim przykładzie powyżej „Nacisnąłem skrót dla wstawiania inicjałów, a program się zawiesił”)
  3. Czy to kiedykolwiek działało?
    (Jeśli tak, zacznij szukać rzeczy z (1) powyżej)
  4. Czy potrafisz odtworzyć problem w swoim systemie?
    (Jeśli tak, to dobry znak: pomoc telefoniczna do dostawcy pomocy technicznej może pomóc. Jeśli nie, będziesz musiał spojrzeć na system użytkownika w celu uzyskania odpowiedzi na pozostałe pytania).
  5. Czym różni się środowisko użytkownika od środowiska?
  6. Jest podejrzany sprzętowo użytkownika (uruchom test pamięci, poszukaj błędów SMART z dysku twardego itp.)
  7. Jeśli zaszedłeś już tak daleko (sprawdzanie sprzętu, sprawdzanie oprogramowania, brak wirusów, brak złośliwego oprogramowania) idź odwiedzić użytkownika na jeden dzień. Obserwuj ich nawyki pracy.
    Moja firma miała kiedyś tajemniczą blokadę systemu związaną z klikaniem myszą z określoną częstotliwością (wciąż nie wiemy, dlaczego, ale musieliśmy patrzeć, jak użytkownik to robi i ćwiczyć przez jeden dzień, aby móc się rozmnażać to niezawodnie)

Problemy związane z siecią

Wiele z nich jest podobnych, ale z pewnymi bardziej szczegółowymi wskazówkami.

  1. Co się zmieniło?
    (Tak, zawsze zaczynasz tam)
  2. Co jest zepsute?
    • Czy potrafisz dotrzeć do stron internetowych? Czy to tylko jeden upadek? Jeśli tak, czy to dotyczy wszystkich, czy tylko Ciebie ?
    • Czy umiesz pingować rzeczy w Internecie po imieniu?
      Co powiesz na adres IP? Jak daleko sięga traceroute?
  3. Kiedy jest zepsuty?
    • Zawsze o tej samej porze dnia?
    • Przez krótki okres co N dni?
    • Losowo (czy to NAPRAWDĘ losowo? Wykreśl to w kalendarzu ...)
  4. Czy w zdalnej witrynie jest coś dziwnego?
    • Spójrz na DNS - jeśli działa w trybie okrężnym, może wystąpić awaria po stronie zdalnej
    • Czy mówimy o drugim końcu VPN? O co chodzi z VPN (logi!)?
  5. Czy jest coś dziwnego w lokalnej witrynie?
    • Sprawdź swoją lokalną zaporę ogniową
    • Sprawdź dowolne „oprogramowanie filtrujące”
  6. Skontaktuj się z usługodawcą internetowym, aby sprawdzić, czy występują jakieś znane problemy
  7. Sprawdź witryny, takie jak http://www.internetpulse.net/, w poszukiwaniu znanych problemów w całej sieci
  8. Sprawdź maszynę użytkownika
    (ustawienia TCP itp. - Zwykle nie problem, ale czasami).
voretaq7
źródło
1

Oprócz dotychczasowych doskonałych odpowiedzi dodałbym:

  • Określ datę / godzinę rozpoczęcia wydania. Może się to wydawać oczywiste, ale widziałem o wiele za dużo problemów, w których nie zostało to udokumentowane, a później dokonano błędnych założeń. To dobrze koreluje z krokiem „co się zmieniło”.

  • Czy problem jest powtarzalny czy sporadyczny? Jest to krytyczne, ponieważ powtarzalne objawy są znacznie łatwiejsze i szybsze do rozwiązania niż te, które występują sporadycznie. Jeśli jest odtwarzalny, upewnij się, że kroki są udokumentowane.

  • Zidentyfikuj objaw (y). Zauważ, że rozróżniamy „objaw”, który jest przejawem przyczyny źródłowej, od rzeczywistego problemu / przyczyny źródłowej.

    1. Czy są jakieś inne działania, które mogą odtworzyć objaw?
    2. Jakie są inne objawy?
    3. Jeśli problem występuje sporadycznie, czy możemy zidentyfikować działanie, które spowoduje jego wystąpienie?
    4. W jakich okolicznościach możemy zapobiec wystąpieniu objawu? Czy problem występuje tylko po zalogowaniu przy użyciu konta sieciowego, ale działa poprawnie, jeśli jest zalogowany lokalnie? Czy problem występuje po zalogowaniu się jako zwykły użytkownik, ale działa poprawnie, jeśli zalogowano się z podwyższonymi uprawnieniami? Czy występuje tylko w jednym systemie, ale inny system, który powinien być podobny, nie wykazuje objawów?
  • Zlokalizuj problem z prawdopodobnie wadliwym komponentem funkcjonalnym. Jeśli w aplikacji internetowej wystąpił błąd, czy jest to kod aplikacji, serwer WWW, system operacyjny hostujący serwer WWW, sieć czy zdalny koniec? W tym momencie najlepiej zgadnąć, aby zasoby były skoncentrowane na prawdopodobnej przyczynie, więc upewnij się, że inni wiedzą, że jest to teoria / przypuszczenie.

  • Podważ swoje założenia i spróbuj zebrać dane empiryczne, aby wesprzeć założenia i wnioski. To bardzo złe uczucie powiedzieć komuś, że x nie ma problemu, a później odkryto, że tak naprawdę jest. Zwykle, gdy istnieje niepoprawne rozwiązanie, mogą istnieć dane wspierające prawidłowe rozwiązanie.

Greg Askew
źródło