Jak znaleźć korelacje między awariami a środowiskami systemowymi?

10

W wolnym czasie pracuję nad małym systemem internetowym, który gromadzi raporty o awariach (ale nie inne, niezawierające raportów o błędach) wysyłane z aplikacji Delphi Windows.

Przy rozwiązywaniu problemów użytkownicy chcieliby mieć funkcję eksploracji danych, aby znaleźć związki między wersjami sprzętu lub systemu operacyjnego a konkretnym błędem i / lub awarią.

Jako przykład, jak to powinno działać:

  • dla każdej awarii znajduje się raport w bazie danych, który zawiera odcisk palca / kod skrótu śledzenia stosu (stos wywołań) w momencie awarii w celu identyfikacji duplikatów
  • algorytm sprawdza, czy wszystkie duplikaty raportu o błędzie mają również inne wspólne atrybuty, na przykład brakujący dodatek Service Pack systemu operacyjnego
  • wynik analizy zawiera listę wszystkich właściwości, które mają wspólne raporty o błędach

Załóżmy, że te automatyczne raporty błędów zawierają wszystkie kluczowe informacje, takie jak nazwy wszystkich aktualnie uruchomionych procesów, nazwy plików, informacje o wersji załadowanych bibliotek DLL itp.

Jak znaleźć korelacje między powtarzającymi się awariami a środowiskiem? Czy istnieją specjalne algorytmy lub metody statystyczne, które mogłyby pomóc?


źródło
2
Znalezienie korelacji jest ogromnym zadaniem. Widziałeś to narzędzie w pracy? Może to pomóc w znalezieniu właściwego sposobu organizacji danych.
Więc chcesz wykonać obliczenia korelacji również w Delphi? Następnie spójrz na tę listę funkcji matematycznych Delphi : obejmuje ona wiele, a także zawiera objaśnienia i łącza do bibliotek.
@DaveBall Dziękuję za interesujące łącze, jednak mimo że raporty o błędach pochodzą z Delphi, usługa sieciowa faktycznie jest zaimplementowana w Javie - być może mogę użyć algorytmów jako punktu wyjścia lub w narzędziu statystycznym „offline”.
1
Warto przyjrzeć się „dyskretnym modelom zagrożeń”. Wydaje się, że jest to przypadek, w którym chcesz zresetować zdarzenia awarii (awarie) dla stałych charakterystyk (zmiennych środowiskowych) i czasu od ostatniej awarii. Jeśli masz wystarczającą liczbę obserwacji (raportów o awariach), będziesz w stanie dodać interakcje między zmiennymi środowiskowymi do modelu. Wskażą one następnie kierunek konfliktów systemowych. Niestety nie wiem, jak łatwo jest wdrożyć taki model w Javie.
jmtroos
1
Rodzaje analiz, które można zastosować, zależą od wielkości problemu, tj. Ile jest różnych rodzajów awarii? Ile jest możliwych atrybutów?
Sameer

Odpowiedzi:

1

Czy możesz wypróbować maszyny [bez awarii] tego samego użytkownika, aby uzyskać te same informacje, co w raporcie o awarii? Ponieważ wtedy można użyć regresji logistycznej do modelowania tych atrybutów (i interakcji) do prawdopodobieństwa wystąpienia awarii.

zzk
źródło