Piszę skrypt analizujący czasy uruchamiania procesów. Nie jestem pewien ich dystrybucji, ale chcę wiedzieć, czy proces działa „za długo”. Do tej pory korzystałem z 3 standardowych odchyleń czasów ostatniego uruchomienia (n> 30), ale powiedziano mi, że nie zapewnia to niczego użytecznego, jeśli dane nie są normalne (co nie wydaje się być). Znalazłem inny test odstający, który stwierdza:
Znajdź zakres między kwartylami, który wynosi IQR = Q3 - Q1, gdzie Q3 jest trzecim kwartylem, a Q1 to pierwszy kwartyl. Następnie znajdź te dwie liczby:
a) Q1 - 1,5 * IQR b) Q3 + 1,5 * IQR
Punkt jest wartością odstającą, jeśli <a lub> b
Moje dane to zazwyczaj 2 sekundy, 3 sekundy, 2 sekundy, 5 sekund, 300 sekund, 4 sekundy,… gdzie 300 sekund jest oczywiście wartością odstającą.
Która metoda jest lepsza? Metoda IQR czy metoda odchylenia standardowego?
źródło
Odpowiedzi:
Naprawdę są całe książki na temat wartości odstających.
Zwykle konkretną odpowiedzią jest to, że odchylenie standardowe jest podnoszone przez wartości odstające, więc każda reguła oparta na SD może działać słabo.
Reguły Tukeya dotyczące kwartyli +/- 1,5 IQR, które zacytowałeś, pochodziły z pracy ręcznej z małymi i średnimi zbiorami danych w latach siedemdziesiątych i zostały zaprojektowane tak, aby wskazywać wartości, o których warto pomyśleć indywidualnie. Nie jest jasne, czy przenoszą się one do znacznie większych zestawów danych, ani że mają zastosowanie, gdy spodziewamy się znacznego zniekształcenia.
Bardziej ogólną odpowiedzią jest to, że zasada wartości odstających jest dobra, jeśli zawsze podejmuje właściwe decyzje, ale jak możesz to stwierdzić?
To kontrowersyjne terytorium, ale spodziewałbym się, że na wykresie będzie występować wartość odstająca, ponieważ różni się bardzo od innych. Ale często (zwykle?) Trudno jest powiedzieć różnicę między tym, czego oczekujesz w dystrybucji z grubymi ogonami, a tym, co jest zbyt dzikie, by traktować je jak coś wyjątkowego. Czasami transformacja sprawia, że wartość odstająca wygląda znacznie bardziej zwyczajnie.
Ponadto, jeśli zastosujesz solidne metody, możesz mniej martwić się o to, które wartości zasługują na miano wartości odstających, ale raczej martw się ogólnie o wartości odstające.
źródło
Mówisz, że nie jesteś pewien dystrybucji, ale trwające procesy są łatwe do zebrania i oceny pod kątem dystrybucji. Po prostu oszczędzaj wiele razy i analizuj je. Biorąc pod uwagę czasy, które opublikowałeś, możesz dostać wiele w kilka godzin.
Poszukiwanie reguły wartości odstającej nie musi być tak ogólne. Może być specyficzny dla twojego zadania. Jesteś w stanie zebrać dużo danych. Zbierz go, zbadaj, a następnie zdecyduj, kiedy proces jest zbyt długi. Być może podejście oparte na IQR będzie działać, ale możesz użyć zestawu danych lub dopasowania parametrycznego, aby wykonać symulacje i sprawdzić, czy działa dobrze. To samo dotyczy SD. Być może> 50 lat jest za długi i to wszystko, czego potrzebujesz.
źródło