Standardowa definicja wartości odstającej dla wykresu Box i Whisker to punkty spoza zakresu , gdzie I Q R = Q 3 - Q 1 i Q 1 to pierwszy kwartyl i Q 3 to trzeci kwartyl danych.
Jaka jest podstawa tej definicji? Przy dużej liczbie punktów nawet idealnie normalny rozkład zwraca wartości odstające.
Załóżmy na przykład, że zaczynasz od sekwencji:
xseq<-seq(1-.5^1/4000,.5^1/4000, by = -.00025)
Ta sekwencja tworzy ranking percentylowy 4000 punktów danych.
Testowanie normalności dla qnorm
tej serii daje:
shapiro.test(qnorm(xseq))
Shapiro-Wilk normality test
data: qnorm(xseq)
W = 0.99999, p-value = 1
ad.test(qnorm(xseq))
Anderson-Darling normality test
data: qnorm(xseq)
A = 0.00044273, p-value = 1
Wyniki są dokładnie zgodne z oczekiwaniami: normalność rozkładu normalnego jest normalna. Utworzenie qqnorm(qnorm(xseq))
(zgodnie z oczekiwaniami) linii prostej danych:
Jeśli zostanie utworzony wykres pudełkowy tych samych danych, boxplot(qnorm(xseq))
powstanie wynik:
Wykres pudełkowy, w przeciwieństwie do shapiro.test
, ad.test
lub qqnorm
identyfikuje kilka punktów jako wartości odstające, gdy wielkość próbki jest wystarczająco duża (jak w tym przykładzie).
źródło
Odpowiedzi:
Wykresy pudełkowe
Oto odpowiedni rozdział z Hoaglin, Mosteller i Tukey (2000): Zrozumienie solidnej i eksploracyjnej analizy danych. Wiley . Rozdział 3, „Wykresy pudełkowe i porównanie partii”, napisany przez Johna D. Emersona i Judith Strenio (od strony 62):
Idą dalej i pokazują aplikację populacji Gaussa (strona 63):
Więc
Dalej piszą
Dostarczają tabelę z oczekiwaną proporcją wartości, które nie mieszczą się w wartościach granicznych odstających (oznaczone jako „Total% Out”):
Więc te wartości graniczne nigdy nie miały być ścisłą regułą dotyczącą tego, które punkty danych są wartościami odstającymi lub nie. Jak zauważyłeś, nawet idealny rozkład normalny powinien wykazywać „wartości odstające” na wykresie pudełkowym.
Wartości odstające
O ile mi wiadomo, nie ma powszechnie przyjętej definicji wartości odstającej. Podoba mi się definicja Hawkinsa (1980):
Najlepiej byłoby traktować punkty danych jako wartości odstające tylko wtedy, gdy zrozumiesz, dlaczego nie należą one do reszty danych. Prosta zasada nie jest wystarczająca. Dobre traktowanie wartości odstających można znaleźć w Aggarwal (2013).
Bibliografia
Aggarwal CC (2013): Outlier Analysis. Skoczek.
Hawkins D (1980): Identification of Outliers. Chapman and Hall.
Hoaglin, Mosteller and Tukey (2000): Zrozumienie solidnej i eksploracyjnej analizy danych. Wiley.
źródło
Często przyjmuje się, że słowo „wartość odstająca” oznacza coś w rodzaju „wartości danych, która jest błędna, wprowadzająca w błąd, błędna lub zepsuta i dlatego powinna zostać pominięta w analizie”, ale nie to miał na myśli Tukey przez użycie wartości odstającej. Wartości odstające to po prostu punkty, które są daleko od mediany zestawu danych.
Twoja opinia o oczekiwaniu wartości odstających w wielu zestawach danych jest poprawna i ważna. I jest wiele dobrych pytań i odpowiedzi na ten temat.
Usuwanie wartości odstających z danych asymetrycznych
Czy właściwe jest identyfikowanie i usuwanie wartości odstających, ponieważ powodują one problemy?
źródło
Podobnie jak w przypadku wszystkich metod wykrywania wartości odstających, należy zachować ostrożność i zastanowić się, aby ustalić, które wartości są naprawdę wartościami odstającymi. Myślę, że wykres pudełkowy po prostu zapewnia dobrą wizualizację rozprzestrzeniania się danych, a wszelkie prawdziwe wartości odstające będą łatwe do złapania.
źródło
Myślę, że powinieneś się martwić, jeśli nie otrzymasz wartości odstających w ramach normalnej dystrybucji, w przeciwnym razie być może powinieneś szukać powodów, dla których ich nie ma. Oczywiście należy je przejrzeć, aby upewnić się, że nie rejestrują błędów, ale w przeciwnym razie należy się ich spodziewać.
źródło