Jak ocenić skośność na podstawie wykresu pudełkowego?

Jak decydować o skośności, patrząc na wykres pudełkowy zbudowany z tych danych:

340, 300, 520, 340, 320, 290, 260, 330

Jedna z książek mówi: „Jeśli dolny kwartyl znajduje się dalej od mediany niż górny kwartyl, wówczas rozkład jest ujemnie wypaczony”. Kilka innych źródeł powiedziało mniej więcej to samo.

Zbudowałem boxplot za pomocą R. To jest tak:

fabuła

Rozumiem, że jest ujemnie wypaczony , ponieważ dolny kwartyl jest dalej od mediany niż górny kwartyl. Problem polega jednak na tym, że używam innej metody określania skośności:

średnia (337,5)> mediana (325)

Oznacza to, że dane są pozytywnie wypaczone . Przegapiłem coś?

outliers skewness boxplot JerryW
źródło

Odpowiedzi:

Jedna miara skośności oparta jest na średniej medianie - drugim współczynniku skośności Pearsona .

Inna miara skośności oparta jest na względnych różnicach kwartylowych (Q3-Q2) vs (Q2-Q1) wyrażonych jako stosunek

$u=0.25$

Najczęstszą miarą jest oczywiście skośność w trzeciej chwili .

Nie ma powodu, aby te trzy środki były koniecznie spójne. Każdy z nich może różnić się od pozostałych dwóch.

To, co uważamy za „skośność”, jest dość śliskie i źle zdefiniowane. Zobacz tutaj, aby uzyskać więcej dyskusji.

Jeśli spojrzymy na twoje dane za pomocą normalnego qqplot:

wprowadź opis zdjęcia tutaj

[Linia tam zaznaczona opiera się tylko na pierwszych 6 punktach, ponieważ chcę omówić odchylenie dwóch ostatnich od tamtego wzoru.]

Widzimy, że najmniejsze 6 punktów leży prawie idealnie na linii.

Następnie siódmy punkt znajduje się poniżej linii (bliżej środka względnie niż odpowiedni drugi punkt w lewym końcu), a ósmy punkt znajduje się znacznie powyżej.

Siódmy punkt sugeruje łagodne pochylenie w lewo, ostatnie, silniejsze pochylenie w prawo. Jeśli zignorujesz jeden punkt, wrażenie skośności jest całkowicie zdeterminowane przez drugi.

Gdybym miał powiedzieć, że to jedno lub drugie, nazwałbym to „poprawnym przekrzywieniem”, ale wskazałbym również, że wrażenie było całkowicie spowodowane efektem tego jednego bardzo dużego punktu. Bez niego naprawdę nie ma nic do powiedzenia, że jest to właściwe przekrzywienie. (Z drugiej strony, bez siódmego punktu wyraźnie nie jest to przekrzywienie.)

Musimy być bardzo ostrożni, gdy nasze wrażenie jest całkowicie determinowane przez pojedyncze punkty i można je odwrócić, usuwając jeden punkt. To nie jest duża podstawa do kontynuowania!

Zaczynam od założenia, że to, co sprawia, że wartość odstająca jest „oddalona”, to model (co jest wartością odstającą w odniesieniu do jednego modelu, może być dość typowe w innym modelu).

Myślę, że obserwacja przy 0,01 górnego percentyla (1/10000) normy (3,72 sds powyżej średniej) jest równie odstająca od normalnego modelu, jak obserwacja przy 0,01 górnego percentyla rozkładu wykładniczego dotyczy modelu wykładniczego. (Jeśli przekształcimy rozkład przez jego własną transformatę całkową prawdopodobieństwa, każdy przejdzie do tego samego munduru)

Aby zobaczyć problem ze stosowaniem reguły boxplot do nawet umiarkowanie prawidłowego rozkładu pochylenia, symuluj duże próbki z rozkładu wykładniczego.

Np. Jeśli symulujemy próbki o wielkości 100 z normalnej, uśredniamy mniej niż 1 wartość odstającą na próbkę. Jeśli robimy to wykładniczo, otrzymujemy średnią około 5. Ale nie ma prawdziwych podstaw, aby stwierdzić, że większy odsetek wartości wykładniczych jest „odstający”, chyba że robimy to w porównaniu (powiedzmy) z normalnym modelem. W szczególnych sytuacjach możemy mieć konkretne powody, aby mieć regułę odstającą w jakiejś szczególnej formie, ale nie ma ogólnej reguły, która pozostawia nam ogólne zasady, takie jak ta, którą zacząłem w tym podrozdziale - aby traktować każdy model / rozkład na własnych światłach (jeśli wartość nie jest niczym niezwykłym w odniesieniu do modelu, po co nazywać ją wartością odstającą w tej sytuacji?)

Aby przejść do pytania w tytule :

Chociaż jest to dość prymitywny instrument (dlatego spojrzałem na wykres QQ), istnieje kilka oznak skośności na wykresie pudełkowym - jeśli jest co najmniej jeden punkt oznaczony jako odstający, potencjalnie (co najmniej) trzy:

wprowadź opis zdjęcia tutaj

W tej próbce (n = 100) zewnętrzne punkty (zielone) zaznaczają skrajności, a środkowa sugeruje lewy skośność. Następnie ogrodzenia (niebieskie) sugerują (w połączeniu z medianą) sugerują prawy skośność. Następnie zawiasy (kwartyle, brązowe) sugerują lewy skośność w połączeniu z medianą.

Jak widzimy, nie muszą być spójne. Na czym będziesz się koncentrować, zależy od sytuacji, w której się znajdujesz (i ewentualnie twoich preferencji).

Jednak ostrzeżenie o tym, jak prymitywna jest fabuła. Przykład pod koniec tutaj - który zawiera opis sposobu generowania danych - podaje cztery całkiem różne rozkłady z tym samym wykresem pudełkowym:

wprowadź opis zdjęcia tutaj

Jak widać, rozkład jest dość wypaczony, a wszystkie wyżej wymienione wskaźniki skośności wykazują idealną symetrię.

Przyjmijmy to z punktu widzenia „jakiej odpowiedzi oczekiwał twój nauczyciel, biorąc pod uwagę, że jest to fabuła, która oznacza jeden punkt jako wartość odstającą?”.

Pozostaje nam pierwsza odpowiedź: „czy oczekują, że ocenisz skośność z wyłączeniem tego punktu, czy też z próbką?”. Niektórzy to wykluczą i ocenią skośność na podstawie tego, co pozostało, jak jsk zrobił w innej odpowiedzi. Chociaż kwestionowałem pewne aspekty tego podejścia, nie mogę powiedzieć, że jest ono złe - zależy to od sytuacji. Niektórzy to uwzględnią (zwłaszcza dlatego, że wykluczenie 12,5% próby z powodu reguły wywodzącej się z normalności wydaje się dużym krokiem *).

* Wyobraź sobie rozkład populacji, który jest symetryczny, z wyjątkiem skrajnie prawego ogona (skonstruowałem taki, by na to odpowiedzieć - normalny, ale skrajnie prawy ogon to Pareto - ale nie przedstawiłem tego w mojej odpowiedzi). Jeśli narysuję próbki o rozmiarze 8, często 7 obserwacji pochodzi z normalnie wyglądającej części, a jedna z górnej części ogona. Jeśli w takim przypadku wykluczymy punkty oznaczone jako odstające od schematu, wykluczamy punkt, który mówi nam, że tak naprawdę jest przekrzywiony! Kiedy to zrobimy, obcięty rozkład, który pozostaje w tej sytuacji, jest odchylony w lewo, a nasz wniosek byłby odwrotny do prawidłowego.

Glen_b - Przywróć Monikę
źródło

@jsk To zależy od tego, jak chcesz zmierzyć skośność. Ponieważ stopień skośności jest częściowo determinowany przez punkty odstające (tendencja do bycia bardziej oddalonym w jednym kierunku niż w innym), usunięcie ich prawdopodobnie pomija punkt pomiaru skośności. Bardziej szczegółowa dyskusja i analiza znajduje się w moim zaktualizowanym poście. Jeśli nie jesteś przekonany, nie krępuj się, takie wymiany są często cenne.

Glen_b

@Glen_b Chociaż z pewnością szanuję i rozumiem postawę, którą przybierasz, uważam, że istnieje uzasadniony argument na rzecz oceny pochylenia po usunięciu wartości odstającej w przeciwieństwie do wcześniejszej. Po usunięciu wartości odstającej rozkład będzie nadal negatywnie wypaczony po usunięciu 7. punktu (260). Czy sprawdziłeś qqplot i / lub porównałeś średnią i medianę?

jsk

Być może sprawa jest dość słaba po usunięciu siódmej, ale nie widzę powodu, aby uzasadniać ocenę pochylenia po jej usunięciu. Nie jest to żadna wartość odstająca, chociaż dobrze przyjęto, że miary skosu, bez względu na to, jak na to spojrzysz w tym przypadku, są oparte na pojedynczych punktach.

jsk

@Glen_ b Q3 + 1,5 IQR jest typową praktyczną zasadą nauczaną na tym poziomie do identyfikowania wartości odstających w górnym ogonie. To, czy je usunąć, to inna sprawa. Czy argumentujesz, że rozkład jest wypaczony, ponieważ średnia jest większa? Po co ignorować fakt, że Q1 jest dalej od Q2 niż Q3?

jsk

Chcę tutaj przeliterować, co jest blisko powierzchni, ale nie do końca: często wykresy pudełkowe zbyt mocno się zagęszczają, więc być może będziesz musiał spojrzeć na wszystkie dane.

Nick Cox

Nie, niczego nie przeoczyłeś: w rzeczywistości widzisz poza uproszczonymi streszczeniami, które zostały przedstawione. Dane te są wypaczone zarówno pozytywnie, jak i negatywnie (w sensie „skośności” sugerującej pewną formę asymetrii w rozkładzie danych).

John Tukey opisał systematyczny sposób badania asymetrii w partiach danych za pomocą swojego „podsumowania liczby N”. Wykres pudełkowy jest grafiką 5-liczbowego podsumowania i dlatego podlega tej analizie.

$M$ $H^{+}$ $H^{-}$ $X^{+}$ $X^{-}$ $T_i^{+}$ $i$ $T_i^{+}$ $T_i^{-}$ $M = M^{+}=M^{-}$ $(T_i^{+} + T_i^{-})/2$ $i$

Aby zastosować ten pomysł do wykresu pudełkowego, po prostu narysuj punkty środkowe każdej pary odpowiednich części: medianę (która już tam jest), punkt środkowy zawiasów (końce ramki pokazane na niebiesko) i punkt środkowy skrajności (pokazany na czerwono).

Boxplot

W tym przykładzie niższa wartość środkowego zawiasu w porównaniu do środkowej wskazuje, że środek partii jest lekko negatywnie wypaczony (co potwierdza ocenę cytowaną w pytaniu, a jednocześnie odpowiednio ogranicza jego zakres do połowy partii ), podczas gdy (znacznie) wyższa wartość średniej skrajnej wskazuje, że ogony partii (lub przynajmniej jej skrajności) są dodatnio wypaczone (chociaż, przy bliższej kontroli, wynika to z pojedynczej wysokiej wartości odstającej). Chociaż jest to prawie trywialny przykład, względne bogactwo tej interpretacji w porównaniu do pojedynczej statystyki „skośności” ujawnia już siłę opisową tego podejścia.

Przy odrobinie praktyki nie musisz rysować tych statystyk pośrednich: możesz wyobrazić sobie, gdzie się znajdują i odczytać uzyskane informacje o skośności bezpośrednio z dowolnego wykresu pudełkowego.

$M$ $H$ $E$ $D$ $X$ $i=1, 2, 3, 4, 5$ . Wykres lewej ręki na następnym rysunku jest wykresem diagnostycznym dla punktów środkowych tych sparowanych statystyk. Z nachylenia przyspieszającego widać, że dane stają się coraz bardziej wypaczone, gdy sięgamy do ich ogonów.

Rysunek 2

Wykresy środkowy i prawy pokazują to samo dla pierwiastków kwadratowych ( danych, a nie statystyk średniej liczby!) I logarytmów (podstawa-10). Względna stabilność wartości korzeni (zauważ względny mały zakres pionowy i poziom nachylony w środku) wskazuje, że ta partia 219 wartości staje się w przybliżeniu symetryczna zarówno w środkowych częściach, jak i we wszystkich częściach ogonów, prawie do skrajności, gdy wysokości są ponownie wyrażane jako pierwiastki kwadratowe. Wynik ten stanowi silną - prawie przekonującą - podstawę do dalszej analizy tych wysokości pod kątem pierwiastków kwadratowych.

Między innymi wykresy te ujawniają coś ilościowego w asymetrii danych: w oryginalnej skali natychmiast ujawniają zmienną skośność danych (poddając w wątpliwość użyteczność wykorzystania pojedynczej statystyki do scharakteryzowania jej skośności), podczas gdy na skala pierwiastkowa, dane są prawie symetryczne względem ich środka - i dlatego mogą być zwięźle streszczone pięciocyfrowym podsumowaniem lub równoważnym wykresem pudełkowym. Skośność ponownie różni się znacznie w skali logarytmicznej, co pokazuje, że logarytm jest zbyt „silnym” sposobem na ponowne wyrażenie tych danych.

Uogólnienie wykresu pudełkowego do podsumowań z siedmiu, dziewięciu i więcej liczb jest łatwe do narysowania. Tukey nazywa je „schematami”. Obecnie wiele wątków służy podobnemu celowi, w tym standby, takie jak wykresy QQ i względne nowości, takie jak „wykresy fasoli” i „wykresy skrzypiec”. (Nawet niski histogram można w tym celu wprowadzić do użytku.) Wykorzystując punkty z takich wykresów, można szczegółowo ocenić asymetrię i przeprowadzić podobną ocenę sposobów ponownego wyrażenia danych.

Whuber
źródło

Średnia wartość mniejsza lub większa od mediany jest skrótem, który często działa w celu określenia kierunku przekrzywienia, o ile nie występują wartości odstające. W tym przypadku rozkład jest wypaczony ujemnie, ale średnia jest większa niż mediana z powodu wartości odstającej.

jsk
źródło

To wyjaśnia. Książki, które czytałem, w ogóle o tym nie wspominały!

JerryW,

Mam nadzieję, że książki przynajmniej wspomniały, że średnia jest znacznie mniej odporna na wartości odstające niż mediana!

jsk

To, czy liczy się to jako wypaczenie negatywne, zależy od sposobu pomiaru wypaczenia.

Glen_b

Słusznie. Jest to niewielki zestaw danych, co sprawia, że ocena skośności jest szczególnie trudna. Zgaduję, że ten przykład został tam wrzucony nie tylko ze względu na sprzeczne reguły dotyczące określania pochylenia

jsk

Zgadzam się, że takie małe zbiory danych mogą sprawić, że będzie to trudne, ale jest całkowicie możliwe tworzenie ciągłych dystrybucji, które są równie trudne.

Glen_b