Jedna miara skośności oparta jest na średniej medianie - drugim współczynniku skośności Pearsona .
Inna miara skośności oparta jest na względnych różnicach kwartylowych (Q3-Q2) vs (Q2-Q1) wyrażonych jako stosunek
u = 0,25
Najczęstszą miarą jest oczywiście skośność w trzeciej chwili .
Nie ma powodu, aby te trzy środki były koniecznie spójne. Każdy z nich może różnić się od pozostałych dwóch.
To, co uważamy za „skośność”, jest dość śliskie i źle zdefiniowane. Zobacz tutaj, aby uzyskać więcej dyskusji.
Jeśli spojrzymy na twoje dane za pomocą normalnego qqplot:
[Linia tam zaznaczona opiera się tylko na pierwszych 6 punktach, ponieważ chcę omówić odchylenie dwóch ostatnich od tamtego wzoru.]
Widzimy, że najmniejsze 6 punktów leży prawie idealnie na linii.
Następnie siódmy punkt znajduje się poniżej linii (bliżej środka względnie niż odpowiedni drugi punkt w lewym końcu), a ósmy punkt znajduje się znacznie powyżej.
Siódmy punkt sugeruje łagodne pochylenie w lewo, ostatnie, silniejsze pochylenie w prawo. Jeśli zignorujesz jeden punkt, wrażenie skośności jest całkowicie zdeterminowane przez drugi.
Gdybym miał powiedzieć, że to jedno lub drugie, nazwałbym to „poprawnym przekrzywieniem”, ale wskazałbym również, że wrażenie było całkowicie spowodowane efektem tego jednego bardzo dużego punktu. Bez niego naprawdę nie ma nic do powiedzenia, że jest to właściwe przekrzywienie. (Z drugiej strony, bez siódmego punktu wyraźnie nie jest to przekrzywienie.)
Musimy być bardzo ostrożni, gdy nasze wrażenie jest całkowicie determinowane przez pojedyncze punkty i można je odwrócić, usuwając jeden punkt. To nie jest duża podstawa do kontynuowania!
Zaczynam od założenia, że to, co sprawia, że wartość odstająca jest „oddalona”, to model (co jest wartością odstającą w odniesieniu do jednego modelu, może być dość typowe w innym modelu).
Myślę, że obserwacja przy 0,01 górnego percentyla (1/10000) normy (3,72 sds powyżej średniej) jest równie odstająca od normalnego modelu, jak obserwacja przy 0,01 górnego percentyla rozkładu wykładniczego dotyczy modelu wykładniczego. (Jeśli przekształcimy rozkład przez jego własną transformatę całkową prawdopodobieństwa, każdy przejdzie do tego samego munduru)
Aby zobaczyć problem ze stosowaniem reguły boxplot do nawet umiarkowanie prawidłowego rozkładu pochylenia, symuluj duże próbki z rozkładu wykładniczego.
Np. Jeśli symulujemy próbki o wielkości 100 z normalnej, uśredniamy mniej niż 1 wartość odstającą na próbkę. Jeśli robimy to wykładniczo, otrzymujemy średnią około 5. Ale nie ma prawdziwych podstaw, aby stwierdzić, że większy odsetek wartości wykładniczych jest „odstający”, chyba że robimy to w porównaniu (powiedzmy) z normalnym modelem. W szczególnych sytuacjach możemy mieć konkretne powody, aby mieć regułę odstającą w jakiejś szczególnej formie, ale nie ma ogólnej reguły, która pozostawia nam ogólne zasady, takie jak ta, którą zacząłem w tym podrozdziale - aby traktować każdy model / rozkład na własnych światłach (jeśli wartość nie jest niczym niezwykłym w odniesieniu do modelu, po co nazywać ją wartością odstającą w tej sytuacji?)
Aby przejść do pytania w tytule :
Chociaż jest to dość prymitywny instrument (dlatego spojrzałem na wykres QQ), istnieje kilka oznak skośności na wykresie pudełkowym - jeśli jest co najmniej jeden punkt oznaczony jako odstający, potencjalnie (co najmniej) trzy:
W tej próbce (n = 100) zewnętrzne punkty (zielone) zaznaczają skrajności, a środkowa sugeruje lewy skośność. Następnie ogrodzenia (niebieskie) sugerują (w połączeniu z medianą) sugerują prawy skośność. Następnie zawiasy (kwartyle, brązowe) sugerują lewy skośność w połączeniu z medianą.
Jak widzimy, nie muszą być spójne. Na czym będziesz się koncentrować, zależy od sytuacji, w której się znajdujesz (i ewentualnie twoich preferencji).
Jednak ostrzeżenie o tym, jak prymitywna jest fabuła. Przykład pod koniec tutaj - który zawiera opis sposobu generowania danych - podaje cztery całkiem różne rozkłady z tym samym wykresem pudełkowym:
Jak widać, rozkład jest dość wypaczony, a wszystkie wyżej wymienione wskaźniki skośności wykazują idealną symetrię.
-
Przyjmijmy to z punktu widzenia „jakiej odpowiedzi oczekiwał twój nauczyciel, biorąc pod uwagę, że jest to fabuła, która oznacza jeden punkt jako wartość odstającą?”.
Pozostaje nam pierwsza odpowiedź: „czy oczekują, że ocenisz skośność z wyłączeniem tego punktu, czy też z próbką?”. Niektórzy to wykluczą i ocenią skośność na podstawie tego, co pozostało, jak jsk zrobił w innej odpowiedzi. Chociaż kwestionowałem pewne aspekty tego podejścia, nie mogę powiedzieć, że jest ono złe - zależy to od sytuacji. Niektórzy to uwzględnią (zwłaszcza dlatego, że wykluczenie 12,5% próby z powodu reguły wywodzącej się z normalności wydaje się dużym krokiem *).
* Wyobraź sobie rozkład populacji, który jest symetryczny, z wyjątkiem skrajnie prawego ogona (skonstruowałem taki, by na to odpowiedzieć - normalny, ale skrajnie prawy ogon to Pareto - ale nie przedstawiłem tego w mojej odpowiedzi). Jeśli narysuję próbki o rozmiarze 8, często 7 obserwacji pochodzi z normalnie wyglądającej części, a jedna z górnej części ogona. Jeśli w takim przypadku wykluczymy punkty oznaczone jako odstające od schematu, wykluczamy punkt, który mówi nam, że tak naprawdę jest przekrzywiony! Kiedy to zrobimy, obcięty rozkład, który pozostaje w tej sytuacji, jest odchylony w lewo, a nasz wniosek byłby odwrotny do prawidłowego.
Nie, niczego nie przeoczyłeś: w rzeczywistości widzisz poza uproszczonymi streszczeniami, które zostały przedstawione. Dane te są wypaczone zarówno pozytywnie, jak i negatywnie (w sensie „skośności” sugerującej pewną formę asymetrii w rozkładzie danych).
John Tukey opisał systematyczny sposób badania asymetrii w partiach danych za pomocą swojego „podsumowania liczby N”. Wykres pudełkowy jest grafiką 5-liczbowego podsumowania i dlatego podlega tej analizie.
Aby zastosować ten pomysł do wykresu pudełkowego, po prostu narysuj punkty środkowe każdej pary odpowiednich części: medianę (która już tam jest), punkt środkowy zawiasów (końce ramki pokazane na niebiesko) i punkt środkowy skrajności (pokazany na czerwono).
W tym przykładzie niższa wartość środkowego zawiasu w porównaniu do środkowej wskazuje, że środek partii jest lekko negatywnie wypaczony (co potwierdza ocenę cytowaną w pytaniu, a jednocześnie odpowiednio ogranicza jego zakres do połowy partii ), podczas gdy (znacznie) wyższa wartość średniej skrajnej wskazuje, że ogony partii (lub przynajmniej jej skrajności) są dodatnio wypaczone (chociaż, przy bliższej kontroli, wynika to z pojedynczej wysokiej wartości odstającej). Chociaż jest to prawie trywialny przykład, względne bogactwo tej interpretacji w porównaniu do pojedynczej statystyki „skośności” ujawnia już siłę opisową tego podejścia.
Przy odrobinie praktyki nie musisz rysować tych statystyk pośrednich: możesz wyobrazić sobie, gdzie się znajdują i odczytać uzyskane informacje o skośności bezpośrednio z dowolnego wykresu pudełkowego.
Wykresy środkowy i prawy pokazują to samo dla pierwiastków kwadratowych ( danych, a nie statystyk średniej liczby!) I logarytmów (podstawa-10). Względna stabilność wartości korzeni (zauważ względny mały zakres pionowy i poziom nachylony w środku) wskazuje, że ta partia 219 wartości staje się w przybliżeniu symetryczna zarówno w środkowych częściach, jak i we wszystkich częściach ogonów, prawie do skrajności, gdy wysokości są ponownie wyrażane jako pierwiastki kwadratowe. Wynik ten stanowi silną - prawie przekonującą - podstawę do dalszej analizy tych wysokości pod kątem pierwiastków kwadratowych.
Między innymi wykresy te ujawniają coś ilościowego w asymetrii danych: w oryginalnej skali natychmiast ujawniają zmienną skośność danych (poddając w wątpliwość użyteczność wykorzystania pojedynczej statystyki do scharakteryzowania jej skośności), podczas gdy na skala pierwiastkowa, dane są prawie symetryczne względem ich środka - i dlatego mogą być zwięźle streszczone pięciocyfrowym podsumowaniem lub równoważnym wykresem pudełkowym. Skośność ponownie różni się znacznie w skali logarytmicznej, co pokazuje, że logarytm jest zbyt „silnym” sposobem na ponowne wyrażenie tych danych.
Uogólnienie wykresu pudełkowego do podsumowań z siedmiu, dziewięciu i więcej liczb jest łatwe do narysowania. Tukey nazywa je „schematami”. Obecnie wiele wątków służy podobnemu celowi, w tym standby, takie jak wykresy QQ i względne nowości, takie jak „wykresy fasoli” i „wykresy skrzypiec”. (Nawet niski histogram można w tym celu wprowadzić do użytku.) Wykorzystując punkty z takich wykresów, można szczegółowo ocenić asymetrię i przeprowadzić podobną ocenę sposobów ponownego wyrażenia danych.
źródło
Średnia wartość mniejsza lub większa od mediany jest skrótem, który często działa w celu określenia kierunku przekrzywienia, o ile nie występują wartości odstające. W tym przypadku rozkład jest wypaczony ujemnie, ale średnia jest większa niż mediana z powodu wartości odstającej.
źródło