Jak stwierdzić, czy moja dystrybucja danych jest symetryczna?

23

Wiem, że jeśli mediana i średnia są w przybliżeniu równe, oznacza to rozkład symetryczny, ale w tym konkretnym przypadku nie jestem pewien. Średnia i mediana są dość bliskie (różnica tylko 0,487 m / galon), co doprowadziłoby mnie do stwierdzenia, że ​​istnieje rozkład symetryczny, ale patrząc na wykres pudełkowy, wygląda na to, że jest nieco dodatnio wypaczony (mediana jest bliższa Q1 niż Q3, co potwierdzono według wartości).

(Używam programu Minitab, jeśli masz jakieś konkretne porady dotyczące tego oprogramowania).

użytkownik72943
źródło
Ortogonalny komentarz do szczegółu: jakie jednostki są m / galon? To wygląda na metr na galon i jestem zaintrygowany.
Nick Cox,
To poważne ograniczenie, że wykresy pudełkowe zwykle nie pokazują wcale środków!
Nick Cox,
Jakie jest standardowe odchylenie Twoich danych? Jeśli wartość 0,487 m / galon jest znacznie mniejsza niż odchylenie standardowe, prawdopodobnie masz podstawy sądzić, że rozkład może być symetryczny. Jeśli ta wartość jest znacznie większa niż odchylenie standardowe (lub MAD lub inna miara odchylenia, na którą patrzysz), prawdopodobnie dalsze badanie symetrii rozkładu jest stratą czasu.
usεr11852 mówi Przywróć Monic
1
-70,-63,-56,-49,-42,-35,-28,-21,-14,-7,0,1,4,9,16,25,36,49,64,81,100 jest celowo niesymetryczny (jednolity w dolnej połowie, ale nie w górnej połowie), a wykres pudełkowy umieści medianę (równą średniej) bliżej górnego kwartylu niższego kwartylu, ale także bliżej minimum niż maksimum.
Henry
@NickCox może to być również milligal z typo. To byłoby prawie 500 gal! Lub mniej niż g. (Oczywiście, jak wspomniano powyżej, bez jakiejś skali dyspersji, takiej jak MAD, nie ma sposobu, aby dowiedzieć się, co może być „znaczące”.)10 - 4μ10-4
GeoMatt22,

Odpowiedzi:

29

Bez wątpienia powiedziano ci inaczej, ale średnia mediana nie oznacza symetrii.=

Istnieje miara skośności oparta na średniej minus mediana (druga skośność Pearsona), ale może wynosić 0, gdy rozkład nie jest symetryczny (jak w przypadku każdej z popularnych miar skośności).

Podobnie związek między średnią a medianą niekoniecznie implikuje podobny związek między środkową ( ) a medianą. Mogą sugerować przeciwną skośność lub jeden może być równy medianie, a drugi nie.(Q1+Q3))/2)

Jednym ze sposobów badania symetrii jest użycie wykresu symetrii *.

Jeśli są uporządkowanymi obserwacjami od najmniejszej do największej (statystyki rzędu), a jest medianą, wówczas wykresy symetrii vs , vs , ... i tak dalej. M Y ( n ) -MM- Y ( 1 ) Y ( n - 1 ) -MM- Y ( 2 )Y(1),Y(2)),...,Y(n)M.Y(n)-M.M.-Y(1)Y(n-1)-M.M.-Y(2))

* Minitab może to zrobić . Rzeczywiście podnoszę tę fabułę jako możliwą, ponieważ widziałem, jak zrobiono to w Minitabie.

Oto cztery przykłady:

Wykresy symetrii
Wykresy symetrii powyższego typu dla próbek z czterech rozkładów

(Rzeczywiste rozkłady były (od lewej do prawej, górny wiersz pierwszy) - Laplace, Gamma (kształt = 0,8), beta (2,2) i beta (5,2). Kod jest Ross Ihaka, stąd )

W przypadku symetrycznych przykładów z grubymi ogonami często skrajne punkty mogą znajdować się bardzo daleko od linii; zwracasz mniejszą uwagę na odległość od linii jednego lub dwóch punktów, gdy znajdujesz się w prawym górnym rogu figury.

Istnieją oczywiście inne wykresy (wspomniałem o wykresie symetrii nie ze szczególnego poparcia tego konkretnego, ale ponieważ wiedziałem, że został już zaimplementowany w Minitab). Przeanalizujmy kilka innych.

Oto odpowiednie wykresy skośne, które Nick Cox zasugerował w komentarzach:

Wykresy skośności
Wykresy skośności, jak sugeruje Nick Cox w komentarzach

Na tych wykresach wzrost w górę oznaczałby zwykle cięższy prawy ogon niż lewy, a trend w dół oznaczałby zwykle cięższy lewy ogon niż prawy, podczas gdy symetria byłaby sugerowana przez stosunkowo płaski (choć być może dość głośny) wykres.

Nick sugeruje, że ta fabuła jest lepsza (konkretnie „bardziej bezpośrednia”). Jestem skłonny się zgodzić; interpretacja wykresu wydaje się w związku z tym nieco łatwiejsza, chociaż informacje na odpowiednich wykresach są często dość podobne (po odjęciu nachylenia jednostki w pierwszym zestawie, otrzymujesz coś bardzo podobnego do drugiego zestawu).

[Oczywiście, żadna z tych rzeczy nie powie nam, że rozkład, z którego zostały pobrane dane, jest w rzeczywistości symetryczny; otrzymujemy wskazanie, jak bliska jest symetryczność próbki, i w tym zakresie możemy ocenić, czy dane są racjonalnie spójne z danymi pochodzącymi z populacji prawie symetrycznej.]

Glen_b - Przywróć Monikę
źródło
3
@ user72943 Jeśli jesteś z tego całkowicie zadowolony, nie zapomnij wrócić i wybrać odpowiedź Glen_b. Możesz poczekać chwilę, aby zobaczyć, czy ktoś prześle lepszą odpowiedź, ale Glen_b otrzyma więcej środków, jeśli zaakceptujesz odpowiedź.
Wayne,
3
+1, ale kłótnia. Uważam, że wykres (górne kwantyle dolne kwantyle) / 2 w porównaniu z (górne kwantyle dolne kwantyle) jest bardziej bezpośredni niż wykres symetrii. Do kwantylowej statystyki kolejności odczytu, jeśli jest to pożądane. Sytuacją odniesienia jest rozkład symetryczny, w którym średnie sparowanych kwantyli są równe medianie, więc rozkład symetryczny jest wykreślany jako linia prosta. Niewielka i zaznaczona asymetria jest łatwa do zauważenia, podobnie jak (np.) Przybliżona symetria pośrodku i wyraźne wyjątki w jednym lub obu ogonach. -+-
Nick Cox,
6
+1 W EDA John Tukey po prostu kreśli sekwencję średnich wartości. Są to wartości dla starannie wybranej sekwencji indeksów (w przybliżeniu itd.) ). W pewnym sensie ta fabuła jest lepsza niż wykresy symetrii, o ile odfiltrowuje nadmiar szczegółów i pomaga widzowi skupić się na tym, jak symetria (lub jej brak) zmienia się, gdy przesuwa się w ogon. Ma dodatkową zaletę polegającą na tym, że jest natychmiast obliczalny i łatwy do obliczenia, gdy tylko n-litowe podsumowanie jest w zasięgu ręki, co z kolei można odczytać bezpośrednio z wykresu łodygi i liści. i n / 2 , n / 4 , n / 8(Y(n+1i)+Y(i))/2in/2,n/4,n/8
whuber
1
@whuber i ja mówimy o tym samym podstawowym pomyśle. Różnica polega na wykreślaniu wszystkich statystyk sparowanych zamówień (nie w praktyce bardzo rozpraszających uwagę) lub wykreślaniu tylko niektórych.
Nick Cox,
1
Odnośniki w stata-journal.com/sjpdf.html?articlenum=gr0003 i dla użytkowników Stata w dokumentacji dla skewplot(SSC). Pomysł powraca przynajmniej do sugestii przypisanej JW Tukeyowi w Wilk, MB i Gnanadesikan, R. 1968. Metody kreślenia prawdopodobieństwa dla analizy danych. Biometrika 55: 1-17.
Nick Cox,
6

Najłatwiej jest obliczyć skośność próbki . Do tego służy Minitab. Rozkłady symetryczne będą miały zerową skośność. Zero skośności niekoniecznie oznacza symetrię, ale w większości praktycznych przypadków tak.

Jak zauważył @NickCox, istnieje więcej niż jedna definicja skośności. Używam tego, który jest kompatybilny z Excelem , ale możesz użyć dowolnego innego.

Aksakal
źródło
2
Myślę, że to wymaga wyjaśnienia. W szczególności nie ma czegoś takiego jak „skośność”. Jest wiele miar, a nawet te rzadkie są często tak przydatne lub interesujące, jak te pospolite (np. Chwile L). Tych pokusie odniesieniu standaryzowane trzeci moment, jak na środek (i to jest moja domyślna, zbyt) należy pamiętać, że Karl Pearson, i wielu innych autorów również w 20 wieku, skośność był najczęściej mierzony w stosunku do trybu.
Nick Cox,
Każdy współczynnik skośności, oprócz braku dużej mocy do wykrywania asymetrii (jak słusznie zauważysz), również cierpi z powodu (wyjątkowo) niestabilnej, ponieważ jest oparty na trzecim momencie próbki. Ponadto, ponieważ symetria może być naruszona na wiele (i interesujących) sposobów, pojedyncza numeryczna charakterystyka symetrii jest słabym substytutem dla bogatszej diagnostyki graficznej opisanej w literaturze z zakresu analizy danych eksploracyjnych.
whuber
1

Wyśrodkuj dane wokół zera, odejmując średnią z próbki. Teraz podziel dane na dwie części: negatywną i pozytywną. Weź wartość bezwzględną ujemnych punktów danych. Teraz wykonaj dwupróbkowy test Kołmogorowa-Smirnowa, porównując dwie partycje ze sobą. Wyciągnij wniosek na podstawie wartości p.

soakley
źródło
0

Umieść swoje obserwacje posortowane według rosnących wartości w jednej kolumnie, a następnie umieść je posortowane według malejących wartości w innej kolumnie.
Następnie oblicz współczynnik korelacji (nazwij go Rm) między tymi dwiema kolumnami.
Oblicz indeks chiralny: CHI = (1 + Rm) / 2.
CHI przyjmuje wartości w przedziale [0..1].
CHI ma wartość zerową JEŻELI i TYLKO JEŚLI próbka jest rozmieszczona symetrycznie.
Nie potrzeba trzeciej chwili.
Teoria:
http://petitjeanmichel.free.fr/itoweb.petitjean.skewness.html
http://petitjeanmichel.free.fr/itoweb.petitjean.html
(większość artykułów cytowanych na tych dwóch stronach można pobrać w formacie pdf)
Mam nadzieję, że to pomaga, nawet ostatnio.

Petitjean
źródło
Czy korelacja, Rm, niekoniecznie byłaby ujemna? Nie widzę, jak CHI może wynosić 1, chyba że Rm wynosi 1, ale ponieważ sortowanie col1 rośnie, a sortowanie col2 maleje, RM <= 0, co oznacza, że ​​CHI przyjmuje wartości w [0, .5]. Czy coś brakuje?
Gung - Przywróć Monikę
Tak Rm nie może być dodatni, a CHI nie może przekraczać 1/2 dla rozkładów zmiennych losowych przyjmujących wartości w wierszu rzeczywistym. W rzeczywistości górna granica 1 pochodzi z ogólnej teorii wprowadzającej indeks chiralny. Ma to sens dla rozkładów zmiennych losowych przyjmujących wartości w bardziej ogólnej przestrzeni. Teoria ta nie wchodzi w zakres niniejszej dyskusji, ale została zaprezentowana na dwóch stronach, o których wcześniej wspomniałem.
Petitjean
Zarejestruj się i / lub połącz swoje konta (informacje o tym, jak to zrobić, znajdziesz w sekcji Moje konto w naszym centrum pomocy ), wtedy będziesz mógł edytować i komentować własne pytanie.
Gung - Przywróć Monikę