Chcę wiedzieć, jak sprawdzić zestaw danych pod kątem normalności w programie Excel, tylko po to, aby sprawdzić, czy spełnione są wymagania dotyczące użycia testu t .
Dla prawego ogona należy po prostu obliczyć średnią i odchylenie standardowe, dodać 1, 2 i 3 odchylenia standardowe od średniej, aby utworzyć zakres, a następnie porównać to z normalnym 68/95 / 99,7 dla standardowego rozkładu normalnego po użyciu funkcja norm.dist w programie Excel do testowania każdej wartości odchylenia standardowego.
Czy jest lepszy sposób na sprawdzenie normalności?
normal-distribution
excel
Eudora
źródło
źródło
Odpowiedzi:
Masz dobry pomysł. Można to zrobić systematycznie, kompleksowo i za pomocą stosunkowo prostych obliczeń. Wykres wyników nazywany jest normalnym wykresem prawdopodobieństwa (lub czasem wykresem PP). Dzięki niemu możesz zobaczyć znacznie więcej szczegółów niż pojawia się w innych reprezentacjach graficznych, zwłaszcza histogramach , a przy odrobinie praktyki możesz nawet nauczyć się określać sposoby ponownego wyrażania swoich danych, aby zbliżyć je do Normalnego w sytuacjach, w których jest to uzasadnione.
Oto przykład:
Dane są w kolumnie
A
(i nazwaneData
). Reszta to wszystkie obliczenia, chociaż można kontrolować wartość „stopnia zawiasu” używaną do dopasowania linii odniesienia do wykresu.Ten wykres jest wykresem rozrzutu porównującym dane z wartościami, które można uzyskać za pomocą liczb narysowanych niezależnie od standardowego rozkładu normalnego. Kiedy punkty wyrównują się wzdłuż przekątnej, są zbliżone do Normalnego; odstępstwa poziome (wzdłuż osi danych) wskazują odstępstwa od normalności. W tym przykładzie punkty są niezwykle zbliżone do linii odniesienia; największy odjazd występuje przy najwyższej wartości, czyli około1.5 jednostki na lewo od linii. Widzimy zatem na pierwszy rzut oka, że dane te są bardzo zbliżone do normalnie rozmieszczonych, ale być może mają lekko „lekki” prawy ogon. Jest to całkowicie odpowiednie do zastosowania testu t.
Wartości porównania na osi pionowej są obliczane w dwóch krokach. Najpierw każda wartość danych jest uszeregowana od1 do n , ilość danych (pokazana w 0 do 1 . Dobrą formułą do użycia jest(rank−1/6)/(n+2/3). (Zobaczhttp://www.quantdec.com/envstats/notes/class_02/characterizing_distribution.htm,aby dowiedzieć się, skąd pochodzi.) Następnie są one konwertowane na standardowe wartości normalne za pomocą
Count
polu w komórceF2
). Są one proporcjonalnie konwertowane na wartości z zakresu odNormSInv
funkcjonować. Te wartości pojawiają się wNormal score
kolumnie. Wykres po prawej to wykres rozproszenia XYNormal Score
względem danych. (W niektórych źródłach zobaczysz transpozycję tego wykresu, co być może jest bardziej naturalne, ale Excel woli umieszczać kolumnę najbardziej na lewo na osi poziomej, a kolumnę najbardziej na prawo na osi pionowej, więc pozwoliłem jej robić to, co woli. )(Jak widzicie, zasymulowałem te dane z niezależnymi losowymi losowaniami z rozkładu normalnego ze średnią5 i odchyleniem standardowym 2 Nic więc dziwnego, że wykres prawdopodobieństwa wygląda tak ładnie.) Tak naprawdę są tylko dwie formuły do wpisania, które propagujesz w dół, aby dopasować dane: pojawiają się w komórkach
B2:C2
i opierają się naCount
wartości obliczonej w komórceF2
. To naprawdę wszystko, oprócz spisku.Reszta tego arkusza nie jest konieczna, ale jest pomocna w ocenie wykresu: zapewnia wiarygodne oszacowanie linii odniesienia. Odbywa się to poprzez wybranie dwóch punktów w równej odległości od lewej i prawej strony fabuły i połączenie ich linią. W tym przykładzie punkty te stanowią trzecią tańsze i trzeci najwyższy, jak określono w3 w
Hinge Rank
komórceF3
. Jako bonus, jego nachylenie i punkt przecięcia są solidnymi szacunkami odpowiednio odchylenia standardowego i średniej danych.Aby narysować linię odniesienia, dwa skrajne punkty są obliczane i dodawane do wykresu: ich obliczenia zachodzą w kolumnach
I:J
, oznaczoneX
iY
.źródło
Możesz wykreślić histogram za pomocą pakietu narzędzi do analizy danych w programie Excel . Podejścia graficzne z większym prawdopodobieństwem informują o stopniu nienormalności, który zazwyczaj jest bardziej odpowiedni dla testowania założeń (patrz to omówienie normalności ).
Pakiet narzędzi do analizy danych w programie Excel zapewni również skośność i kurtozę, jeśli poprosisz o statystyki opisowe i wybierzesz opcję „statystyki podsumowujące”. Można na przykład rozważyć wartości skośności powyżej plus lub minus jeden jako formę istotnej nienormalności.
To powiedziawszy, założenie przy testach t jest takie, że reszty są zwykle rozkładane, a nie zmienne. Co więcej, są one również dość solidne, tak że nawet przy dość dużych ilościach nienormalności wartości p są nadal dość prawidłowe.
źródło
To pytanie również graniczy z teorią statystyki - testowanie normalności przy ograniczonych danych może być wątpliwe (chociaż wszyscy robiliśmy to od czasu do czasu).
Alternatywnie możesz spojrzeć na współczynniki kurtozy i skośności. Z Hahna i Shapiro: Modele statystyczne w inżynierii. Podano pewne tło na temat właściwości Beta1 i Beta2 (strony 42 do 49) oraz Ryc. 6-1 na stronie 197. Dodatkową teorię można znaleźć na Wikipedii (patrz Dystrybucja Pearson).
Zasadniczo musisz obliczyć tak zwane właściwości Beta1 i Beta2. Beta1 = 0 i Beta2 = 3 sugerują, że zestaw danych zbliża się do normalności. To trudny test, ale przy ograniczonych danych można argumentować, że każdy test można uznać za trudny.
Beta1 jest związana odpowiednio z momentami 2 i 3 lub wariancją i skośnością . W programie Excel są to VAR i SKEW. Gdzie ... jest twoja tablica danych, formuła jest następująca:
Beta2 związana jest odpowiednio z momentami 2 i 4 lub wariancją i kurtozą . W programie Excel są to VAR i KURT. Gdzie ... jest twoja tablica danych, formuła jest następująca:
Następnie możesz je porównać z wartościami odpowiednio 0 i 3. Ma to tę zaletę, że potencjalnie identyfikuje inne rozkłady (w tym rozkłady Pearsona I, I (U), I (J), II, II (U), III, IV, V, VI, VII). Na przykład wiele powszechnie używanych rozkładów, takich jak Uniform, Normal, t-Studenta, Beta, Gamma, wykładniczy i Log-Normal można wskazać na podstawie tych właściwości:
Są one zilustrowane na rycinie 6-1 Hahna i Shapiro.
To prawda, że jest to bardzo trudny test (z pewnymi problemami), ale możesz rozważyć jego wstępną kontrolę przed przejściem na bardziej rygorystyczną metodę.
Istnieją również mechanizmy dostosowawcze do obliczania Beta1 i Beta2, w których dane są ograniczone - ale to wykracza poza ten post.
źródło