Czy testowanie normalności jest „zasadniczo bezużyteczne”?

298

Były kolega kiedyś mi powiedział, co następuje:

Zwykle stosujemy testy normalności do wyników procesów, które pod zerą generują zmienne losowe, które są tylko asymptotycznie lub prawie normalne (z częścią „asymptotycznie” zależną od pewnej wielkości, której nie możemy uczynić dużą); W dobie taniej pamięci, dużych zbiorów danych i szybkich procesorów testy normalności powinny zawsze odrzucać zerowy rozkład normalny dla dużych (choć nie niesamowicie dużych) próbek. I odwrotnie, testy normalności powinny być stosowane tylko w przypadku małych próbek, gdy przypuszczalnie mają one mniejszą moc i mniejszą kontrolę nad wskaźnikiem typu I.

Czy to prawidłowy argument? Czy to dobrze znany argument? Czy istnieją dobrze znane testy na „bardziej niewyraźną” hipotezę zerową niż normalność?

Jeromy Anglim
źródło
23
Dla odniesienia: Nie sądzę, że musiało to być wiki społeczności.
Shane
2
Nie byłem pewien, czy istnieje „odpowiednia odpowiedź” ...
shabbychef
5
W pewnym sensie dotyczy to wszystkich testów skończonej liczby parametrów. Z stacjonarnej (liczba parametrów, w którym badanie jest caried) i growthing bez granic, jakakolwiek różnica między tymi dwiema grupami (nie ważne jak małe) będą zawsze złamać null w pewnym momencie. W rzeczywistości jest to argument za testami bayesowskimi. nkn
user603,
2
Dla mnie nie jest to prawidłowy argument. W każdym razie, zanim udzielisz odpowiedzi, musisz trochę sformalizować sprawę. Możesz się mylić i możesz nie być, ale teraz masz tylko intuicję: dla mnie zdanie „W dobie taniej pamięci, dużych zbiorów danych i szybkich procesorów testy normalności zawsze powinny odrzucać zero wartości normalnej” wymaga wyjaśnień :) Myślę, że jeśli spróbujesz podać bardziej formalną precyzję, odpowiedź będzie prosta.
robin girard
8
Wątek „Czy duże zbiory danych są nieodpowiednie do testowania hipotez” omawia uogólnienie tego pytania. ( stats.stackexchange.com/questions/2516/… )
whuber

Odpowiedzi:

229

To nie jest kłótnia. Jest (nieco mocno zaznaczony) fakt, że formalne testy normalności zawsze odrzucają ogromne próbki, z którymi dzisiaj pracujemy. Łatwo nawet udowodnić, że gdy n staje się duże, nawet najmniejsze odchylenie od idealnej normalności doprowadzi do znaczącego wyniku. Ponieważ każdy zestaw danych ma pewien stopień losowości, żaden pojedynczy zestaw danych nie będzie idealnie normalnie rozłożoną próbką. Ale w stosowanej statystyce nie chodzi o to, czy dane / reszty ... są całkowicie normalne, ale wystarczająco normalne, aby przyjąć założenia.

Pozwól, że zilustruję to testem Shapiro-Wilka . Poniższy kod konstruuje zestaw rozkładów, które zbliżają się do normalności, ale nie są całkowicie normalne. Następnie sprawdzamy, shapiro.testczy próbka z tych prawie normalnych rozkładów odbiega od normalności. W R:

x <- replicate(100, { # generates 100 different tests on each distribution
                     c(shapiro.test(rnorm(10)+c(1,0,2,0,1))$p.value,   #$
                       shapiro.test(rnorm(100)+c(1,0,2,0,1))$p.value,  #$
                       shapiro.test(rnorm(1000)+c(1,0,2,0,1))$p.value, #$
                       shapiro.test(rnorm(5000)+c(1,0,2,0,1))$p.value) #$
                    } # rnorm gives a random draw from the normal distribution
               )
rownames(x) <- c("n10","n100","n1000","n5000")

rowMeans(x<0.05) # the proportion of significant deviations
  n10  n100 n1000 n5000 
 0.04  0.04  0.20  0.87 

Ostatni wiersz sprawdza, która część symulacji dla każdej wielkości próbki znacznie odbiega od normalności. Tak więc w 87% przypadków próbka 5000 obserwacji znacznie odbiega od normalności według Shapiro-Wilksa. Jednak jeśli zobaczysz wykresy qq, nigdy nie zdecydujesz się na odstępstwo od normalności. Poniżej widzimy jako przykład wykresy qq dla jednego zestawu losowych próbek

alternatywny tekst

z wartościami p

  n10  n100 n1000 n5000 
0.760 0.681 0.164 0.007 
Joris Meys
źródło
40
Z drugiej strony, centralne twierdzenie graniczne sprawia, że ​​formalne sprawdzenie normalności nie jest konieczne w wielu przypadkach, gdy n jest duże.
Joris Meys,
31
tak, prawdziwym pytaniem nie jest to, czy dane są faktycznie dystrybuowane normalnie, ale czy są one wystarczająco normalne, aby założenie normalności było uzasadnione w praktycznym celu analizy, i pomyślałem, że argument oparty na CLT jest normalnie [sic] wystarczające do tego.
Dikran Marsupial
53
Ta odpowiedź wydaje się nie odpowiadać na pytanie: pokazuje jedynie, że test SW nie osiąga nominalnego poziomu ufności, a zatem identyfikuje wadę tego testu (lub przynajmniej jego Rrealizacji). Ale to wszystko - nie ma to wpływu na zakres użyteczności testów normalności w ogóle. Wstępne twierdzenie, że testy normalności zawsze odrzucają duże próbki, jest po prostu błędne.
whuber
19
@whuber Ta odpowiedź dotyczy pytania. Cały sens pytania brzmi: „bliski” w „bliski normalności”. SW testuje, jaka jest szansa, że ​​próbka zostanie pobrana z rozkładu normalnego. Ponieważ rozkłady, które zbudowałem, celowo nie są normalne, można oczekiwać, że test SW zrobi to, co obiecuje: odrzuć zero. Chodzi o to, że to odrzucenie jest bez znaczenia w dużych próbkach, ponieważ odchylenie od normalności nie powoduje utraty mocy. Test jest więc poprawny, ale bez znaczenia, jak pokazują QQplots
Joris Meys,
11
Oparłem się na tym, co napisałeś, i źle zrozumiałem, co rozumiesz przez „prawie normalny” rozkład. Widzę teraz - ale tylko czytając kod i dokładnie go testując - symulujesz z trzech standardowych rozkładów normalnych ze średnimi o wartościach i i łącząc wyniki w stosunku . Czy nie miałbyś nadziei, że dobry test Normalności w tym przypadku odrzuci zero? Skutecznie wykazałeś, że wykresy QQ nie są zbyt dobre w wykrywaniu takich mieszanin, to wszystko! 1 , 2 2 : 2 : 10, 1,22:2:1
whuber
172

Myśląc o tym, czy testowanie normalności jest „zasadniczo bezużyteczne”, należy najpierw zastanowić się, do czego powinien być użyteczny. Wiele osób (cóż ... przynajmniej wielu naukowców) źle rozumie pytanie, na które odpowiada test normalności.

Testy normalności pytania odpowiadają: Czy istnieją przekonujące dowody na jakiekolwiek odchylenie od ideału Gaussa? Przy umiarkowanie dużych rzeczywistych zestawach danych odpowiedź jest prawie zawsze tak.

Pytanie, na które naukowcy często oczekują odpowiedzi testu normalności: Czy dane wystarczająco odbiegają od ideału Gaussa, aby „zabronić” użycia testu, który zakłada rozkład Gaussa? Naukowcy często chcą, aby test normalności był sędzią, który decyduje, kiedy zrezygnować z konwencjonalnych testów (ANOVA itp.) I zamiast tego analizować przekształcone dane lub zastosować test nieparametryczny oparty na rangach lub metodę próbkowania lub ładowania początkowego. W tym celu testy normalności nie są zbyt przydatne.

rev Harvey Motulsky
źródło
16
+1 za dobrą i pouczającą odpowiedź. Uważam, że przydatne jest dobre wyjaśnienie powszechnego nieporozumienia (które sam się okazuje sam: stats.stackexchange.com/questions/7022/... ). To, czego mi brakuje, to alternatywne rozwiązanie tego powszechnego nieporozumienia. Chodzi mi o to, że jeśli testy normalności są niewłaściwe, jak można sprawdzić, czy normalne przybliżenie jest dopuszczalne / uzasadnione?
posdef
6
Nic nie zastąpi (zdrowego) rozsądku analityka (lub, cóż, badacza / naukowca). I doświadczenie (zdobyte poprzez próbę i zobaczenie: jakie wnioski wyciągam, jeśli zakładam, że jest to normalne? Jaka jest różnica, jeśli nie?). Grafika to twoi najlepsi przyjaciele.
FairMiles,
2
Podoba mi się ten artykuł, w którym porusza się twoją uwagę: Micceri, T. (1989). Jednorożec, normalna krzywa i inne nieprawdopodobne stworzenia. Biuletyn psychologiczny, 105 (1), 156–166.
Jeremy Miles,
4
Patrzenie na grafikę jest świetne, ale co, jeśli jest ich zbyt wiele, aby zbadać ręcznie? Czy możemy sformułować rozsądne procedury statystyczne w celu wskazania możliwych miejsc problemów? Mam na myśli sytuacje takie jak eksperymentatorzy A / B na dużą skalę: exp-platform.com/Pages/… .
dfrankow
118

Myślę, że testy normalności mogą być przydatne jako uzupełnienie badań graficznych. Muszą być jednak używane we właściwy sposób. Moim zdaniem oznacza to, że nigdy nie powinno się stosować wielu popularnych testów, takich jak testy Shapiro-Wilka, Andersona-Darlinga i Jarque-Bera.

Zanim wyjaśnię swoje stanowisko, pozwólcie mi poczynić kilka uwag:

  • 100,000
  • Przydatne jest określenie ilościowe nienormalności , na przykład poprzez obliczenie skośności próbki, nawet jeśli nie chcesz przeprowadzać testu formalnego.
  • Normalność wielowymiarowa może być trudna do oceny graficznej, a zbieżność do rozkładów asymptotycznych może być powolna w przypadku statystyki wielowymiarowej. Testy normalności są zatem bardziej przydatne w ustawieniach wielowymiarowych.
  • Testy normalności są być może szczególnie przydatne dla praktyków, którzy wykorzystują statystyki jako zestaw metod czarnej skrzynki . Gdy normalność zostanie odrzucona, lekarz powinien być zaniepokojony i zamiast przeprowadzać standardową procedurę opartą na założeniu normalności, rozważyć zastosowanie procedury nieparametrycznej, zastosowanie transformacji lub skonsultowanie się z bardziej doświadczonym statystykiem.
  • n

(W mojej definicji) test normalności jest skierowany przeciwko klasie alternatyw, jeśli jest wrażliwy na alternatywy z tej klasy, ale nie jest wrażliwy na alternatywy z innych klas. Typowymi przykładami są testy ukierunkowane na pochylenie lub kurtotyczne alternatywy. Najprostsze przykłady wykorzystują przykładową skośność i kurtozę jako statystyki testowe.

Kierowane testy normalności są prawdopodobnie często lepsze niż testy zbiorcze (takie jak testy Shapiro-Wilka i Jarque-Bera), ponieważ często zdarza się, że tylko niektóre rodzaje nienormalności są przedmiotem szczególnej procedury wnioskowania .

γ=E(Xμ)3σ3κ=E(Xμ)4σ43.Xγ=0γκ

Tn

P(Tnx)=Φ(x)+n1/216γ(2x2+1)ϕ(x)n1x(112κ(x23)118γ2(x4+2x23)14(x2+3))ϕ(x)+o(n1),

Φ()ϕ()

γn1/2κn1Tn

n

Zgodnie z ogólną zasadą ( a nie prawem natury) wnioskowanie o środkach jest wrażliwe na skośność, a wnioskowanie na temat różnic jest wrażliwe na kurtozę.

Zastosowanie ukierunkowanego testu normalności ma tę zaletę, że uzyskuje wyższą moc przeciw „niebezpiecznym” alternatywom i niższą moc przeciw alternatywom, które są mniej „niebezpieczne”, co oznacza, że ​​mniej prawdopodobne jest odrzucenie normalności z powodu odstępstw od normalności, która wygrała nie wpłyną na wydajność naszej procedury wnioskowania. Nienormalność jest określana ilościowo w sposób odpowiedni dla danego problemu. Nie zawsze jest to łatwe do wykonania graficznego.

n|γ|1

|n1/216γ(2zα/22+1)ϕ(zα/2)|0.01
γ=0n

MånsT
źródło
2
To świetna odpowiedź!
user603
10
Tak, to powinna być zaakceptowana, naprawdę fantastyczna odpowiedź
jenesaisquoi
2
„powszechne jest, że tylko niektóre rodzaje nienormalności są przedmiotem szczególnej procedury wnioskowania”. - oczywiście należy zastosować test ukierunkowany na tego rodzaju nienormalność. Ale fakt, że ktoś stosuje test normalności, oznacza, że ​​dba on o wszystkie aspekty normalności. Pytanie brzmi: czy test normalności jest w takim przypadku dobrym rozwiązaniem.
rbm
Testy na wystarczalność założeń dla poszczególnych testów stają się powszechne, co na szczęście usuwa część domysłów.
Carl
1
@Carl: Czy możesz dodać jakieś referencje / przykłady?
kjetil b halvorsen
58

Testy normalności IMHO są absolutnie bezużyteczne z następujących powodów:

  1. Na małych próbkach istnieje duża szansa, że ​​prawdziwy rozkład populacji jest zasadniczo nienormalny, ale test normalności nie jest wystarczający, aby go wykryć.

  2. Na dużych próbkach rzeczy takie jak test T i ANOVA są dość odporne na nienormalność.

  3. Cała idea normalnie rozłożonej populacji jest po prostu wygodnym przybliżeniem matematycznym. Żadna z wielkości, którymi zwykle zajmujemy się statystycznie, nie może mieć rozkładów z obsługą wszystkich liczb rzeczywistych. Na przykład ludzie nie mogą mieć ujemnej wysokości. Coś nie może mieć masy ujemnej lub większej niż masa we wszechświecie. Dlatego można śmiało powiedzieć, że nic nie jest dokładnie dystrybuowane w prawdziwym świecie.

dsimcha
źródło
2
Różnica potencjałów elektrycznych jest przykładem rzeczywistej wielkości, która może być ujemna.
nico
16
@nico: Jasne, że może być ujemny, ale ma pewne ograniczenia, ponieważ we Wszechświecie jest tylko tyle protonów i elektronów. Oczywiście nie ma to znaczenia w praktyce, ale o to mi chodzi. Nic nie jest dokładnie rozłożone (model jest nieprawidłowy), ale istnieje wiele rzeczy, które są wystarczająco blisko (model jest użyteczny). Zasadniczo już wiedziałeś, że model jest zły, a odrzucenie lub nie odrzucenie wartości null nie daje zasadniczo żadnych informacji na temat tego, czy mimo to jest użyteczne.
dsimcha
1
@dsimcha - Uważam, że to naprawdę wnikliwa, przydatna odpowiedź.
rolando2
5
t
@dsimcha „model jest zły”. Czy WSZYSTKIE modele nie są „złe”?
Atirag,
30

Myślę, że wstępne testowanie normalności (które obejmuje nieformalne oceny za pomocą grafiki) nie ma sensu.

  1. Użytkownicy tego podejścia zakładają, że ocena normalności ma moc bliską 1,0.
  2. Testy nieparametryczne, takie jak Wilcoxon, Spearman i Kruskal-Wallis, mają skuteczność wynoszącą 0,95, jeśli normalność się utrzymuje.
  3. W świetle punktu 2. można z góry określić zastosowanie testu nieparametrycznego, jeśli nawet istnieje możliwość, że dane mogą nie wynikać z rozkładu normalnego.
  4. YY
Frank Harrell
źródło
zauważ, że efektywność 0,95 jest asymptotyczna : FWIW Domyślam się, że wydajność jest znacznie niższa dla typowych skończonych wielkości próbek ... (chociaż wprawdzie nie widziałem tego badanego ani nie próbowałem go zbadać sam)
Ben Bolker
16

Zanim zapytasz, czy test lub jakakolwiek kontrola normalności jest „przydatna”, musisz odpowiedzieć na pytanie: „Dlaczego pytasz?”

Na przykład, jeśli chcesz ustawić limit ufności wokół średniej zbioru danych, odstępstwa od normalności mogą być lub nie być ważne, w zależności od tego, ile masz danych i jak duże są odstępstwa. Jednak odstępstwa od normalności mogą mieć kluczowe znaczenie, jeśli chcesz przewidzieć, jaka będzie najbardziej ekstremalna wartość w przyszłych obserwacjach lub w populacji, z której pobrano próbkę.

Emil Friedman
źródło
12

Pozwolę sobie dodać jedną drobną rzecz:
wykonanie testu normalności bez uwzględnienia błędu alfa zwiększa ogólne prawdopodobieństwo wystąpienia błędu alfa.

Nigdy nie zapomnisz, że każdy dodatkowy test robi to, o ile nie kontrolujesz akumulacji błędów alfa. Stąd kolejny dobry powód do odrzucenia testowania normalności.

Henrik
źródło
Zakładam, że masz na myśli sytuację, w której najpierw wykonuje się test normalności, a następnie wykorzystuje wynik tego testu, aby zdecydować, który test wykonać następnie.
Harvey Motulsky,
3
Odnoszę się do ogólnej użyteczności testów normalności, gdy są stosowane jako metoda w celu ustalenia, czy należy zastosować określoną metodę. Jeśli zastosujesz je w takich przypadkach, lepiej wykonać bardziej niezawodny test, aby uniknąć kumulacji błędu alfa, jeśli chodzi o prawdopodobieństwo popełnienia błędu alfa.
Henrik,
4
H0
3
Innym sposobem, w jaki test normalności mógłby zwiększyć błędy typu I, jest rozmowa o „ogólnym prawdopodobieństwie popełnienia błędu alfa”. Sam test ma poziom błędu, więc ogólnie nasze prawdopodobieństwo popełnienia błędu wzrasta. Nacisk na jedną małą rzecz, jak sądzę ...
Nick Stauner,
2
@NickStauner Właśnie to chciałem przekazać. Dzięki za uczynienie tego punktu jeszcze jaśniejszym.
Henrik,
11

Odpowiedzi tutaj dotyczyły już kilku ważnych punktów. Aby szybko podsumować:

  • Nie ma spójnego testu, który mógłby ustalić, czy zbiór danych rzeczywiście odpowiada rozkładowi, czy nie.
  • Testy nie zastąpią wizualnej kontroli danych i modeli w celu zidentyfikowania dużej dźwigni, obserwacji o dużym wpływie i komentowania ich wpływu na modele.
  • Założenia dotyczące wielu procedur regresji są często błędnie cytowane jako wymagające normalnie rozłożonych „danych” [reszt] i że jest to interpretowane przez początkujących statystyk jako wymaganie, aby analityk formalnie ocenił to w pewnym sensie przed przystąpieniem do analiz.

Na początku dodam odpowiedź, aby zacytować jeden z moich, najczęściej używanych i czytanych artykułów statystycznych: „ Znaczenie założeń normalności w dużych zbiorach danych dotyczących zdrowia publicznego ” autorstwa Lumley i in. glin. Warto przeczytać w całości. Podsumowanie stwierdza:

Test t i regresja liniowa najmniejszych kwadratów nie wymagają żadnego założenia rozkładu normalnego w wystarczająco dużych próbkach. Poprzednie badania symulacyjne pokazują, że „wystarczająco duży” ma często mniej niż 100, a nawet w przypadku naszych wyjątkowo nietypowych danych o kosztach medycznych jest on mniejszy niż 500. Oznacza to, że w badaniach zdrowia publicznego, w których próbki są często znacznie większe, t -test i model liniowy są przydatnymi domyślnymi narzędziami do analizy różnic i trendów w wielu typach danych, nie tylko tych z rozkładami normalnymi. Formalne testy statystyczne normalności są szczególnie niepożądane, ponieważ będą miały małą moc w małych próbkach, w których rozkład ma znaczenie, a wysoką moc tylko w dużych próbkach, w których rozkład jest nieistotny.

Chociaż właściwości regresji liniowej dla dużych próbek są dobrze zrozumiałe, niewiele badań poświęcono rozmiarom próbek potrzebnych do tego, aby założenie Normalności było nieistotne. W szczególności nie jest jasne, w jaki sposób niezbędna wielkość próby zależy od liczby predyktorów w modelu.

Nacisk na rozkład normalny może odwracać uwagę od rzeczywistych założeń tych metod. Regresja liniowa zakłada, że ​​wariancja zmiennej wynikowej jest w przybliżeniu stała, ale podstawowym ograniczeniem obu metod jest założenie, że wystarczy zbadać zmiany średniej zmiennej wynikowej. Jeśli jakieś inne podsumowanie rozkładu jest bardziej interesujące, test t i regresja liniowa mogą być nieodpowiednie.

Podsumowując: normalność na ogół nie jest warta dyskusji ani uwagi, jaką otrzymuje, w przeciwieństwie do znaczenia odpowiedzi na określone pytanie naukowe. Jeśli dąży się do podsumowania średnich różnic w danych, wówczas test t i ANOVA lub regresja liniowa są uzasadnione w znacznie szerszym znaczeniu. Testy oparte na tych modelach pozostają na prawidłowym poziomie alfa, nawet gdy założenia dystrybucyjne nie są spełnione, chociaż moc może mieć negatywny wpływ.

Powody, dla których rozkłady normalne mogą otrzymać uwagę, mogą wynikać z przyczyn klasycznych, gdzie można uzyskać dokładne testy oparte na rozkładach F dla ANOVA i rozkładach Studenta T dla testu T. Prawda jest taka, że ​​wśród wielu współczesnych osiągnięć nauki na ogół mamy do czynienia z większymi zbiorami danych niż te, które zostały wcześniej zebrane. Jeśli w rzeczywistości mamy do czynienia z małym zbiorem danych, uzasadnienie, że te dane są normalnie dystrybuowane, nie może pochodzić z samych danych: po prostu nie ma wystarczającej mocy. Uwagi na temat innych badań, replikacji, a nawet biologii lub nauki procesu pomiarowego są moim zdaniem znacznie bardziej uzasadnionym podejściem do omawiania możliwego modelu prawdopodobieństwa leżącego u podstaw obserwowanych danych.

Z tego powodu wybranie testu opartego na rangach jako alternatywy całkowicie mija się z celem. Zgadzam się jednak, że stosowanie solidnych estymatorów wariancji, takich jak scyzoryk lub bootstrap, oferuje ważne alternatywy obliczeniowe, które pozwalają na przeprowadzanie testów pod wieloma ważniejszymi naruszeniami specyfikacji modelu, takimi jak niezależność lub identyczny rozkład tych błędów.

AdamO
źródło
10

I używany do myślenia, że testy normalności były całkowicie bezużyteczne.

Teraz jednak konsultuję się z innymi badaczami. Często uzyskanie próbek jest niezwykle drogie, więc będą chcieli wnioskować, powiedzmy n = 8.

W takim przypadku bardzo trudno jest znaleźć istotność statystyczną przy testach nieparametrycznych, ale testy t przy n = 8 są wrażliwe na odchylenia od normalności. Otrzymujemy więc to, że możemy powiedzieć „cóż, pod warunkiem założenia normalności, znajdujemy istotną statystycznie różnicę” (nie martw się, są to zwykle badania pilotażowe ...).

Następnie potrzebujemy jakiegoś sposobu oceny tego założenia. Jestem w połowie drogi do obozu, że lepiej jest patrzeć na działki, ale prawdę mówiąc, może być wiele nieporozumień, co może być bardzo problematyczne, jeśli jedna z osób, które się z tobą nie zgadzają, jest recenzent twojego manuskryptu.

Pod wieloma względami nadal uważam, że istnieje wiele wad w testach normalności: na przykład powinniśmy myśleć o błędzie typu II bardziej niż typie I. Ale jest ich potrzeba.

Cliff AB
źródło
Zauważ, że argumenty tutaj są takie, że testy są bezużyteczne tylko w teorii. Teoretycznie zawsze możemy uzyskać tyle próbek, ile chcemy ... Nadal będziesz potrzebować testów, aby udowodnić, że Twoje dane są w jakiś sposób zbliżone do normalności.
SmallChess
2
Słuszna uwaga. Myślę, że sugerujesz, a na pewno wierzę, że miara odchylenia od normalności jest ważniejsza niż test hipotez.
Cliff AB
Dopóki nie przejdą następnie na test nieparametryczny i nie będą próbować interpretować wartości p (które są unieważniane przez wstępne testowanie warunkowo), może to w porządku ?!
Björn
2
Moc testu normalności będzie bardzo niska przy n = 8; w szczególności odchylenia od normalności, które będą miały istotny wpływ na właściwości testu, który zakłada, że ​​może być dość trudny do wykrycia przy małych próbkach (testowych lub wizualnych).
Glen_b
1
@Glen_b: Zgadzam się; Myślę, że ten sentyment jest bardziej zgodny z troską o błędy typu II niż o typie I. Chodzi mi o to, że istnieje potrzeba przetestowania normalności w świecie rzeczywistym. To, czy nasze obecne narzędzia naprawdę zaspokajają tę potrzebę, to inne pytanie.
Cliff AB
10

Za to, co jest warte, kiedyś opracowałem szybki próbnik do skróconego rozkładu normalnego, a testowanie normalności (KS) było bardzo przydatne w debugowaniu funkcji. Ten sampler przechodzi test z dużymi rozmiarami próbek, ale, co ciekawe, sampler ziggurat GSL tego nie zrobił.

Arthur B.
źródło
8

Podany przez ciebie argument to opinia. Uważam, że ważne jest testowanie normalności, aby upewnić się, że dane nie odbiegają poważnie od normy. Czasami używam go do wyboru między testem parametrycznym a nieparametrycznym dla mojej procedury wnioskowania. Myślę, że test może być przydatny w próbkach średnich i dużych (gdy nie wchodzi w grę twierdzenie o limicie centralnym). Zwykle używam testów Wilka-Shapiro lub Andersona-Darlinga, ale za pomocą SAS otrzymuję je wszystkie i ogólnie zgadzają się całkiem dobrze. Z drugiej strony uważam, że procedury graficzne, takie jak wykresy QQ, działają równie dobrze. Zaletą formalnego testu jest to, że jest obiektywny. W małych próbkach prawdą jest, że te testy dopasowania nie mają praktycznie żadnej mocy i ma to intuicyjny sens, ponieważ mała próbka z rozkładu normalnego może przypadkowo wyglądać raczej nienormalnie, co jest uwzględniane w teście. Również wysoka skośność i kurtoza, które odróżniają wiele nietypowych rozkładów od rozkładów normalnych, nie są łatwo widoczne w małych próbkach.

Michael Chernick
źródło
2
Chociaż z pewnością można go używać w ten sposób, nie sądzę, abyś był bardziej obiektywny niż w przypadku QQ-Plot. Subiektywna część testów polega na tym, kiedy zdecydujesz, że Twoje dane są nienormalne. Przy dużej próbce odrzucenie przy p = 0,05 może równie dobrze być nadmierne.
Erik
4
Wstępne testowanie (zgodnie z sugestią tutaj) może unieważnić poziom błędu typu I całego procesu; należy wziąć pod uwagę fakt, że podczas interpretacji wyników dowolnego testu wybrano test wstępny. Mówiąc bardziej ogólnie, należy przechowywać testy hipotez w celu przetestowania hipotezy zerowej, na której tak naprawdę zależy, tzn. Że nie ma związku między zmiennymi. Hipoteza zerowa, że ​​dane są dokładnie Normalne, nie należy do tej kategorii.
gość
1
(+1) Tutaj jest doskonała rada. Erik, użycie „obiektywu” również mnie zaskoczyło, dopóki nie zrozumiałem, że Michael ma rację: dwie osoby prawidłowo przeprowadzające ten sam test na tych samych danych zawsze otrzymają tę samą wartość p, ale mogą interpretować ten sam wykres QQ inaczej. Gość: dziękuję za przestrogę dotyczącą błędu typu I. Ale dlaczego nie mamy przejmować się dystrybucją danych? Często jest to interesująca i cenna informacja. Chcę przynajmniej wiedzieć, czy dane są zgodne z założeniami, które poczyniły o nich moje testy!
whuber
1
Zdecydowanie się nie zgadzam. Obie osoby otrzymują ten sam wykres QQ i tę samą wartość p. Aby zinterpretować wartość p, należy wziąć pod uwagę wielkość próby i naruszenia normalności, na które test jest szczególnie wrażliwy. Zatem podejmowanie decyzji, co zrobić z wartością p, jest równie subiektywne. Powodem, dla którego możesz preferować wartość p, jest to, że uważasz, że dane mogą mieć idealny rozkład normalny - w przeciwnym razie jest tylko pytanie, jak szybko wartość p spada wraz z wielkością próbki. Co więcej, biorąc pod uwagę przyzwoity rozmiar próbki, wykres QQ wygląda prawie tak samo i pozostaje stabilny przy większej liczbie próbek.
Erik
1
Erik, zgadzam się, że wyniki testów i grafika wymagają interpretacji. Ale wynik testu jest liczbą i nie będzie żadnych sporów. Jednak wykres QQ dopuszcza wiele opisów. Chociaż każdy może obiektywnie być poprawny, wybór tego, na co należy zwrócić uwagę, jest ... wyborem. To właśnie oznacza „subiektywne”: wynik zależy od analityka, a nie tylko od samej procedury. Dlatego na przykład w ustawieniach tak różnych, jak karty kontrolne i przepisy rządowe, w których ważna jest „obiektywność”, kryteria oparte są na testach numerycznych , a nie na wynikach graficznych.
whuber
7

Myślę, że przydałoby się tutaj podejście oparte na maksymalnej entropii. Możemy przypisać rozkład normalny, ponieważ uważamy, że dane są „normalnie dystrybuowane” (cokolwiek to oznacza) lub ponieważ oczekujemy jedynie odchyleń o tej samej wielkości. Ponadto, ponieważ rozkład normalny ma tylko dwie wystarczające statystyki, jest niewrażliwy na zmiany danych, które nie zmieniają tych wielkości. W pewnym sensie możesz myśleć o rozkładzie normalnym jako o „średniej” dla wszystkich możliwych rozkładów z tymi samymi pierwszymi i drugimi momentami. zapewnia to jeden z powodów, dla których najmniejsze kwadraty powinny działać tak samo dobrze.

prawdopodobieństwo prawdopodobieństwa
źródło
Ładne połączenie koncepcji. Zgadzam się również, że w przypadkach, w których taki podział ma znaczenie, myślenie o tym, jak generowane są dane , jest o wiele bardziej pouczające . Stosujemy tę zasadę przy dopasowywaniu modeli mieszanych. Z drugiej strony stężenia lub proporcje są zawsze wypaczone. Mógłbym dodać, że „normalny ... jest niewrażliwy na zmiany” oznacza niezmienny wpływ na zmiany kształtu / skali.
AdamO
7

Nie powiedziałbym, że jest bezużyteczny, ale tak naprawdę zależy od aplikacji. Uwaga: tak naprawdę nigdy nie znasz dystrybucji, z której pochodzą dane, a wszystko, co masz, to niewielki zestaw realizacji. Średnia próbki jest zawsze skończona w próbce, ale średnia może być nieokreślona lub nieskończona dla niektórych rodzajów funkcji gęstości prawdopodobieństwa. Rozważmy trzy typy rozkładów stabilnych Levyego, tj. Rozkład normalny, rozkład Levy'ego i rozkład Cauchy'ego. Większość twoich próbek nie ma wielu obserwacji na ogonie (tj. Z dala od średniej próbki). Tak więc empirycznie bardzo trudno jest rozróżnić te trzy, więc Cauchy (ma niezdefiniowaną średnią) i Levy (ma nieskończoną średnią) z łatwością mogą maskować się jako rozkład normalny.

kolonel
źródło
1
„... empirycznie bardzo trudno jest ...” wydaje się argumentować przeciwko , zamiast na , dystrybucyjnej testów. Dziwnie jest to czytać w akapicie, którego wprowadzenie sugeruje, że rzeczywiście istnieją zastosowania do testów dystrybucyjnych. Co zatem tak naprawdę chcesz tutaj powiedzieć?
whuber
3
Jestem temu przeciwny, ale chcę też uważać, niż powiedzieć, że jest to bezużyteczne, ponieważ nie znam całego zestawu możliwych scenariuszy. Istnieje wiele testów, które zależą od założenia normalności. Powiedzenie, że testowanie normalności jest bezużyteczne, zasadniczo obala wszystkie takie testy statystyczne, jak mówisz, że nie jesteś pewien, czy używasz / robisz właściwą rzecz. W takim przypadku nie powinieneś tego robić, nie powinieneś robić tej dużej sekcji statystyk.
kolonel
Dziękuję Ci. Uwagi w tym komentarzu wydają się lepiej skupiać na pytaniu niż na twojej pierwotnej odpowiedzi! W pewnym momencie możesz rozważyć zaktualizowanie swojej odpowiedzi, aby bardziej wyrazić swoje opinie i porady.
whuber
@whuber Nie ma problemu. Czy możesz polecić edycję?
kolonel
Możesz zacząć od połączenia dwóch postów - odpowiedzi i komentarza - a następnie pomyśleć o wyeliminowaniu (lub przeniesieniu do dodatku lub wyjaśnieniu) wszelkich materiałów, które mogą być styczne. Na przykład odniesienie do niezdefiniowanych środków nie ma jak dotąd wyraźnego związku z pytaniem, dlatego pozostaje nieco tajemnicze.
whuber
7

Myślę, że na pierwsze 2 pytania udzielono dokładnych odpowiedzi, ale nie sądzę, że pytanie 3 zostało rozwiązane. Wiele testów porównuje rozkład empiryczny ze znanym rozkładem hipotetycznym. Wartość krytyczna dla testu Kołmogorowa-Smirnowa opiera się na pełnym określeniu F. Można go zmodyfikować w celu przetestowania rozkładu parametrycznego z oszacowanymi parametrami. Jeśli więc fuzzier oznacza oszacowanie więcej niż dwóch parametrów, odpowiedź na pytanie brzmi „tak”. W testach tych można zastosować 3 rodziny parametrów lub więcej. Niektóre testy mają na celu zwiększenie mocy podczas testowania w stosunku do określonej rodziny dystrybucji. Na przykład podczas testowania normalności test Andersona-Darlinga lub Shapiro-Wilka ma większą moc niż KS lub chi kwadrat, gdy hipotetyczny rozkład zerowy jest normalny.

Michael Chernick
źródło
5

Testy, w których „coś” ważnego dla analizy jest poparte wysokimi wartościami p, są moim zdaniem błędne. Jak zauważyli inni, w przypadku dużych zestawów danych zapewniona jest wartość p poniżej 0,05. Zatem test zasadniczo „nagradza” za małe i rozmyte zbiory danych oraz „nagradza” za brak dowodów. Coś jak wykresy qq są znacznie bardziej przydatne. Pragnienie, by twarde liczby decydowały o takich rzeczach zawsze (tak / nie normalne / nie normalne), pomija fakt, że modelowanie jest częściowo sztuką i jak faktycznie wspierane są hipotezy.

wvguy8258
źródło
2
Pozostaje, że duża próbka, która jest prawie normalna, będzie miała niską wartość p, podczas gdy mniejsza próbka, która nie jest tak normalna, często nie. Nie sądzę, aby duże wartości p były przydatne. Ponownie nagradzają za brak dowodów. Mogę mieć próbkę z kilkoma milionami punktów danych i prawie zawsze odrzuca ona założenie normalności w tych testach, podczas gdy mniejsza próbka nie. Dlatego uważam, że nie są przydatne. Jeśli moje myślenie jest błędne, proszę wykazać je, używając wnioskowania dedukcyjnego w tej kwestii.
wvguy8258
To wcale nie odpowiada na pytanie.
SmallChess
-2

Dobrym zastosowaniem testu normalności, o którym nie sądzę, zostało wspomniane, jest ustalenie, czy używanie Z-score jest w porządku. Załóżmy, że wybrałeś losową próbkę z populacji i chcesz znaleźć prawdopodobieństwo wybrania jednej losowej osoby z populacji i uzyskać wartość 80 lub wyższą. Można to zrobić tylko wtedy, gdy rozkład jest normalny, ponieważ przy zastosowaniu z-score zakłada się, że rozkład populacji jest normalny.

Ale wydaje mi się, że widzę, że to również jest dyskusyjne ...

Hotaka
źródło
Wartość czego? Czy suma, wariancja, indywidualna obserwacja? Tylko ten ostatni opiera się na założonej normalności rozkładu.
whuber
miałem na myśli indywidualnego
Hotaka
2
Dzięki. Twoja odpowiedź pozostaje jednak tak niejasna, że ​​trudno jest powiedzieć, do jakich procedur się odwołujesz, i nie można ocenić, czy twoje wnioski są prawidłowe.
whuber
2
Problem z tym zastosowaniem jest taki sam, jak w innych zastosowaniach: Test będzie zależał od wielkości próbki, więc jest zasadniczo bezużyteczny. Nie mówi ci, czy możesz użyć wyników Z.
Peter Flom