Były kolega kiedyś mi powiedział, co następuje:
Zwykle stosujemy testy normalności do wyników procesów, które pod zerą generują zmienne losowe, które są tylko asymptotycznie lub prawie normalne (z częścią „asymptotycznie” zależną od pewnej wielkości, której nie możemy uczynić dużą); W dobie taniej pamięci, dużych zbiorów danych i szybkich procesorów testy normalności powinny zawsze odrzucać zerowy rozkład normalny dla dużych (choć nie niesamowicie dużych) próbek. I odwrotnie, testy normalności powinny być stosowane tylko w przypadku małych próbek, gdy przypuszczalnie mają one mniejszą moc i mniejszą kontrolę nad wskaźnikiem typu I.
Czy to prawidłowy argument? Czy to dobrze znany argument? Czy istnieją dobrze znane testy na „bardziej niewyraźną” hipotezę zerową niż normalność?
źródło
Odpowiedzi:
To nie jest kłótnia. Jest (nieco mocno zaznaczony) fakt, że formalne testy normalności zawsze odrzucają ogromne próbki, z którymi dzisiaj pracujemy. Łatwo nawet udowodnić, że gdy n staje się duże, nawet najmniejsze odchylenie od idealnej normalności doprowadzi do znaczącego wyniku. Ponieważ każdy zestaw danych ma pewien stopień losowości, żaden pojedynczy zestaw danych nie będzie idealnie normalnie rozłożoną próbką. Ale w stosowanej statystyce nie chodzi o to, czy dane / reszty ... są całkowicie normalne, ale wystarczająco normalne, aby przyjąć założenia.
Pozwól, że zilustruję to testem Shapiro-Wilka . Poniższy kod konstruuje zestaw rozkładów, które zbliżają się do normalności, ale nie są całkowicie normalne. Następnie sprawdzamy,
shapiro.test
czy próbka z tych prawie normalnych rozkładów odbiega od normalności. W R:Ostatni wiersz sprawdza, która część symulacji dla każdej wielkości próbki znacznie odbiega od normalności. Tak więc w 87% przypadków próbka 5000 obserwacji znacznie odbiega od normalności według Shapiro-Wilksa. Jednak jeśli zobaczysz wykresy qq, nigdy nie zdecydujesz się na odstępstwo od normalności. Poniżej widzimy jako przykład wykresy qq dla jednego zestawu losowych próbek
z wartościami p
źródło
R
realizacji). Ale to wszystko - nie ma to wpływu na zakres użyteczności testów normalności w ogóle. Wstępne twierdzenie, że testy normalności zawsze odrzucają duże próbki, jest po prostu błędne.Myśląc o tym, czy testowanie normalności jest „zasadniczo bezużyteczne”, należy najpierw zastanowić się, do czego powinien być użyteczny. Wiele osób (cóż ... przynajmniej wielu naukowców) źle rozumie pytanie, na które odpowiada test normalności.
Testy normalności pytania odpowiadają: Czy istnieją przekonujące dowody na jakiekolwiek odchylenie od ideału Gaussa? Przy umiarkowanie dużych rzeczywistych zestawach danych odpowiedź jest prawie zawsze tak.
Pytanie, na które naukowcy często oczekują odpowiedzi testu normalności: Czy dane wystarczająco odbiegają od ideału Gaussa, aby „zabronić” użycia testu, który zakłada rozkład Gaussa? Naukowcy często chcą, aby test normalności był sędzią, który decyduje, kiedy zrezygnować z konwencjonalnych testów (ANOVA itp.) I zamiast tego analizować przekształcone dane lub zastosować test nieparametryczny oparty na rangach lub metodę próbkowania lub ładowania początkowego. W tym celu testy normalności nie są zbyt przydatne.
źródło
Myślę, że testy normalności mogą być przydatne jako uzupełnienie badań graficznych. Muszą być jednak używane we właściwy sposób. Moim zdaniem oznacza to, że nigdy nie powinno się stosować wielu popularnych testów, takich jak testy Shapiro-Wilka, Andersona-Darlinga i Jarque-Bera.
Zanim wyjaśnię swoje stanowisko, pozwólcie mi poczynić kilka uwag:
(W mojej definicji) test normalności jest skierowany przeciwko klasie alternatyw, jeśli jest wrażliwy na alternatywy z tej klasy, ale nie jest wrażliwy na alternatywy z innych klas. Typowymi przykładami są testy ukierunkowane na pochylenie lub kurtotyczne alternatywy. Najprostsze przykłady wykorzystują przykładową skośność i kurtozę jako statystyki testowe.
Kierowane testy normalności są prawdopodobnie często lepsze niż testy zbiorcze (takie jak testy Shapiro-Wilka i Jarque-Bera), ponieważ często zdarza się, że tylko niektóre rodzaje nienormalności są przedmiotem szczególnej procedury wnioskowania .
Zgodnie z ogólną zasadą ( a nie prawem natury) wnioskowanie o środkach jest wrażliwe na skośność, a wnioskowanie na temat różnic jest wrażliwe na kurtozę.
Zastosowanie ukierunkowanego testu normalności ma tę zaletę, że uzyskuje wyższą moc przeciw „niebezpiecznym” alternatywom i niższą moc przeciw alternatywom, które są mniej „niebezpieczne”, co oznacza, że mniej prawdopodobne jest odrzucenie normalności z powodu odstępstw od normalności, która wygrała nie wpłyną na wydajność naszej procedury wnioskowania. Nienormalność jest określana ilościowo w sposób odpowiedni dla danego problemu. Nie zawsze jest to łatwe do wykonania graficznego.
źródło
Testy normalności IMHO są absolutnie bezużyteczne z następujących powodów:
Na małych próbkach istnieje duża szansa, że prawdziwy rozkład populacji jest zasadniczo nienormalny, ale test normalności nie jest wystarczający, aby go wykryć.
Na dużych próbkach rzeczy takie jak test T i ANOVA są dość odporne na nienormalność.
Cała idea normalnie rozłożonej populacji jest po prostu wygodnym przybliżeniem matematycznym. Żadna z wielkości, którymi zwykle zajmujemy się statystycznie, nie może mieć rozkładów z obsługą wszystkich liczb rzeczywistych. Na przykład ludzie nie mogą mieć ujemnej wysokości. Coś nie może mieć masy ujemnej lub większej niż masa we wszechświecie. Dlatego można śmiało powiedzieć, że nic nie jest dokładnie dystrybuowane w prawdziwym świecie.
źródło
Myślę, że wstępne testowanie normalności (które obejmuje nieformalne oceny za pomocą grafiki) nie ma sensu.
źródło
Zanim zapytasz, czy test lub jakakolwiek kontrola normalności jest „przydatna”, musisz odpowiedzieć na pytanie: „Dlaczego pytasz?”
Na przykład, jeśli chcesz ustawić limit ufności wokół średniej zbioru danych, odstępstwa od normalności mogą być lub nie być ważne, w zależności od tego, ile masz danych i jak duże są odstępstwa. Jednak odstępstwa od normalności mogą mieć kluczowe znaczenie, jeśli chcesz przewidzieć, jaka będzie najbardziej ekstremalna wartość w przyszłych obserwacjach lub w populacji, z której pobrano próbkę.
źródło
Pozwolę sobie dodać jedną drobną rzecz:
wykonanie testu normalności bez uwzględnienia błędu alfa zwiększa ogólne prawdopodobieństwo wystąpienia błędu alfa.
Nigdy nie zapomnisz, że każdy dodatkowy test robi to, o ile nie kontrolujesz akumulacji błędów alfa. Stąd kolejny dobry powód do odrzucenia testowania normalności.
źródło
Odpowiedzi tutaj dotyczyły już kilku ważnych punktów. Aby szybko podsumować:
Na początku dodam odpowiedź, aby zacytować jeden z moich, najczęściej używanych i czytanych artykułów statystycznych: „ Znaczenie założeń normalności w dużych zbiorach danych dotyczących zdrowia publicznego ” autorstwa Lumley i in. glin. Warto przeczytać w całości. Podsumowanie stwierdza:
Podsumowując: normalność na ogół nie jest warta dyskusji ani uwagi, jaką otrzymuje, w przeciwieństwie do znaczenia odpowiedzi na określone pytanie naukowe. Jeśli dąży się do podsumowania średnich różnic w danych, wówczas test t i ANOVA lub regresja liniowa są uzasadnione w znacznie szerszym znaczeniu. Testy oparte na tych modelach pozostają na prawidłowym poziomie alfa, nawet gdy założenia dystrybucyjne nie są spełnione, chociaż moc może mieć negatywny wpływ.
Powody, dla których rozkłady normalne mogą otrzymać uwagę, mogą wynikać z przyczyn klasycznych, gdzie można uzyskać dokładne testy oparte na rozkładach F dla ANOVA i rozkładach Studenta T dla testu T. Prawda jest taka, że wśród wielu współczesnych osiągnięć nauki na ogół mamy do czynienia z większymi zbiorami danych niż te, które zostały wcześniej zebrane. Jeśli w rzeczywistości mamy do czynienia z małym zbiorem danych, uzasadnienie, że te dane są normalnie dystrybuowane, nie może pochodzić z samych danych: po prostu nie ma wystarczającej mocy. Uwagi na temat innych badań, replikacji, a nawet biologii lub nauki procesu pomiarowego są moim zdaniem znacznie bardziej uzasadnionym podejściem do omawiania możliwego modelu prawdopodobieństwa leżącego u podstaw obserwowanych danych.
Z tego powodu wybranie testu opartego na rangach jako alternatywy całkowicie mija się z celem. Zgadzam się jednak, że stosowanie solidnych estymatorów wariancji, takich jak scyzoryk lub bootstrap, oferuje ważne alternatywy obliczeniowe, które pozwalają na przeprowadzanie testów pod wieloma ważniejszymi naruszeniami specyfikacji modelu, takimi jak niezależność lub identyczny rozkład tych błędów.
źródło
I używany do myślenia, że testy normalności były całkowicie bezużyteczne.
Teraz jednak konsultuję się z innymi badaczami. Często uzyskanie próbek jest niezwykle drogie, więc będą chcieli wnioskować, powiedzmy n = 8.
W takim przypadku bardzo trudno jest znaleźć istotność statystyczną przy testach nieparametrycznych, ale testy t przy n = 8 są wrażliwe na odchylenia od normalności. Otrzymujemy więc to, że możemy powiedzieć „cóż, pod warunkiem założenia normalności, znajdujemy istotną statystycznie różnicę” (nie martw się, są to zwykle badania pilotażowe ...).
Następnie potrzebujemy jakiegoś sposobu oceny tego założenia. Jestem w połowie drogi do obozu, że lepiej jest patrzeć na działki, ale prawdę mówiąc, może być wiele nieporozumień, co może być bardzo problematyczne, jeśli jedna z osób, które się z tobą nie zgadzają, jest recenzent twojego manuskryptu.
Pod wieloma względami nadal uważam, że istnieje wiele wad w testach normalności: na przykład powinniśmy myśleć o błędzie typu II bardziej niż typie I. Ale jest ich potrzeba.
źródło
Za to, co jest warte, kiedyś opracowałem szybki próbnik do skróconego rozkładu normalnego, a testowanie normalności (KS) było bardzo przydatne w debugowaniu funkcji. Ten sampler przechodzi test z dużymi rozmiarami próbek, ale, co ciekawe, sampler ziggurat GSL tego nie zrobił.
źródło
Podany przez ciebie argument to opinia. Uważam, że ważne jest testowanie normalności, aby upewnić się, że dane nie odbiegają poważnie od normy. Czasami używam go do wyboru między testem parametrycznym a nieparametrycznym dla mojej procedury wnioskowania. Myślę, że test może być przydatny w próbkach średnich i dużych (gdy nie wchodzi w grę twierdzenie o limicie centralnym). Zwykle używam testów Wilka-Shapiro lub Andersona-Darlinga, ale za pomocą SAS otrzymuję je wszystkie i ogólnie zgadzają się całkiem dobrze. Z drugiej strony uważam, że procedury graficzne, takie jak wykresy QQ, działają równie dobrze. Zaletą formalnego testu jest to, że jest obiektywny. W małych próbkach prawdą jest, że te testy dopasowania nie mają praktycznie żadnej mocy i ma to intuicyjny sens, ponieważ mała próbka z rozkładu normalnego może przypadkowo wyglądać raczej nienormalnie, co jest uwzględniane w teście. Również wysoka skośność i kurtoza, które odróżniają wiele nietypowych rozkładów od rozkładów normalnych, nie są łatwo widoczne w małych próbkach.
źródło
Myślę, że przydałoby się tutaj podejście oparte na maksymalnej entropii. Możemy przypisać rozkład normalny, ponieważ uważamy, że dane są „normalnie dystrybuowane” (cokolwiek to oznacza) lub ponieważ oczekujemy jedynie odchyleń o tej samej wielkości. Ponadto, ponieważ rozkład normalny ma tylko dwie wystarczające statystyki, jest niewrażliwy na zmiany danych, które nie zmieniają tych wielkości. W pewnym sensie możesz myśleć o rozkładzie normalnym jako o „średniej” dla wszystkich możliwych rozkładów z tymi samymi pierwszymi i drugimi momentami. zapewnia to jeden z powodów, dla których najmniejsze kwadraty powinny działać tak samo dobrze.
źródło
Nie powiedziałbym, że jest bezużyteczny, ale tak naprawdę zależy od aplikacji. Uwaga: tak naprawdę nigdy nie znasz dystrybucji, z której pochodzą dane, a wszystko, co masz, to niewielki zestaw realizacji. Średnia próbki jest zawsze skończona w próbce, ale średnia może być nieokreślona lub nieskończona dla niektórych rodzajów funkcji gęstości prawdopodobieństwa. Rozważmy trzy typy rozkładów stabilnych Levyego, tj. Rozkład normalny, rozkład Levy'ego i rozkład Cauchy'ego. Większość twoich próbek nie ma wielu obserwacji na ogonie (tj. Z dala od średniej próbki). Tak więc empirycznie bardzo trudno jest rozróżnić te trzy, więc Cauchy (ma niezdefiniowaną średnią) i Levy (ma nieskończoną średnią) z łatwością mogą maskować się jako rozkład normalny.
źródło
Myślę, że na pierwsze 2 pytania udzielono dokładnych odpowiedzi, ale nie sądzę, że pytanie 3 zostało rozwiązane. Wiele testów porównuje rozkład empiryczny ze znanym rozkładem hipotetycznym. Wartość krytyczna dla testu Kołmogorowa-Smirnowa opiera się na pełnym określeniu F. Można go zmodyfikować w celu przetestowania rozkładu parametrycznego z oszacowanymi parametrami. Jeśli więc fuzzier oznacza oszacowanie więcej niż dwóch parametrów, odpowiedź na pytanie brzmi „tak”. W testach tych można zastosować 3 rodziny parametrów lub więcej. Niektóre testy mają na celu zwiększenie mocy podczas testowania w stosunku do określonej rodziny dystrybucji. Na przykład podczas testowania normalności test Andersona-Darlinga lub Shapiro-Wilka ma większą moc niż KS lub chi kwadrat, gdy hipotetyczny rozkład zerowy jest normalny.
źródło
Testy, w których „coś” ważnego dla analizy jest poparte wysokimi wartościami p, są moim zdaniem błędne. Jak zauważyli inni, w przypadku dużych zestawów danych zapewniona jest wartość p poniżej 0,05. Zatem test zasadniczo „nagradza” za małe i rozmyte zbiory danych oraz „nagradza” za brak dowodów. Coś jak wykresy qq są znacznie bardziej przydatne. Pragnienie, by twarde liczby decydowały o takich rzeczach zawsze (tak / nie normalne / nie normalne), pomija fakt, że modelowanie jest częściowo sztuką i jak faktycznie wspierane są hipotezy.
źródło
Dobrym zastosowaniem testu normalności, o którym nie sądzę, zostało wspomniane, jest ustalenie, czy używanie Z-score jest w porządku. Załóżmy, że wybrałeś losową próbkę z populacji i chcesz znaleźć prawdopodobieństwo wybrania jednej losowej osoby z populacji i uzyskać wartość 80 lub wyższą. Można to zrobić tylko wtedy, gdy rozkład jest normalny, ponieważ przy zastosowaniu z-score zakłada się, że rozkład populacji jest normalny.
Ale wydaje mi się, że widzę, że to również jest dyskusyjne ...
źródło