Jakie są standardowe testy statystyczne, aby sprawdzić, czy dane są zgodne z rozkładem wykładniczym czy normalnym?

12

Jakie są standardowe testy statystyczne, aby sprawdzić, czy dane są zgodne z rozkładem wykładniczym czy normalnym?

smo
źródło
2
Najlepszy test prawdopodobnie zależy od tego, dlaczego dokładnie testujesz na normalność / wykładniczy (więc trochę tła byłoby pomocne), ale zawsze możesz użyć testu Kołmogorowa Smirnowa, aby sprawdzić, czy dany zestaw danych pasuje do dowolnej wcześniej określonej dystrybucji ( en.wikipedia .org / wiki / Kolmogorov% E2% 80% 93Smirnov_test ). Istnieje wiele metod używanych do normalnej dystrybucji, w szczególności: en.wikipedia.org/wiki/Normality_test
Macro
Zmienne, z którymi mam do czynienia, prawdopodobnie będą zgodne z rozkładem normalnym lub wykładniczym. Mam też czynnik, na którym mi nie zależy. Narzuca to jednak pewne różnice w moich danych. Dlatego chciałbym znormalizować zmienne, aby stłumić działanie tego czynnika uciążliwości. Pomyślałem więc, że lepiej jest znormalizować każdą zmienną na podstawie ich podstawowego rozkładu. Dlatego potrzebuję testu, aby zdecydować między tymi dwiema dystrybucjami.
smo
1
Co oznacza normalizacja w tym zdaniu: Pomyślałem, że lepiej jest znormalizować każdą zmienną na podstawie ich podstawowego rozkładu ?
Makro
2
Chociaż nie jest to test, wykresy QQ są świetne do szybkiego i intuicyjnego sprawdzania, czy dane pasują do rozkładu.
naught101

Odpowiedzi:

13

Wygląda na to, że próbujesz zdecydować, czy modelować dane przy użyciu rozkładu normalnego czy wykładniczego. Wydaje mi się to nieco dziwne, ponieważ te rozkłady są bardzo różne od siebie.

Rozkład normalny jest symetryczny, podczas gdy rozkład wykładniczy jest mocno przekrzywiony w prawo, bez wartości ujemnych. Zwykle próbka z rozkładu wykładniczego będzie zawierać wiele uwag stosunkowo blisko do i kilka obervations które odbiegają daleko na prawo od . Różnicę tę często łatwo dostrzec graficznie.000

Oto przykład, w którym symulowałem obserwacji z rozkładu normalnego ze średnią i wariancją oraz rozkład wykładniczy ze średnią i wariancją :2 4 2 4n=1002424

Normalny vs wykładniczy: dane symulowane

Symetrię rozkładu normalnego i skośność wykładniczego można zobaczyć za pomocą histogramów, wykresów pudełkowych i wykresów rozrzutu, jak pokazano na powyższym rysunku.

Kolejnym bardzo przydatnym narzędziem jest wykres QQ . W poniższym przykładzie punkty powinny w przybliżeniu podążać za linią, jeśli próbka pochodzi z rozkładu normalnego. Jak widać, dotyczy to normalnych danych, ale nie danych wykładniczych.

Wykresy QQ dla danych symulowanych

Jeśli z jakiegoś powodu badanie graficzne nie jest dla Ciebie wystarczające, możesz nadal użyć testu, aby ustalić, czy rozkład jest normalny czy wykładniczy. Ponieważ rozkład normalny jest skalą i rodziną lokalizacji, będziesz chciał użyć testu niezmiennego przy zmianach skali i lokalizacji (tj. Wynik testu nie powinien ulec zmianie, jeśli zmienisz swoje pomiary z cali na centymetry lub dodasz do wszystkich twoich obserwacji).+1

Kiedy hipoteza zerowa mówi, że rozkład jest normalny, a hipoteza alternatywna jest wykładnicza, najsilniejszym testem niezmiennym lokalizacji i skali jest statystyka gdzie jest średnią próbki, jest najmniejszą obserwacją w próbce, a jest odchyleniem standardowym próbki. Normalność jest odrzucana na korzyść wykładniczej, jeśli jest zbyt duży.ˉ x x(1)sTE,N

TE,N=x¯x(1)s
x¯x(1)sTE,N

Ten test jest w rzeczywistości jednostronną wersją testu Grubbsa na wartości odstające . Znajdziesz to zaimplementowane w większości programów statystycznych (ale upewnij się, że używasz odpowiedniej wersji - istnieje kilka alternatywnych statystyk testowych używanych do testu wartości odstających!).

Odniesienie do będącego najsilniejszym testem:TE,N sekcja 4.2.4 badania normalności metodą HC Thode.

MånsT
źródło
OP zapytał, czy testujesz normalność, jaki test wybrałbyś i w osobnej sytuacji, jeśli testujesz wykładniczo, jakiego testu byś użył. Nie przeczytałem inot stwierdzenia, że ​​sugeruje on wypróbowanie obu testów na tym samym zestawie danych.
Michael R. Chernick,
Zinterpretowałem to w ten sposób, ponieważ w komentarzu do pytania OP napisał: „Zmienne, z którymi mam do czynienia, prawdopodobnie będą miały rozkład normalny lub wykładniczy. [...] Dlatego potrzebuję testu, aby zdecyduj między tymi dwiema dystrybucjami ”.
MånsT
Nie zauważyłem tego. W takim przypadku twoja odpowiedź jest bardzo odpowiednia. Odpowiedziałem, jakby testował dla jednego naraz.
Michael R. Chernick,
@Michael: Zinterpretowałem to w ten sam sposób, kiedy przeczytałem oryginalne pytanie, ale postanowiłem napisać odpowiedź po przeczytaniu komentarza. W przeciwnym razie nie sądzę, że byłoby wiele do dodania do twojej (+1) odpowiedzi (oprócz drobnych uwag, które tam napisałem w komentarzu).
MånsT
5

Do rozkładu wykładniczego możesz użyć testu o nazwie test Morana lub Bartletta. Statystyka testowa obejmuje średnią próbną a także średnią próbną zarejestrowanego Pod hipotezą zerową mamy około i dwustronny test działa. Ten test został opracowany dla alternatywnych gamma.¯ Y ¯ log Y Y i B n = b n × { log ˉ Y - ¯ log Y }BnY¯logY¯Yi B nχ 2 ( n - 1 )

Bn=bn×{logY¯logY¯}bn=2n×{1+(n+1)/(6n)}1
Bnχ2(n1)

Patrz KC Kapur i LR Lamberson Niezawodność w projektowaniu inżynierskim . Wiley 1977.

Yves
źródło
2
Natknąłem się na nowsze i obszerniejsze zasoby dotyczące testowania wykładniczości. 1) Artykuł: A Henze, N. i Meintanis, SG (2005): „Najnowsze i klasyczne testy wykładniczości: częściowy przegląd z porównaniami”. Metrika, vol. 61, s. 29–45. 2) Pakiet CRAN R o nazwie „exptest” implementujący testy wspomnianego artykułu.
Yves
Rozkład B_n nie jest bardzo jasny. Czy to chi kwadrat z n-1 df, czy chi kwadrat z n-1 df pomnożony przez n-1?
Dovini Jayasinghe,
Działa jak napisano. Możesz to sprawdzić za pomocą kilku wierszy kodu R.
Yves
Dzięki. Powinno to być mnożenie, jak mogłem zobaczyć. W tym sensie stopnie swobody powinny wynosić n-1?
Dovini Jayasinghe
Bnn1
4

Do normalności Anderson-Darling i Shapiro-Wilk są uważani za najlepszych. Do wykładniczego testu Lillerforsa został zaprojektowany specjalnie dla niego.

Michael R. Chernick
źródło
5
odpowiedź ta może zostać poprawiona z drobnymi szczegółami na temat tego, dlaczego każdy test jest uważany za dobry / lepszy niż inne.
naught101
Testy te są lepsze w tym sensie, że są najsilniejsze do odejścia od normalnego (Anderson-Darling) i wykładniczego (Lillefors). Nie wydaje mi się, żeby na podstawie tego testu można było łatwo wyjaśnić.
Michael R. Chernick,
3
@Michael: Test normalności Andersona-Darlinga (taki jak Shapiro-Wilk dito) ma szacowną moc przeciwko szerokiej gamie alternatyw, ale z pewnością nie jest najsilniejszy (ani ogólnie, ani średnio). Wybór testu powinien zależeć od dostępnej alternatywy. Nigdy nie słyszałem o teście Lillerforsa - czy miałeś na myśli test Lillieforsa (który w rzeczywistości jest testem normalności, a nie testem wykładniczym)?
MånsT
Oczywiście odnosiłem się do testu Lilleforsa pod kątem wykładniczości, ponieważ sugerowałem to dla założeń rozkładu wykładniczego. Wymieniłem Shapiro-Wilk i Andersona-Darlinga, ponieważ według mojej najlepszej wiedzy są one jednymi z najpotężniejszych spośród testów na normalność. Jakie są bardziej zaawansowane testy, o których mówisz?
Michael R. Chernick,
1
To zależy od tego, jaki rodzaj alternatywy masz. Na przykład w przypadku alternatywnych pochyłości skośność próbki jest często silniejsza niż SW i AD. Te ostatnie są testami zbiorczymi, które są całkiem dobre, ale jeśli wiesz, o jaki rodzaj normalności się martwisz, lepiej jest użyć testu ukierunkowanego (takiego jak przykładowy test skośności, który jest skierowany na alternatywne skośne) .
MånsT
4

Czy zastanawiałeś się nad metodami graficznymi, aby zobaczyć, jak zachowują się dane?

Techniki wykresu prawdopodobieństwa zwykle obejmują uszeregowanie danych, zastosowanie odwrotnego CDF, a następnie wykreślenie wyników na płaszczyźnie kartezjańskiej. Pozwala to zobaczyć, czy kilka wartości odbiega od hipotetycznego rozkładu i ewentualnie wyjaśnia przyczynę tego odchylenia.

Schenectady
źródło