Testowanie dużego zestawu danych pod kątem normalności - jak i czy jest wiarygodny?

12

Badam część mojego zestawu danych zawierającą 46840 podwójnych wartości od 1 do 1690 pogrupowanych w dwie grupy. Aby przeanalizować różnice między tymi grupami, zacząłem od zbadania rozkładu wartości w celu wybrania właściwego testu.

Po poradniku na temat testowania normalności zrobiłem qqplot, histogram i boxplot.

wprowadź opis zdjęcia tutaj

wprowadź opis zdjęcia tutaj wprowadź opis zdjęcia tutaj

To nie wydaje się być normalnym rozkładem. Ponieważ przewodnik stwierdza dość poprawnie, że czysto graficzne badanie nie jest wystarczające, chcę również przetestować rozkład pod kątem normalności.

Biorąc pod uwagę rozmiar zestawu danych i ograniczenie testu Shapiro-Wilksa w R, w jaki sposób dany rozkład powinien być testowany pod kątem normalności i biorąc pod uwagę rozmiar zestawu danych, czy jest to w ogóle wiarygodne? ( Zobacz zaakceptowaną odpowiedź na to pytanie )

Edytować:

Ograniczeniem testu Shapiro-Wilka, o którym mówię, jest to, że testowany zestaw danych jest ograniczony do 5000 punktów. Cytując kolejną dobrą odpowiedź dotyczącą tego tematu:

Dodatkowym problemem związanym z testem Shapiro-Wilka jest to, że gdy podajesz mu więcej danych, szanse na odrzucenie hipotezy zerowej stają się większe. Tak więc dzieje się tak, że w przypadku dużych ilości danych można wykryć nawet bardzo małe odchylenia od normalności, co prowadzi do odrzucenia hipotezy zerowej, chociaż ze względów praktycznych dane są więcej niż normalne.

[...] Na szczęście shapiro.test chroni użytkownika przed wyżej opisanym efektem, ograniczając rozmiar danych do 5000.

Co do tego, dlaczego przede wszystkim testuję normalną dystrybucję:

Niektóre testy hipotez zakładają normalny rozkład danych. Chcę wiedzieć, czy mogę korzystać z tych testów.

deemel
źródło
11
Nie ma sensu testować; każdy test jakiegokolwiek zastosowania, każdy rozsądny poziom istotności zostanie wyraźnie odrzucony. Jakikolwiek przewodnik, który czytasz, wprowadził cię w błąd. Co dokładnie rozumiesz przez „niezawodne”. Do jakiego „ograniczenia” Shapiro-Wilk się odwołujesz? Niemal zgodziłbym się ze stwierdzeniem zawartym w odpowiedzi na link do… „Nigdy nie spotkałem się z sytuacją, w której normalny test jest właściwym rozwiązaniem” (przynajmniej raz widziałem sytuację, w której myślę, że słuszna rzecz, ale ludzie prawie zawsze robią to z złych powodów).
Glen_b
@Glen_b: nawiasem mówiąc, przyłapałem się na użyciu Shapiro – Wilka innego dnia w celu oceny ilościowej dowodów na wartość zerową, którą ktoś z Academii błędnie uznał za lepszy niż na podstawie próby ocen. Zastanawiam się, czy było to możliwe do obrony.
Nick Stauner
@NickStauner moja odpowiedź urosła o wiele za długo dla jednego komentarza i nie chcę przejmować tego pytania ciągiem komentarzy na temat twojego postu. Możliwości: Rozmawiamy na czacie lub zadajesz pytanie na ten temat (na które mógłbym udzielić obszernej odpowiedzi) lub omawiamy to w inny sposób, na przykład przez e-mail.
Glen_b

Odpowiedzi:

14

Nie rozumiem, czemu zawracasz sobie głowę. To po prostu nie jest normalne - w tym przypadku badanie graficzne wydaje mi się wystarczające. Masz wiele obserwacji z tego, co wydaje się być ładnym, czystym rozkładem gamma. Po prostu idź z tym. to, jeśli musisz - polecam dystrybucję referencyjną.

x=rgamma(46840,2.13,.0085);qqnorm(x);qqline(x,col='red')
wprowadź opis zdjęcia tutaj

hist(rgamma(46840,2.13,.0085))

boxplot(rgamma(46840,2.13,.0085))

1.45.92.9

Nick Stauner
źródło