Interpretacja testu Shapiro-Wilka

29

Jestem całkiem nowy w statystyce i potrzebuję twojej pomocy.
Mam małą próbkę, jak następuje:

  H4U
  0.269
  0.357
  0.2
  0.221
  0.275
  0.277
  0.253
  0.127
  0.246

Przeprowadziłem test Shapiro-Wilk przy użyciu R:

shapiro.test(precisionH4U$H4U)

i otrzymałem następujący wynik:

 W = 0.9502, p-value = 0.6921

Teraz, jeśli założę, że poziom istotności na 0,05, niż wartość p jest większa niż alfa (0,6921> 0,05) i nie mogę odrzucić hipotezy zerowej dotyczącej rozkładu normalnego, ale czy mogę powiedzieć, że próbka ma rozkład normalny ?

Dzięki!

Jakub
źródło

Odpowiedzi:

28

Nie - nie można powiedzieć „próbka ma rozkład normalny” lub „próbka pochodzi z populacji, która ma rozkład normalny”, ale tylko „nie można odrzucić hipotezy, że próbka pochodzi z populacji, która ma rozkład normalny”.

W rzeczywistości próbka nie ma rozkładu normalnego (patrz wykres qq poniżej), ale nie można się tego spodziewać, ponieważ jest to tylko próbka. Pytanie o rozkład populacji podstawowej pozostaje otwarte.

qqnorm( c(0.269, 0.357, 0.2, 0.221, 0.275, 0.277, 0.253, 0.127, 0.246) )

qqplot

Henz
źródło
2
qqplot wygląda całkiem normalnie, myślę ... możesz spróbować qqnorm(rnorm(9))kilka razy ...
Curious
2
@Tomas: Być może lepiej powiedzieć „qqplot wygląda tak, jakby mógł pochodzić z normalnej populacji”. Zamiast tego mógł pochodzić z dystrybucji z cięższymi ogonami.
Henry
Tak, qqnorm(runif(9))może dać podobny wynik. Więc właściwie nie możemy nic powiedzieć ...
Curious
jaka jest różnica między „próbką ma rozkład normalny” a „próbka pochodzi z populacji o rozkładzie normalnym”?
auraham
1
Rozkład normalny jest ciągłym rozkładem na wszystkie realia. Próbka (skończona, a nawet licznie nieskończona) nie może sama mieć tego rodzaju rozkładu, nawet jeśli jest pobierana z populacji o takim rozkładzie.
Henry
17

Nie odrzucenie hipotezy zerowej oznacza, że ​​próbka, którą posiadasz, jest zbyt mała, aby wychwycić wszelkie odchylenia od normalności, którą masz - ale twoja próbka jest tak mała, że ​​nawet całkiem znaczne odchylenia od normalności prawdopodobnie nie zostaną wykryte.

Jednak test hipotez jest w większości przypadków nie na miejscu, ponieważ ludzie używają testu normalności, ponieważ - tak naprawdę znasz odpowiedź na pytanie, które testujesz - rozkład populacji z twoich danych nie będzie normalny . (Czasami może być dość blisko, ale w rzeczywistości normalny?)

Pytanie, na które powinieneś zwrócić uwagę, nie brzmi „rozkład, z którego pochodzą one normalne” (nie będzie). Pytanie, na które powinieneś się bardziej przejmować, brzmi bardziej: „czy odchylenie od normalności ma istotny wpływ na moje wyniki?”. Jeśli jest to potencjalnie problem, możesz rozważyć analizę, w której prawdopodobieństwo wystąpienia tego problemu jest mniejsze.

Glen_b - Przywróć Monikę
źródło
10

Biorąc pod uwagę, że jesteś całkiem nowy w statystyce, podejrzewam, że o tym myślisz, ponieważ są to resztki szacunku średniej i chcesz wiedzieć, czy założenie normalności jest ważne dla oszacowań ufności z wykorzystaniem rozkładu .t

t testy są dość odporne na naruszenie tego założenia, dane wyglądają nieco normalnie na wykresie qq Henry'ego, a test Shapiro nie wskazuje, że dane pochodzą z populacji o rozkładzie niestandardowym, więc powiedziałbym, że Test jest odpowiedni.t

Spekuluję dalej, że patrzysz na proporcje, w którym to przypadku możesz zastosować rozkład dwumianowy, jeśli martwisz się naruszeniem założeń.

Jeśli to była inna sprawa, która doprowadziła cię do testów Shapiro, możesz zignorować wszystko, co powiedziałem.

Thomas Levine
źródło
Masz rację, chciałem wiedzieć, czy mogę użyć testu t dla mojej próbki. Dzięki!
Jakub
4

Jak już powiedział Henry, nie można powiedzieć, że to normalne. Spróbuj uruchomić kilka razy następujące polecenie w R:

shapiro.test(runif(9)) 

Spowoduje to przetestowanie próbki 9 liczb z równomiernego rozkładu. Wiele razy wartość p będzie znacznie większa niż 0,05 - co oznacza, że ​​nie można wnioskować, że rozkład jest normalny.

Ciekawy
źródło
4

Zastanawiałem się również, jak poprawnie interpretować wartość W w teście Shapiro-Wilka i zgodnie z artykułem Emila OW KirkegaardaWartości W z testu Shapiro-Wilk wizualizowane przy użyciu różnych zestawów danych ” bardzo trudno jest powiedzieć coś o normalności rozkład patrząc tylko na wartość W.

Jak podsumowuje:

Ogólnie widzimy, że biorąc pod uwagę dużą próbkę, SW jest wrażliwa na odstępstwa od nienormalności. Jeśli odstępstwo jest bardzo małe, nie jest to jednak bardzo ważne.

Widzimy również, że trudno jest obniżyć wartość W, nawet jeśli ktoś celowo próbuje. Trzeba przetestować ekstremalnie nienormalny rozkład, aby mógł spaść znacznie poniżej 0,99.

Zobacz oryginalny artykuł, aby uzyskać więcej informacji.

Denis Rasulev
źródło
1

Ważną kwestią nie wymienioną w poprzedniej odpowiedzi są ograniczenia testu:

Test ma ograniczenia, co najważniejsze, że test ma odchylenie od wielkości próbki . Im większa próbka, tym większe prawdopodobieństwo uzyskania statystycznie istotnego wyniku.

Aby odpowiedzieć na pierwotne pytanie (bardzo mała próbka): zapoznaj się z następującymi artykułami na temat lepszych alternatyw, takich jak wykres QQ i histogram dla tego konkretnego przypadku.

Stenemo
źródło