„Odwrócony” Shapiro – Wilk

11

Test Sharipo-Wilka, według wikipedii , testuje hipotezę zerową ( ) „Populacja jest normalnie rozmieszczona”.H0

Szukam podobnego testu normalności z H0 „Populacja nie jest normalnie rozmieszczona”.

Po takim teście chcę obliczyć wartość p aby odrzucić H0 na poziomie istotności α iff p<α ; udowadniając, że moja populacja jest normalnie podzielona.

Należy pamiętać, że użycie testu Sharipo-Wilk i zaakceptowanie H0 iff p>α jest niepoprawnym podejściem, ponieważ dosłownie oznacza „nie mamy wystarczających dowodów, aby udowodnić, że H0 się nie utrzymuje”.

Podobne wątki - rozumieniu p -value , jest normalność testowania bezużyteczne? , ale nie widzę rozwiązania mojego problemu.

Pytania: Którego testu powinienem użyć? Czy to jest zaimplementowane w R?

petrbel
źródło
6
Hipoteza zerowa „normalnie dystrybuowana” nie jest użyteczna. Ta przestrzeń obejmowałaby wszystkie dystrybucje arbitralnie zbliżone do normalnych, ale niezupełnie. Dajesz mi skończony zestaw danych. Wybieram rozkład empiryczny, który nie jest normalny i dlatego należy do przestrzeni zerowej. Nie można odrzucić.
A. Webb
5
To pytanie, które jest takie samo jak poprzednie, dotyczy niemożliwego. Prawidłowa odpowiedź wyjaśniłaby, jak działają testy hipotez statystycznych, dlatego w komentarzu do drugiego pytania wskazałam stats.stackexchange.com/questions/31 .
whuber
5
Podczas gdy hipoteza zerowa „nie rozkłada się normalnie” jest niemożliwa, hipoteza zerowa „jest rozkładana z bezwzględnymi wartościami normalnej statystyki dobroci dopasowania, która jest co najmniej tak różna jak ” wzdłuż linii testu równoważności, wydaje się uzasadniona. Innymi słowy, należy być w stanie przetestować pod kątem zerowego „nienormalnego przynajmniej o tyle ”. @gung dokładnie to zasugerował w swojej odpowiedzi. ε
Alexis

Odpowiedzi:

10

Nie ma czegoś takiego jak test, że twoje dane zwykle dystrybuowane. Są tylko testy, że twoje dane nie są normalnie dystrybuowane. Istnieją więc testy takie jak Shapiro-Wilk, w których (istnieje wiele innych), ale nie ma testów, w których wartość zerowa oznacza, że ​​populacja nie jest normalna, a alternatywną hipotezą jest, że populacja jest normalna. H0:normal

Wszystko, co możesz zrobić, to dowiedzieć się, jakiego rodzaju odchylenie od normalności jest dla ciebie ważne (np. Skośność) i jak duże to odchylenie musiałoby być, zanim cię to niepokoi. Następnie możesz sprawdzić, czy odchylenie od idealnej normalności w danych jest mniejsze niż wartość krytyczna. Aby uzyskać więcej informacji na temat ogólnego pomysłu, pomocne może być przeczytanie mojej odpowiedzi tutaj: dlaczego statystycy twierdzą, że nieistotny wynik oznacza „nie można odrzucić wartości zerowej” w przeciwieństwie do przyjęcia hipotezy zerowej?

gung - Przywróć Monikę
źródło
5

Chcę obliczyć wartość p, aby odrzucić H0 na poziomie istotności α iff p <α; udowadniając, że moja populacja jest normalnie podzielona.

Rozkład normalny powstaje, gdy dane są generowane przez serię addytywnych zdarzeń ididalnych (patrz obrazek quincunx poniżej). Oznacza to brak sprzężeń zwrotnych i korelacji, czy to brzmi jak proces prowadzący twoje dane? Jeśli nie, prawdopodobnie nie jest to normalne.

Istnieje prawdopodobieństwo, że w twoim przypadku może wystąpić taki proces. Najbliżej „udowadniania” jest zebranie wystarczającej ilości danych, aby wykluczyć wszelkie inne dystrybucje, które ludzie mogą wymyślić (co prawdopodobnie nie jest praktyczne). Innym sposobem jest wydedukowanie rozkładu normalnego z pewnej teorii wraz z innymi przewidywaniami. Jeśli dane są zgodne z wszystkimi z nich i nikt nie może wymyślić innego wyjaśnienia, byłby to dobry dowód na korzyść normalnego rozkładu.

https://upload.wikimedia.org/wikipedia/commons/7/7f/Quincunx_%28Galton_Box%29_-_Galton_1889_diagram.png https://en.wikipedia.org/wiki/Bean_machine

Teraz, jeśli nie spodziewasz się żadnej konkretnej dystrybucji a priori, nadal rozsądne może być użycie normalnej dystrybucji do podsumowania danych, ale zauważ, że jest to zasadniczo wybór wynikający z niewiedzy ( https://en.wikipedia.org/wiki/ Principle_of_maximum_entropy ). W takim przypadku nie chcesz wiedzieć, czy populacja jest normalnie podzielona, ​​a raczej chcesz wiedzieć, czy rozkład normalny jest rozsądnym przybliżeniem dla każdego następnego kroku.

W takim przypadku powinieneś podać swoje dane (lub wygenerowane dane, które są podobne) wraz z opisem tego, co zamierzasz z nimi zrobić, a następnie zapytać: „W jaki sposób zakładanie normalności w tym przypadku może mnie wprowadzić w błąd?”

Wściekły
źródło
Wiem, że dane są normalne (niezależny pomiar na niezależnych komputerach), jednak muszę przyjąć pewne założenie do mojej pracy magisterskiej .. dziękuję za wyjaśnienie i przykład :)
petrbel
1
Nawiasem mówiąc, Krieger przedstawił uroczą krytykę dotyczącą zastosowania Quincunx Galtona w Krieger, N. (2012). Kto i czym jest „populacja”? historyczne debaty, aktualne kontrowersje i implikacje dla zrozumienia „zdrowia populacji” i niwelowania nierówności zdrowotnych. The Milbank Quarterly , 90 (4): 634–681.
Alexis,
@petrbel Ta sytuacja subtelnie różni się od opisanej powyżej. Możesz opracować quincunx, w którym każda obserwacja ma tę samą wartość, ale proces generujący dane nie. Zobacz tutaj log-normalny przykład: LIMPERT i in. Log-normalne rozkłady między naukami: klucze i wskazówki. Maj 2001 / t. 51 nr 5. BioScience.
Livid
1
@Alexis Widzę, że Krieger (2012) odtwarza postać z Limpert i in. (2001) i zwraca uwagę na petrbel: „zmiana struktury może zmienić prawdopodobieństwo wyniku, nawet dla identycznych obiektów, tworząc w ten sposób różne rozkłady populacji”.
Livid
2

Nigdy nie będziesz w stanie „udowodnić” założenia normalności w swoich danych. Podaj tylko dowody przeciwko temu jako założenie. Test Shapiro-Wilka jest jednym ze sposobów, aby to zrobić i jest wykorzystywany przez cały czas, aby uzasadnić założenie Normalności. Powodem jest to, że zaczynasz od założenia Normalności. Następnie pytasz, czy moje dane sugerują, że przyjmuję głupie założenie? Więc śmiało i przetestuj to z Shapiro-Wilk. Jeśli nie odrzucisz hipotezy zerowej, dane nie sugerują, że przyjmujesz głupie założenie.

Zauważ, że ludzie używają tej podobnej logiki przez cały czas w praktyce - nie tylko w kontekście testu Shapiro-Wilka. Chcą zastosować regresję liniową, spojrzeć na wykres punktowy i sprawdzić, czy regresja liniowa jest głupim pomysłem. Lub zakładają heteroscedastyczność i błędy w wykreśleniu, aby sprawdzić, czy to głupi pomysł.Y,X

TrynnaDoStat
źródło
Praktyka, którą opisujesz, jest dokładnie niewłaściwym podejściem, o którym wspomniał Petrbel. Testy są zwykle spójne, więc im większy rozmiar próbki, tym większe prawdopodobieństwo, że założenie o normalności będzie głupim pomysłem. To samo jest głupie, ponieważ przy większych rozmiarach próby założenie o normalności jest mniej krytyczne ze względu na asymptotyczną solidność większości procedur.
Horst Grünbusch,
@ HorstGrünbusch Czy nie zgadzasz się, że test Shapiro-Wilka jest prawidłowym sposobem sprawdzenia, czy dane są prawidłowe?
TrynnaDoStat
Jeśli zgodzisz się, że jest to prawidłowe podejście, nie jestem pewien, z czym się nie zgadzasz w mojej odpowiedzi.
TrynnaDoStat
No. Zobacz argumenty tutaj: stats.stackexchange.com/questions/2492/... . Ponadto nie można testować hipotezy zerowej, że dwie próbki mają tę samą wariancję, i stosować test Satterthwaite tylko wtedy, gdy wariancje są znacząco różne, a także test t dla próbek homoskedastycznych. Po prostu symuluj tę złożoną procedurę samodzielnie: możesz uzyskać wskaźniki błędów typu I do . 2α
Horst Grünbusch
@ HorstGrünbusch Wygląda na to, że twój problem z moją odpowiedzią ma związek z ogólną ideą testowania hipotez. W szczególności fakt, że w wielu sytuacjach testy hipotez odrzucą wartość zerową z prawdopodobieństwem 1, gdy wielkość próby zbliża się do nieskończoności.
TrynnaDoStat