Test Sharipo-Wilka, według wikipedii , testuje hipotezę zerową ( ) „Populacja jest normalnie rozmieszczona”.
Szukam podobnego testu normalności z „Populacja nie jest normalnie rozmieszczona”.
Po takim teście chcę obliczyć wartość aby odrzucić na poziomie istotności iff ; udowadniając, że moja populacja jest normalnie podzielona.
Należy pamiętać, że użycie testu Sharipo-Wilk i zaakceptowanie iff jest niepoprawnym podejściem, ponieważ dosłownie oznacza „nie mamy wystarczających dowodów, aby udowodnić, że H0 się nie utrzymuje”.
Podobne wątki - rozumieniu -value , jest normalność testowania bezużyteczne? , ale nie widzę rozwiązania mojego problemu.
Pytania: Którego testu powinienem użyć? Czy to jest zaimplementowane w R?
Odpowiedzi:
Nie ma czegoś takiego jak test, że twoje dane są zwykle dystrybuowane. Są tylko testy, że twoje dane nie są normalnie dystrybuowane. Istnieją więc testy takie jak Shapiro-Wilk, w których (istnieje wiele innych), ale nie ma testów, w których wartość zerowa oznacza, że populacja nie jest normalna, a alternatywną hipotezą jest, że populacja jest normalna.H0:normal
Wszystko, co możesz zrobić, to dowiedzieć się, jakiego rodzaju odchylenie od normalności jest dla ciebie ważne (np. Skośność) i jak duże to odchylenie musiałoby być, zanim cię to niepokoi. Następnie możesz sprawdzić, czy odchylenie od idealnej normalności w danych jest mniejsze niż wartość krytyczna. Aby uzyskać więcej informacji na temat ogólnego pomysłu, pomocne może być przeczytanie mojej odpowiedzi tutaj: dlaczego statystycy twierdzą, że nieistotny wynik oznacza „nie można odrzucić wartości zerowej” w przeciwieństwie do przyjęcia hipotezy zerowej?
źródło
Rozkład normalny powstaje, gdy dane są generowane przez serię addytywnych zdarzeń ididalnych (patrz obrazek quincunx poniżej). Oznacza to brak sprzężeń zwrotnych i korelacji, czy to brzmi jak proces prowadzący twoje dane? Jeśli nie, prawdopodobnie nie jest to normalne.
Istnieje prawdopodobieństwo, że w twoim przypadku może wystąpić taki proces. Najbliżej „udowadniania” jest zebranie wystarczającej ilości danych, aby wykluczyć wszelkie inne dystrybucje, które ludzie mogą wymyślić (co prawdopodobnie nie jest praktyczne). Innym sposobem jest wydedukowanie rozkładu normalnego z pewnej teorii wraz z innymi przewidywaniami. Jeśli dane są zgodne z wszystkimi z nich i nikt nie może wymyślić innego wyjaśnienia, byłby to dobry dowód na korzyść normalnego rozkładu.
https://en.wikipedia.org/wiki/Bean_machine
Teraz, jeśli nie spodziewasz się żadnej konkretnej dystrybucji a priori, nadal rozsądne może być użycie normalnej dystrybucji do podsumowania danych, ale zauważ, że jest to zasadniczo wybór wynikający z niewiedzy ( https://en.wikipedia.org/wiki/ Principle_of_maximum_entropy ). W takim przypadku nie chcesz wiedzieć, czy populacja jest normalnie podzielona, a raczej chcesz wiedzieć, czy rozkład normalny jest rozsądnym przybliżeniem dla każdego następnego kroku.
W takim przypadku powinieneś podać swoje dane (lub wygenerowane dane, które są podobne) wraz z opisem tego, co zamierzasz z nimi zrobić, a następnie zapytać: „W jaki sposób zakładanie normalności w tym przypadku może mnie wprowadzić w błąd?”
źródło
Nigdy nie będziesz w stanie „udowodnić” założenia normalności w swoich danych. Podaj tylko dowody przeciwko temu jako założenie. Test Shapiro-Wilka jest jednym ze sposobów, aby to zrobić i jest wykorzystywany przez cały czas, aby uzasadnić założenie Normalności. Powodem jest to, że zaczynasz od założenia Normalności. Następnie pytasz, czy moje dane sugerują, że przyjmuję głupie założenie? Więc śmiało i przetestuj to z Shapiro-Wilk. Jeśli nie odrzucisz hipotezy zerowej, dane nie sugerują, że przyjmujesz głupie założenie.
Zauważ, że ludzie używają tej podobnej logiki przez cały czas w praktyce - nie tylko w kontekście testu Shapiro-Wilka. Chcą zastosować regresję liniową, spojrzeć na wykres punktowy i sprawdzić, czy regresja liniowa jest głupim pomysłem. Lub zakładają heteroscedastyczność i błędy w wykreśleniu, aby sprawdzić, czy to głupi pomysł.Y,X
źródło