Przy dopasowywaniu modelu regresji, co się stanie, jeśli założenia wyników nie zostaną spełnione, w szczególności:
- Co się stanie, jeśli pozostałości nie będą homoscedastyczne? Jeśli reszty wykazują rosnący lub malejący wzór na wykresie Resztki vs. Dopasowany.
- Co się stanie, jeśli reszty nie zostaną normalnie rozłożone i nie przejdą testu Shapiro-Wilka? Test normalności Shapiro-Wilka jest bardzo rygorystycznym testem, a czasem nawet jeśli wykres normalnej jakości wydaje się dość rozsądny, dane nie przejdą testu.
- Co się stanie, jeśli jeden lub więcej predyktorów nie jest normalnie rozłożonych, nie wygląda poprawnie na wykresie Normal-QQ lub jeśli dane nie przejdą testu Shapiro-Wilka?
Rozumiem, że nie ma twardego podziału czarno-białego, że 0,94 ma rację, a 0,95 jest racja, a w pytaniu chcę wiedzieć:
- Co oznacza brak normalności dla modelu, który jest dobrze dopasowany zgodnie z wartością R-Squared. Czy staje się mniej niezawodny, czy całkowicie bezużyteczny?
- W jakim stopniu odchylenie jest dopuszczalne, czy w ogóle jest dopuszczalne?
- Czy po zastosowaniu transformacji danych w celu spełnienia kryteriów normalności model staje się lepszy, jeśli dane są bardziej normalne (wyższa wartość P w teście Shapiro-Wilka, lepiej wygląda na normalnym wykresie QQ), czy jest bezużyteczne (równie dobre lub źle w porównaniu do oryginału), dopóki dane nie przejdą testu normalności?
regression
multiple-regression
error
assumptions
normality-assumption
SpeedBirdNine
źródło
źródło
Odpowiedzi:
Jeśli warunek błędu nie jest homoscedastyczny (używamy reszt jako proxy dla nieobserwowalnego terminu błędu), estymator OLS jest nadal spójny i bezstronny, ale nie jest już najbardziej wydajny w klasie estymatorów liniowych. To estymator GLS cieszy się teraz tą właściwością.
Twierdzenie Gaussa-Markowa nie wymaga normalności. Estymator OLS jest nadal NIEBIESKI, ale bez normalności będziesz miał trudności z wnioskowaniem, tj. Testowaniem hipotez i przedziałami ufności, przynajmniej dla skończonych wielkości próby. Jednak wciąż jest bootstrap.
Asymptotycznie jest to mniejszy problem, ponieważ estymator OLS ma ograniczający rozkład normalny w łagodnych warunkach regularności.
O ile mi wiadomo, predyktory są albo ustalone, albo regresja jest od nich uzależniona. Ogranicza to efekt nienormalności.
R-kwadrat to proporcja wariancji wyjaśniona przez model. Nie wymaga założenia normalności i niezależnie od tego jest miarą dobroci dopasowania. Jeśli jednak chcesz go użyć do częściowego testu F, to zupełnie inna historia.
Masz na myśli odstępstwo od normalności, prawda? To naprawdę zależy od twoich celów, ponieważ, jak powiedziałem, wnioskowanie staje się trudne przy braku normalności, ale nie jest niemożliwe (bootstrap!).
Krótko mówiąc, jeśli masz wszystkie założenia Gaussa-Markowa plus normalność, to estymator OLS jest Najlepszy Bezstronny (BUE), tj. Najbardziej wydajny we wszystkich klasach estymatorów - osiągnięta jest Dolna Granica Cramera-Rao. Jest to oczywiście pożądane, ale to nie koniec świata, jeśli tak się nie stanie. Obowiązują powyższe uwagi.
Jeśli chodzi o transformacje, należy pamiętać, że chociaż rozkład odpowiedzi może być zbliżony do normalności, interpretacja może nie być później prosta.
To tylko kilka krótkich odpowiedzi na twoje pytania. Wydajesz się być szczególnie zaniepokojony implikacjami nienormalności. Ogólnie rzecz biorąc, powiedziałbym, że nie jest to tak katastrofalne, jak ludzie (wmuszono?), I istnieją obejścia. Dwa cytowane przeze mnie odniesienia są dobrym punktem wyjścia do dalszej lektury, z których pierwszy ma charakter teoretyczny.
Referencje :
źródło