Mam pytanie dotyczące uogólnionych modeli liniowych (GLM). Moja zmienna zależna (DV) jest ciągła i nie jest normalna. Więc logowałem to przekształciłem (wciąż nie jest normalne, ale poprawiłem).
Chcę powiązać DV z dwiema zmiennymi kategorialnymi i jedną ciągłą zmienną zmienną. W tym celu chcę przeprowadzić GLM (używam SPSS), ale nie jestem pewien, jak zdecydować o dystrybucji i funkcji do wyboru.
Przeprowadziłem test nieparametryczny Levene'a i mam jednorodność wariancji, więc jestem skłonny stosować rozkład normalny. Czytałem, że dla regresji liniowej dane nie muszą być normalne, resztki tak. Tak więc wydrukowałem znormalizowane reszty Pearsona i przewidywane wartości dla predyktora liniowego z każdego GLM indywidualnie (normalna funkcja tożsamości GLM i normalna funkcja logu). Przeprowadziłem testy normalności (histogram i Shapiro-Wilk) i wykreśliłem resztki względem przewidywanych wartości (w celu sprawdzenia losowości i wariancji) dla obu osobno. Reszty z funkcji identyfikacji nie są normalne, ale reszty z funkcji dziennika są normalne. Jestem skłonny wybrać normalny z funkcją log log, ponieważ reszty Pearsona są normalnie rozmieszczone.
Więc moje pytania to:
- Czy mogę używać normalnej dystrybucji GLM z funkcją łącza LOG na DV, który został już przekształcony w log?
- Czy test jednorodności wariancji jest wystarczający, aby uzasadnić zastosowanie rozkładu normalnego?
- Czy procedura sprawdzania resztek jest prawidłowa, aby uzasadnić wybór modelu funkcji łącza?
Obraz rozkładu DV po lewej stronie i pozostałości z normalnego GLM z funkcją log log po prawej stronie.
źródło
Odpowiedzi:
Tak; jeśli założenia są spełnione w tej skali
Dlaczego równość wariancji miałaby oznaczać normalność?
Powinieneś wystrzegać się używania zarówno histogramów, jak i testów dopasowania, aby sprawdzić trafność swoich założeń:
1) Uważaj, używając histogramu do oceny normalności. (Zobacz także tutaj )
Krótko mówiąc, w zależności od czegoś tak prostego, jak niewielka zmiana wyboru szerokości bin, a nawet po prostu lokalizacja granicy bin, można uzyskać całkiem różne wrażenia na temat kształtu danych:
To dwa histogramy tego samego zestawu danych. Używanie kilku różnych szerokości łączy może być przydatne w sprawdzaniu, czy wrażliwość na to wrażliwość.
2) Strzeż się stosowania testów poprawności dopasowania w celu stwierdzenia, że założenie normalności jest uzasadnione. Formalne testy hipotez nie odpowiadają właściwie na pytanie.
np. patrz linki w punkcie 2. tutaj
W normalnych okolicznościach pytanie nie brzmi „czy moje błędy (lub rozkłady warunkowe) są normalne?” - nie będą, nie musimy nawet sprawdzać. Bardziej trafne pytanie brzmi: „jak bardzo obecny poziom nienormalności wpływa na moje wnioski?”
Sugeruję oszacowanie gęstości jądra lub normalny wykres QQ (wykres reszt w porównaniu do normalnych wyników). Jeśli rozkład wygląda na całkiem normalny, nie musisz się martwić. W rzeczywistości, nawet jeśli jest to wyraźnie nienormalne, nadal może nie mieć większego znaczenia, w zależności od tego, co chcesz zrobić (normalne interwały przewidywania naprawdę będą na przykład opierać się na normalności, ale wiele innych rzeczy będzie działać na dużych próbkach )
Co zabawne, przy dużych próbach normalność staje się na ogół coraz mniej istotna (oprócz wspomnianych powyżej PI), ale twoja zdolność do odrzucania normalności staje się coraz większa.
Edycja: kwestia równości wariancji polega na tym, że naprawdę może wpływać na twoje wnioski, nawet przy dużych próbkach. Ale prawdopodobnie nie powinieneś również oceniać tego za pomocą testów hipotez. Niewłaściwe założenie wariancji jest problemem niezależnie od założonego rozkładu.
Kiedy dopasujesz normalny model, ma on parametr skali, w którym to przypadku twoje skalowane odchylenie będzie wynosić około Np, nawet jeśli twój rozkład nie jest normalny.
Wobec ciągłego braku wiedzy o tym, co mierzysz lub do czego używasz wnioskowania, nadal nie mogę ocenić, czy zasugerować inną dystrybucję dla GLM, ani jak ważna może być normalność twoich wniosków.
Jeśli jednak twoje inne założenia są również uzasadnione (należy przynajmniej sprawdzić liniowość i równość wariancji oraz rozważyć potencjalne źródła zależności), to w większości przypadków bardzo wygodnie robiłbym takie rzeczy, jak używanie elementów CI i testowanie współczynników lub kontrastów - w tych resztkach jest tylko niewielkie wrażenie skośności, co, nawet jeśli jest to rzeczywisty efekt, nie powinno mieć istotnego wpływu na tego rodzaju wnioskowanie.
Krótko mówiąc, wszystko powinno być w porządku.
(Podczas gdy inna funkcja dystrybucji i link może być nieco lepsza pod względem dopasowania, to tylko w ograniczonych okolicznościach mogłyby one mieć większy sens).
źródło