Rejestrowałem zmienną zależną, czy mogę używać rozkładu normalnego GLM z funkcją linku LOG?

10

Mam pytanie dotyczące uogólnionych modeli liniowych (GLM). Moja zmienna zależna (DV) jest ciągła i nie jest normalna. Więc logowałem to przekształciłem (wciąż nie jest normalne, ale poprawiłem).

Chcę powiązać DV z dwiema zmiennymi kategorialnymi i jedną ciągłą zmienną zmienną. W tym celu chcę przeprowadzić GLM (używam SPSS), ale nie jestem pewien, jak zdecydować o dystrybucji i funkcji do wyboru.

Przeprowadziłem test nieparametryczny Levene'a i mam jednorodność wariancji, więc jestem skłonny stosować rozkład normalny. Czytałem, że dla regresji liniowej dane nie muszą być normalne, resztki tak. Tak więc wydrukowałem znormalizowane reszty Pearsona i przewidywane wartości dla predyktora liniowego z każdego GLM indywidualnie (normalna funkcja tożsamości GLM i normalna funkcja logu). Przeprowadziłem testy normalności (histogram i Shapiro-Wilk) i wykreśliłem resztki względem przewidywanych wartości (w celu sprawdzenia losowości i wariancji) dla obu osobno. Reszty z funkcji identyfikacji nie są normalne, ale reszty z funkcji dziennika są normalne. Jestem skłonny wybrać normalny z funkcją log log, ponieważ reszty Pearsona są normalnie rozmieszczone.

Więc moje pytania to:

  • Czy mogę używać normalnej dystrybucji GLM z funkcją łącza LOG na DV, który został już przekształcony w log?
  • Czy test jednorodności wariancji jest wystarczający, aby uzasadnić zastosowanie rozkładu normalnego?
  • Czy procedura sprawdzania resztek jest prawidłowa, aby uzasadnić wybór modelu funkcji łącza?

Obraz rozkładu DV po lewej stronie i pozostałości z normalnego GLM z funkcją log log po prawej stronie.

Rozkład DV po lewej i pozostałości z normalnej GLM po prawej

Naukowiec
źródło
Nie jest do końca jasne, co masz na myśli przez to: „ Więc porównałem resztki Pearsona z GLM z normalną funkcją tożsamości i normalną funkcją dziennika.
Glen_b
Dziękuję za Twój komentarz. Miałem na myśli to, że wydrukowałem osobno reszty i przewidywane wartości z każdego GLM (tożsamość i log) i sprawdziłem normalność, i wykreśliłem standaryzowane reszty Pearsona względem przewidywanych wartości dla każdego modelu indywidualnie. Dla funkcji tożsamości reszty nie są normalne, podczas gdy dla funkcji logu reszty są normalne.
Naukowiec
W jaki sposób wykres znormalizowanych reszt Pearsona względem przewidywanych wartości wskazuje, czy dane są rzeczywiście normalne?
Glen_b
Sprawdziłem normalność, wykreślając histogram reszt i przeprowadzając Shapiro-Wilka (P> 0,05 dla funkcji logarytmicznej). Następnie wykreśliłem reszty w stosunku do przewidywanych wartości, aby zobaczyć, czy zostały one losowo rozmieszczone i sprawdzić wariancję. (Przepraszam, że nie powiedziałem ważnych informacji, po raz pierwszy publikuję)
Naukowiec
Wydaje mi się, że „funkcja tożsamości” jest tutaj homofonem dla „funkcji gęstości”.
Nick Cox,

Odpowiedzi:

7

Czy mogę używać normalnej dystrybucji GLM z funkcją łącza LOG na DV, który został już przekształcony w log?

Tak; jeśli założenia są spełnione w tej skali

Czy test jednorodności wariancji jest wystarczający, aby uzasadnić zastosowanie rozkładu normalnego?

Dlaczego równość wariancji miałaby oznaczać normalność?

Czy procedura sprawdzania resztek jest prawidłowa, aby uzasadnić wybór modelu funkcji łącza?

Powinieneś wystrzegać się używania zarówno histogramów, jak i testów dopasowania, aby sprawdzić trafność swoich założeń:

1) Uważaj, używając histogramu do oceny normalności. (Zobacz także tutaj )

Krótko mówiąc, w zależności od czegoś tak prostego, jak niewielka zmiana wyboru szerokości bin, a nawet po prostu lokalizacja granicy bin, można uzyskać całkiem różne wrażenia na temat kształtu danych:

Dwa histogramy reszt

To dwa histogramy tego samego zestawu danych. Używanie kilku różnych szerokości łączy może być przydatne w sprawdzaniu, czy wrażliwość na to wrażliwość.

2) Strzeż się stosowania testów poprawności dopasowania w celu stwierdzenia, że ​​założenie normalności jest uzasadnione. Formalne testy hipotez nie odpowiadają właściwie na pytanie.

np. patrz linki w punkcie 2. tutaj

O wariancji wspomnianej w niektórych artykułach przy użyciu podobnych zestawów danych „ponieważ rozkłady miały homogeniczne wariancje, zastosowano GLM z rozkładem Gaussa”. Jeśli nie jest to poprawne, jak mogę uzasadnić lub zdecydować o dystrybucji?

W normalnych okolicznościach pytanie nie brzmi „czy moje błędy (lub rozkłady warunkowe) są normalne?” - nie będą, nie musimy nawet sprawdzać. Bardziej trafne pytanie brzmi: „jak bardzo obecny poziom nienormalności wpływa na moje wnioski?”

Sugeruję oszacowanie gęstości jądra lub normalny wykres QQ (wykres reszt w porównaniu do normalnych wyników). Jeśli rozkład wygląda na całkiem normalny, nie musisz się martwić. W rzeczywistości, nawet jeśli jest to wyraźnie nienormalne, nadal może nie mieć większego znaczenia, w zależności od tego, co chcesz zrobić (normalne interwały przewidywania naprawdę będą na przykład opierać się na normalności, ale wiele innych rzeczy będzie działać na dużych próbkach )

Co zabawne, przy dużych próbach normalność staje się na ogół coraz mniej istotna (oprócz wspomnianych powyżej PI), ale twoja zdolność do odrzucania normalności staje się coraz większa.

Edycja: kwestia równości wariancji polega na tym, że naprawdę może wpływać na twoje wnioski, nawet przy dużych próbkach. Ale prawdopodobnie nie powinieneś również oceniać tego za pomocą testów hipotez. Niewłaściwe założenie wariancji jest problemem niezależnie od założonego rozkładu.

Czytałem, że skalowane odchylenie powinno wynosić około Np, aby model dobrze pasował, prawda?

Kiedy dopasujesz normalny model, ma on parametr skali, w którym to przypadku twoje skalowane odchylenie będzie wynosić około Np, nawet jeśli twój rozkład nie jest normalny.

Twoim zdaniem normalna dystrybucja z linkiem dziennika jest dobrym wyborem

Wobec ciągłego braku wiedzy o tym, co mierzysz lub do czego używasz wnioskowania, nadal nie mogę ocenić, czy zasugerować inną dystrybucję dla GLM, ani jak ważna może być normalność twoich wniosków.

Jeśli jednak twoje inne założenia są również uzasadnione (należy przynajmniej sprawdzić liniowość i równość wariancji oraz rozważyć potencjalne źródła zależności), to w większości przypadków bardzo wygodnie robiłbym takie rzeczy, jak używanie elementów CI i testowanie współczynników lub kontrastów - w tych resztkach jest tylko niewielkie wrażenie skośności, co, nawet jeśli jest to rzeczywisty efekt, nie powinno mieć istotnego wpływu na tego rodzaju wnioskowanie.

Krótko mówiąc, wszystko powinno być w porządku.

(Podczas gdy inna funkcja dystrybucji i link może być nieco lepsza pod względem dopasowania, to tylko w ograniczonych okolicznościach mogłyby one mieć większy sens).

Glen_b - Przywróć Monikę
źródło
Dzięki jeszcze raz! O wariancji wspomnianej w niektórych artykułach przy użyciu podobnych zestawów danych „ponieważ rozkłady miały homogeniczne wariancje, zastosowano GLM z rozkładem Gaussa”. Jeśli nie jest to poprawne, jak mogę uzasadnić lub zdecydować o dystrybucji? Jeśli chodzi o resztkowy rozkład normalny, oznacza to, że jest bardziej odpowiedni, prawda? Czytałem, że skalowane odchylenie powinno wynosić około Np, aby model dobrze pasował, prawda? Wartość jest taka sama dla obu GLM i wokół Np. Zidentyfikowałem również najbardziej odpowiedni model w modelu, stosując kryteria AIC. Nie jestem pewien, czy o to ci chodziło.
Naukowiec
patrz dyskusja w moich edycjach powyżej
Glen_b
Dzięki @Glen_b za miłe wyjaśnienie. Histogram, który przetestowałem również przy użyciu Shapiro-Wilk, czy to nie wszystko bierze pod uwagę? Narysowałem wykres QQ, oczekiwałem normalnych i Obserwowanych wartości rezydualnych Pearsona, a punkty + - pasują do linii, z wyjątkiem końcówek, gdzie idą nieco w górę. Czy o to ci chodziło? Rozkład reszt wygląda normalnie, więc mogę kontynuować? (nawet jeśli zalogowany DV nie jest normalny) (Wciąż czytam linki, ale chciałem o to zapytać)
Naukowiec
1
ponieważ normalny wykres QQ był normalnie rozłożony dla tego modelu? ”… mógłbym powiedzieć „Wykres QQ dla reszt sugeruje, że założenie normalności jest rozsądne” lub „reszty wydają się dość zbliżone do normalnych”. Jeśli Twoi odbiorcy oczekują testów hipotez, możesz zacytować jeden z nich (ale to nie zmienia faktu, że nie są one szczególnie pomocne). „ Problem z zestawem danych polega na tym, że na histogramie DV ” ... nie ma żadnych założeń dotyczących rozkładu bezwarunkowej DV lub żadnej z IV.
Glen_b
1
Zobacz dodatkową dyskusję na dole mojej odpowiedzi. Przepraszam, nie odpowiedziałem wcześniej, ale spałem. Jeśli chodzi o inne pytanie, powodem, dla którego zadałem pytanie, było to, że oba modele mają większość swoich założeń, a więc prawie cała ta dyskusja jest istotna dla tego pytania - nawet jeśli DV jest inny. Nie jest to dokładnie ta sama sytuacja (a więc powinno być nowe pytanie), ale pytanie to powinno być z niego powiązane, abyś mógł zadawać pytania w kontekście tej dyskusji, na przykład czy istnieją jakieś inne lub dodatkowe kwestie.
Glen_b