Jak wyjaśniono w tym podręczniku kursu (strona 1) , model liniowy można zapisać w postaci:
gdzie jest zmienną odpowiedzi, a jest zmienną objaśniającą .
Często w celu spełnienia założeń testowych można przekształcić zmienną odpowiedzi. Na przykład, stosujemy funkcję log na każdym . Przekształcanie zmiennej odpowiedzi NIE oznacza robienia GLM.
GLM można zapisać w następującej formie ( ponownie z materiałów szkoleniowych (strona 3) )
gdzie jest tylko kolejnym symbolem jak rozumiem ze strony 2 w materiałach szkoleniowych. nazywa się funkcją link.
Naprawdę nie rozumiem różnicy między GLM i LM z transformowaną zmienną ze slajdów w trakcie. Czy możesz mi z tym pomóc?
Odpowiedzi:
Transformacja odpowiedzi przed regresją liniową polega na:
gdzie jest daną funkcją i zakładamy, że g ( Y ) ma dany rozkład (zwykle normalny).g g(Y)
Uogólniony model liniowy robi to:
gdzie jest takie samo jak poprzednio, i zakładamy, że Y ma dany rozkład (zwykle nie jest normalny).g Y
źródło
Nie jestem pewien, czy będzie to dla ciebie kompletna odpowiedź, ale może pomóc uwolnić koncepcyjny logjam.
Wygląda na to, że na twoim koncie występują dwa nieporozumienia:
Należy pamiętać, że zwykła regresja metodą najmniejszych kwadratów (OLS - „liniowy”) jest szczególnym przypadkiem uogólnionego modelu liniowego. Zatem, gdy powiesz „[t] ransformowanie zmiennej odpowiedzi NIE oznacza równoważenia robienia GLM”, jest to niepoprawne. Zarówno dopasowanie modelu liniowego, jak i przekształcenie zmiennej odpowiedzi, a następnie dopasowanie modelu liniowego stanowią „wykonanie GLM”.
W standardowym sformułowaniu GLM to, co nazywasz „ ” (co jest często reprezentowane przez μ , ale jest to tylko kwestia preferencji), jest średnim rozkładem odpowiedzi warunkowej w określonym miejscu w przestrzeni współzmiennej (tj. X ). Zatem, kiedy mówisz „gdzie u jest tylko kolejnym symbolem y ”, jest to również niepoprawne. W formule OLS Y jest zmienną losową i / lub y i jest zrealizowaną wartością Y dla jednostki obserwacji / badania i . Oznacza to, że y (bardziej ogólnie) reprezentuje dane , a nie parametr .u μ X u y Y yi Y i y
(Nie mam zamiaru uporać się z błędami, po prostu podejrzewam, że mogą powodować zamieszanie).
Istnieje również inny aspekt uogólnionego modelu liniowego, o którym nie wspominam. Oznacza to, że określamy rozkład odpowiedzi. W przypadku regresji OLS rozkład odpowiedzi jest gaussowski (normalny), a funkcja łącza jest funkcją tożsamości. W przypadku, powiedzmy, regresji logistycznej (która może być tym, co ludzie myślą najpierw, gdy myślą o GLM), rozkład odpowiedzi to Bernoulli (/ binomial), a funkcja link to logit. Korzystając z transformacji w celu zapewnienia spełnienia założeń dotyczących OLS, często staramy się, aby rozkład odpowiedzi warunkowej był akceptowalnie normalny. Jednak żadna taka transformacja nie sprawi, że rozkład Bernoulliego będzie akceptowalnie normalny.
źródło