Dlaczego GLM różni się od LM z transformowaną zmienną

16

Jak wyjaśniono w tym podręczniku kursu (strona 1) , model liniowy można zapisać w postaci:

y=β1x1++βpxp+εi,

gdzie jest zmienną odpowiedzi, a jest zmienną objaśniającą .yxiith

Często w celu spełnienia założeń testowych można przekształcić zmienną odpowiedzi. Na przykład, stosujemy funkcję log na każdym . Przekształcanie zmiennej odpowiedzi NIE oznacza robienia GLM.yi

GLM można zapisać w następującej formie ( ponownie z materiałów szkoleniowych (strona 3) )

g(u)=β1x1++βpxp+εi,

gdzie u jest tylko kolejnym symbolem y jak rozumiem ze strony 2 w materiałach szkoleniowych. g() nazywa się funkcją link.

Naprawdę nie rozumiem różnicy między GLM i LM z transformowaną zmienną ze slajdów w trakcie. Czy możesz mi z tym pomóc?

Remi.b
źródło
2
Rozsądne może być rozważenie faktu, że wszystkie transformacje wyniku binarnego są afiniczne, co ograniczyłoby cię do regresji zwykłej najmniejszych kwadratów. Nie jest to oczywiście regresja logistyczna (standardowy GLM dla odpowiedzi binarnych). (Dowód: niech wynikowe wartości będą zakodowane jako i y 1 i niech ϕ będzie dowolną transformacją. Pisanie z 0 = ϕ ( y 0 ) i z 1 = ϕ ( y 1 ) stwierdzamy, że ϕ zgadza się na { yy0y1ϕz0=ϕ(y0)z1=ϕ(y1)ϕ z y λ Y + μ (który jest afiniczne przekształcenie Y ), gdzie λ = ( z 1 - oo 0 ) / ( R 1 - R 0 ) i μ = oo 0 - λ r 0 ).{y0,y1}yλy+μyλ=(z1z0)/(y1y0)μ=z0λy0
whuber

Odpowiedzi:

15

Transformacja odpowiedzi przed regresją liniową polega na:

E(g(Y))β0+β1x1++βpxp

gdzie jest daną funkcją i zakładamy, że g ( Y ) ma dany rozkład (zwykle normalny).gg(Y)

Uogólniony model liniowy robi to:

g(E(Y))β0+β1x1++βpxp

gdzie jest takie samo jak poprzednio, i zakładamy, że Y ma dany rozkład (zwykle nie jest normalny).gY

Hong Ooi
źródło
jakie jest E w twoim równaniu?
user1406647,
1
jest standardowym zapisem oczekiwaną wartością X . E(X)X
Marcus PS
Znalazłem to również pomocne: christoph-scherber.de/content/PDF%20Files/…
Aditya
22

Nie jestem pewien, czy będzie to dla ciebie kompletna odpowiedź, ale może pomóc uwolnić koncepcyjny logjam.

Wygląda na to, że na twoim koncie występują dwa nieporozumienia:

  1. Należy pamiętać, że zwykła regresja metodą najmniejszych kwadratów (OLS - „liniowy”) jest szczególnym przypadkiem uogólnionego modelu liniowego. Zatem, gdy powiesz „[t] ransformowanie zmiennej odpowiedzi NIE oznacza równoważenia robienia GLM”, jest to niepoprawne. Zarówno dopasowanie modelu liniowego, jak i przekształcenie zmiennej odpowiedzi, a następnie dopasowanie modelu liniowego stanowią „wykonanie GLM”.

  2. W standardowym sformułowaniu GLM to, co nazywasz „ ” (co jest często reprezentowane przez μ , ale jest to tylko kwestia preferencji), jest średnim rozkładem odpowiedzi warunkowej w określonym miejscu w przestrzeni współzmiennej (tj. X ). Zatem, kiedy mówisz „gdzie u jest tylko kolejnym symbolem y ”, jest to również niepoprawne. W formule OLS Y jest zmienną losową i / lub y i jest zrealizowaną wartością Y dla jednostki obserwacji / badania i . Oznacza to, że y (bardziej ogólnie) reprezentuje dane , a nie parametr . uμXuyYyiYiy

    (Nie mam zamiaru uporać się z błędami, po prostu podejrzewam, że mogą powodować zamieszanie).

  3. Istnieje również inny aspekt uogólnionego modelu liniowego, o którym nie wspominam. Oznacza to, że określamy rozkład odpowiedzi. W przypadku regresji OLS rozkład odpowiedzi jest gaussowski (normalny), a funkcja łącza jest funkcją tożsamości. W przypadku, powiedzmy, regresji logistycznej (która może być tym, co ludzie myślą najpierw, gdy myślą o GLM), rozkład odpowiedzi to Bernoulli (/ binomial), a funkcja link to logit. Korzystając z transformacji w celu zapewnienia spełnienia założeń dotyczących OLS, często staramy się, aby rozkład odpowiedzi warunkowej był akceptowalnie normalny. Jednak żadna taka transformacja nie sprawi, że rozkład Bernoulliego będzie akceptowalnie normalny.

gung - Przywróć Monikę
źródło