Interpretacja predyktora i / lub odpowiedzi transformowanej logarytmicznie

46

Zastanawiam się, czy ma to znaczenie w interpretacji, czy transformowane są tylko zmienne zależne, zależne i niezależne, czy tylko zmienne niezależne.

Rozważ przypadek

log(DV) = Intercept + B1*IV + Error 

Mogę interpretować IV jako wzrost procentowy, ale jak to się zmienia, kiedy mam

log(DV) = Intercept + B1*log(IV) + Error

lub kiedy mam

DV = Intercept + B1*log(IV) + Error

?

powyżej
źródło
1
Mam wrażenie, że interpretacja „wzrostu procentowego” jest nieprawidłowa, ale nie mam wystarczającej wiedzy, aby powiedzieć, dlaczego dokładnie. Mam nadzieję, że ktoś może pomóc ... Poza tym zaleciłbym modelowanie przy użyciu dzienników, jeśli pomagają one lepiej ustanowić relację XY, ale zgłaszają wybrane przykłady tej relacji przy użyciu oryginalnych zmiennych. Zwłaszcza, gdy mamy do czynienia z publicznością, która nie jest zbyt zaawansowana technicznie.
rolando2,
3
@ rolando2: Nie zgadzam się. Jeśli prawidłowy model wymaga transformacji, wówczas poprawna interpretacja zwykle będzie opierać się na współczynnikach z modelu transformowanego. Obowiązkiem badacza jest właściwe przekazanie odbiorcom znaczenia tych współczynników. To dlatego oczywiście dostajemy tak duże pieniądze, że nasze pensje muszą być w pierwszej kolejności przekształcone.
jthetzel,
1
@BigBucks: Spójrz na to w ten sposób. Załóżmy, że twoi odbiorcy nie rozumieją, co masz na myśli, gdy wyjaśnisz, że dla każdej zmiany 1 w logu (podstawa 10) X, Y zmieni się o b. Załóżmy jednak, że potrafią zrozumieć 3 przykłady przy użyciu wartości X 10, 100 i 1000. W tym momencie prawdopodobnie przyjmą nieliniową naturę relacji. Nadal możesz zgłaszać ogólny, oparty na logach b, ale podanie tych przykładów może mieć znaczenie.
rolando2
1
.... Chociaż teraz, kiedy przeczytałem twoje świetne wyjaśnienie poniżej, być może użycie tych „szablonów” może pomóc wielu z nas rozwiązać tego rodzaju problemy w zrozumieniu.
rolando2
1
Czytelnicy tutaj mogą również chcieć przyjrzeć się tym ściśle powiązanym wątkom: Jak interpretować współczynniki przekształcone logarytmicznie w regresji liniowej oraz kiedy-i-dlaczego-dlaczego-przyjąć-log-of-a-rozkład-liczb .
gung - Przywróć Monikę

Odpowiedzi:

42

Charlie zapewnia ładne, poprawne wyjaśnienie. Witryna Statistics Computing na UCLA zawiera kilka innych przykładów: http://www.ats.ucla.edu/stat/sas/faq/sas_interpret_log.htm i http://www.ats.ucla.edu/stat/mult_pkg/ faq / general / log_transformed_regression.htm

Aby uzupełnić odpowiedź Charliego, poniżej znajdują się szczegółowe interpretacje twoich przykładów. Jak zawsze, interpretacje współczynników zakładają, że możesz bronić swojego modelu, że diagnostyka regresji jest zadowalająca i że dane pochodzą z ważnego badania.

Przykład A : Brak przekształceń

DV = Intercept + B1 * IV + Error 

„Wzrost o jedną jednostkę w IV wiąże się ze ( B1) wzrostem w jednostce DV”.

Przykład B : Przekształcono wynik

log(DV) = Intercept + B1 * IV + Error 

„Wzrost IV o jedną jednostkę wiąże się z ( B1 * 100) procentowym wzrostem DV.”

Przykład C : Ekspozycja przekształcona

DV = Intercept + B1 * log(IV) + Error 

„Jeden procent wzrostu IV wiąże się ze ( B1 / 100) wzrostem jednostki DV.”

Przykład D : Transformacja wyniku i transformacja ekspozycji

log(DV) = Intercept + B1 * log(IV) + Error 

„Jeden procent wzrostu IV wiąże się z ( B1) procentowym wzrostem DV.”

jthetzel
źródło
1
Czy te interpretacje zachowują się niezależnie od podstawy logarytmu?
Ayalew A.
Przykład B: Log transformacji wyniku (DV) = Przechwytywanie + B1 * IV + Błąd „Wzrost o jedną jednostkę w IV wiąże się ze wzrostem w DV (B1 * 100) procent W tym przypadku, co zrobić, jeśli chcesz 30 procent Redukcja DV? Dziękujemy za odpowiedź
Antouria,
Więc dziennik DV ~ B1 * (IV) jest dobrym modelem dla ciągłej zmiennej zależnej od zera?
Bakaburg
2
Mogę się mylić. Jeśli log-transformujesz wynik, musisz ponownie potęgować współczynnik, aby znaleźć różnicę multiplikatywną. Interpretacja tego w skali logarytmicznej działa tylko jako przybliżenie, gdy stosunek jest bardzo bliski 1.
AdamO
Linki są zepsute.
Nick Cox
22

W modelu log-log zobacz, że Przypomnij, że lub Mnożąc ten ostatni preparat przez 100 daje procentową zmianę . Mamy analogiczne wyniki dla .

β1=log(y)log(x).
log(y)y=1y
log(y)=yy.
yx

Korzystając z tego faktu, możemy zinterpretować jako zmianę procentową dla 1 procentowej zmiany .β1yx

Zgodnie z tą samą logiką, dla modelu logu poziomu mamy

β1=ylog(x)=100y100×log(x).
lub to zmiana jednostki w dla zmiany .β1/100yx
Charlie
źródło
Nigdy tego nie zrozumiałem. To musi być proste, ale nigdy go nie widziałem ... Czym dokładnie jest i jak przechodzisz odtąd do zmiany procentowej?
log(y)=yy?
B_Miner,
1
Wszystko, co robi ta linia, to pochodna względem i pomnożenie obu stron przez . Mamy . Ta część to zmiana podzielona przez . Pomnożony przez 100, to jest procentową zmianę . log(y)yyyy1y0yyy
Charlie,
7

Głównym celem regresji liniowej jest oszacowanie średniej różnicy wyników w porównaniu sąsiednich poziomów regresora. Istnieje wiele rodzajów środków. Najbardziej znamy średnią arytmetyczną.

AM(X)=(X1+X2++Xn)n

AM jest szacowany przy użyciu OLS i zmiennych nietransformowanych. Średnia geometryczna jest inna:

GM(X)=(X1×X2××Xn)n=exp(AM(log(X))

wprowadź opis zdjęcia tutaj

Praktycznie różnica GM jest różnicą multiplikatywną: płacisz X% premii odsetkowej przy zaciągnięciu pożyczki, poziom hemoglobiny zmniejsza się o X% po rozpoczęciu metforminy, wskaźnik awaryjności sprężyn zwiększa się o X% jako ułamek szerokości. We wszystkich tych przypadkach surowa średnia różnica ma mniej sensu.

Przekształcenie logu szacuje średnią geometryczną różnicę. Jeśli log przekształcenia wyników i model go w regresji liniowej stosując następującą specyfikację wzoru: log(y) ~ xwspółczynnik jest średnia różnica w wynikach log porównywanie sąsiednich jednostek . Jest to praktycznie bezużyteczne, dlatego wykładnik parametru interpretujemy jako średnią geometryczną różnicę. X e β 1β1Xeβ1

Na przykład w badaniu miana wirusa HIV po 10 tygodniach podawania ART, możemy oszacować średnią geometryczną prepost . Oznacza to, że niezależnie od początkowego miana wirusa, było ono średnio o 60% niższe lub miało 0,6-krotny spadek w czasie obserwacji. Gdyby obciążenie wynosiło 10 000 w punkcie początkowym, mój model przewidywałby, że będzie to 4000 w czasie obserwacji, gdyby było 1000 w punkcie początkowym, mój model przewidywałby, że będzie to 400 w czasie obserwacji (mniejsza różnica w skali surowej, ale proporcjonalnie to samo).eβ1=0.40

Jest to ważne rozróżnienie od innych odpowiedzi : Konwencja mnożenia współczynnika skali logarytmicznej przez 100 wynika z przybliżenia gdy jest małe. Jeżeli współczynnik (w skali logarytmicznej) to znaczy, a następnie 0,05 , a interpretacja jest: 5% „wzrost” w wyniku dla 1 jednostka „wzrost” w . Jednakże, jeżeli współczynnik wynosi 0,5, a następnie i interpretuje to jako 65% „wzrost” w dla 1 jednostka „wzrost” w . NIE jest to wzrost o 50%.X exp ( 0,05 ) 1,05 X exp ( 0,5 ) = 1,65 Y Xlog(x)1xXexp(0.05)1.05Xexp(0.5)=1.65YX

Załóżmy, że log przekształcić predyktorem: y ~ log(x, base=2). Tutaj interesuje mnie multiplikatywna zmiana a nie surowa różnica. I teraz jestem zainteresowany porównywanie uczestników różniących się 2-krotnie w . Załóżmy na przykład, że jestem zainteresowany pomiarem infekcji (tak / nie) po ekspozycji na patogen przenoszony przez krew w różnych stężeniach przy użyciu modelu ryzyka addytywnego. Model biologiczny może sugerować, że ryzyko wzrasta proporcjonalnie do każdego podwojenia stężenia. Następnie nie przekształcam swojego wyniku, ale szacowany współczynnik jest interpretowany jako różnica ryzyka porównująca grupy narażone na dwukrotne różnice stężeń materiału zakaźnego.X β 1xXβ1

Wreszcie, po log(y) ~ log(x)prostu stosuje obie definicje, aby uzyskać mnożnikową różnicę porównującą grupy różniące się mnożnie poziomami narażenia.

AdamO
źródło