Zastanawiam się, czy ma to znaczenie w interpretacji, czy transformowane są tylko zmienne zależne, zależne i niezależne, czy tylko zmienne niezależne.
Rozważ przypadek
log(DV) = Intercept + B1*IV + Error
Mogę interpretować IV jako wzrost procentowy, ale jak to się zmienia, kiedy mam
log(DV) = Intercept + B1*log(IV) + Error
lub kiedy mam
DV = Intercept + B1*log(IV) + Error
?
regression
data-transformation
interpretation
regression-coefficients
logarithm
r
dataset
stata
hypothesis-testing
contingency-tables
hypothesis-testing
statistical-significance
standard-deviation
unbiased-estimator
t-distribution
r
functional-data-analysis
maximum-likelihood
bootstrap
regression
change-point
regression
sas
hypothesis-testing
bayesian
randomness
predictive-models
nonparametric
terminology
parametric
correlation
effect-size
loess
mean
pdf
quantile-function
bioinformatics
regression
terminology
r-squared
pdf
maximum
multivariate-analysis
references
data-visualization
r
pca
r
mixed-model
lme4-nlme
distributions
probability
bayesian
prior
anova
chi-squared
binomial
generalized-linear-model
anova
repeated-measures
t-test
post-hoc
clustering
variance
probability
hypothesis-testing
references
binomial
profile-likelihood
self-study
excel
data-transformation
skewness
distributions
statistical-significance
econometrics
spatial
r
regression
anova
spss
linear-model
powyżej
źródło
źródło
Odpowiedzi:
Charlie zapewnia ładne, poprawne wyjaśnienie. Witryna Statistics Computing na UCLA zawiera kilka innych przykładów: http://www.ats.ucla.edu/stat/sas/faq/sas_interpret_log.htm i http://www.ats.ucla.edu/stat/mult_pkg/ faq / general / log_transformed_regression.htm
Aby uzupełnić odpowiedź Charliego, poniżej znajdują się szczegółowe interpretacje twoich przykładów. Jak zawsze, interpretacje współczynników zakładają, że możesz bronić swojego modelu, że diagnostyka regresji jest zadowalająca i że dane pochodzą z ważnego badania.
Przykład A : Brak przekształceń
„Wzrost o jedną jednostkę w IV wiąże się ze (
B1
) wzrostem w jednostce DV”.Przykład B : Przekształcono wynik
„Wzrost IV o jedną jednostkę wiąże się z (
B1 * 100
) procentowym wzrostem DV.”Przykład C : Ekspozycja przekształcona
„Jeden procent wzrostu IV wiąże się ze (
B1 / 100
) wzrostem jednostki DV.”Przykład D : Transformacja wyniku i transformacja ekspozycji
„Jeden procent wzrostu IV wiąże się z (
B1
) procentowym wzrostem DV.”źródło
W modelu log-log zobacz, że Przypomnij, że lub Mnożąc ten ostatni preparat przez 100 daje procentową zmianę . Mamy analogiczne wyniki dla .
Korzystając z tego faktu, możemy zinterpretować jako zmianę procentową dla 1 procentowej zmiany .β1 y x
Zgodnie z tą samą logiką, dla modelu logu poziomu mamy
źródło
Głównym celem regresji liniowej jest oszacowanie średniej różnicy wyników w porównaniu sąsiednich poziomów regresora. Istnieje wiele rodzajów środków. Najbardziej znamy średnią arytmetyczną.
AM jest szacowany przy użyciu OLS i zmiennych nietransformowanych. Średnia geometryczna jest inna:
Praktycznie różnica GM jest różnicą multiplikatywną: płacisz X% premii odsetkowej przy zaciągnięciu pożyczki, poziom hemoglobiny zmniejsza się o X% po rozpoczęciu metforminy, wskaźnik awaryjności sprężyn zwiększa się o X% jako ułamek szerokości. We wszystkich tych przypadkach surowa średnia różnica ma mniej sensu.
Przekształcenie logu szacuje średnią geometryczną różnicę. Jeśli log przekształcenia wyników i model go w regresji liniowej stosując następującą specyfikację wzoru:β1 X eβ1
log(y) ~ x
współczynnik jest średnia różnica w wynikach log porównywanie sąsiednich jednostek . Jest to praktycznie bezużyteczne, dlatego wykładnik parametru interpretujemy jako średnią geometryczną różnicę. X e β 1Na przykład w badaniu miana wirusa HIV po 10 tygodniach podawania ART, możemy oszacować średnią geometryczną prepost . Oznacza to, że niezależnie od początkowego miana wirusa, było ono średnio o 60% niższe lub miało 0,6-krotny spadek w czasie obserwacji. Gdyby obciążenie wynosiło 10 000 w punkcie początkowym, mój model przewidywałby, że będzie to 4000 w czasie obserwacji, gdyby było 1000 w punkcie początkowym, mój model przewidywałby, że będzie to 400 w czasie obserwacji (mniejsza różnica w skali surowej, ale proporcjonalnie to samo).eβ1=0.40
Jest to ważne rozróżnienie od innych odpowiedzi : Konwencja mnożenia współczynnika skali logarytmicznej przez 100 wynika z przybliżenia gdy jest małe. Jeżeli współczynnik (w skali logarytmicznej) to znaczy, a następnie 0,05 , a interpretacja jest: 5% „wzrost” w wyniku dla 1 jednostka „wzrost” w . Jednakże, jeżeli współczynnik wynosi 0,5, a następnie i interpretuje to jako 65% „wzrost” w dla 1 jednostka „wzrost” w . NIE jest to wzrost o 50%.X exp ( 0,05 ) ≈ 1,05 X exp ( 0,5 ) = 1,65 Y Xlog(x)≈1−x X exp(0.05)≈1.05 X exp(0.5)=1.65 Y X
Załóżmy, że log przekształcić predyktorem:x X β1
y ~ log(x, base=2)
. Tutaj interesuje mnie multiplikatywna zmiana a nie surowa różnica. I teraz jestem zainteresowany porównywanie uczestników różniących się 2-krotnie w . Załóżmy na przykład, że jestem zainteresowany pomiarem infekcji (tak / nie) po ekspozycji na patogen przenoszony przez krew w różnych stężeniach przy użyciu modelu ryzyka addytywnego. Model biologiczny może sugerować, że ryzyko wzrasta proporcjonalnie do każdego podwojenia stężenia. Następnie nie przekształcam swojego wyniku, ale szacowany współczynnik jest interpretowany jako różnica ryzyka porównująca grupy narażone na dwukrotne różnice stężeń materiału zakaźnego.X β 1Wreszcie, po
log(y) ~ log(x)
prostu stosuje obie definicje, aby uzyskać mnożnikową różnicę porównującą grupy różniące się mnożnie poziomami narażenia.źródło