Jak interpretować współczynniki przekształcone logarytmicznie w regresji liniowej?

10

Moja sytuacja to:

Mam 1 zmienną ciągłą zależną i 1 ciągłą zmienną predykcyjną, którą przekształciłem logarytmicznie, aby znormalizować ich reszty dla prostej regresji liniowej.

Byłbym wdzięczny za wszelką pomoc dotyczącą powiązania tych zmienionych zmiennych z ich pierwotnym kontekstem.

Chcę użyć regresji liniowej, aby przewidzieć liczbę dni, w których uczniowie opuścili szkołę w 2011 r., Na podstawie liczby dni, które opuścili w 2010 r. Większość uczniów opuściło 0 dni lub zaledwie kilka dni, dane są przesunięte w lewo. Dlatego istnieje potrzeba transformacji, aby zastosować regresję liniową.

Użyłem log10 (var + 1) dla obu zmiennych (użyłem +1 dla uczniów, którzy opuścili 0-dniową szkołę). Używam regresji, ponieważ chcę dodać czynniki kategoryczne - płeć / pochodzenie etniczne itp.

Mój problem to:

Odbiorcy, którym chcę przekazać informacje, nie zrozumieliby log10 (y) = log (stała) + log (var2) x (i szczerze mówiąc, ja też nie).

Moje pytania to:

a) Czy istnieją lepsze sposoby interpretacji transformowanych zmiennych w regresji? Tj. Na zawsze 1 dzień pominięty w 2010 r. Będą brakować 2 dni w 2011 r. W przeciwieństwie do kiedykolwiek 1 zmiany jednostki logu w 2010 r., Nastąpi zmiana x jednostek logów w 2011 roku?

b) W szczególności, biorąc pod uwagę cytowany fragment z tego źródła, jak następuje:

„Jest to oszacowanie ujemnej regresji dwumianowej dla jednostronnego wzrostu standardowego wyniku testu matematycznego, biorąc pod uwagę, że pozostałe zmienne są utrzymywane na stałym poziomie w modelu. Jeśli student miałby zwiększyć swój wynik testu matematycznego o jeden punkt, różnica w logach spodziewane liczby będą się zmniejszać o 0,0016 jednostki, utrzymując pozostałe zmienne w modelu jako stałe.

Chciałbym wiedzieć:

Czy ten fragment mówi, że dla każdej jednostki wzrost wyniku UNTRANSFORMEDzmiennej matematyki prowadzi do 0,0016 spadku od stałej (a), więc jeśli UNTRANSFORMEDwynik matematyki wzrośnie o dwa punkty, odejmuję 0,0016 * 2 od stałej a?
Czy to oznacza, że otrzymuję średnią geometryczną za pomocą wykładniczej (a)) i wykładniczej (a + beta * 2) i że muszę obliczyć różnicę procentową między tymi dwoma, aby powiedzieć, jaki wpływ mają zmienne predyktorowe / masz zmienną zależną?
Czy też całkowicie się pomyliłem?

Używam SPSS v20. Przepraszamy za kadrowanie tego w długim pytaniu.

regression data-transformation regression-coefficients logarithm JimBob
źródło

8

Czy zamiast tego pomyślałeś o użyciu regresji Poissona? Jest to naturalnie wskazywane przez zależne dane zliczania, a Twój sukces z transformacją dziennika jest zgodny z rozkładami Poissona. Współczynniki będą interpretowane w kategoriach proporcjonalnego wzrostu oczekiwanego prawdopodobieństwa pominięcia dnia w szkole. Jedną z zalet jest to, że nie jest wymagane specjalne traktowanie zer (chociaż nadal bardzo dobrym pomysłem jest spojrzenie na alternatywny model z zerowym napełnieniem).

whuber

Cześć Whuber, Tak, myślałem o regresji Poissona, ale nie byłem tego pewien lub zdecydowałem się na regresję dwumianową. Myślę, że dwumian ujemny, ponieważ dane są rozproszone - tzn. Średnia jest niższa niż wariancja w zbiorze danych (stąd dodatnie pochylenie). Ponadto, ściśle, istnieje górna granica liczby sesji szkolnych w roku, podczas gdy Poisson przyjmuje nieograniczony mianownik? Czy nadal uważasz, że Poisson jest bardziej odpowiedni? Niestety SPSS nie obsługuje modeli z napompowaniem zerowym, o ile widziałem ...) Dzięki Whuber :)

JimBob

3

Nie widzę problemu z nieograniczoną obsługą rozkładów Poissona: jest podobny do używania rozkładów normalnych do modelowania, powiedzmy, wartości, które muszą być nieujemne. Pod warunkiem, że szanse związane z niemożliwymi wartościami są niewielkie, może to być dobry model. Ujemny dwumian jest standardową alternatywą dla Poissona używaną do testowania dobroci dopasowania i nadmiernej dyspersji; to dobry pomysł. Jeśli SPSS jest zbyt ograniczony, użyj czegoś innego! ( Rzawiera pakiety dla modeli z zerowym napełnieniem; przeszukaj tę stronę .)

whuber

2

Zgadzam się z @whuber Myślę, że prawdopodobnie chcesz model ZIP lub ZINB. Dodam tylko, że są one również dostępne w SAS za pośrednictwem PROC COUNTREG (w ETS) i, poczynając od SAS 9.2, w PROC GENMOD (w STAT)

Peter Flom

2

Jest bardzo dobry informacji na stats.stackexchange.com/questions/18480/... .

rolando2

7

Myślę, że ważniejszy punkt zasugerowano w komentarzu @ whuber. Całe twoje podejście jest błędne, ponieważ biorąc logarytmy, skutecznie wyrzucasz z zestawu danych uczniów, którym brakowało brakujących dni w 2010 lub 2011 roku. Wygląda na to, że tych ludzi jest wystarczająco dużo, aby stanowić problem, i jestem pewien, że twoje wyniki będą mylić się w zależności od przyjętego podejścia.

Zamiast tego należy dopasować uogólniony model liniowy z reakcją Poissona. SPSS nie może tego zrobić, chyba że zapłaciłeś za odpowiedni moduł, więc sugeruję uaktualnienie do R.

Nadal będziesz mieć problem z interpretacją współczynników, ale jest to drugorzędne znaczenie posiadania odpowiedniego modelu.

Peter Ellis
źródło

Dlaczego nie skorzystać z transformacji

? To rozwiązałoby problem, który poruszasz. Jednak odwrotna transformacja byłaby nieco bardziej zaangażowana, a interpretacja byłaby trudniejsza. Jest post o tym tutaj: stats.stackexchange.com/questions/18694/…

x \mapsto \log (x + 1)

$x\mapsto\log(x + 1)$

toypajme

3

Zgadzam się z innymi respondentami, szczególnie w odniesieniu do formy modelu. Jeśli jednak rozumiem motywację twojego pytania, zwracasz się do ogólnej publiczności i chcesz przekazać treść merytoryczną(teoretyczne) znaczenie twojej analizy. W tym celu porównuję przewidywane wartości (np. Szacowane dni pominięte) w różnych „scenariuszach”. W oparciu o wybrany model możesz porównać oczekiwaną liczbę lub wartość zmiennej zależnej, gdy predyktory osiągają określone wartości stałe (na przykład ich mediany lub zero), a następnie pokazać, jak „znacząca” zmiana predyktorów wpływa na prognozy. Oczywiście musisz przekształcić dane z powrotem w oryginalną, zrozumiałą skalę, od której zaczynasz. Mówię „znacząca zmiana”, ponieważ często standardowa „zmiana jednej jednostki w X” nie oddaje rzeczywistego importu lub jego braku niezależnej zmiennej. W przypadku „danych obecności” nie jestem pewien, jaka byłaby taka zmiana. (Jeśli student nie opuścił żadnych dni w 2010 r. I jednego dnia w 2011 r., Nie jestem pewien, czy moglibyśmy się czegoś nauczyć. Ale nie wiem.)

rozsądny postępowy
źródło

2

Jeśli mamy model , możemy spodziewać się, że wzrost o 1 jednostkę daje wzrost ab w jednostce Y. Zamiast tego, jeśli mamy , to oczekujemy 1% wzrostu w $Y = bX$ $X$ $Y = b \log(X)$ $X$ $b\log(1.01)$

Edycja: ups, nie zdawałem sobie sprawy, że twoja zmienna zależna również została przekształcona w log. Oto link z dobrym przykładem opisującym wszystkie trzy sytuacje:

1) transformowane jest tylko Y 2) transformowane są tylko predyktory 3) transformowane są zarówno Y, jak i predyktory

http://www.ats.ucla.edu/stat/mult_pkg/faq/general/log_transformed_regression.htm

JCWong
źródło

1

Cześć JC, dziękuję za odpowiedź. Podjąłem podejście transformacji zarówno moich zależnych, jak i niezależnych zmiennych dla spójności, ale przeczytałem, że tylko DV naprawdę potrzebuje transformacji dla normalności w porównaniu do IV.

JimBob,

Rzeczywiście widziałem link, który zasugerowałeś (dziękuję), ale nie byłem jasny w kilku punktach, szczególnie w odniesieniu do porównania średniej geometrycznej z „prawdziwym”, ale wydaje mi się, że użycie średniej geometrycznej jest bardziej związane z modelowaniem wpływ zmiany x na y zamiast wyniku y na zmianę jednostki x? Myślę, że muszę wrócić i jeszcze raz przeczytać ...

JimBob,

2

$Y$ $X_1$ $X_2$ $X_3$ $\{0,1\}$ . Teraz zamiast prezentować:

$log(Y) \approxeq log(C) + X_1W_1 + X_2W_2$

możesz po prostu pokazać:

$Y \approxeq C \ M_1^{X_1}\ M_2^{X_2}\ M_3^{X_3}$

$M_1=e^{W_1}$ $M_2=e^{W_2}$ $M_3=e^{W_3}$ $X_i$ $M_i$ $X_1=0$ $X_2=1$ $X_3=1$

$Y \approxeq C \ M_2\ M_3$

$\approxeq$ $Y$

Guillaume
źródło

3

E [Y] = C e^{σ^{2} / 2} e^{(X_{1} W_{1} + X_{2} W_{2} + X_{3} W_{3})}

$E[Y]=C e^{\sigma^2/2}e^{(X_1W_1+X_2W_2+X_3W_3)}$

σ^{2}

$\sigma^2$

\log (Y)

$\log(Y)$

M_{i}

$M_i$

Jak interpretować współczynniki przekształcone logarytmicznie w regresji liniowej?

Odpowiedzi: