Jak interpretować współczynniki przekształcone logarytmicznie w regresji liniowej?

10

Moja sytuacja to:

Mam 1 zmienną ciągłą zależną i 1 ciągłą zmienną predykcyjną, którą przekształciłem logarytmicznie, aby znormalizować ich reszty dla prostej regresji liniowej.

Byłbym wdzięczny za wszelką pomoc dotyczącą powiązania tych zmienionych zmiennych z ich pierwotnym kontekstem.

Chcę użyć regresji liniowej, aby przewidzieć liczbę dni, w których uczniowie opuścili szkołę w 2011 r., Na podstawie liczby dni, które opuścili w 2010 r. Większość uczniów opuściło 0 dni lub zaledwie kilka dni, dane są przesunięte w lewo. Dlatego istnieje potrzeba transformacji, aby zastosować regresję liniową.

Użyłem log10 (var + 1) dla obu zmiennych (użyłem +1 dla uczniów, którzy opuścili 0-dniową szkołę). Używam regresji, ponieważ chcę dodać czynniki kategoryczne - płeć / pochodzenie etniczne itp.

Mój problem to:

Odbiorcy, którym chcę przekazać informacje, nie zrozumieliby log10 (y) = log (stała) + log (var2) x (i szczerze mówiąc, ja też nie).

Moje pytania to:

a) Czy istnieją lepsze sposoby interpretacji transformowanych zmiennych w regresji? Tj. Na zawsze 1 dzień pominięty w 2010 r. Będą brakować 2 dni w 2011 r. W przeciwieństwie do kiedykolwiek 1 zmiany jednostki logu w 2010 r., Nastąpi zmiana x jednostek logów w 2011 roku?

b) W szczególności, biorąc pod uwagę cytowany fragment z tego źródła, jak następuje:

„Jest to oszacowanie ujemnej regresji dwumianowej dla jednostronnego wzrostu standardowego wyniku testu matematycznego, biorąc pod uwagę, że pozostałe zmienne są utrzymywane na stałym poziomie w modelu. Jeśli student miałby zwiększyć swój wynik testu matematycznego o jeden punkt, różnica w logach spodziewane liczby będą się zmniejszać o 0,0016 jednostki, utrzymując pozostałe zmienne w modelu jako stałe.

Chciałbym wiedzieć:

  • Czy ten fragment mówi, że dla każdej jednostki wzrost wyniku UNTRANSFORMEDzmiennej matematyki prowadzi do 0,0016 spadku od stałej (a), więc jeśli UNTRANSFORMEDwynik matematyki wzrośnie o dwa punkty, odejmuję 0,0016 * 2 od stałej a?
  • Czy to oznacza, że ​​otrzymuję średnią geometryczną za pomocą wykładniczej (a)) i wykładniczej (a + beta * 2) i że muszę obliczyć różnicę procentową między tymi dwoma, aby powiedzieć, jaki wpływ mają zmienne predyktorowe / masz zmienną zależną?
  • Czy też całkowicie się pomyliłem?

Używam SPSS v20. Przepraszamy za kadrowanie tego w długim pytaniu.


JimBob
źródło
8
Czy zamiast tego pomyślałeś o użyciu regresji Poissona? Jest to naturalnie wskazywane przez zależne dane zliczania, a Twój sukces z transformacją dziennika jest zgodny z rozkładami Poissona. Współczynniki będą interpretowane w kategoriach proporcjonalnego wzrostu oczekiwanego prawdopodobieństwa pominięcia dnia w szkole. Jedną z zalet jest to, że nie jest wymagane specjalne traktowanie zer (chociaż nadal bardzo dobrym pomysłem jest spojrzenie na alternatywny model z zerowym napełnieniem).
whuber
Cześć Whuber, Tak, myślałem o regresji Poissona, ale nie byłem tego pewien lub zdecydowałem się na regresję dwumianową. Myślę, że dwumian ujemny, ponieważ dane są rozproszone - tzn. Średnia jest niższa niż wariancja w zbiorze danych (stąd dodatnie pochylenie). Ponadto, ściśle, istnieje górna granica liczby sesji szkolnych w roku, podczas gdy Poisson przyjmuje nieograniczony mianownik? Czy nadal uważasz, że Poisson jest bardziej odpowiedni? Niestety SPSS nie obsługuje modeli z napompowaniem zerowym, o ile widziałem ...) Dzięki Whuber :)
JimBob
3
Nie widzę problemu z nieograniczoną obsługą rozkładów Poissona: jest podobny do używania rozkładów normalnych do modelowania, powiedzmy, wartości, które muszą być nieujemne. Pod warunkiem, że szanse związane z niemożliwymi wartościami są niewielkie, może to być dobry model. Ujemny dwumian jest standardową alternatywą dla Poissona używaną do testowania dobroci dopasowania i nadmiernej dyspersji; to dobry pomysł. Jeśli SPSS jest zbyt ograniczony, użyj czegoś innego! ( Rzawiera pakiety dla modeli z zerowym napełnieniem; przeszukaj tę stronę .)
whuber
2
Zgadzam się z @whuber Myślę, że prawdopodobnie chcesz model ZIP lub ZINB. Dodam tylko, że są one również dostępne w SAS za pośrednictwem PROC COUNTREG (w ETS) i, poczynając od SAS 9.2, w PROC GENMOD (w STAT)
Peter Flom
2
Jest bardzo dobry informacji na stats.stackexchange.com/questions/18480/... .
rolando2

Odpowiedzi:

7

Myślę, że ważniejszy punkt zasugerowano w komentarzu @ whuber. Całe twoje podejście jest błędne, ponieważ biorąc logarytmy, skutecznie wyrzucasz z zestawu danych uczniów, którym brakowało brakujących dni w 2010 lub 2011 roku. Wygląda na to, że tych ludzi jest wystarczająco dużo, aby stanowić problem, i jestem pewien, że twoje wyniki będą mylić się w zależności od przyjętego podejścia.

Zamiast tego należy dopasować uogólniony model liniowy z reakcją Poissona. SPSS nie może tego zrobić, chyba że zapłaciłeś za odpowiedni moduł, więc sugeruję uaktualnienie do R.

Nadal będziesz mieć problem z interpretacją współczynników, ale jest to drugorzędne znaczenie posiadania odpowiedniego modelu.

Peter Ellis
źródło
Dlaczego nie skorzystać z transformacji ? To rozwiązałoby problem, który poruszasz. Jednak odwrotna transformacja byłaby nieco bardziej zaangażowana, a interpretacja byłaby trudniejsza. Jest post o tym tutaj: stats.stackexchange.com/questions/18694/…xlog(x+1)
toypajme
3

Zgadzam się z innymi respondentami, szczególnie w odniesieniu do formy modelu. Jeśli jednak rozumiem motywację twojego pytania, zwracasz się do ogólnej publiczności i chcesz przekazać treść merytoryczną(teoretyczne) znaczenie twojej analizy. W tym celu porównuję przewidywane wartości (np. Szacowane dni pominięte) w różnych „scenariuszach”. W oparciu o wybrany model możesz porównać oczekiwaną liczbę lub wartość zmiennej zależnej, gdy predyktory osiągają określone wartości stałe (na przykład ich mediany lub zero), a następnie pokazać, jak „znacząca” zmiana predyktorów wpływa na prognozy. Oczywiście musisz przekształcić dane z powrotem w oryginalną, zrozumiałą skalę, od której zaczynasz. Mówię „znacząca zmiana”, ponieważ często standardowa „zmiana jednej jednostki w X” nie oddaje rzeczywistego importu lub jego braku niezależnej zmiennej. W przypadku „danych obecności” nie jestem pewien, jaka byłaby taka zmiana. (Jeśli student nie opuścił żadnych dni w 2010 r. I jednego dnia w 2011 r., Nie jestem pewien, czy moglibyśmy się czegoś nauczyć. Ale nie wiem.)

rozsądny postępowy
źródło
2

Jeśli mamy model , możemy spodziewać się, że wzrost o 1 jednostkę X daje wzrost ab w jednostce Y. Zamiast tego, jeśli mamy Y = b log ( X ) , to oczekujemy 1% wzrostu w XY=bXXY=blog(X)Xblog(1.01)

Edycja: ups, nie zdawałem sobie sprawy, że twoja zmienna zależna również została przekształcona w log. Oto link z dobrym przykładem opisującym wszystkie trzy sytuacje:

1) transformowane jest tylko Y 2) transformowane są tylko predyktory 3) transformowane są zarówno Y, jak i predyktory

http://www.ats.ucla.edu/stat/mult_pkg/faq/general/log_transformed_regression.htm

JCWong
źródło
1
Cześć JC, dziękuję za odpowiedź. Podjąłem podejście transformacji zarówno moich zależnych, jak i niezależnych zmiennych dla spójności, ale przeczytałem, że tylko DV naprawdę potrzebuje transformacji dla normalności w porównaniu do IV.
JimBob,
Rzeczywiście widziałem link, który zasugerowałeś (dziękuję), ale nie byłem jasny w kilku punktach, szczególnie w odniesieniu do porównania średniej geometrycznej z „prawdziwym”, ale wydaje mi się, że użycie średniej geometrycznej jest bardziej związane z modelowaniem wpływ zmiany x na y zamiast wyniku y na zmianę jednostki x? Myślę, że muszę wrócić i jeszcze raz przeczytać ...
JimBob,
2

YX1X2X3{0,1} . Teraz zamiast prezentować:

log(Y)log(C)+X1W1+X2W2

możesz po prostu pokazać:

YC M1X1 M2X2 M3X3

M1=eW1M2=eW2M3=eW3XiMiX1=0X2=1X3=1

YC M2 M3

Y

Guillaume
źródło
3
E[Y]=Ceσ2/2e(X1W1+X2W2+X3W3)σ2log(Y)Mi