Moja sytuacja to:
Mam 1 zmienną ciągłą zależną i 1 ciągłą zmienną predykcyjną, którą przekształciłem logarytmicznie, aby znormalizować ich reszty dla prostej regresji liniowej.
Byłbym wdzięczny za wszelką pomoc dotyczącą powiązania tych zmienionych zmiennych z ich pierwotnym kontekstem.
Chcę użyć regresji liniowej, aby przewidzieć liczbę dni, w których uczniowie opuścili szkołę w 2011 r., Na podstawie liczby dni, które opuścili w 2010 r. Większość uczniów opuściło 0 dni lub zaledwie kilka dni, dane są przesunięte w lewo. Dlatego istnieje potrzeba transformacji, aby zastosować regresję liniową.
Użyłem log10 (var + 1) dla obu zmiennych (użyłem +1 dla uczniów, którzy opuścili 0-dniową szkołę). Używam regresji, ponieważ chcę dodać czynniki kategoryczne - płeć / pochodzenie etniczne itp.
Mój problem to:
Odbiorcy, którym chcę przekazać informacje, nie zrozumieliby log10 (y) = log (stała) + log (var2) x (i szczerze mówiąc, ja też nie).
Moje pytania to:
a) Czy istnieją lepsze sposoby interpretacji transformowanych zmiennych w regresji? Tj. Na zawsze 1 dzień pominięty w 2010 r. Będą brakować 2 dni w 2011 r. W przeciwieństwie do kiedykolwiek 1 zmiany jednostki logu w 2010 r., Nastąpi zmiana x jednostek logów w 2011 roku?
b) W szczególności, biorąc pod uwagę cytowany fragment z tego źródła, jak następuje:
„Jest to oszacowanie ujemnej regresji dwumianowej dla jednostronnego wzrostu standardowego wyniku testu matematycznego, biorąc pod uwagę, że pozostałe zmienne są utrzymywane na stałym poziomie w modelu. Jeśli student miałby zwiększyć swój wynik testu matematycznego o jeden punkt, różnica w logach spodziewane liczby będą się zmniejszać o 0,0016 jednostki, utrzymując pozostałe zmienne w modelu jako stałe.
Chciałbym wiedzieć:
- Czy ten fragment mówi, że dla każdej jednostki wzrost wyniku
UNTRANSFORMED
zmiennej matematyki prowadzi do 0,0016 spadku od stałej (a), więc jeśliUNTRANSFORMED
wynik matematyki wzrośnie o dwa punkty, odejmuję 0,0016 * 2 od stałej a? - Czy to oznacza, że otrzymuję średnią geometryczną za pomocą wykładniczej (a)) i wykładniczej (a + beta * 2) i że muszę obliczyć różnicę procentową między tymi dwoma, aby powiedzieć, jaki wpływ mają zmienne predyktorowe / masz zmienną zależną?
- Czy też całkowicie się pomyliłem?
Używam SPSS v20. Przepraszamy za kadrowanie tego w długim pytaniu.
R
zawiera pakiety dla modeli z zerowym napełnieniem; przeszukaj tę stronę .)Odpowiedzi:
Myślę, że ważniejszy punkt zasugerowano w komentarzu @ whuber. Całe twoje podejście jest błędne, ponieważ biorąc logarytmy, skutecznie wyrzucasz z zestawu danych uczniów, którym brakowało brakujących dni w 2010 lub 2011 roku. Wygląda na to, że tych ludzi jest wystarczająco dużo, aby stanowić problem, i jestem pewien, że twoje wyniki będą mylić się w zależności od przyjętego podejścia.
Zamiast tego należy dopasować uogólniony model liniowy z reakcją Poissona. SPSS nie może tego zrobić, chyba że zapłaciłeś za odpowiedni moduł, więc sugeruję uaktualnienie do R.
Nadal będziesz mieć problem z interpretacją współczynników, ale jest to drugorzędne znaczenie posiadania odpowiedniego modelu.
źródło
Zgadzam się z innymi respondentami, szczególnie w odniesieniu do formy modelu. Jeśli jednak rozumiem motywację twojego pytania, zwracasz się do ogólnej publiczności i chcesz przekazać treść merytoryczną(teoretyczne) znaczenie twojej analizy. W tym celu porównuję przewidywane wartości (np. Szacowane dni pominięte) w różnych „scenariuszach”. W oparciu o wybrany model możesz porównać oczekiwaną liczbę lub wartość zmiennej zależnej, gdy predyktory osiągają określone wartości stałe (na przykład ich mediany lub zero), a następnie pokazać, jak „znacząca” zmiana predyktorów wpływa na prognozy. Oczywiście musisz przekształcić dane z powrotem w oryginalną, zrozumiałą skalę, od której zaczynasz. Mówię „znacząca zmiana”, ponieważ często standardowa „zmiana jednej jednostki w X” nie oddaje rzeczywistego importu lub jego braku niezależnej zmiennej. W przypadku „danych obecności” nie jestem pewien, jaka byłaby taka zmiana. (Jeśli student nie opuścił żadnych dni w 2010 r. I jednego dnia w 2011 r., Nie jestem pewien, czy moglibyśmy się czegoś nauczyć. Ale nie wiem.)
źródło
Jeśli mamy model , możemy spodziewać się, że wzrost o 1 jednostkę X daje wzrost ab w jednostce Y. Zamiast tego, jeśli mamy Y = b log ( X ) , to oczekujemy 1% wzrostu w XY=bX X Y=blog(X) X blog(1.01)
Edycja: ups, nie zdawałem sobie sprawy, że twoja zmienna zależna również została przekształcona w log. Oto link z dobrym przykładem opisującym wszystkie trzy sytuacje:
1) transformowane jest tylko Y 2) transformowane są tylko predyktory 3) transformowane są zarówno Y, jak i predyktory
http://www.ats.ucla.edu/stat/mult_pkg/faq/general/log_transformed_regression.htm
źródło
możesz po prostu pokazać:
źródło