Jeden przekształca zależne od zmiennych, aby osiągnąć w przybliżeniu symetrii i homoskedastyczność z pozostałości . Transformacje zmiennych niezależnych mają inny cel: w końcu w tej regresji wszystkie wartości niezależne są przyjmowane jako stałe, a nie losowe, więc „normalność” nie ma zastosowania. Głównym celem tych przekształceń jest osiągnięcie liniowych relacji ze zmienną zależną (lub, tak naprawdę, z jej logitem). (Ten cel przeważa nad pomocniczymi, takimi jak zmniejszenie nadmiernej dźwigni finansowejlub uzyskanie prostej interpretacji współczynników). Zależności te są właściwością danych i zjawisk, które je wytworzyły, dlatego potrzebujesz elastyczności w wyborze odpowiedniego ponownego wyrażenia każdej ze zmiennych oddzielnie od innych. W szczególności korzystanie z dziennika, katalogu głównego i odwrotności nie jest problemem, jest to dość powszechne. Zasada jest taka, że (zwykle) nie ma nic specjalnego w tym, jak dane są pierwotnie wyrażane, dlatego powinieneś pozwolić, aby dane sugerowały ponowne wyrażenia, które prowadzą do skutecznych, dokładnych, przydatnych i (jeśli to możliwe) teoretycznie uzasadnionych modeli.
Histogramy - które odzwierciedlają rozkłady jednowymiarowe - często wskazują na początkową transformację, ale nie są dyspozytywne. Dołącz je do macierzy scatterplot, abyś mógł zbadać relacje między wszystkimi zmiennymi.
Transformacje takie jak gdzie jest dodatnią stałą „wartością początkową”, mogą działać - i mogą być wskazane, nawet gdy żadna wartość jest równa zero - ale czasami niszczą relacje liniowe. Kiedy to nastąpi, dobrym rozwiązaniem jest utworzenie dwóch zmiennych. Jedna z nich jest równa gdy jest niezerowe, a poza tym jest czymkolwiek; wygodnie jest pozostawić domyślną wartość zero. Drugi, nazwijmy go , jest wskaźnikiem tego, czy wynosi zero: równa się 1, gdy 0, w przeciwnym razie wynosi 0. Warunki te stanowią sumęlog(x+c)clog ( x ) x z x x x = 0xlog(x)xzxxx=0
βlog(x)+β0zx
do oszacowania. Gdy , więc drugi termin wypada, pozostawiając tylko . Gdy , „ ” zostało ustawione na zero, podczas gdy , pozostawiając tylko wartość . Zatem ocenia efekt, gdy a w przeciwnym razie jest współczynnikiem .x>0zx=0βlog(x)x=0log(x)zx=1β0β0x=0βlog(x)