Rozumiem teraz, że zależy to od rozkładów i normalności w predyktorach
transformacja logów sprawia, że dane są bardziej jednolite
Zasadniczo jest to nieprawda --- ale nawet gdyby tak było, dlaczego jednolitość byłaby ważna?
Zastanów się na przykład
i) binarny predyktor przyjmujący tylko wartości 1 i 2. Zapisywanie logów pozostawiłoby go jako predyktor binarny przyjmujący tylko wartości 0 i log 2. To tak naprawdę nie wpływa na nic poza przechwytywaniem i skalowaniem terminów obejmujących ten predyktor. Nawet wartość p predyktora pozostanie niezmieniona, podobnie jak wartości dopasowane.
ii) weź pod uwagę predyktor pochylenia w lewo. Teraz weź dzienniki. Zwykle staje się bardziej pochylony w lewo.
iii) jednolite dane stają się zniekształcone
(często zmiana nie zawsze jest tak ekstremalna)
mniej dotknięte wartościami odstającymi
Zasadniczo jest to nieprawda. Rozważ niskie wartości odstające w predyktorze.
Myślałem o transformacji logów wszystkich moich ciągłych zmiennych, które nie są przedmiotem głównego zainteresowania
W jakim celu? Gdyby pierwotnie relacje były liniowe, nie byłyby dłużej.
A jeśli były już zakrzywione, robienie tego automatycznie może pogorszyć je (bardziej zakrzywione), a nie lepsze.
-
Wykonywanie dzienników predyktora (niezależnie od tego, czy jest to główny interes, czy nie) może czasami być odpowiednie, ale nie zawsze tak jest.
Moim zdaniem nie ma sensu przeprowadzać transformacji logów (i żadnej transformacji danych , dla samej sprawy). Jak wspomniano w poprzednich odpowiedziach, w zależności od danych, niektóre transformacje byłyby albo nieprawidłowe , albo bezużyteczne . Gorąco polecam przeczytanie następującego doskonałego materiału wprowadzającego IMHO na temat transformacji danych : http://fmwww.bc.edu/repec/bocode/t/transint.html . Należy pamiętać, że przykłady kodu w tym dokumencie są napisane w języku Stata , ale poza tym dokument jest wystarczająco ogólny , a zatem przydatny również dla użytkowników spoza Stata.
W tym artykule można znaleźć kilka prostych technik i narzędzi radzenia sobie z typowymi problemami związanymi z danymi , takimi jak brak normalności , wartości odstające i rozkłady mieszanin (zauważ, że rozwarstwienie jako podejście do radzenia sobie z rozkładem mieszanin jest najprawdopodobniej najprostsze - bardziej ogólnym i złożonym podejściem do tego jest analiza mieszaniny , znana również jako modele mieszanki skończonej , której opis wykracza poza zakres tej odpowiedzi). Transformacja Box-Coxa, krótko wspomniany w dwóch odnośnikach powyżej, jest dość ważną transformacją danych, szczególnie w przypadku danych nienormalnych (z pewnymi zastrzeżeniami). Więcej informacji na temat transformacji Box-Cox znajduje się w tym artykule wprowadzającym .
źródło
Przekształcanie dziennika nie ZAWSZE poprawia sytuację. Oczywiście nie można przekształcać logarytmicznie zmiennych, które osiągają wartości zerowe lub ujemne, a nawet te dodatnie, które obejmują zero, mogą uzyskać ujemne wartości odstające, jeśli przekształcą log.
Nie powinieneś po prostu rutynowo rejestrować wszystkiego, ale dobrym pomysłem jest POMYŚL o transformacji wybranych pozytywnych predyktorów (odpowiednio, często log, ale może coś innego) przed dopasowaniem modelu. To samo dotyczy zmiennej odpowiedzi. Ważna jest również wiedza merytoryczna. Niektóre teorie z fizyki lub socjologii lub cokolwiek, co może naturalnie prowadzić do pewnych transformacji. Zasadniczo, jeśli widzisz zmienne skośne, to może pomóc log (a może pierwiastek kwadratowy lub odwrotność).
Niektóre teksty regresji wydają się sugerować, że musisz spojrzeć na wykresy diagnostyczne przed rozważeniem jakichkolwiek przekształceń, ale nie zgadzam się. Myślę, że lepiej jest zrobić najlepszą robotę, dokonując tych wyborów, zanim dopasujesz jakiekolwiek modele, abyś miał najlepszy możliwy punkt wyjścia; następnie spójrz na diagnostykę, aby sprawdzić, czy musisz dostosować od tego miejsca.
źródło
snoq
zestawu danych w tym wątku CrossValidated (mając na uwadze, że celem jest dopasowanie mieszaniny Gaussów)?1) dane zliczania (y> 0) -> log (y) lub y = exp (b0 + biXi) 2) dane zliczania + zero (y> = 0) -> model przeszkód (dwumianowy + reg. Zliczania) 3) wszystkie błędne efekty (i błędy) będą addytywne 4) wariancja ~ średnia -> log (y) lub y = exp (b0 + biXi) 5) ...
źródło