Mam duże dane ankietowe, binarną zmienną wyniku i wiele zmiennych objaśniających, w tym binarną i ciągłą. Buduję zestawy modeli (eksperymentuję zarówno z GLM, jak i mieszanym GLM) i wykorzystuję podejścia teoretyczne do wyboru najlepszego modelu. Dokładnie przeanalizowałem wyjaśnienia (zarówno ciągłe, jak i kategoryczne) pod kątem korelacji i używam tylko tych w tym samym modelu, które mają współczynnik Pearsona lub Phicorra mniejszy niż 0,3. Chciałbym dać wszystkim moim ciągłym zmiennym uczciwą szansę w walce o najlepszy model. Z mojego doświadczenia wynika, że przekształcanie potrzebujących w oparciu o pochylenie poprawia model, w którym uczestniczą (niższy AIC).
Moje pierwsze pytanie brzmi: czy to ulepszenie, ponieważ transformacja poprawia liniowość logit? Czy też poprawianie pochylenia poprawia równowagę zmiennych objaśniających, czyniąc dane bardziej symetrycznymi? Chciałbym zrozumieć matematyczne powody tego, ale na razie, gdyby ktoś mógł to wyjaśnić w prosty sposób, byłoby świetnie. Jeśli masz jakieś referencje, których mógłbym użyć, byłbym bardzo wdzięczny.
Wiele stron internetowych twierdzi, że ponieważ normalność nie jest założeniem w binarnej regresji logistycznej, nie przekształcaj zmiennych. Ale czuję, że nie przekształcając moich zmiennych, pozostawiam niektóre w niekorzystnej sytuacji w porównaniu do innych i może to wpływać na to, jaki jest najwyższy model i zmienia wnioskowanie (cóż, zwykle nie, ale w niektórych zestawach danych tak jest). Niektóre z moich zmiennych działają lepiej po przekształceniu logów, niektóre po podniesieniu do kwadratu (inny kierunek pochylenia), a niektóre nietransformowane.
Czy ktoś mógłby dać mi wskazówkę, na co należy uważać, przekształcając zmienne objaśniające do regresji logistycznej, a jeśli nie, to dlaczego nie?
Odpowiedzi:
Ponieważ mówisz, że masz „duże dane”, możesz spojrzeć na splajny, aby dane mówiły o transformacjach ... na przykład spakuj mgcv w R. Ale nawet przy użyciu takiej technologii (lub innej metody automatycznego wyszukiwania transformacji) ostatecznym sprawdzianem jest zadać sobie pytanie, co ma sens naukowy . ¿Co inne osoby w Twojej dziedzinie robią z podobnymi danymi?
źródło
Krytycznym zagadnieniem jest to, jakie liczby powinny reprezentować w świecie rzeczywistym i jaki jest hipotetyczny związek między tymi zmiennymi a zmienną zależną. Możesz ulepszyć swój model, „czyszcząc” swoje dane, ale jeśli nie lepiej odzwierciedla on rzeczywistego świata, nie powiodło się. Może rozkłady danych oznaczają, że twoje podejście do modelowania jest nieprawidłowe i potrzebujesz zupełnie innego podejścia, być może twoje dane mają problemy.
Dlaczego usuwasz zmienne, jeśli mają one corr> .3, jest poza mną. Może te rzeczy są naprawdę powiązane i oba są ważne dla zmiennej zależnej. Można sobie z tym poradzić za pomocą indeksu lub funkcji reprezentującej łączny wkład zmiennych skorelowanych. Wygląda na to, że ślepo wyrzucasz informacje na podstawie arbitralnych kryteriów statystycznych. Dlaczego nie użyć corr> .31 lub .33?
źródło