Przekształć zmienne ciągłe dla regresji logistycznej

11

Mam duże dane ankietowe, binarną zmienną wyniku i wiele zmiennych objaśniających, w tym binarną i ciągłą. Buduję zestawy modeli (eksperymentuję zarówno z GLM, jak i mieszanym GLM) i wykorzystuję podejścia teoretyczne do wyboru najlepszego modelu. Dokładnie przeanalizowałem wyjaśnienia (zarówno ciągłe, jak i kategoryczne) pod kątem korelacji i używam tylko tych w tym samym modelu, które mają współczynnik Pearsona lub Phicorra mniejszy niż 0,3. Chciałbym dać wszystkim moim ciągłym zmiennym uczciwą szansę w walce o najlepszy model. Z mojego doświadczenia wynika, że ​​przekształcanie potrzebujących w oparciu o pochylenie poprawia model, w którym uczestniczą (niższy AIC).

Moje pierwsze pytanie brzmi: czy to ulepszenie, ponieważ transformacja poprawia liniowość logit? Czy też poprawianie pochylenia poprawia równowagę zmiennych objaśniających, czyniąc dane bardziej symetrycznymi? Chciałbym zrozumieć matematyczne powody tego, ale na razie, gdyby ktoś mógł to wyjaśnić w prosty sposób, byłoby świetnie. Jeśli masz jakieś referencje, których mógłbym użyć, byłbym bardzo wdzięczny.

Wiele stron internetowych twierdzi, że ponieważ normalność nie jest założeniem w binarnej regresji logistycznej, nie przekształcaj zmiennych. Ale czuję, że nie przekształcając moich zmiennych, pozostawiam niektóre w niekorzystnej sytuacji w porównaniu do innych i może to wpływać na to, jaki jest najwyższy model i zmienia wnioskowanie (cóż, zwykle nie, ale w niektórych zestawach danych tak jest). Niektóre z moich zmiennych działają lepiej po przekształceniu logów, niektóre po podniesieniu do kwadratu (inny kierunek pochylenia), a niektóre nietransformowane.

Czy ktoś mógłby dać mi wskazówkę, na co należy uważać, przekształcając zmienne objaśniające do regresji logistycznej, a jeśli nie, to dlaczego nie?

Zsuzsa
źródło
2
Rzeczywiście, w regresji logistycznej nie zakłada się normalności (ani rozkładu logistycznego w tym przypadku). Funkcja link (czasami oznaczana jako ) jest używana do modelowania związku między prawdopodobieństwem zaobserwowania ( ) z współzmiennymi przez . Niewłaściwe dopasowanie / wydajność może wynikać z wyboru funkcji łączenia. Alternatywą dla rozwiązania tego problemu jest zastosowanie bardziej elastycznej dystrybucji, patrz na przykład ten artykuł . fafa-110P.(Y=1|β,X)=fa(Xβ)
Chociaż napisane w innym kontekście, wiele z tego, o co prosisz, znajduje się w mojej odpowiedzi (lub w linkach w mojej odpowiedzi) tutaj: czy zwykle rozkład X i Y jest bardziej prawdopodobny w wyniku resztek normalnie rozłożonych?
gung - Przywróć Monikę

Odpowiedzi:

3

xlog(x)

Ponieważ mówisz, że masz „duże dane”, możesz spojrzeć na splajny, aby dane mówiły o transformacjach ... na przykład spakuj mgcv w R. Ale nawet przy użyciu takiej technologii (lub innej metody automatycznego wyszukiwania transformacji) ostatecznym sprawdzianem jest zadać sobie pytanie, co ma sens naukowy . ¿Co inne osoby w Twojej dziedzinie robią z podobnymi danymi?

kjetil b halvorsen
źródło
Dzięki za wsparcie moich zmartwień: rzeczywiście zastanawiałem się nad tym, co ma sens biologiczny. Problem polega na tym, że tak naprawdę mam dwa powiązane zbiory danych i chciałbym wyciągać wnioski z obu jednocześnie. Ale w jednym podzbiorze zmienna gęstości jest najlepsza w modelach nietransformowanych, podczas gdy w drugim transformacja logów jest najlepsza. Transformacja dziennika poprawia relację w zbiorze danych, który ma niższe wartości dla tej zmiennej, więc myślę, że bardzo trudno będzie pogodzić te dwa zestawy danych, chyba że zmienię zmienną w obu.
Zsuzsa,
1
Specjaliści w danej dziedzinie rzadko potrafią poznać apriori „właściwych” przekształceń zmiennych. Prawie nigdy nie widzę zależności liniowych, więc gdy wielkość próby gwarantuje, rozluźniam to założenie za pomocą splajnów regresji. Sprawiam, że wynik można interpretować za pomocą zdjęć.
Frank Harrell,
3

Krytycznym zagadnieniem jest to, jakie liczby powinny reprezentować w świecie rzeczywistym i jaki jest hipotetyczny związek między tymi zmiennymi a zmienną zależną. Możesz ulepszyć swój model, „czyszcząc” swoje dane, ale jeśli nie lepiej odzwierciedla on rzeczywistego świata, nie powiodło się. Może rozkłady danych oznaczają, że twoje podejście do modelowania jest nieprawidłowe i potrzebujesz zupełnie innego podejścia, być może twoje dane mają problemy.

Dlaczego usuwasz zmienne, jeśli mają one corr> .3, jest poza mną. Może te rzeczy są naprawdę powiązane i oba są ważne dla zmiennej zależnej. Można sobie z tym poradzić za pomocą indeksu lub funkcji reprezentującej łączny wkład zmiennych skorelowanych. Wygląda na to, że ślepo wyrzucasz informacje na podstawie arbitralnych kryteriów statystycznych. Dlaczego nie użyć corr> .31 lub .33?

Jan
źródło