Muszę wykonać binarną regresję logistyczną z wieloma niezależnymi zmiennymi. Większość z nich ma charakter binarny, ale kilka zmiennych kategorialnych ma więcej niż dwa poziomy.
Jaki jest najlepszy sposób radzenia sobie z takimi zmiennymi?
Na przykład, dla zmiennej o trzech możliwych wartościach, przypuszczam, że należy utworzyć dwie zmienne fikcyjne. Następnie, w procedurze regresji krokowej, lepiej jest przetestować obie zmienne fikcyjne jednocześnie lub przetestować je osobno?
Będę używać SPSS, ale nie pamiętam go zbyt dobrze, więc: jak SPSS radzi sobie z tą sytuacją?
Co więcej, w przypadku porządkowej zmiennej kategorialnej dobrze jest użyć zmiennych zastępczych, które odtwarzają skalę porządkową? (Na przykład, przy użyciu trzech zmiennych binarnych dla 4-stan zmienną porządkową umieścić 0-0-0
na poziomie , na poziomie , na poziomie 3 i na poziomie 4 , zamiast , , a na 4 poziomach).21-0-0
1-1-0
41-1-1
0-0-0
1-0-0
0-1-0
0-0-1
Odpowiedzi:
Witryna UCLA zawiera kilka świetnych samouczków dotyczących każdej procedury w podziale na rodzaj oprogramowania, które znasz. Sprawdź wyjście z komentarzem SPSS: regresja logistyczna - wspomniana przez nich zmienna SES jest kategoryczna (a nie binarna). SPSS automatycznie utworzy dla ciebie zmienne wskaźnikowe. Istnieje również strona poświęcona predyktorom kategorialnym w regresji za pomocą SPSS, która zawiera szczegółowe informacje na temat zmiany domyślnego kodowania oraz stronę specyficzną dla regresji logistycznej .
źródło
Regresja logistyczna jest dość elastyczną metodą. Może być łatwo stosowany jako zmienne niezależne zmienne jakościowe. Większość programów korzystających z regresji logistycznej powinna umożliwiać korzystanie ze zmiennych jakościowych.
Na przykład, powiedzmy, że jedną z twoich zmiennych jakościowych jest temperatura zdefiniowana w trzech kategoriach: zimna / łagodna / gorąca. Jak sugerujesz, możesz zinterpretować to jako trzy oddzielne zmienne fikcyjne, każda o wartości 1 lub 0. Jednak oprogramowanie powinno pozwolić ci na użycie jednej zmiennej jakościowej zamiast wartości tekstowej zimna / łagodna / gorąca. I regresja logit wyprowadziłaby współczynnik (lub stały) dla każdego z trzech warunków temperaturowych. Jeśli nie ma to znaczenia, oprogramowanie lub użytkownik może je łatwo wyjąć (po zaobserwowaniu wartości t stat i p).
Główną zaletą grupowania kategorii zmiennych jakościowych w jedną zmienną jakościową jest wydajność modelu. Pojedyncza kolumna w twoim modelu może obsłużyć tyle kategorii, ile potrzeba dla pojedynczej zmiennej kategorialnej. Jeśli zamiast tego użyjesz zmiennej zastępczej dla każdej kategorii zmiennej kategorialnej, Twój model może szybko urosnąć, tworząc liczne kolumny, które są zbędne, biorąc pod uwagę wspomnianą alternatywę.
źródło
O ile rozumiem, dobrze jest użyć zmiennej zastępczej dla danych kategorialnych / nominalnych, podczas gdy dla danych porządkowych możemy użyć kodowania 1,2,3 dla różnych poziomów. Dla zmiennej zastępczej będziemy kodować 1, jeśli jest to prawdą dla konkretnej obserwacji, a 0 w przeciwnym razie. Również zmienne fikcyjne będą o 1 mniejsze niż nie. Z poziomów, na przykład w systemie binarnym, mamy 1. Obserwacja all '0 w zmiennej fikcyjnej spowoduje automatycznie 1 dla niekodowanego manekina.
źródło