Jak obsługiwać porządkową zmienną kategorialną jako zmienną niezależną

18

Korzystam z modelu logit. Moja zmienna zależna jest binarna. Jednak mam niezależną zmienną, która jest kategoryczne i zawiera odpowiedzi: 1.very good, 2.good, 3.average, 4.poor and 5.very poor. Jest to więc porządkowe („ilościowe jakościowe”). Nie jestem pewien, jak sobie z tym poradzić w modelu. Używam gretl.

[Uwaga z @ttnphns: Chociaż pytanie mówi, że model jest logit (ponieważ zależne jest kategoryczne), kluczowy problem - porządkowe zmienne niezależne - jest zasadniczo podobny, bądź zależny kategorycznie lub ilościowo. Dlatego pytanie jest równie istotne, powiedzmy, regresja liniowa - jak regresja logistyczna lub inny model logit.]

rahmat
źródło
Moja zmienna zależna przyjmuje wartości 0 i 1, mam 6 zmiennych niezależnych, 3 z nich są kategoryczne, zmienne te przypominają: „jak oceniasz lokalne usługi zdrowotne w Twojej okolicy? Jak oceniasz lokalny transport w Twojej okolicy i jak oceniasz służby policyjne w Twojej okolicy? odpowiedzi są bardzo dobre, dobre, średnie, złe i bardzo słabe
rahmat
@Tim Jeśli zmienna zależna jest binarna, nie ma potrzeby regresji porządkowej. Implikacją jest obsługa predyktora porządkowego za pomocą zmiennych wskaźnikowych (obojętnych).
Nick Cox,
dzięki Tim, jeśli się nie mylę, to, co mówisz, to to, że powinienem stworzyć manekina dla wszystkich kategorii? na przykład mam pięć odpowiedzi (bardzo dobra, dobra, średnia, słaba i bardzo słaba) na jeden zmienny indep, więc powinienem stworzyć 5 manekinów.
rahmat

Odpowiedzi:

14

Problem z niezależną zmienną porządkową polega na tym, że ponieważ z definicji prawdziwe przedziały metryczne między jej poziomami nie są znane , nie można przyjąć, że apriori nie jest żadnym stosunkiem odpowiedniego typu - poza parasolowym „monotonicznym”. Musimy coś z tym zrobić, na przykład - „ekranować lub łączyć warianty” lub „preferować to, co maksymalizuje”.

Jeśli nalegasz, aby traktować swoją ocenę IV jako porządkową (zamiast przedziałową lub nominalną), mam dla ciebie parę alternatyw.

  1. Użyj kontrastów wielomianowych Tj. Każdy taki predyktor zastosowany w modelu wchodzi nie tylko liniowo, ale także kwadratowo i sześciennie. Tak więc można uchwycić nie tylko liniowy, ale bardziej ogólny efekt monotoniczny (efekt liniowy odpowiada predyktorowi zachowanemu jako skala / interwał, a pozostałe dwa efekty smakują jako nierównomierne interwały). Dodatkowo można wprowadzić manekiny każdego predyktora, który będzie testować pod kątem efektu nominalnego / czynnikowego. Na koniec wiesz, ile twój predyktor działa jako czynnik, ile jako zmienna liniowa, a ile jako zmienna nieliniowa. Ta opcja jest łatwa do wykonania w prawie każdej regresji (liniowej, logistycznej, innych uogólnionych modeli liniowych). Zużyje dfs , więc wielkość próbki powinna być wystarczająco duża.
  2. Użyj optymalnej regresji skalowania . To podejście przekształca monotonicznie predyktor porządkowy w interwałowy, aby zmaksymalizować liniowy wpływ na predyktor. CATREG (regresja kategoryczna) jest implementacją tego pomysłu w SPSS. Jednym z problemów konkretnego przypadku jest to, że chcesz wykonać logistykę, a nie regresję liniową, ale CATREG nie jest oparty na modelu logit. Myślę, że ta przeszkoda jest stosunkowo niewielka, ponieważ twój predykcja ma tylko 2 kategorie (binarne): Mam na myśli, że nadal możesz wykonać CATREG dla optymalnego skalowania, a następnie wykonać ostateczną regresję logistyczną z wykorzystaniem predyktorów skalowanych z transformacją.
  3. Należy również zauważyć, że w prostym przypadku jednej skali lub porządkowej DV i jednego porządkowego IV test Jonckheere-Terpstra może być rozsądną analizą zamiast regresji.

Mogą być też inne sugestie. Trzy powyższe są tym, co przychodzi mi do głowy po prostu od razu czytając twoje pytanie.

Pozwól, że polecę Ci również odwiedzenie tych wątków: Kojarzenie między wartością nominalną a skalą lub porządkową ; Powiązanie między porządkową a skalą . Mogą być pomocne, mimo że nie dotyczą one konkretnie regresji.

Ale te wątki dotyczą regresji, szczególnie logistycznych: musisz zajrzeć do środka: raz , dwa , trzy , cztery , pięć .

ttnphns
źródło
(+1) (1) Możesz również użyć tylko kilku pierwszych kontrastów wielomianowych, jeśli uważasz, że są one wystarczające. (2) Definiowanie predyktorów na podstawie odpowiedzi w tym samym zbiorze danych powinno zawierać ostrzeżenie zdrowotne. (3) Możesz również karać rozbieżności między współczynnikami sąsiednich poziomów - patrz stats.stackexchange.com/q/77796/17230 .
Scortchi - Przywróć Monikę
1
@Scortchi, Dziękuję za komentarz. Odnośnie (2) - tak, w szczególności bardziej niezawodne jest oczywiście optymalne skalowanie w osobnym podzbiorze danych, na których zostanie wykonana regresja końcowa. (3) - dzięki też się z tym zapoznam.
ttnphns
1
Inną opcją jest użycie modelu aditive i reprezentowanie porządkowej zmiennej niezależnej za pomocą splajnu.
kjetil b halvorsen 18.04.16
2
@kjetilbhalvorsen, Tak, jest to możliwe, dziękuję. Ta opcja jest już jednak sugerowana w Pt 2, ponieważ jedna z metod optymalnego skalowania dla zmiennych porządkowych wykorzystuje splajn.
ttnphns
7

Aby dodać do innych doskonałych odpowiedzi: nowoczesny sposób radzenia sobie z tym może być za pomocą modelu addytywnego, reprezentującego porządkową zmienną niezależną za pomocą splajnu. Jeśli masz pewność, że efekt zmiennej jest monotoniczny, możesz ograniczyć się do monotonicznego splajnu. (Aby zobaczyć przykład używanych splajnów monotonicznych, zobacz Poszukiwanie funkcji pasującej do krzywej sigmoidalnej ).

W R, jeśli ustawisz predyktor porządkowy jako „czynnik uporządkowany” (na przykład z kodem ord <- factor(sample(1:5,20,replace=TRUE),ordered=TRUE) ), to w modelu liniowym będzie on reprezentowany przez wielomiany ortogonalne.

kjetil b halvorsen
źródło
4
Byłoby miło tylko go trochę rozwinąć, dodając jeszcze kilka szczegółów, jak będzie działać z predyktorami porządkowymi.
ttnphns
0

k-1k

Austin T.
źródło
3
Jednostronnie (i pedantycznie lub w inny sposób) zmieniłem twoje niewielkie użycie notacji. Chociaż jest to banalne,njest zwykle liczbą obserwacji i często widziałem, że początkujący są zdezorientowani takimi sprawami.
Nick Cox,
1
dzięki Tim i Nick. Więc muszę uruchomić wszystkie cztery manekiny w regresji. dobrze? jeśli tak, mam 3 zmienne kategoryczne, każda z 5 odpowiedziami. dlatego mój model będzie miał 12 zmiennych. dobrze?
rahmat
1
Dzięki @NickCox - Jestem nowy w świecie CV i doceniam pełne szacunku poprawki
Austin T
1
Niestety nie wyjaśniłeś, dlaczego zmienne fikcyjne będą w ogóle potrzebne. Nie wydaje mi się, aby ta odpowiedź, podobnie jak obecnie, wyglądała jak odpowiedź na pytanie.
ttnphns
2
Na poparcie nie sądzę, że chodzi o argument, że wskaźniki są potrzebne ; po prostu pozwalają uchwycić różnorodne efekty, w tym relacje niemonotoniczne.
Nick Cox,