Uczysz regresji porządkowej w R?

10

Pracuję nad projektem i potrzebuję zasobów, aby przyspieszyć.

Zbiór danych obejmuje około 35 000 obserwacji na około 30 zmiennych. Około połowa zmiennych jest jakościowa, a niektóre mają wiele różnych możliwych wartości, tzn. Jeśli podzielisz zmienne jakościowe na zmienne obojętne, będziesz miał znacznie więcej niż 30 zmiennych. Ale nadal prawdopodobnie rzędu kilkuset maks. (n> p).

Odpowiedź, którą chcemy przewidzieć, jest porządkowa z 5 poziomami (1,2,3,4,5). Predyktory to połączenie ciągłego i kategorycznego, około połowa każdego z nich. Oto moje dotychczasowe myśli / plany: 1. Traktuj reakcję jako ciągłą i uruchom liniową regresję waniliową. 2. Uruchom nominalną i porządkową logistykę i regresję probitową 3. Użyj MARS i / lub innego smaku regresji nieliniowej

Znam regresję liniową. MARS jest wystarczająco dobrze opisany przez Hastie i Tibshirani. Ale jestem zagubiony, jeśli chodzi o porządkowy logit / probit, szczególnie w przypadku tak wielu zmiennych i dużego zbioru danych.

Pakiet r glmnetcr wydaje się być moim najlepszym wyborem , ale dokumentacja prawie nie wystarcza, aby zabrać mnie tam, gdzie powinienem być.

Gdzie mogę uzyskać więcej informacji?

Matt Hall
źródło
Sugeruję również dodanie tagu R.
Christopher Louden,
1
Biorąc pod uwagę, że jest to pytanie dotyczące modelu statystycznego, możesz przejść na stronę CrossValidated , ale pamiętaj, że wysyłanie pytań jest okropną praktyką: albo chcesz sformułować go, aby podkreślić problemy metodologiczne, które stoją w obliczu lub migrują całe pytanie.
StasK
Bez wyjaśnienia dlaczego, ISL zauważa (na s. 137), że analiza dyskryminacyjna (jak LDA, QDA) jest częściej stosowana niż wiele klasowych rozszerzeń regresji logistycznej. Warto więc zbadać pakiety takie jak penalizowane LDA.
MattBagg

Odpowiedzi:

6

Jednym dość potężnym pakietem R do regresji z porządkową kategoryczną odpowiedzią jest VGAM na CRAN. Winieta zawiera kilka przykładów regresji porządkowej, ale wprawdzie nigdy nie próbowałem jej na tak dużym zestawie danych, więc nie jestem w stanie oszacować, jak długo to potrwa. Można znaleźć jakiś dodatkowy materiał o VGAM na autora strony . Alternatywnie możesz spojrzeć na towarzysza Laury Thompson w książce Agresti „Analiza kategorii danych”. Rozdział 7 książki Thompsona opisuje skumulowane modele logitów, które są często używane z odpowiedziami porządkowymi.

Mam nadzieję że to pomoże!

GdA
źródło
3

Jeśli nie jesteś zaznajomiony z regresją porządkową, postaram się najpierw przeczytać rozdział Tabachnick / Fidell ( http://www.pearsonhighered.com/educator/product/Using-Multivariate-Statistics-6E/0205849571.page ) na ten temat jako pierwszy - choć nie napisana dla R, książka jest bardzo dobra w przekazywaniu ogólnej logiki oraz „robić” i „nie robić”.

Jako pytanie: jakie dokładnie są twoje kategorie odpowiedzi? Jeśli mają one jakąś skalę, na przykład „dobra - zła”, dobrze byłoby zastosować regresję liniową (badania rynkowe robią to cały czas ...), ale jeśli pozycje są bardziej rozłączne, regresja porządkowa może być lepsza . Mało pamiętam, że niektóre książki o strukturalnym modelowaniu równościowym wspominały, że regresja liniowa była lepsza dla dobrych skal niż probit - trochę nie mogę sobie teraz przypomnieć tej książki, przepraszam!

Najpoważniejszym problemem może być liczba zmiennych fikcyjnych - kilkaset zmiennych fikcyjnych sprawi, że analiza będzie powolna, trudna do interpretacji i prawdopodobnie niestabilna - czy jest wystarczająca liczba przypadków dla każdej kombinacji fikcyjnej / fikcyjnej?

Christian Sauer
źródło
3

Jednym ze standardowych odniesień napisanych z perspektywy nauk społecznych jest książka J Scott Long's Limited Dependent Variables . Jest znacznie głębszy niż stwierdzenie Tabachnik zasugerowane w innej odpowiedzi : Tabachnik jest w najlepszym razie książką kucharską, bez żadnych wyjaśnień „dlaczego” i wydaje się, że przydałoby się to bardziej szczegółowo, które można znaleźć w Long's książka. Regresja porządkowa powinna być uwzględniona w większości wprowadzających kursów ekonometrycznych (przekrój Wooldridge'a i dane panelowe to świetna książka dla absolwentów), a także ilościowych kursów nauk społecznych (socjologia, psychologia), choć wyobrażam sobie, że te ostatnie powrócą do książki Longa.

Biorąc pod uwagę, że twoja liczba zmiennych jest o wiele mniejsza niż wielkość próby, prawdopodobnie pakiet R, który powinieneś szukać, jest ordinalraczej niż glmnetcr. W innej odpowiedzi wspomniano, że można znaleźć tę funkcjonalność w MASSpakiecie z głównym nurtem .

StasK
źródło