Pracuję nad projektem i potrzebuję zasobów, aby przyspieszyć.
Zbiór danych obejmuje około 35 000 obserwacji na około 30 zmiennych. Około połowa zmiennych jest jakościowa, a niektóre mają wiele różnych możliwych wartości, tzn. Jeśli podzielisz zmienne jakościowe na zmienne obojętne, będziesz miał znacznie więcej niż 30 zmiennych. Ale nadal prawdopodobnie rzędu kilkuset maks. (n> p).
Odpowiedź, którą chcemy przewidzieć, jest porządkowa z 5 poziomami (1,2,3,4,5). Predyktory to połączenie ciągłego i kategorycznego, około połowa każdego z nich. Oto moje dotychczasowe myśli / plany: 1. Traktuj reakcję jako ciągłą i uruchom liniową regresję waniliową. 2. Uruchom nominalną i porządkową logistykę i regresję probitową 3. Użyj MARS i / lub innego smaku regresji nieliniowej
Znam regresję liniową. MARS jest wystarczająco dobrze opisany przez Hastie i Tibshirani. Ale jestem zagubiony, jeśli chodzi o porządkowy logit / probit, szczególnie w przypadku tak wielu zmiennych i dużego zbioru danych.
Pakiet r glmnetcr wydaje się być moim najlepszym wyborem , ale dokumentacja prawie nie wystarcza, aby zabrać mnie tam, gdzie powinienem być.
Gdzie mogę uzyskać więcej informacji?
źródło
Odpowiedzi:
Proponuję ten samouczek dotyczący logit zamówionego: http://www.ats.ucla.edu/stat/r/dae/ologit.htm
Prezentuje użycie
polr
wMASS
pakiecie, a także wyjaśnia założenia i sposób interpretacji wyników.źródło
Jednym dość potężnym pakietem R do regresji z porządkową kategoryczną odpowiedzią jest VGAM na CRAN. Winieta zawiera kilka przykładów regresji porządkowej, ale wprawdzie nigdy nie próbowałem jej na tak dużym zestawie danych, więc nie jestem w stanie oszacować, jak długo to potrwa. Można znaleźć jakiś dodatkowy materiał o VGAM na autora strony . Alternatywnie możesz spojrzeć na towarzysza Laury Thompson w książce Agresti „Analiza kategorii danych”. Rozdział 7 książki Thompsona opisuje skumulowane modele logitów, które są często używane z odpowiedziami porządkowymi.
Mam nadzieję że to pomoże!
źródło
Jeśli nie jesteś zaznajomiony z regresją porządkową, postaram się najpierw przeczytać rozdział Tabachnick / Fidell ( http://www.pearsonhighered.com/educator/product/Using-Multivariate-Statistics-6E/0205849571.page ) na ten temat jako pierwszy - choć nie napisana dla R, książka jest bardzo dobra w przekazywaniu ogólnej logiki oraz „robić” i „nie robić”.
Jako pytanie: jakie dokładnie są twoje kategorie odpowiedzi? Jeśli mają one jakąś skalę, na przykład „dobra - zła”, dobrze byłoby zastosować regresję liniową (badania rynkowe robią to cały czas ...), ale jeśli pozycje są bardziej rozłączne, regresja porządkowa może być lepsza . Mało pamiętam, że niektóre książki o strukturalnym modelowaniu równościowym wspominały, że regresja liniowa była lepsza dla dobrych skal niż probit - trochę nie mogę sobie teraz przypomnieć tej książki, przepraszam!
Najpoważniejszym problemem może być liczba zmiennych fikcyjnych - kilkaset zmiennych fikcyjnych sprawi, że analiza będzie powolna, trudna do interpretacji i prawdopodobnie niestabilna - czy jest wystarczająca liczba przypadków dla każdej kombinacji fikcyjnej / fikcyjnej?
źródło
Jednym ze standardowych odniesień napisanych z perspektywy nauk społecznych jest książka J Scott Long's Limited Dependent Variables . Jest znacznie głębszy niż stwierdzenie Tabachnik zasugerowane w innej odpowiedzi : Tabachnik jest w najlepszym razie książką kucharską, bez żadnych wyjaśnień „dlaczego” i wydaje się, że przydałoby się to bardziej szczegółowo, które można znaleźć w Long's książka. Regresja porządkowa powinna być uwzględniona w większości wprowadzających kursów ekonometrycznych (przekrój Wooldridge'a i dane panelowe to świetna książka dla absolwentów), a także ilościowych kursów nauk społecznych (socjologia, psychologia), choć wyobrażam sobie, że te ostatnie powrócą do książki Longa.
Biorąc pod uwagę, że twoja liczba zmiennych jest o wiele mniejsza niż wielkość próby, prawdopodobnie pakiet R, który powinieneś szukać, jest
ordinal
raczej niżglmnetcr
. W innej odpowiedzi wspomniano, że można znaleźć tę funkcjonalność wMASS
pakiecie z głównym nurtem .źródło