Biorąc pod uwagę ciągłą zmienną zależną y i zmienne niezależne, w tym zmienną porządkową X 1 , jak dopasować model liniowy R
? Czy są artykuły na temat tego typu modelu?
źródło
Biorąc pod uwagę ciągłą zmienną zależną y i zmienne niezależne, w tym zmienną porządkową X 1 , jak dopasować model liniowy R
? Czy są artykuły na temat tego typu modelu?
@ Scortchi obdarzył Cię tą odpowiedzią na temat Kodowania dla uporządkowanego współzmiennego . Powtórzyłem zalecenie dotyczące mojej odpowiedzi na Wpływ dwóch demograficznych IV na odpowiedzi ankietowe (skala Likerta) . W szczególności zaleca się, aby wykorzystywać Gertheiss' (2013) pakietu ordPens , a w odniesieniu do Gertheiss i Tutz (2009a) do teoretycznych i badania symulacji.
Konkretną funkcją, którą prawdopodobnie chcesz, jest ordSmooth
* . To zasadniczo wygładza współczynniki pozorne na poziomach zmiennych porządkowych, aby były mniej różne od tych dla sąsiednich szeregów, co zmniejsza przeregulowanie i poprawia prognozy. Zasadniczo wykonuje tak dobrze, jak (czasem znacznie) lepiej niż maksymalne prawdopodobieństwo (tj. W tym przypadku zwykłe najmniejsze kwadraty) modelu regresji dla danych ciągłych (lub w ich kategoriach metrycznych), gdy dane są w rzeczywistości porządkowe. Wydaje się być kompatybilny ze wszystkimi rodzajami uogólnionych modeli liniowych i pozwala wprowadzać predyktory nominalne i ciągłe jako osobne macierze.
Kilka dodatkowych referencji od Gertheissa, Tutza i współpracowników jest dostępnych i wymienionych poniżej. Niektóre z nich mogą zawierać alternatywy - nawet Gertheiss i Tutz (2009a) dyskutują o ponownym zalewaniu kalenicy jako kolejnej alternatywie. Sam jeszcze tego nie przekopałem, ale wystarczy powiedzieć, że to rozwiązuje problem @ Erika zbyt małej literatury na temat predyktorów porządkowych!
Bibliografia
- Gertheiss, J. (2013, 14 czerwca). ordPens: Wybór i / lub wygładzanie predyktorów porządkowych , wersja 0.2-1. Źródło: http://cran.r-project.org/web/packages/ordPens/ordPens.pdf .
- Gertheiss, J., Hogger, S., Oberhauser, C., i Tutz, G. (2011). Wybór normalnie skalowanych zmiennych niezależnych z zastosowaniami do międzynarodowej klasyfikacji funkcjonujących zestawów podstawowych. Journal of Royal Statistics Society: Series C (Applied Statistics), 60 (3), 377–395.
- Gertheiss, J., i Tutz, G. (2009a). Regresja karana predyktorami porządkowymi. Międzynarodowy przegląd statystyczny, 77 (3), 345–365. Źródło: http://epub.ub.uni-muenchen.de/2100/1/tr015.pdf .
Gertheiss, J., i Tutz, G. (2009b). Nadzorowany wybór cech w profilowaniu proteomicznym opartym na spektrometrii masowej poprzez wzmocnienie blokowe. Bioinformatyka, 25 (8), 1076–1077.
- Gertheiss, J., i Tutz, G. (2009c). Zmienne skalowanie i metody najbliższego sąsiada. Journal of Chemometrics, 23 (3), 149–151. - Gertheiss, J. i Tutz, G. (2010). Rzadkie modelowanie kategorialnych zmiennych objaśniających.
The Annals of Applied Statistics, 4 , 2150–2180.
- Hofner, B., Hothorn, T., Kneib, T., i Schmid, M. (2011). Ramy dla bezstronnego wyboru modelu opartego na wzmocnieniu. Journal of Computational and Graphical Statistics, 20 (4), 956–971. Źródło: http://epub.ub.uni-muenchen.de/11243/1/TR072.pdf .
- Oelker, M.-R., Gertheiss, J., i Tutz, G. (2012). Regularyzacja i wybór modelu z predyktorami jakościowymi i modyfikatorami efektów w uogólnionych modelach liniowych. Departament Statystyki: Raporty techniczne, nr 122 . Źródło: http://epub.ub.uni-muenchen.de/13082/1/tr.gvcm.cat.pdf .
- Oelker, M.-R., i Tutz, G. (2013). Ogólna rodzina kar za łączenie różnych rodzajów kar w uogólnionych modelach strukturalnych. Departament Statystyki: Raporty techniczne, nr 139 . Źródło: http://epub.ub.uni-muenchen.de/17664/1/tr.pirls.pdf .
- Petry, S., Flexeder, C., i Tutz, G. (2011). Lasso połączone w parę. Departament Statystyki: Raporty techniczne, nr 102. Źródło: http://epub.ub.uni-muenchen.de/12164/1/petry_etal_TR102_2011.pdf .
- Rufibach, K. (2010). Algorytm aktywnego zestawu do szacowania parametrów uogólnionych modeli liniowych z predyktorami uporządkowanymi. Statystyka obliczeniowa i analiza danych, 54 (6), 1442–1456. Źródło: http://arxiv.org/pdf/0902.0240.pdf?origin=publication_detail .
- Tutz, G. (2011, październik). Metody regularyzacji danych kategorycznych. Monachium: Ludwig-Maximilians-Universität. Źródło: http://m.wu.ac.at/it/departments/statmath/resseminar/talktutz.pdf .
- Tutz, G., i Gertheiss, J. (2013). Skale ocen jako predyktory - stare pytanie o poziom skali i kilka odpowiedzi.Psychometrika , 1-20.
Gdy istnieje wiele predyktorów, a predyktor zainteresowania jest porządkowy, często trudno jest zdecydować, jak kodować zmienną. Kodowanie go jako kategorycznego powoduje utratę informacji o zamówieniu, a kodowanie go jako liczbowego narzuca liniowość efektów uporządkowanych kategorii, które mogą być dalekie od ich prawdziwych efektów. W przypadku tego pierwszego zaproponowano regresję izotoniczną jako sposób rozwiązania problemu niemonotoniczności, ale jest to procedura wyboru modelu oparta na danych, która podobnie jak wiele innych procedur opartych na danych, wymaga starannej oceny ostatecznie dopasowanego modelu i jego znaczenia jego parametrów. W tym drugim przypadku splajny mogą częściowo złagodzić sztywne założenie liniowości, ale liczby wciąż muszą być przypisane do uporządkowanych kategorii, a wyniki są wrażliwe na te wybory. W naszym artykule (Li i Shepherd, 2010, Wstęp, akapity 3-5),
Pozwolić być zmienną wynikową, być zwykłym predyktorem zainteresowania, oraz być innymi współzmiennymi. Zaproponowaliśmy dopasowanie dwóch modeli regresji, jednego dla na i inni na , oblicz resztki dla dwóch modeli i oceń korelację między resztami. W Li i Shepherd (2010) badaliśmy to podejście, kiedy jest porządkowy i pokazał, że może to być bardzo dobre, solidne podejście, o ile efekt kategorie są monotoniczne. Obecnie oceniamy skuteczność tego podejścia w odniesieniu do innych rodzajów wyników.
To podejście wymaga odpowiedniej wartości resztkowej dla regresji porządkowej na . Zaproponowaliśmy nową resztę wyników porządkowych w Li i Shepherd (2010) i wykorzystaliśmy ją do zbudowania statystyki testowej. Następnie zbadaliśmy właściwości i inne zastosowania tej pozostałości w osobnym artykule (Li i Shepherd, 2012).
Opracowaliśmy pakiet R, PResiduals , który jest dostępny w CRAN. Pakiet zawiera funkcje umożliwiające wykonanie naszego podejścia do liniowych i porządkowych typów wyników. Pracujemy nad dodaniem innych typów wyników (np. Zliczanie) i funkcji (np. Umożliwianie interakcji). Pakiet zawiera również funkcje do obliczania naszej wartości resztkowej, która jest wartością resztkową w skali prawdopodobieństwa, dla różnych modeli regresji.
Bibliografia
Li, C. i Shepherd, BE (2010). Test asocjacji między dwiema zmiennymi porządkowymi przy dopasowaniu do zmiennych towarzyszących. JASA, 105, 612–620.
Li, C. i Shepherd, BE (2012). Nowa reszta dla wyników porządkowych. Biometrika 99, 473–480.
Zasadniczo istnieje wiele literatury na temat zmiennych porządkowych jako zależnych i niewiele na temat używania ich jako predyktorów. W praktyce statystycznej zwykle przyjmuje się, że są one ciągłe lub kategoryczne. Możesz sprawdzić, czy model liniowy z predyktorem jako zmienną ciągłą wygląda dobrze, sprawdzając wartości resztkowe.
Czasami są również kodowane łącznie. Przykładem może być zmienna porządkowa x1 z poziomami 1,2 i 3, która ma fikcyjną zmienną binarną d1 dla x1> 1 i fikcyjną zmienną binarną d2 dla x1> 2. Zatem współczynnik dla d1 jest efektem, który uzyskujesz, gdy zwiększasz liczbę porządkową o 2 do 3, a współczynnik dla d2 jest efektem, który otrzymujesz, gdy zmieniasz liczbę porządkową z 2 do 3.
To sprawia, że interpretacja jest często łatwiejsza, ale jest równoznaczna z użyciem jej jako zmiennej kategorycznej do celów praktycznych.
Gelman sugeruje nawet, że można zastosować predyktor porządkowy zarówno jako czynnik kategoryczny (dla głównych efektów), jak i zmienną ciągłą (dla interakcji) w celu zwiększenia elastyczności modeli.
Moją osobistą strategią jest zazwyczaj sprawdzenie, czy traktowanie ich jako ciągłe ma sens i daje rozsądny model, i stosuję je jako kategoryczne, jeśli to konieczne.