R-kwadrat w regresji kwantowej

21

Korzystam z regresji kwantowej, aby znaleźć predyktory 90. percentyla moich danych. Robię to w R za pomocą quantregpakietu. Jak mogę określić dla regresji kwantylowej, która wskaże, ile zmienności wyjaśnia zmienne predykcyjne?r2

To, co naprawdę chcę wiedzieć: „Jakąkolwiek metodę, której mogę użyć, aby dowiedzieć się, ile wyjaśniono zmienności?”. Poziom istotności według wartości P jest dostępny w wyjściu polecenia: summary(rq(formula,tau,data)). Jak mogę uzyskać dopasowanie?

rnso
źródło
7
R2 nie ma znaczenia dla regresji kwantylowej.
whuber
@whuber: Jaka alternatywna metoda, której mogę użyć, aby dowiedzieć się, ile wyjaśniono zmienności?
rnso
2
Byłoby dobrze zadać w treści pytania, niż w komentarzu! „Wyjaśnienie zmienności” (w każdym razie mierzone jako wariancje) jest zasadniczo pojęciem najmniejszych kwadratów; być może to, czego chcesz, to właściwa miara statystycznego znaczenia lub być może dopasowania.
whuber
W przypadku każdej liczby zasług należy wziąć pod uwagę to, co byłoby dobre, co byłoby słabe, a co nieistotne. Na przykład nie krytykuje się 90. percentyla, jeśli jest kiepskim predyktorem 10. percentyla. Punktem odniesienia może być to, czego możesz użyć, jeśli nie korzystasz z regresji kwantowej. Jeśli twoje predyktory są ciągłe, może to być trudne do zdefiniowania.
Nick Cox,
1
@whuber: Dodałem to w treści pytania. Poziom istotności według wartości P jest dostępny w postaci podsumowania (rq (formuła, tau, dane)). Jak mogę uzyskać dopasowanie?
rnso

Odpowiedzi:

23

Koenker i Machado opisują , lokalną miarę dobroci dopasowania dla konkretnego kwantylu ( ). R 1 τ[1]R1τ

NiechV.(τ)=minbρτ(yja-xjab)

Niech i będą oszacowaniami współczynników dla pełnego modelu i modelu ograniczonego, i niech i będą odpowiednie warunki ~ β (τ) V ~ V Vβ^(τ)β~(τ)V.^V.~V.

Określają kryterium dobroci dopasowania .R1(τ)=1-V.^V.~

Koenker daje kod tutaj ,V.

rho <- function(u,tau=.5)u*(tau - (u < 0))
V <- sum(rho(f$resid, f$tau))

Jeśli więc obliczymy dla modelu z tylko przechwytywaniem ( - lub we fragmencie kodu poniżej), a następnie z nieograniczonym modelem ( ), możemy obliczyć, że - przynajmniej teoretycznie - nieco jak zwykle .~ V V R 2V.V.~V0V.^R1 <- 1-Vhat/V0R2)

Edycja: W twoim przypadku, oczywiście, drugi argument, który zostałby wstawiony w f$tauwywołaniu w drugim wierszu kodu, będzie dowolną tauużytą wartością. Wartość w pierwszym wierszu określa jedynie wartość domyślną.

„Wyjaśnianie wariancji średniej” nie jest tak naprawdę tym, co robisz z regresją kwantową, więc nie powinieneś oczekiwać naprawdę równoważnej miary.

Nie sądzę, aby koncepcja dobrze przekładała się na regresję kwantową. Możesz zdefiniować różne mniej lub bardziej analogiczne wielkości, jak tutaj, ale bez względu na to, co wybierzesz, nie będziesz mieć większości właściwości, które ma prawdziwa w regresji OLS. Musisz jasno określić, jakich właściwości potrzebujesz, a czego nie - w niektórych przypadkach może być możliwe wykonanie pomiaru, który spełni Twoje oczekiwania.R 2R2)R2)

-

[1] Koenker, R i Machado, J (1999),
Dobroć dopasowania i powiązane procesy wnioskowania dla regresji kwantowej,
Journal of American Statistics Association, 94 : 448, 1296-1310

Glen_b - Przywróć Monikę
źródło
Czy tau = 0,9 powinno być raczej 0,5?
Dimitriy V. Masterov,
Tak, powinno, ale jeśli podasz poprawny drugi argument (tak jak w drugim wierszu, który zacytowałem powyżej), tak to działa. Wartość 0,5 w pierwszym wierszu jest po prostu domyślnym argumentem, jeśli nie zostanie określony taupodczas wywoływania funkcji. Wyjaśnię to w poście.
Glen_b
@Glen_b Dzięki za wyjaśnienie. O ile nie robię czegoś głupiego, V wydaje się być sumą ważonych odchyleń dotyczących szacowanego kwantyla, a nie pseudo- . R2)
Dimitriy V. Masterov,
@Dimitriy Uh, masz rację, coś zostawiłem. Zaraz to naprawię.
Glen_b
@Dimitriy Myślę, że teraz to naprawiłem.
Glen_b
19

Pseudo , proponuje się według Koenker i Machado (1999) w JASA mierzy dobroć dopasowania przez porównanie sumy ważonych odchyleń dla modelu zainteresowania z taką samą kwotę z modelem, w którym tylko Pojawia przecięcia. Jest obliczany jakoR2)

R1(τ)=1-yjay^jaτ|yja-y^ja|+yja<y^ja(1-τ)|yja-y^ja|yjay¯τ|yja-y¯|+yja<y¯ja(1-τ)|yja-y¯|,

gdzie to dopasowany kwantyl dla obserwacji , a to dopasowana wartość tylko z przechwytywania Model.τi ˉ Y =betaτy^ja=ατ+βτxτjay¯=βτ

[ 0 , 1 ] τ R 2R1(τ) powinno leżeć w , gdzie 1 odpowiada idealnie dopasowanemu, ponieważ licznik składający się z ważonej sumy odchyleń wynosiłby zero. Jest to lokalna miara dopasowania dla QRM, ponieważ zależy od , w przeciwieństwie do globalnego z OLS. Jest to prawdopodobnie źródło ostrzeżeń o używaniu go: jeśli model pasuje do ogona, nie ma gwarancji, że pasuje dobrze gdzie indziej. Takie podejście można również zastosować do porównania modeli zagnieżdżonych.[0,1]τR2)

Oto przykład w R:

library(quantreg)
data(engel)

fit0 <- rq(foodexp~1,tau=0.9,data=engel)
fit1 <- rq(foodexp~income,tau=0.9,data=engel)

rho <- function(u,tau=.5)u*(tau - (u < 0))
R1 <- 1 - fit1$rho/fit0$rho

Można to prawdopodobnie osiągnąć bardziej elegancko.

Dimitriy V. Masterov
źródło
Twoja formuła nie wyświetla się dobrze. Po zalogowaniu minus: R_1(\tau) = 1 - 􀀀ostatnia postać to jakiś bałagan. Czy możesz to sprawdzić? Może wkleiłeś jakąś niestandardową postać zamiast używać Texa
Tim
@Tim Nie widzę nic dziwnego, ani w tekscie, ani na ekranie.
Dimitriy V. Masterov,
Wygląda to tak na Linuksie i na Windowsie
Tim
@ Czas To pole nie odpowiada niczym, więc można je zignorować. Spróbuję go później edytować na innym komputerze.
Dimitriy V. Masterov,