Oszacowałem solidny model liniowy R
z wagami MM, korzystając z rlm()
pakietu MASS. „R” nie podaje wartości dla modelu, ale chciałbym ją mieć, jeśli jest to znacząca ilość. Interesuje mnie również to, czy jest jakieś znaczenie posiadanie wartości która waży całkowitą i resztkową wariancję w taki sam sposób, w jaki obserwacje były ważone w silnej regresji. Moje ogólne myślenie jest takie, że jeśli do celów regresji zasadniczo mamy do czynienia z wagami, które dają niektóre szacunki mniej wpływowe, ponieważ są one w jakiś sposób wartościami odstającymi, to być może w celu obliczenia powinniśmy również podać te same szacunki mniej wpływ?
Napisałem dwie proste funkcje dla i ważonej , są one poniżej. Dołączyłem również wyniki uruchomienia tych funkcji do mojego modelu, który nazywa się HI9. EDYCJA: Znalazłem stronę internetową Adelle Coster z UNSW, która podaje formułę obejmującą wektor wag przy obliczaniu obliczeń zarówno i tak jak ja, i poprosiłem ją o bardziej formalne odniesienie: http: //web.maths. unsw.edu.au/~adelle/Garvan/Assays/GoodnessOfFit.html (wciąż szukam pomocy Cross Validated na temat interpretacji tego ważonego )R2
SSe
SSt
#I used this function to calculate a basic r-squared from the robust linear model
r2 <- function(x){
+ SSe <- sum((x$resid)^2);
+ observed <- x$resid+x$fitted;
+ SSt <- sum((observed-mean(observed))^2);
+ value <- 1-SSe/SSt;
+ return(value);
+ }
r2(HI9)
[1] 0.2061147
#I used this function to calculate a weighted r-squared from the robust linear model
> r2ww <- function(x){
+ SSe <- sum((x$w*x$resid)^2); #the residual sum of squares is weighted
+ observed <- x$resid+x$fitted;
+ SSt <- sum((x$w*(observed-mean(observed)))^2); #the total sum of squares is weighted
+ value <- 1-SSe/SSt;
+ return(value);
+ }
> r2ww(HI9)
[1] 0.7716264
Dziękujemy wszystkim, którzy poświęcają czas na odpowiadanie na to. Proszę przyjąć moje przeprosiny, jeśli istnieje już bardzo dobre odniesienie do tego, które przeoczyłem, lub jeśli mój powyższy kod jest trudny do odczytania (nie jestem koderem).
Odpowiedzi:
Następująca odpowiedź oparta jest na: (1) mojej interpretacji Willetta i Singera (1988) Inna uwaga ostrzegawcza na temat kwadratu R: Jest stosowana w analizie regresji metodą najmniejszych kwadratów. The American Statistician. 42 (3). pp236-238 i (2) założenie, że solidna regresja liniowa jest zasadniczo ważoną regresją najmniejszych kwadratów z wagami oszacowanymi w procesie iteracyjnym.
Wzór, który podałem w pytaniu dla r2w, wymaga niewielkiej korekty, aby odpowiadał równaniu 4 w Willet i Singer (1988) dla r2wls: obliczenie SSt powinno również wykorzystywać średnią ważoną:
Jakie jest znaczenie tego (skorygowanego) ważonego kwadratu? Willett i Singer interpretują to jako: „współczynnik determinacji w przekształconym [ważonym] zbiorze danych. Jest to miara proporcji zmiany ważonego Y, którą można uwzględnić za pomocą ważonej X, i jest wielkością, która jest wyprowadzana jako R2 według głównych statystycznych pakietów komputerowych podczas regresji WLS ".
Czy jest to miara dobroci dopasowania? Zależy to od tego, jak jest prezentowany i interpretowany. Willett i Singer ostrzegają, że jest zwykle nieco wyższy niż r-kwadrat uzyskany w zwykłej regresji metodą najmniejszych kwadratów, a wysoka wartość zachęca do wyraźnego wyświetlania ... ale ten obraz może być mylący, JEŻELI jest interpretowany w konwencjonalnym sensie r -squared (jako odsetek nieważonywariacja wyjaśniona przez model). Willett i Singer proponują, że mniej „zwodniczą” alternatywą są pseudoR2wls (ich równanie 7), co odpowiada mojej funkcji r2 w pierwotnym pytaniu. Ogólnie rzecz biorąc, Willett i Singer ostrzegają również, że nie jest dobrze polegać na jakimkolwiek r2 (nawet ich pseudor2wls) jako jedynej mierze dobroci dopasowania. Pomimo tych ostrzeżeń, podstawową zasadą silnej regresji jest to, że niektóre przypadki są oceniane jako „nie tak dobre” i nie liczą się tak bardzo w dopasowaniu modelu, i może to być dobre, aby odzwierciedlić to w części procesu oceny modelu. Opisana ważona r-kwadrat może być jedną z dobrych miar dobroci dopasowania - pod warunkiem, że poprawna interpretacja jest wyraźnie podana w prezentacji i nie jest uznawana za jedyną ocenę dobroci dopasowania.
źródło
@CraigMilligan. Nie powinien:
sum(x$w*observed)/sum(x$w)
weighted.mean(observed,x$w)
Coś takiego:
źródło