Czy ważona w solidnym modelu liniowym ma znaczenie dla analizy dobroci dopasowania?

19

Oszacowałem solidny model liniowy Rz wagami MM, korzystając z rlm()pakietu MASS. „R” nie podaje wartości dla modelu, ale chciałbym ją mieć, jeśli jest to znacząca ilość. Interesuje mnie również to, czy jest jakieś znaczenie posiadanie wartości która waży całkowitą i resztkową wariancję w taki sam sposób, w jaki obserwacje były ważone w silnej regresji. Moje ogólne myślenie jest takie, że jeśli do celów regresji zasadniczo mamy do czynienia z wagami, które dają niektóre szacunki mniej wpływowe, ponieważ są one w jakiś sposób wartościami odstającymi, to być może w celu obliczenia powinniśmy również podać te same szacunki mniej wpływ?R2)R2)r2)

Napisałem dwie proste funkcje dla i ważonej , są one poniżej. Dołączyłem również wyniki uruchomienia tych funkcji do mojego modelu, który nazywa się HI9. EDYCJA: Znalazłem stronę internetową Adelle Coster z UNSW, która podaje formułę obejmującą wektor wag przy obliczaniu obliczeń zarówno i tak jak ja, i poprosiłem ją o bardziej formalne odniesienie: http: //web.maths. unsw.edu.au/~adelle/Garvan/Assays/GoodnessOfFit.html (wciąż szukam pomocy Cross Validated na temat interpretacji tego ważonego )R2)R2)R2SSeSStr2)

#I used this function to calculate a basic r-squared from the robust linear model
r2 <- function(x){  
+ SSe <- sum((x$resid)^2);  
+ observed <- x$resid+x$fitted;  
+ SSt <- sum((observed-mean(observed))^2);  
+ value <- 1-SSe/SSt;  
+ return(value);  
+ }  
r2(HI9)  
[1] 0.2061147

#I used this function to calculate a weighted r-squared from the robust linear model
> r2ww <- function(x){
+ SSe <- sum((x$w*x$resid)^2); #the residual sum of squares is weighted
+ observed <- x$resid+x$fitted;
+ SSt <- sum((x$w*(observed-mean(observed)))^2); #the total sum of squares is weighted      
+ value <- 1-SSe/SSt;
+ return(value);
+ }
 > r2ww(HI9)
[1] 0.7716264

Dziękujemy wszystkim, którzy poświęcają czas na odpowiadanie na to. Proszę przyjąć moje przeprosiny, jeśli istnieje już bardzo dobre odniesienie do tego, które przeoczyłem, lub jeśli mój powyższy kod jest trudny do odczytania (nie jestem koderem).

CraigMilligan
źródło
umieść ciężarki wewnątrz lm () i stamtąd r-kwadrat (po co ponownie wymyślać koło?)
user603 30.01.2014
1
dzięki za wskazówkę, jak zrobić to, co zrobiłem bardziej efektywnie. czy ktokolwiek może skomentować znaczenie ważonego kwadratu r, który opisałem / zaproponowałem?
CraigMilligan
@ user603: Jak byś faktycznie zajął się umieszczaniem ciężarków w lm ()?
histelheim,
Dla komplementu najmniej ważony kwadrat dopasowany w R polega na zminimalizowaniu sumy (w * e ^ 2), gdzie e jest resztą. Więc dla twojego kodu obliczeniowego, cała waga w powinna być pierwiastkiem kwadratowym.
Yuanhao Lai,
Chcę podkreślić, że nie musimy brać pod uwagę średniej ważonej, przynajmniej uważam, że ponieważ program, który napisałem, daje r-kwadrat zbliżony do 1 z: klasyczny r-kwadrat ważony r-kwadrat, ale NIE z ważonym r- do kwadratu tam, gdzie ważona jest również średnia, uważam, że -6 jest nawet sprzeczna z intuicją nawet dla mnie, ale wierzę, że to doświadczenie
pierre

Odpowiedzi:

22

Następująca odpowiedź oparta jest na: (1) mojej interpretacji Willetta i Singera (1988) Inna uwaga ostrzegawcza na temat kwadratu R: Jest stosowana w analizie regresji metodą najmniejszych kwadratów. The American Statistician. 42 (3). pp236-238 i (2) założenie, że solidna regresja liniowa jest zasadniczo ważoną regresją najmniejszych kwadratów z wagami oszacowanymi w procesie iteracyjnym.

Wzór, który podałem w pytaniu dla r2w, wymaga niewielkiej korekty, aby odpowiadał równaniu 4 w Willet i Singer (1988) dla r2wls: obliczenie SSt powinno również wykorzystywać średnią ważoną:

the correction is SSt <- sum((x$w*observed-mean(x$w*observed))^2)].

Jakie jest znaczenie tego (skorygowanego) ważonego kwadratu? Willett i Singer interpretują to jako: „współczynnik determinacji w przekształconym [ważonym] zbiorze danych. Jest to miara proporcji zmiany ważonego Y, którą można uwzględnić za pomocą ważonej X, i jest wielkością, która jest wyprowadzana jako R2 według głównych statystycznych pakietów komputerowych podczas regresji WLS ".

Czy jest to miara dobroci dopasowania? Zależy to od tego, jak jest prezentowany i interpretowany. Willett i Singer ostrzegają, że jest zwykle nieco wyższy niż r-kwadrat uzyskany w zwykłej regresji metodą najmniejszych kwadratów, a wysoka wartość zachęca do wyraźnego wyświetlania ... ale ten obraz może być mylący, JEŻELI jest interpretowany w konwencjonalnym sensie r -squared (jako odsetek nieważonywariacja wyjaśniona przez model). Willett i Singer proponują, że mniej „zwodniczą” alternatywą są pseudoR2wls (ich równanie 7), co odpowiada mojej funkcji r2 w pierwotnym pytaniu. Ogólnie rzecz biorąc, Willett i Singer ostrzegają również, że nie jest dobrze polegać na jakimkolwiek r2 (nawet ich pseudor2wls) jako jedynej mierze dobroci dopasowania. Pomimo tych ostrzeżeń, podstawową zasadą silnej regresji jest to, że niektóre przypadki są oceniane jako „nie tak dobre” i nie liczą się tak bardzo w dopasowaniu modelu, i może to być dobre, aby odzwierciedlić to w części procesu oceny modelu. Opisana ważona r-kwadrat może być jedną z dobrych miar dobroci dopasowania - pod warunkiem, że poprawna interpretacja jest wyraźnie podana w prezentacji i nie jest uznawana za jedyną ocenę dobroci dopasowania.

CraigMilligan
źródło
1
(+1). Dziękujemy za poświęcenie czasu na odpowiedź.
user603
1

@CraigMilligan. Nie powinien:

  • ciężar znajduje się poza kwadratowym nawiasiem
  • średnią ważoną można obliczyć, dla której możemy również użyćsum(x$w*observed)/sum(x$w)weighted.mean(observed,x$w)

Coś takiego:

r2ww <- function(x){
  SSe <- sum(x$w*(x$resid)^2)
  observed <- x$resid+x$fitted
  SSt <- sum(x$w*(observed-weighted.mean(observed,x$w))^2)
  value <- 1-SSe/SSt;
  return(value);
}
Julien Massardier
źródło