James-Stein Estymator: Jak Efron i Morris oblicz

18

Mam pytanie dotyczące obliczania współczynnika James-Stein Kurczenie w 1977 Scientific American papierze Bradley Efron i Carl Morris, "Paradox Steina w Statistics" .

Zebrałem dane dla graczy baseballowych i jest podany poniżej:

Name, avg45, avgSeason    
Clemente, 0.400, 0.346    
Robinson, 0.378, 0.298    
Howard, 0.356, 0.276    
Johnstone, 0.333, 0.222    
Berry, 0.311, 0.273    
Spencer, 0.311, 0.270    
Kessinger, 0.289, 0.263    
Alvarado, 0.267, 0.210    
Santo, 0.244, 0.269    
Swoboda, 0.244, 0.230    
Unser, 0.222, 0.264    
Williams, 0.222, 0.256    
Scott, 0.222, 0.303    
Petrocelli, 0.222, 0.264    
Rodriguez, 0.222, 0.226    
Campaneris, 0.200, 0.285    
Munson, 0.178, 0.316    
Alvis, 0.156, 0.200

avg45jest średnio po 45 w nietoperzy jest oznaczona jako y w wyrobie. avgSeasonjest koniec średniej sezonu.

James-Stein estymator na średnią ( ) uzyskuje się oo = °° r + C ( Y - ˉ y ) a Współczynnik kurczliwości C podaje się (strony 5 Scientific American 1977 artykułu) c = 1 - ( k - 3 ) σ 2z

z=y¯+c(yy¯)
c
c=1(k3)σ2(yy¯)2,

gdzie jest liczbą nieznanych średnich. Tutaj jest 18 graczy, więc k = 18 . Mogę obliczyć ( y - ˉ y ) 2 używając wartości. Ale nie wiem jak obliczyć σ 2 . Autorzy twierdzą, że c = 0,212 dla danego zestawu danych.kk=18(yy¯)2avg45σ2c=0.212

Próbowałem przy użyciu zarówno i Ď 2 y dla Ď 2 , ale nie dać poprawną odpowiedź na c = 0,212σx2σy2σ2c=0.212

Czy ktoś może być na tyle uprzejmy, aby dać mi znać, jak obliczyć dla tego zestawu danych?σ2

Anand
źródło
1
Wiem MAD ( en.wikipedia.org/wiki/Median_absolute_deviation ) służy wiele dla falkowej skurczu.
Robin Girard

Odpowiedzi:

19

Parametr to (nieznana) wspólna wariancja elementów wektora, z których każdy, jak zakładamy, jest normalnie rozłożony. Dla danych baseball mamy 45 Y i ~ b i n o m ( 45 , str I ) , a więc normalnie przybliżeniem rozkładu dwumianowego daje (z ^ p I = Y I )σ245Yibinom(45,pi)pi^=Yi

p^inorm(mean=pi,var=pi(1pi)/45).

Oczywiście w tym przypadku odchylenia nie są równe, ale gdyby była równa się do wspólnej wartości wówczas może oszacować jej zbiorczej estymatora Ď 2 = p ( 1 - p ) w którym p jest wielka średnią p =1

σ^2=p^(1p^)45,
p^ Wygląda na to, że tak właśnie zrobili Efron i Morris (w artykule z 1977 r.).
p^=11845i=11845Yi=Y¯.

Możesz to sprawdzić za pomocą następującego kodu R. Oto dane:

y <- c(0.4, 0.378, 0.356, 0.333, 0.311, 0.311, 0.289, 0.267, 0.244, 0.244, 0.222, 0.222, 0.222, 0.222, 0.222, 0.2, 0.178, 0.156)

a oto oszacowanie dla :σ2

s2 <- mean(y)*(1 - mean(y))/45

który jest σ 20,004332392 . Współczynnik skurczu w papierze jest wówczasσ^20.004332392

1 - 15*s2/(17*var(y))

c0.2123905k2k3


źródło
Doskonałe wyjaśnienie, uwielbiam normalne przybliżenie dwumianu.
Chamberlain Foncha,
14

Nie jestem pewien, o do=0,212, ale następujący artykuł zawiera znacznie bardziej szczegółowy opis tych danych:

Efron, B., i Morris, C. (1975). Analiza danych za pomocą estymatora Stein i jego uogólnień. Journal of the American Statistics Association, 70 (350), 311-319 (link do pdf)

lub bardziej szczegółowe

Efron, B., i Morris, C. (1974). Analiza danych za pomocą estymatora Stein i jego uogólnień. R-1394-OEO, The RAND Corporation, marzec 1974 r. (Link do pdf) .

Na stronie 312 zobaczysz, że Efron i Morris używają transformacji łukowo-sinowej tych danych, tak że wariancja średnich mrugnięć wynosi w przybliżeniu jedność:

> dat <- read.table("data.txt", header=T, sep=",")
> yi  <- dat$avg45
> k   <- length(yi)
> yi  <- sqrt(45) * asin(2*yi-1)
> c   <- 1 - (k-3)*1 / sum((yi - mean(yi))^2)
> c
[1] 0.2091971

Następnie używają c = .209 do obliczenia z wartości, które możemy łatwo przekształcić wstecz:

> zi  <- mean(yi) + c * (yi - mean(yi))
> round((sin(zi/sqrt(45)) + 1)/2,3) ### back-transformation
[1] 0.290 0.286 0.282 0.277 0.273 0.273 0.268 0.264 0.259
[10] 0.259 0.254 0.254 0.254 0.254 0.254 0.249 0.244 0.239

Są to więc wartości estymatora Stein. Dla Clemente otrzymujemy .290, co jest dość zbliżone do .294 z artykułu z 1977 r.

Wolfgang
źródło