Warunkowe oczekiwanie na R-kwadrat

18

Rozważ prosty model liniowy:

yy=Xββ+ϵ

gdzie ϵii.i.d.N(0,σ2) i XRn×p ,p2 aX zawiera kolumnę stałych.

My pytanie, ponieważ E(XX) , β i σ , ma wzór o nie trywialne górną granicę E(R2) *? (przy założeniu, że model został oszacowany przez OLS).

* Przypuszczałem, pisząc to, że coraz E(R2) sama w sobie nie byłoby to możliwe.

EDYCJA 1

stosując rozwiązanie wyprowadzone przez Stéphane Laurenta (patrz poniżej) możemy uzyskać nietrywialną górną granicę E(R2) . Niektóre symulacje numeryczne (poniżej) pokazują, że ta granica jest w rzeczywistości dość ścisła.

Stéphane Laurent pochodzące następujące: R2B(p1,np,λ) gdzie B(p1,np,λ) jest poza centrum dystrybucji beta, non-centralność parametr λ z

λ=||XβE(X)β1n||2σ2

Więc

E(R2)=E(χp12(λ)χp12(λ)+χnp2)E(χp12(λ))E(χp12(λ))+E(χnp2)

gdzie χk2(λ) jest χ2 z parametrem λ i k stopni swobody. Tak nietrywialnym górna granica dla E(R2) to

λ+p1λ+n1

jest bardzo ciasny (możliwe byłoby ściślejsze niż oczekiwałem):

na przykład za pomocą:

rho<-0.75
p<-10
n<-25*p
Su<-matrix(rho,p-1,p-1)
diag(Su)<-1
su<-1
set.seed(123)
bet<-runif(p)

średnia z R2 ponad 1000 symulacji wynosi 0.960819. Teoretyczna górna granica powyżej daje 0.9609081. Związany wydaje się być równie precyzyjne w wielu wartości R2 . Naprawdę zdumiewające!

EDYCJA 2:

Po dalszych badaniach, to pojawia się , że jakość górnej granicy przybliżenie będzie lepiej co X + s wzrasta (a reszta równych X zwiększa się z N ).E(R2)λ+pλn

użytkownik603
źródło
ma rozkład beta, w zależności od parametrów tylko n i p . Nie? R2np
Stéphane Laurent
1
Ooopps, przepraszam, moje poprzednie twierdzenie jest prawdziwe tylko pod hipotezą „modelu zerowego” (tylko przechwytywanie). Inaczej dystrybucja powinno być coś jak noncentral dystrybucji Beta, z parametrem noncentrality udziałem nieznanych parametrów. R2
Stéphane Laurent
@ StéphaneLaurent: dzięki. Czy wiesz więcej na temat związku między nieznanymi parametrami a parametrami Beta?
Utknąłem
Czy absolutnie musisz poradzić sobie z ? Być może istnieje prosty dokładny wzór na E [ R 2 / ( 1 - R 2 ) ] . E[R2]E[R2/(1R2)]
Stéphane Laurent,
1
Z zapisami moją odpowiedź, jakiegoś skalarnego k i pierwszej chwili noncentral F -Dystrybucja jest prosta. R2/(1R2)=kFkF
Stéphane Laurent,

Odpowiedzi:

13

Można zapisać dowolny model liniowy gdzie G ma standardowy rozkład normalny na R n i przyjmuje się, że μ należy do podprzestrzeni liniowej W z R n . W twoim przypadku W = Im ( X ) .Y=μ+σGGRnμWRnW=Im(X)

Niech będzie jednowymiarową podprzestrzenią liniową generowaną przez wektor ( 1 , 1 , , 1 ) . Biorąc U = [ 1 ] poniżej, R 2 jest silnie związana z klasycznego statystycznego Fisher F = P Z Y 2 / ( m - )[1]W(1,1,,1)U=[1]R2 dla testu hipotezyH0:{μU},gdzieUWjest podprzestrzenią liniową, i oznaczające Z=UWortogonalnym dopełnieniemUwW, a oznaczającem=dim(W)i=dim(U)

F=PZY2/(m)PWY2/(nm),
H0:{μU}UWZ=UWUWm=dim(W)=dim(U) (wtedy i= 1 w twojej sytuacji).m=p=1

Rzeczywiście, , ponieważ definicjaR2to R2=P Z Y 2

PZY2PWY2=R21R2
R2
R2=PZY2PUY2=1PWY2PUY2.

Obviously PZY=PZμ+σPZG and PWY=σPWG.

When H0:{μU} is true then PZμ=0 and therefore

F=PZG2/(m)PWG2/(nm)Fm,nm
has the Fisher Fm,nm distribution. Consequently, from the classical relation between the Fisher distribution and the Beta distribution, R2B(m,nm).

PZY=PZμ+σPZG when PZμ0. In this general case one has PZY2σ2χm2(λ), the noncentral χ2 distribution with m degrees of freedom and noncentrality parameter λ=PZμ2σ2, and then FFm,nm(λ) (noncentral Fisher distribution). This is the classical result used to compute power of F-tests.

The classical relation between the Fisher distribution and the Beta distribution hold in the noncentral situation too. Finally R2 has the noncentral beta distribution with "shape parameters" m and nm and noncentrality parameter λ. I think the moments are available in the literature but they possibly are highly complicated.

Finally let us write down PZμ. Note that PZ=PWPU. One has PUμ=μ¯1 when U=[1], and PWμ=μ. Hence PZμ=μμ¯1 where here μ=Xβ for the unknown parameters vector β.

Stéphane Laurent
źródło
1
PZx is the orthogoanl projection of x on the linear subspace Z. And P denotes projection on the orthogonal.
Stéphane Laurent
1
Beware of PxPx2. I'm going to edit my post to write the formulas.
Stéphane Laurent
1
Done - do you see any simplification ?
Stéphane Laurent
1
μ¯=1nμi
Stéphane Laurent
1
Type I, obviously: type II are distributed on (0,). Actually R2/(1R2) has the type II distribution. I have done the last corrections for today.
Stéphane Laurent