Zmniejszony vs obiektywny : estymatory

22

W mojej głowie pojawiło się zamieszanie co do dwóch rodzajów estymatorów wartości populacji współczynnika korelacji Pearsona.

A. Fisher (1915) wykazał, że dla dwuwymiarowej populacji normalnej empiryczny jest negatywnie tendencyjnym estymatorem , chociaż odchylenie może być praktycznie znaczne tylko dla małej wielkości próby ( ). Próbka nie docenia w tym sensie, że jest bliższa niż . (Z wyjątkiem, gdy ten ostatni jest lub , bo wtedy jest bezstronna.) Kilka prawie pakietów estymatory z został zaproponowany, najlepszy prawdopodobnie będąc Olkin i Pratt (1958)rn < 30 r ρ 0 ρ 0 ± 1 rρn<30rρ0ρ0±1rρpoprawione :r

rbezinteresowny=r[1+1-r2)2)(n-3))]

B. Mówi się, że w regresji przecenia odpowiednią populację R-kwadrat. Lub, przy prostej regresji, jest tak, że przecenia . W oparciu o ten fakt widziałem wiele tekstów mówiących, że jest pozytywnie stronniczy w stosunku do , co oznacza wartość bezwzględną: jest dalej od niż (czy to stwierdzenie jest prawdziwe?). Teksty mówią, że jest to ten sam problem, co przeszacowanie parametru odchylenia standardowego przez jego wartość próbki. Istnieje wiele formuł do „dostosowania” zaobserwowanego bliżej jego parametru populacji, Wherry's (1931)r 2 ρ 2 rR2)r2)ρ2)rr 0 ρ R 2ρr0ρR2) Rprzym2) jest najbardziej znanym (ale nie najlepszym). Rdzeń takiego skorygowanego nazywa się skurczonym :rprzym2) r

rskurczył się=±1-(1-r2))n-1n-2)

Obecne są dwa różne estymatory . Zupełnie inaczej: pierwszy nadmuchuje , drugi opróżnia . Jak je pogodzić? Gdzie użyć / zgłosić jedno, a gdzie - drugie?r rρrr

W szczególności może być prawdą, że „skurczony” estymator jest również (prawie) bezstronny, podobnie jak „bezstronny”, ale tylko w innym kontekście - w asymetrycznym kontekście regresji. Bo czy w regresji OLS uważamy wartości jednej strony (predyktora) za ustalone, uczestnicząc bez przypadkowego błędu między próbkami? (I aby dodać tutaj, regresja nie wymaga dwuwymiarowej normalności.)

ttnphns
źródło
Zastanawiam się, czy sprowadza się to do czegoś opartego na nierówności Jensena. To, i dwuwymiarowa normalność jest prawdopodobnie złym założeniem w większości przypadków.
shadowtalker
1
Rozumiem również kwestię w B., że regresja jest zawyżona, ponieważ dopasowanie regresji można dowolnie poprawić przez dodanie predyktorów. To nie brzmi dla mnie jak ten sam problem, co w A.r2)
shadowtalker
Czy to w rzeczywistości prawda, że jest pozytywnie tendencyjnym oszacowaniem ρ 2 dla wszystkich wartości ρ ? Dla dwuwymiarowego rozkładu normalnego wydaje się, że nie jest tak w przypadku ρ wystarczająco dużego. r2)ρ2)ρρ
NRH
Czy odchylenie może iść w przeciwnym kierunku do kwadratu estymatora? Na przykład, w prostszym estymatora można było wykazać, że w niektórych zakresach θ ? Myślę, że byłoby to trudne, gdyby θ = ρ , ale być może można by opracować prostszy przykład. mi[θ^-θ]<0<mi[θ^2)-θ2)]θθ=ρ
Anthony

Odpowiedzi:

1

Odnośnie błędu systematycznego w korelacji: gdy wielkość próby jest wystarczająco mała, aby błąd systematyczny miał jakiekolwiek praktyczne znaczenie (np. Sugerowane przez ciebie n <30), wtedy błąd systematyczny będzie prawdopodobnie najmniejszym z twoich zmartwień, ponieważ niedokładność jest straszna.

Jeśli chodzi o stronniczość R 2 w regresji wielokrotnej, istnieje wiele różnych regulacji, które odnoszą się do bezstronnej oceny populacji vs. bezstronnej oceny w niezależnym próbki o równej wielkości. Patrz Yin, P. & Fan, X. (2001). Oszacowanie skurczu R 2 w regresji wielokrotnej: porównanie metod analitycznych. The Journal of Experimental Education, 69, 203-224.

Współczesne metody regresji zajmują się także zmniejszaniem się współczynników regresji, a także R 2 w konsekwencji - np. Elastyczna siatka z k- krotną weryfikacją krzyżową, patrz http://web.stanford.edu/~hastie/Papers/ elasticnet.pdf .

Fred Oswald
źródło
1
Nie wiem, czy to naprawdę odpowiada na pytanie
shadowtalker
1

Myślę, że odpowiedź jest w kontekście prostej regresji i regresji wielokrotnej. W prostej regresji z jednym IV i jednym DV, R sq nie jest pozytywnie tendencyjny, a w rzeczywistości może być negatywnie tendencyjny, biorąc pod uwagę, że r jest ujemnie tendencyjny. Ale w regresji wielokrotnej z kilkoma IV, które mogą być skorelowane, Rk może być pozytywnie tendencyjne z powodu jakiegokolwiek „tłumienia”, które może mieć miejsce. Tak więc, moim zdaniem, obserwowane R2 przecenia odpowiednią R-kwadrat populacji, ale tylko w regresji wielokrotnej

Dingus
źródło
1
R sq is not positively biased, and in-fact may be negatively biasedCiekawy. Czy możesz to pokazać lub podać referencje? - Czy w dwuwymiarowej populacji normalnej, czy obserwowana statystyka Rsq może być estymatorem negatywnie obciążonym?
ttnphns
Myślę że się mylisz. Czy możesz podać odniesienie w celu uzasadnienia roszczenia?
Richard Hardy
Przepraszam, ale to było raczej ćwiczenie myślenia, więc nie mam odniesienia.
Dingus
Zaczynałem od powyższego komentarza A, w którym Fischer pokazał, że w dwuwymiarowej normalnej sytuacji r jest ujemnie tendencyjnym estymatorem rho. Jeśli tak jest, czy nie wynika z tego, że R sq jest również negatywnie tendencyjny?
Dingus
Być może pomoże to w rozmowie digitalcommons.unf.edu/cgi/…
Dingus,