W mojej głowie pojawiło się zamieszanie co do dwóch rodzajów estymatorów wartości populacji współczynnika korelacji Pearsona.
A. Fisher (1915) wykazał, że dla dwuwymiarowej populacji normalnej empiryczny jest negatywnie tendencyjnym estymatorem , chociaż odchylenie może być praktycznie znaczne tylko dla małej wielkości próby ( ). Próbka nie docenia w tym sensie, że jest bliższa niż . (Z wyjątkiem, gdy ten ostatni jest lub , bo wtedy jest bezstronna.) Kilka prawie pakietów estymatory z został zaproponowany, najlepszy prawdopodobnie będąc Olkin i Pratt (1958)n < 30 r ρ 0 ρ 0 ± 1 rpoprawione :
B. Mówi się, że w regresji przecenia odpowiednią populację R-kwadrat. Lub, przy prostej regresji, jest tak, że przecenia . W oparciu o ten fakt widziałem wiele tekstów mówiących, że jest pozytywnie stronniczy w stosunku do , co oznacza wartość bezwzględną: jest dalej od niż (czy to stwierdzenie jest prawdziwe?). Teksty mówią, że jest to ten sam problem, co przeszacowanie parametru odchylenia standardowego przez jego wartość próbki. Istnieje wiele formuł do „dostosowania” zaobserwowanego bliżej jego parametru populacji, Wherry's (1931)r 2 ρ 2 rr 0 ρ R 2 jest najbardziej znanym (ale nie najlepszym). Rdzeń takiego skorygowanego nazywa się skurczonym :
Obecne są dwa różne estymatory . Zupełnie inaczej: pierwszy nadmuchuje , drugi opróżnia . Jak je pogodzić? Gdzie użyć / zgłosić jedno, a gdzie - drugie?r r
W szczególności może być prawdą, że „skurczony” estymator jest również (prawie) bezstronny, podobnie jak „bezstronny”, ale tylko w innym kontekście - w asymetrycznym kontekście regresji. Bo czy w regresji OLS uważamy wartości jednej strony (predyktora) za ustalone, uczestnicząc bez przypadkowego błędu między próbkami? (I aby dodać tutaj, regresja nie wymaga dwuwymiarowej normalności.)
Odpowiedzi:
Odnośnie błędu systematycznego w korelacji: gdy wielkość próby jest wystarczająco mała, aby błąd systematyczny miał jakiekolwiek praktyczne znaczenie (np. Sugerowane przez ciebie n <30), wtedy błąd systematyczny będzie prawdopodobnie najmniejszym z twoich zmartwień, ponieważ niedokładność jest straszna.
Jeśli chodzi o stronniczość R 2 w regresji wielokrotnej, istnieje wiele różnych regulacji, które odnoszą się do bezstronnej oceny populacji vs. bezstronnej oceny w niezależnym próbki o równej wielkości. Patrz Yin, P. & Fan, X. (2001). Oszacowanie skurczu R 2 w regresji wielokrotnej: porównanie metod analitycznych. The Journal of Experimental Education, 69, 203-224.
Współczesne metody regresji zajmują się także zmniejszaniem się współczynników regresji, a także R 2 w konsekwencji - np. Elastyczna siatka z k- krotną weryfikacją krzyżową, patrz http://web.stanford.edu/~hastie/Papers/ elasticnet.pdf .
źródło
Myślę, że odpowiedź jest w kontekście prostej regresji i regresji wielokrotnej. W prostej regresji z jednym IV i jednym DV, R sq nie jest pozytywnie tendencyjny, a w rzeczywistości może być negatywnie tendencyjny, biorąc pod uwagę, że r jest ujemnie tendencyjny. Ale w regresji wielokrotnej z kilkoma IV, które mogą być skorelowane, Rk może być pozytywnie tendencyjne z powodu jakiegokolwiek „tłumienia”, które może mieć miejsce. Tak więc, moim zdaniem, obserwowane R2 przecenia odpowiednią R-kwadrat populacji, ale tylko w regresji wielokrotnej
źródło
R sq is not positively biased, and in-fact may be negatively biased
Ciekawy. Czy możesz to pokazać lub podać referencje? - Czy w dwuwymiarowej populacji normalnej, czy obserwowana statystyka Rsq może być estymatorem negatywnie obciążonym?