Czy skorygowany R-kwadrat ma na celu oszacowanie ustalonego wyniku lub populacji losowego wyniku r-kwadrat?

9

Populacja r-kwadrat ρ2) można zdefiniować przy założeniu wyników stałych lub wyników losowych:

  • Naprawiono wyniki: Wielkość próby i poszczególne wartości predyktorów są utrzymywane na stałym poziomie. A zatem,ρfa2) jest proporcją wariancji wyjaśnioną w wyniku równaniem regresji populacji, gdy wartości predyktora są utrzymywane na stałym poziomie.

  • Losowe wyniki: Konkretne wartości predyktorów pochodzą z rozkładu. A zatem,ρr2) odnosi się do odsetka wariancji wyjaśnionego w wyniku w populacji, w której wartości predyktorów odpowiadają rozkładowi populacji predyktorów.

Wcześniej pytałem o to, czy to rozróżnienie robi dużą różnicę w szacunkachρ2). Zapytałem też ogólnie o sposób obliczenia obiektywnej oceny ρ2).

Widzę, że wraz ze wzrostem wielkości próby rozróżnienie między wynikiem stałym a wynikiem losowym staje się coraz mniej ważne. Próbuję jednak potwierdzić, czy skorygowaneR2) jest przeznaczony do oszacowania wyniku stałego lub wyniku losowego ρ2).

pytania

  • Jest dostosowany R2) zaprojektowany do oszacowania wyniku stałego lub wyniku losowego ρ2)?
  • Czy istnieje zasadnicze wyjaśnienie, w jaki sposób wzór skorygowanego r-kwadratu odnosi się do jednej lub drugiej formy ρ2)?

Tło mojego zamieszania

Kiedy czytam Yin and Fan (2001, s. 206), piszą:

Jednym z podstawowych założeń modelu regresji wielokrotnej jest to, że wartości zmiennych niezależnych są znanymi stałymi i są ustalane przez badacza przed eksperymentem. Tylko zmienna zależna może się zmieniać w zależności od próbki. Ten model regresji nazywany jest stałym modelem regresji liniowej .

Jednak w naukach społecznych i behawioralnych wartości zmiennych niezależnych są rzadko ustalane przez badaczy, a także podlegają przypadkowym błędom. Dlatego zasugerowano drugi model regresji dla aplikacji, w którym zarówno zmienne zależne, jak i niezależne mogą się zmieniać (Binder, 1959; Park i Dudycha, 1974). Ten model nazywa się modelem losowym (lub modelem korekcji). Chociaż szacunki maksymalnego prawdopodobieństwa współczynników regresji uzyskane z modeli losowych i stałych są takie same przy założeniach normalności, ich rozkłady są bardzo różne. Model losowy jest tak złożony, że potrzeba więcej badań, zanim będzie można go zaakceptować zamiast powszechnie stosowanego stałego modelu regresji liniowej. Dlatego zwykle stosowany jest model stały, nawet gdy założenia nie są całkowicie spełnione (Claudy, 1978). Takie zastosowania modelu regresji stałej z naruszonymi założeniami spowodowałyby „przeszacowanie”, ponieważ błąd losowy wprowadzony z mniej niż idealnych danych przykładowych jest zwykle wykorzystywany w procesie. W rezultacie uzyskany w ten sposób współczynnik wielokrotnej korelacji próbki ma tendencję do przeceniania prawdziwej wielokrotnej korelacji populacyjnej (Claudy, 1978; Cohen i Cohen, 1983; Cummings, 1982).

Nie byłem więc pewien, czy powyższe stwierdzenie mówi o dostosowaniu R2) kompensuje błąd wprowadzony przez model losowy lub to, czy było to tylko zastrzeżenie w papierze oznaczające istnienie modelu losowego, ale to, że papier miał skupić się na modelu ustalonym.

Bibliografia

  • Yin, P. i Fan, X. (2001). DoceniającyR2)skurcz w regresji wielorakiej: porównanie różnych metod analitycznych. The Journal of Experimental Education, 69 (2), 203-224. PDF
Jeromy Anglim
źródło

Odpowiedzi:

6

Raju i wsp. (1997) zauważają, że

Pedhazur (1982) i Mitchell & Klimoski (1986) argumentowali, że na wyniki
wybrane przez model [fixed-x lub random-x] wybrany, gdy Ns są co najmniej umiarkowane (około 50), nie ma wpływu.

Niemniej jednak Raju i wsp. (1997) klasyfikują niektóre skorygowane R2) wzory na oszacowanie ρ2) jako „Naprawiono formuły X” i „Losowe formuły X”.

Naprawiono formuły X: Wymieniono kilka formuł, w tym formułę zaproponowaną przez Ezekiela (1930), która jest standardowa w większości programów statystycznych:

ρ^(mi)2)=1-N.-1N.-p-1(1-R2))

Zatem krótka odpowiedź na to pytanie jest dostosowana do standarduR2) formuła zwykle zgłaszana i wbudowana w standardowe oprogramowanie statystyczne jest oszacowaniem stałej x ρ2).

Formuły losowe X:

Olkin i Pratt (1958) zaproponowali formułę

ρ^(OP.)2)=1-[N.-3)N.-p-1](1-R2))fa[1,1;N.-p+12);(1-R2))]
gdzie F jest funkcją hipergeometryczną .

Raju i wsp. (1997) wyjaśniają, w jaki sposób różne inne formuły, takie jak Pratt i Herzberg „są przybliżeniami oczekiwanej funkcji hipergeometrycznej”. Np. Wzór Pratta to

ρ^(P.)2)=1-(N.-3))(1-R2))N.-p-1[1+2)(1-R2))N.-p-2.3]

Czym różnią się szacunki? Raport Leacha i Hansena (2003) przedstawia ładną tabelę pokazującą wpływ różnych formuł na próbkę różnych opublikowanych zestawów danych w psychologii (patrz Tabela 3). Wredny EzechielRzarejot2) było .2864 w porównaniu do Olkin i Pratt Rzarejot2) z .2917 i Pratt Rzarejot2)z .2910. Zgodnie z pierwotnym cytatem Raju i in. O rozróżnieniu między formułami stałymi i losowymi x najbardziej istotnymi dla małych rozmiarów próbek, tabela Leacha i Hansena pokazuje, w jaki sposób różnica między formułą stałej x Ezekiela a formułą losową x Olkina i Pratta jest najbardziej widoczna w małych próbkach, szczególnie tych poniżej 50.

Bibliografia

  • Leach, LF i Henson, RK (2003). Zastosowanie i wpływ skorygowanych efektów R2 w opublikowanych badaniach regresji. Podczas dorocznego spotkania Southwest Educational Research Assocation, San Antonio, Teksas. PDF
  • Mitchell, TW i Klimoski, RJ (1986). Szacowanie ważności oszacowania krzyżowej ważności. Journal of Applied Psychology, 71 , 311-317.
  • Pedhazur, EJ (1982). Wielokrotna regresja w badaniach behawioralnych (wydanie 2) New York: Holt, Rinehart i Winston.
  • Raju, NS, Bilgic, R., Edwards, JE, i Fleer, PF (1997). Przegląd metodologii: Szacowanie ważności populacji i walidacji krzyżowej oraz zastosowanie równych wag w prognozowaniu. Applied Psychological Measurement, 21 (4), 291–305.
Jeromy Anglim
źródło