W psychologii i innych dziedzinach często stosuje się formę regresji stopniowej, która obejmuje:
- Spójrz na pozostałe predyktory (początkowo nie ma ich w modelu) i zidentyfikuj predyktor, który powoduje największą zmianę r-kwadrat;
- Jeśli wartość p zmiany r-kwadrat jest mniejsza niż alfa (zazwyczaj 0,05), to włącz ten predyktor i wróć do kroku 1, w przeciwnym razie zatrzymaj się.
Na przykład zobacz tę procedurę w SPSS .
Procedura jest rutynowo krytykowana z wielu różnych powodów (patrz ta dyskusja na stronie internetowej Stata z odnośnikami ).
W szczególności strona internetowa Stata podsumowuje kilka komentarzy Franka Harrella. Jestem zainteresowany roszczeniem:
[regresja krokowa] daje wartości R-kwadrat, które są źle ukierunkowane na wysokie.
W szczególności niektóre z moich obecnych badań koncentrują się na szacowaniu populacji r-kwadrat . Przez populację r-kwadrat odnoszę się do procentu wariancji wyjaśnionego przez dane populacji generujące równanie w populacji. Wiele z istniejącej literatury, którą recenzuję, stosuje procedury regresji krokowej i chcę wiedzieć, czy przedstawione szacunki są stronnicze, a jeśli tak, to o ile. W szczególności typowe badanie miałoby 30 predyktorów, n = 200, alfa wejścia 0,05, a szacunki r-kwadrat około 0,5.
Co wiem:
- Asymptotycznie, każdy predyktor o niezerowym współczynniku byłby statystycznie istotnym predyktorem, a r-kwadrat równałby się skorygowanemu r-kwadratowi. Zatem asymptotycznie regresja krokowa powinna oszacować prawdziwe równanie regresji i prawdziwą populację r-kwadrat.
- Przy mniejszych próbkach możliwe pominięcie niektórych predyktorów spowoduje mniejszy kwadrat r niż w przypadku uwzględnienia wszystkich predyktorów w modelu. Ale również zwykłe odchylenie danych r-kwadrat do próbek zwiększyłoby r-kwadrat. Tak więc moją naiwną myślą jest to, że potencjalnie te dwie przeciwstawne siły mogą w pewnych warunkach skutkować bezstronnym kwadratem r. Mówiąc bardziej ogólnie, kierunek odchylenia byłby zależny od różnych cech danych i kryteriów włączenia alfa.
- Ustawienie bardziej rygorystycznego kryterium włączenia alfa (np. 0,01, 0,001 itd.) Powinno obniżyć oczekiwany szacowany r-kwadrat, ponieważ prawdopodobieństwo włączenia dowolnego predyktora do dowolnej generacji danych będzie mniejsze.
- Zasadniczo, r-kwadrat jest uprzedzonym w górę oszacowaniem populacji r-kwadrat, a stopień tego obciążenia wzrasta wraz z większą liczbą predyktorów i mniejszymi wielkościami próby.
Pytanie
Wreszcie moje pytanie:
- W jakim stopniu r-kwadrat z regresji krokowej powoduje tendencyjne oszacowanie r-kwadratu populacji?
- W jakim stopniu to odchylenie jest związane z rozmiarem próbki, liczbą predyktorów, kryterium włączenia alfa lub właściwościami danych?
- Czy są jakieś odniesienia na ten temat?
źródło
Odpowiedzi:
źródło
Przegląd
Symulacja
Poniższa symulacja ma cztery nieskorelowane predyktory, w których populacja r-kwadrat wynosi 40%. Dwa z predyktorów wyjaśniają po 20%, a dwa pozostałe predyktory wyjaśniają 0%. Symulacja generuje 1000 zestawów danych i szacuje regresję krokową r-kwadrat jako procent dla każdego zestawu danych.
Poniższy kod zwraca kwadrat r z literą alfa dla wpisania .01, .001, .0001 i .00001.
Poniższe wyniki wskazują błąd systematyczny dla każdego z pięciu wpisów alfa. Zauważ, że pomnożyłem r-kwadrat przez 100, aby ułatwić dostrzeżenie różnic.
Wyniki sugerują, że alfa pozycji 0,01 i 0,001 skutkuje dodatnią stronniczością, a alfa pozycji 0,0001 i 0,00001 skutkuje ujemną stronniczością. Prawdopodobnie więc alfa wejścia około 0,0005 spowodowałoby bezstronną regresję stopniową.
Główny wniosek, jaki z tego wyciągam, jest taki, że regresja krokowa nie jest z natury stronnicza w określonym kierunku. To powiedziawszy, będzie co najmniej nieco tendencyjne dla wszystkich oprócz jednej wartości p wejścia predyktora. Uważam @Peter Flom, że w prawdziwym świecie nie znamy procesu generowania danych. Wyobrażam sobie jednak, że bardziej szczegółowe badanie tego, jak zmienia się to odchylenie, n, alfa wejścia, procesy generowania danych i procedura regresji krokowej (np. Łącznie z przejściem wstecznym) może znacznie pomóc zrozumieć takie odchylenie.
Bibliografia
źródło