Stopniowa regresja w R - Krytyczna wartość p

Jaka jest krytyczna wartość p używana przez step()funkcję w R do regresji krokowej? Zakładam, że jest to 0,15, ale czy moje założenie jest prawidłowe? Jak mogę zmienić krytyczną wartość p?

r regression p-value stepwise-regression Jason Samuels
źródło

Funkcja „kroku” R jest oparta na AIC.

Michael M

Najlepiej nie używać w ogóle procedur stopniowego wyboru modelu. Aby zrozumieć dlaczego, może pomóc ci przeczytać moją odpowiedź tutaj: Algorytmy automatycznego wyboru modelu .

gung - Przywróć Monikę

W nawiązaniu do komentarza @ MichaelMayer: Descriptionczęść strony pomocy ?stepmówi w całości: Wybierz model oparty na formule przez AIC.

Stephan Kolassa

Odpowiedzi:

Jak wyjaśniłem w moim komentarzu do twojego drugiego pytania, stepużywa AIC zamiast wartości p.

Jednakże, dla pojedynczej zmiennej w czasie AIC nie odpowiadają za pomocą wartości p 0.15 (lub dokładniej, 0.1573)

Rozważ porównanie dwóch modeli, które różnią się jedną zmienną. Zadzwoń do modeli (mniejszy model) i (większy model) i pozwól, aby ich AIC to odpowiednio i . $\cal{M}_0$ $\cal{M}_1$ $\text{AIC}_0$ $\text{AIC}_1$

Korzystając z kryterium AIC, użyłbyś większego modelu, jeśli . Tak będzie, gdy . $\text{AIC}_1<\text{AIC}_0$ $-2\log\cal{L_0}-(-2\log\cal{L_1})>2$

Ale to po prostu statystyka w teście współczynnika wiarygodności. Z twierdzenia Wilksa odrzucimy zero, jeśli statystyka przekroczy górne kwantyle . Jeśli więc skorzystamy z testu hipotez, aby wybrać między mniejszym a większym modelem, wybieramy większy model, gdy . $\alpha$ $\chi^2_1$ $-2\log\cal{L_0}-(-2\log\cal{L_1})>C_\alpha$

Teraz leży na 84,27 percentyla . Dlatego jeśli wybieramy większy model, gdy ma mniejszy AIC, odpowiada to odrzuceniu hipotezy zerowej dla testu dodatkowego składnika o wartości p lub $2$ $\chi^2_1$ $1-0.843=0.157$ $15.7\%$

Jak to zmodyfikować?

Łatwy. Zmień kparametr stepz 2 na coś innego. Chcesz zamiast tego 10%? Zrób to 2.7:

qchisq(0.10,1,lower.tail=FALSE)
[1] 2.705543

Chcesz 2,5%? Zestaw k=5:

qchisq(0.025,1,lower.tail=FALSE)
[1] 5.023886

i tak dalej.

Jednak pomimo tego, że to rozwiązuje twoje pytanie, radzę uważnie zwrócić uwagę na odpowiedź Franka Harrella na drugie pytanie i poszukać odpowiedzi od wielu statystyk na inne pytania dotyczące regresji stopniowej tutaj, która rada bywa bardzo bardzo konsekwentnie, aby w ogóle unikać stopniowych procedur.

Glen_b - Przywróć Monikę
źródło

Ładne wyjaśnienie. Czy wiesz, czy byłoby to w przybliżeniu prawdziwe dla wartości p zwykłych testów t regresji?

Ben Ogorek

α = 0.05

$\alpha=0.05$

(ctd) ... mnóstwo poważnych problemów ze stopniowaniem. Inne obejmują stronnicze szacunki i standardowe błędy, które są zdecydowanie zbyt małe.

Glen_b

Chwilowo odsuwając problemy z krokowym wyborem modelu, jestem zainteresowany uogólnieniem mniejszej reguły AIC => .1573 wartości p. Opisana wartość p współczynnika prawdopodobieństwa jest dobra, ale w procedurach takich jak lm R, szacunek / std.err jest porównywany z rozkładem t. To jest inny test i zastanawiałem się, czy twój wynik .1573 może utrzymać się w przybliżeniu.

Ben Ogorek

t

$t$

k

$k$

Jak powiedziano powyżej, stepfunkcja w R opiera się na kryteriach AIC. Ale myślę, że przez wartość p masz na myśli alfa, aby wejść i alfa, aby wyjść. Możesz użyć funkcji stepwisenapisanej przez Paula Rubina i dostępnej tutaj . Jak widać masz argumenty alpha.to.enter i alpha.to.leave, które możesz zmienić. Należy pamiętać, że ta funkcja używa testu F lub równoważnie testu t do wyboru modeli. Co więcej, może obsłużyć nie tylko regresję stopniową, ale także selekcję do przodu i eliminację wsteczną, jeśli poprawnie zdefiniujesz argumenty.

Stat
źródło