Interpretacja wyjścia drop1 w R.

W R drop1polecenie wypisuje coś porządnego.
Te dwa polecenia powinny dostarczyć ci trochę danych wyjściowych:
example(step)#-> swiss
drop1(lm1, test="F")

Mój wygląda następująco:

> drop1(lm1, test="F")
Single term deletions

Model:
Fertility ~ Agriculture + Examination + Education + Catholic + 
    Infant.Mortality
                 Df Sum of Sq    RSS    AIC F value     Pr(F)    
<none>                        2105.0 190.69                      
Agriculture       1    307.72 2412.8 195.10  5.9934  0.018727 *  
Examination       1     53.03 2158.1 189.86  1.0328  0.315462    
Education         1   1162.56 3267.6 209.36 22.6432 2.431e-05 ***
Catholic          1    447.71 2552.8 197.75  8.7200  0.005190 ** 
Infant.Mortality  1    408.75 2513.8 197.03  7.9612  0.007336 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Co to wszystko znaczy? Zakładam, że „gwiazdki” pomagają zdecydować, które zmienne wejściowe mają zostać zachowane. Patrząc na powyższe wyniki, chcę odrzucić zmienną „Egzamin” i skupić się na zmiennej „Edukacja”, czy interpretacja jest poprawna?

Również wartość AIC, im niższa, tym lepsza, tak?

Ed. Zwróć uwagę na poniższą odpowiedź Wiki Wiki i dodaj ją, jeśli uznasz to za stosowne, aby wyjaśnić ten wynik.

r regression self-study stepwise-regression gakera
źródło

pomoc w języku R ma na celu wyjaśnienie, jak korzystać z tej funkcji. To nie ma być kurs statystyki. Biorąc to pod uwagę, ogólnie uważam, że strony pomocy R należą do najbardziej kompletnych i przydatnych ze wszystkich pakietów open source, jakie znam. I płacenie za to paczek. SPSS i SAS dają ci dużo mumbo-jumbo z półprawdami i kompletnymi nonsensami jako „przewodnik po interpretacji”.

Joris Meys,

To pytanie zostało odrzucone. Nie zamierzałem dawać +1, ale wydaje mi się teraz, że głosowanie w dół nie jest zbyt konstruktywne: (1) OP wyjaśnia, że jest to zadanie domowe i wykorzystuje do ilustracji ilustrację wbudowanego zestawu danych R. danych, (2) powiązane pytanie step()zostało ocenione w chwili pisania tego tekstu +2 (więc dlaczego ?!), (3) OP uznał przydatność odpowiedzi @ Jorisa.

chl

@chl: wydaje się, że nie jestem jedyny z wrażliwymi palcami, jeśli chodzi o strony pomocy R :-). Ale zgadzam się z tobą całym sercem. Pytanie jest prawidłowe, zadane w sposób jasny i dlatego nie ma absolutnie żadnego powodu, aby je głosować.

Joris Meys,

Heh, przepraszam, jeśli nadepnąłem ci na palce z moją złośliwością z pomocą, po prostu nie jestem zbyt cierpliwy, jeśli chodzi o cokolwiek z wierszem poleceń naprawdę. W ten sposób jestem dziwny. Nie bylibyście pierwszymi, którzy mnie do tego wołają :) Lubię to miejsce, ludzie są szczerzy.

gakera

Proszę bardzo, zredagowałem pytanie, aby nie było tak zniechęcające dla zwolenników R i R. :) I przeredagowałem pytanie na AIC, aby uniknąć mylących czytelników OP.

gakera

Odpowiedzi:

drop1daje porównanie modeli opartych na kryterium AIC, a podczas korzystania z opcji test="F"dodajesz do niej „ANOVA typu II”, jak wyjaśniono w plikach pomocy . Tak długo, jak masz tylko zmienne ciągłe, ta tabela jest dokładnie równoważna summary(lm1), ponieważ wartości F to tylko te wartości T podniesione do kwadratu. Wartości P są dokładnie takie same.

Co z tym zrobić? Interpretuj to dokładnie w ten sposób: wyraża się w taki sposób, że model bez tego terminu jest „znacząco” różny od modelu z tym terminem. Uważaj na „” wokół, ponieważ znaczenia tutaj nie można interpretować tak, jak myśli większość ludzi. (problem wielokrotnego testowania i wszystkie ...)

A jeśli chodzi o AIC: im niższy, tym lepiej wydaje się bardziej podobny. AIC to wartość, która dotyczy modelu , a nie zmiennej. Zatem najlepszym modelem z tego wyniku byłby ten bez badania zmiennej.

Pamiętaj, że obliczenia zarówno AIC, jak i statystyki F różnią się od funkcji R AIC(lm1)lub. anova(lm1). Dla AIC(), że informacje podane są na stronach pomocy systemu extractAIC(). W przypadku tej anova()funkcji dość oczywiste jest, że SS typu I i II nie są takie same.

Staram się nie być niegrzeczny, ale jeśli nie rozumiesz, co wyjaśniono w plikach pomocy, nie powinieneś używać tej funkcji. Regresja krokowa jest niezwykle trudna, zagraża twoim wartościom p w najgłębszy sposób. Więc ponownie, nie opieraj się na wartościach p. Twój model powinien odzwierciedlać twoją hipotezę, a nie na odwrót.

Joris Meys
źródło

Podoba mi się ten sentyment: „jeśli nie rozumiem, co już robię, nie powinienem próbować się tego uczyć ...” Takie jest również podejście przyjęte w pomocy R - nie jest to pomocne, chyba że już wiesz, co jest dziać się. Miałem nadzieję, że to może być początek czegoś innego.

gakera

Ale mogę użyć tej części twojej odpowiedzi: „Interpretuj to dokładnie w ten sposób: wyraża, czy model bez tego terminu różni się znacznie od modelu z tym terminem”. Dla mnie oznacza to, że wartości Pr (F) są znaczeniem każdego z tych terminów, a mała wartość oznacza, że ta zmienna jest ważna. Dobry model powinien więc zawierać zmienne „***”, a nie te, które nie mają gwiazdek.

gakera

@gakera: Źle mnie zrozumiałeś. Jeśli nie rozumiesz, co robisz, zdecydowanie powinieneś się tego nauczyć przed użyciem . Oznacza to czytanie statystyk i uczestnictwo w kursie. Dobry model powinien więc uwzględniać zmienne sformułowane w hipotezie. Jeśli opierasz się na zmiennych „***”, najpierw musisz dokładnie zapoznać się z modelowaniem. Najwyraźniej nie zrozumiałeś mojego ostatniego komentarza. Przepraszam za bezpośrednią komunikację, przychodzi z facetem. Nic osobistego.

Joris Meys,

@gakera: Zaktualizowałem swoją odpowiedź, aby wyjaśnić niektóre ważne kwestie. Głównie dlatego, że źle zinterpretowałeś część, o której myślałeś, że możesz jej użyć.

Joris Meys,

Uczę się, robiąc, to przecież praca domowa, nikt nie umrze, jeśli nie zrozumiem tego dobrze - ryby już nie żyją: P Dzięki za pomoc do tej pory i nie martw się, to nie jest mój pierwszy raz w Internecie :)

gakera

Dla porównania są to wartości zawarte w tabeli:
Dfodnoszą się do stopni swobody , „liczba stopni swobody jest liczbą wartości w końcowym obliczeniu statystyki, które mogą się zmieniać”.

Sum of SqKolumna odnosi się do sumy kwadratów (lub dokładniej suma kwadratów odchyleń ). Krótko mówiąc, jest to miara kwoty, którą każda pojedyncza wartość odbiega od ogólnej średniej tych wartości.
RSSjest resztkową sumą kwadratów . Są one miarą tego, o ile przewidywana wartość zmiennej zależnej (lub wyjściowej) różni się od wartości rzeczywistej dla każdego punktu danych w zestawie (lub bardziej potocznie: każda „linia” w tabeli danych).

AICjest kryterium informacyjnym Akaike które jest ogólnie uważane za „zbyt skomplikowane, aby je wyjaśnić”, ale w skrócie jest miarą dobroci dopasowania oszacowanego modelu statystycznego. Jeśli potrzebujesz dodatkowych informacji, będziesz musiał zwrócić się do martwych drzew ze słowami na nich (np. Książkami). Lub Wikipedia i dostępne tam zasoby.

F valueSłuży do wykonywania tego, co nazywa się test F iz jest to pochodzący z Pr(F)wartości, która opisuje, jak bardzo prawdopodobne (lub Prawdopodobna = Pr), że wartość F jest. Wartość Pr (F) bliska zeru (wskazana przez ***) wskazuje na zmienną wejściową, która jest w pewien sposób ważna, aby uwzględnić ją w dobrym modelu, to znaczy model, który jej nie zawiera, jest „znacząco” różny od tego to robi.

Wszystkie te wartości są w kontekście drop1 polecenia, obliczane w celu porównania modelu ogólnego (w tym wszystkich zmiennych wejściowych) z modelem wynikającym z usunięcia tej konkretnej zmiennej w każdym wierszu tabeli wyjściowej.

Teraz, jeśli można to poprawić, możesz dodać do niej lub wyjaśnić wszelkie problemy. Moim celem jest jedynie wyjaśnienie i zapewnienie lepszego odniesienia do „wstecznego wyszukiwania” z danych wyjściowych polecenia R do jego rzeczywistego znaczenia.

gakera
źródło

@gakera Regresja praktyczna i Anova za pomocą R jest dobrym punktem wyjścia do zrozumienia modeli liniowych i metod związanych z wyborem zmiennych / modeli. Jak zauważył @Joris, regresja krokowa rzadko jest panaceum.

chl

hah, dzięki za dodanie linków @chl, jednocześnie zachowując moje zrzeczenie się, dlaczego nie mogę ich opublikować. Musisz zgodzić się, że

ssę

@gakera Myślę, że musisz mieć więcej przedstawicieli, aby dodać więcej niż jeden link na edycję - Rozumiem, że nie jest to zbyt przyjemne, gdy zaczynasz na stronie pytań i odpowiedzi. Zakładałem, że sam usuniesz ostatnie zdanie. Z drugiej strony uważam, że nie powinieneś oczekiwać zbyt wielu pozytywnych opinii za udzielenie odpowiedzi na własne pytanie, ponieważ jest to rodzaj podsumowania ”(chociaż przydatne).

chl

Nie robię tego dla pozytywnych opinii (to takie Reddit: P) - przydatne podsumowanie jest dokładnie tym, o co zamierzam - głównie dla siebie, ale prawdopodobnie przydatne również dla innych.

gakera

@gakera Jestem pewien, że to nie było po to, aby uzyskać pozytywne opinie. W większości przypadków ustawiamy własną odpowiedź jako Wiki Wiki (CW), gdy nie dodają one dalszych lub sprzecznych informacji. Jest to neutralny sposób sumowania lub agregowania odpowiedzi innych osób.

chl