W R drop1
polecenie wypisuje coś porządnego.
Te dwa polecenia powinny dostarczyć ci trochę danych wyjściowych:
example(step)#-> swiss
drop1(lm1, test="F")
Mój wygląda następująco:
> drop1(lm1, test="F")
Single term deletions
Model:
Fertility ~ Agriculture + Examination + Education + Catholic +
Infant.Mortality
Df Sum of Sq RSS AIC F value Pr(F)
<none> 2105.0 190.69
Agriculture 1 307.72 2412.8 195.10 5.9934 0.018727 *
Examination 1 53.03 2158.1 189.86 1.0328 0.315462
Education 1 1162.56 3267.6 209.36 22.6432 2.431e-05 ***
Catholic 1 447.71 2552.8 197.75 8.7200 0.005190 **
Infant.Mortality 1 408.75 2513.8 197.03 7.9612 0.007336 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Co to wszystko znaczy? Zakładam, że „gwiazdki” pomagają zdecydować, które zmienne wejściowe mają zostać zachowane. Patrząc na powyższe wyniki, chcę odrzucić zmienną „Egzamin” i skupić się na zmiennej „Edukacja”, czy interpretacja jest poprawna?
Również wartość AIC, im niższa, tym lepsza, tak?
Ed. Zwróć uwagę na poniższą odpowiedź Wiki Wiki i dodaj ją, jeśli uznasz to za stosowne, aby wyjaśnić ten wynik.
step()
zostało ocenione w chwili pisania tego tekstu +2 (więc dlaczego ?!), (3) OP uznał przydatność odpowiedzi @ Jorisa.Odpowiedzi:
drop1
daje porównanie modeli opartych na kryterium AIC, a podczas korzystania z opcjitest="F"
dodajesz do niej „ANOVA typu II”, jak wyjaśniono w plikach pomocy . Tak długo, jak masz tylko zmienne ciągłe, ta tabela jest dokładnie równoważnasummary(lm1)
, ponieważ wartości F to tylko te wartości T podniesione do kwadratu. Wartości P są dokładnie takie same.Co z tym zrobić? Interpretuj to dokładnie w ten sposób: wyraża się w taki sposób, że model bez tego terminu jest „znacząco” różny od modelu z tym terminem. Uważaj na „” wokół, ponieważ znaczenia tutaj nie można interpretować tak, jak myśli większość ludzi. (problem wielokrotnego testowania i wszystkie ...)
A jeśli chodzi o AIC: im niższy, tym lepiej wydaje się bardziej podobny. AIC to wartość, która dotyczy modelu , a nie zmiennej. Zatem najlepszym modelem z tego wyniku byłby ten bez badania zmiennej.
Pamiętaj, że obliczenia zarówno AIC, jak i statystyki F różnią się od funkcji R
AIC(lm1)
lub.anova(lm1)
. DlaAIC()
, że informacje podane są na stronach pomocy systemuextractAIC()
. W przypadku tejanova()
funkcji dość oczywiste jest, że SS typu I i II nie są takie same.Staram się nie być niegrzeczny, ale jeśli nie rozumiesz, co wyjaśniono w plikach pomocy, nie powinieneś używać tej funkcji. Regresja krokowa jest niezwykle trudna, zagraża twoim wartościom p w najgłębszy sposób. Więc ponownie, nie opieraj się na wartościach p. Twój model powinien odzwierciedlać twoją hipotezę, a nie na odwrót.
źródło
Dla porównania są to wartości zawarte w tabeli:
Df
odnoszą się do stopni swobody , „liczba stopni swobody jest liczbą wartości w końcowym obliczeniu statystyki, które mogą się zmieniać”.Sum of Sq
Kolumna odnosi się do sumy kwadratów (lub dokładniej suma kwadratów odchyleń ). Krótko mówiąc, jest to miara kwoty, którą każda pojedyncza wartość odbiega od ogólnej średniej tych wartości.RSS
jest resztkową sumą kwadratów . Są one miarą tego, o ile przewidywana wartość zmiennej zależnej (lub wyjściowej) różni się od wartości rzeczywistej dla każdego punktu danych w zestawie (lub bardziej potocznie: każda „linia” w tabeli danych).AIC
jest kryterium informacyjnym Akaike które jest ogólnie uważane za „zbyt skomplikowane, aby je wyjaśnić”, ale w skrócie jest miarą dobroci dopasowania oszacowanego modelu statystycznego. Jeśli potrzebujesz dodatkowych informacji, będziesz musiał zwrócić się do martwych drzew ze słowami na nich (np. Książkami). Lub Wikipedia i dostępne tam zasoby.F value
Służy do wykonywania tego, co nazywa się test F iz jest to pochodzący zPr(F)
wartości, która opisuje, jak bardzo prawdopodobne (lub Prawdopodobna = Pr), że wartość F jest. Wartość Pr (F) bliska zeru (wskazana przez***
) wskazuje na zmienną wejściową, która jest w pewien sposób ważna, aby uwzględnić ją w dobrym modelu, to znaczy model, który jej nie zawiera, jest „znacząco” różny od tego to robi.Wszystkie te wartości są w kontekście
drop1
polecenia, obliczane w celu porównania modelu ogólnego (w tym wszystkich zmiennych wejściowych) z modelem wynikającym z usunięcia tej konkretnej zmiennej w każdym wierszu tabeli wyjściowej.Teraz, jeśli można to poprawić, możesz dodać do niej lub wyjaśnić wszelkie problemy. Moim celem jest jedynie wyjaśnienie i zapewnienie lepszego odniesienia do „wstecznego wyszukiwania” z danych wyjściowych polecenia R do jego rzeczywistego znaczenia.
źródło