Jednym ze sposobów na znalezienie dokładności modelu regresji logistycznej za pomocą „glm” jest znalezienie wykresu AUC. Jak to samo sprawdzić dla modelu regresji znalezionego ze zmienną ciągłej odpowiedzi (rodzina = „gaussowski”)?
Jakie metody są stosowane, aby sprawdzić, jak dobrze mój model regresji pasuje do danych?
r
regression
generalized-linear-model
użytkownik 1140126
źródło
źródło
r-squared
tag igoodness-of-fit
tag.Odpowiedzi:
Na początek zasugerowałbym krótkie poszukiwanie „ diagnostyki modelu regresji liniowej ”. Ale oto niektóre, które sugeruję sprawdzić:
Upewnij się, że założenia zostały spełnione w sposób zadowalający
Użyj wykresu rozrzutu lub komponentu plus wykres resztkowy, aby zbadać liniową zależność między niezależnym predyktorem (predyktorami) a zmienną zależną.
Skomponuj wykres ze znormalizowaną wartością rezydualną w stosunku do przewidywanej i upewnij się, że nie ma skrajnego punktu o bardzo wysokiej wartości rezydualnej, a rozłożenie reszty jest w dużej mierze podobne wzdłuż przewidywanej wartości, a także rozłożone znacznie równomiernie powyżej i poniżej średniej zero.
Możesz także zmienić oś y na resztkową . Ten wykres pomaga zidentyfikować nierówną wariancję.2)
Ponownie sprawdź projekt badania, aby upewnić się, że założenie niezależności jest uzasadnione.
Pobierz współczynnik inflacji wariancji (VIF) lub statystyki tolerancji, aby zbadać możliwą kolinearność.
Zbadaj potencjalne punkty wpływające
Zbadać zmiany w i dostosowane statystykiR 2R2) R2)
Sprawdź niezbędną interakcję
Zastosuj model do innego zestawu danych i sprawdź jego wydajność
źródło
plot.lm
możesz podać większość wykresów diagnostycznych, o których wspomina Penguin_Knight.Lubię weryfikować krzyżowo moje modele regresji, aby zobaczyć, jak dobrze uogólniają się na nowe dane. Moją wybraną metryką jest średni błąd bezwzględny w danych z walidacją krzyżową, ale średni błąd kwadratu średniego jest bardziej powszechny i równie użyteczny.
Nie uważam R2 za dobrą miarę tego, jak dobrze twój model pasuje do danych treningowych, ponieważ prawie każda metryka błędów obliczona na podstawie danych treningowych będzie podatna na nadmierne dopasowanie. Jeśli musisz obliczyć R2 na zestawie treningowym, sugeruję użycie skorygowanego R2 .
źródło
Możesz użyć aby sprawdzić, jak dobrze twój model pasuje do danych treningowych. Dzięki temu dowiesz się, jaki procent wariancji danych jest wyjaśniony przez model.R2
Sugeruję użycie RMSE (średni błąd kwadratowy) swoich prognoz w zestawie testowym w porównaniu do rzeczywistej wartości. Jest to standardowa metoda zgłaszania błędu prognozowania zmiennej ciągłej.
źródło
Jestem przyzwyczajony do sprawdzania formy funkcjonalnej mojego estymatora parametrów, wykreślając nieparametryczną (np. Regresję jądra) lub półparametryczną estymację i porównując ją z dopasowaną krzywą parametryczną. Myślę, że jest to pierwszy krok często szybszy (i być może bardziej wnikliwy) niż uwzględnienie warunków interakcji lub warunków wyższych zamówień.
Pakiet R np. Zapewnia wiele fajnych funkcji nieparametrycznych i półparametrycznych, a jego winieta jest dobrze napisana: http://cran.r-project.org/web/packages/np/vignettes/np.pdf
źródło