Biorąc pod uwagę wielokrotne sprawdzanie poprawności krzyżowej regresji logistycznej i wynikające z niej wielokrotne oszacowania każdego współczynnika regresji, w jaki sposób należy zmierzyć, czy predyktor (lub zestaw predyktorów) jest / są stabilne i znaczące na podstawie współczynników regresji ? Czy jest inaczej w przypadku regresji liniowej?
regression
model-selection
cross-validation
Jack Tanner
źródło
źródło
Odpowiedzi:
Można traktować współczynniki regresji wynikające z każdego testu krotnie w CV jako niezależne obserwacje, a następnie obliczyć ich niezawodność / stabilność za pomocą wewnątrzklasowego współczynnika korelacji (ICC), jak donosi Shrout & Fleiss.
źródło
Zakładam, że w krzyżowej walidacji dzielisz dane na dwie części, zestaw szkoleniowy i zestaw testowy. W jednym zakładaniu dopasowujesz model z zestawu treningowego i używasz go do przewidywania reakcji zestawu testowego, prawda? To da ci wskaźnik błędów dla całego modelu, a nie dla jednego predyktora.
Nie wiem, czy możliwe jest znalezienie wartości p dla predyktorów przy użyciu czegoś takiego jak testy F stosowane w zwykłej regresji liniowej.
Możesz spróbować usunąć predyktory z modelu, używając na przykład wyboru do tyłu lub do przodu, jeśli taki jest twój cel.
Możesz zamiast CV użyć bootstrap, aby znaleźć przedział ufności dla każdego predyktora, a następnie zobaczyć, jak jest stabilny.
Ile fałd używasz w swoim CV, czy jest to jednoznaczna krzyżowa walidacja?
Być może więcej szczegółów na temat tego, jaki jest twój cel, pomoże odpowiedzieć na to pytanie.
źródło
glm(..., family="binomial")
R. Co mam zrobić z interwałami dla każdego predyktora w ramach serii „out-one-out”?