Aby lepiej zadać moje pytanie, podałem poniżej niektóre wyniki zarówno modelu zmiennego 16 ( fit
), jak i modelu zmiennego 17 ( fit2
) (wszystkie zmienne predykcyjne w tych modelach są ciągłe, a jedyną różnicą między tymi modelami jest to, że fit
nie zawierają zmienną 17 (var17)):
fit Model Likelihood Discrimination Rank Discrim.
Ratio Test Indexes Indexes
Obs 102849 LR chi2 13602.84 R2 0.173 C 0.703
0 69833 d.f. 17 g 1.150 Dxy 0.407
1 33016 Pr(> chi2) <0.0001 gr 3.160 gamma 0.416
max |deriv| 3e-05 gp 0.180 tau-a 0.177
Brier 0.190
fit2 Model Likelihood Discrimination Rank Discrim.
Ratio Test Indexes Indexes
Obs 102849 LR chi2 13639.70 R2 0.174 C 0.703
0 69833 d.f. 18 g 1.154 Dxy 0.407
1 33016 Pr(> chi2) <0.0001 gr 3.170 gamma 0.412
max |deriv| 3e-05 gp 0.180 tau-a 0.177
Brier 0.190
Użyłem rms
pakietu Franka Harrella do zbudowania tych lrm
modeli. Jak widać, modele te nie wydają się znacznie różnić, jeśli w ogóle, między indeksami dyskryminacji i rankingiem dyskryminacji. Indeksy ; jednak przy użyciu lrtest(fit,fit2)
otrzymałem następujące wyniki:
L.R. Chisq d.f. P
3.685374e+01 1.000000e+00 1.273315e-09
Jako takie odrzucilibyśmy hipotezę zerową tego testu stosunku prawdopodobieństwa; Zakładam jednak, że jest to prawdopodobnie spowodowane dużą wielkością próby ( n = 102849), ponieważ modele te wydają się działać w podobny sposób. Ponadto jestem zainteresowany znalezieniem lepszego sposobu formalnego porównania zagnieżdżonych binarnych modeli regresji logistycznej, gdy n jest duże.
Bardzo doceniam wszelkie opinie, skrypty R lub dokumentację, które mogą poprowadzić mnie we właściwym kierunku, jeśli chodzi o porównanie tego typu modeli zagnieżdżonych! Dzięki!
źródło
fit2
jest to model 17 zmiennych, ale jest to również model pomijanyV17
. Możesz to zmienić.fit2
nafit
w powyższym przykładzie zgodnie z twoją poprawką. Dzięki!Odpowiedzi:
(1) Istnieje obszerna literatura na temat tego, dlaczego należy preferować pełne modele niż modele ograniczone / oszczędne. Rozumiem tylko kilka powodów, dla których wolę oszczędny model. Większe modele mogą jednak nie być wykonalne w wielu zastosowaniach klinicznych.
(2) O ile mi wiadomo, wskaźniki dyskryminacji / dyskryminacji nie są (? Nie powinny) być używane jako parametr wyboru modelu / zmiennej. Nie są przeznaczone do tego zastosowania, w związku z czym może nie być zbyt wiele literatury na temat tego, dlaczego nie należy ich używać do budowy modeli.
(3) Modele oszczędne mogą mieć ograniczenia, które nie są łatwo widoczne. Mogą być gorzej skalibrowane niż większe modele, ważność zewnętrzna / wewnętrzna może być zmniejszona.
(4) Statystyka c może nie być optymalna w ocenie modeli przewidujących przyszłe ryzyko lub podzielić osoby na kategorie ryzyka. W tym ustawieniu kalibracja jest równie ważna dla dokładnej oceny ryzyka. Na przykład biomarker o ilorazie szans 3 może mieć niewielki wpływ na statystyki, ale podwyższony poziom może przesunąć szacowane 10-letnie ryzyko sercowo-naczyniowe dla pojedynczego pacjenta z 8% do 24%
Gotować NR; Zastosowanie i niewłaściwe użycie krzywej ROC w literaturze medycznej. Krążenie. 115 2007: 928–935.
(5) Wiadomo, że AUC / c-statystyka / dyskryminacja jest niewrażliwa na istotne zmienne predykcyjne. Zostało to omówione w powyższym odnośniku Cooka i siła motywująca rozwój wskaźnika przeklasyfikowania netto. Omówiono również w Cook powyżej.
(6) Duże zestawy danych mogą nadal prowadzić do większych modeli niż pożądane, jeśli stosowane są standardowe metody wyboru zmiennych. W procedurach selekcji stopniowej często stosuje się wartość odcięcia wartości p 0,05. Ale w tej wartości nie ma nic istotnego, co oznacza, że powinieneś wybrać tę wartość. W przypadku mniejszych zestawów danych większa wartość p (0,2) może być bardziej odpowiednia, w większych zestawach danych może być odpowiednia mniejsza wartość p (z tego powodu użyto 0,01 dla zestawu danych GUSTO I).
(7) Chociaż AIC jest często używany do wyboru modelu i jest lepiej poparty literaturą, BIC może być ważną alternatywą w większych zestawach danych. W przypadku wyboru modelu BIC kwadrat chi musi przekraczać log (n), w wyniku czego mniejsze modele będą powstawać w większych zestawach danych. (Mallow może mieć podobne cechy)
(8) Ale jeśli chcesz maksymalnie 10 lub 12 zmiennych, łatwiejszym rozwiązaniem jest coś takiego
bestglm
lubleaps
pakiety, w których ustawiono maksymalną liczbę zmiennych, które chcesz wziąć pod uwagę.(9) jeśli chcesz tylko testu, który sprawi, że oba modele będą wyglądały tak samo, i nie martwisz się zbytnio szczegółami, prawdopodobnie możesz porównać AUC dwóch modeli. Niektóre pakiety podają nawet wartość p dla porównania. Nie wydaje się wskazane.
Ambler G (2002) Uproszczenie modelu prognostycznego: badanie symulacyjne na podstawie danych klinicznych
Cook NR; Zastosowanie i niewłaściwe użycie krzywej ROC w literaturze medycznej. Krążenie. 115 2007: 928–935.
Gail MH, Pfeiffer RM; W sprawie kryteriów oceny modeli ryzyka bezwzględnego. Biostat. 6 2005: 227–239.
(10) Po zbudowaniu modelu indeksy c / statystyki dziesiętne mogą nie być najlepszym podejściem do porównywania modeli i mają dobrze udokumentowane ograniczenia. Porównania powinny prawdopodobnie obejmować przynajmniej kalibrację, indeks przeklasyfikowania.
Steyerber (2010) Ocena wydajności modeli prognostycznych: ramy dla niektórych tradycyjnych i nowatorskich miar
(11) Dobrym pomysłem może być wyjście poza powyższe i zastosowanie analitycznych środków decyzyjnych.
Vickers AJ, Elkin EB. Analiza krzywej decyzyjnej: nowa metoda oceny modeli predykcyjnych. Med Decis Making. 2006; 26: 565–74.
Baker SG, Cook NR, Vickers A, Kramer BS. Wykorzystanie względnych krzywych użyteczności do oceny prognozy ryzyka. JR Stat Soc A. 2009; 172: 729-48.
Van Calster B, Vickers AJ, Pencina MJ, Baker SG, Timmerman D, Steyerberg EW. Ocena markerów i modeli prognozowania ryzyka: przegląd zależności między NRI a miarami decyzyjnymi. Med Decis Making. 2013; 33: 490–501
--- Aktualizacja --- Uważam, że artykuł Vickers jest najbardziej interesujący. Ale to wciąż nie zostało powszechnie zaakceptowane pomimo wielu artykułów wstępnych. Więc może nie mieć praktycznego zastosowania. Artykuły Cooka i Steyerberga są znacznie bardziej praktyczne.
Nikt nie lubi stopniowej selekcji. Na pewno nie będę się za tym opowiadać. Mógłbym podkreślić, że większość krytyki krokowej zakłada EPV <50 i wybór między modelem pełnym lub z góry określonym a modelem zredukowanym. Jeśli EPV> 50 i istnieje zobowiązanie do modelu redukcji, analiza kosztów i korzyści może być inna.
Słaba myśl przy porównywaniu statystyki c polega na tym, że mogą się nie różnić i wydaje mi się, że ten test był znacznie słabszy. Ale teraz nie mogę znaleźć referencji, więc może być na tej podstawie.
źródło
bestglm
ileaps
pakiety są bardzo drogie obliczeniowo i uruchomienie zestawów danych takich jak te, z którymi pracuję, zajmuje wiele dni, ale dziękuję za potencjalne pomysły.Jedną z opcji jest użycie pseudo miar kwadratowych R dla obu modeli. Silna różnica w pseudo kwadracie R sugerowałaby, że dopasowanie modelu silnie zmniejsza się przez pominięcie V17.
Dostępne są różne rodzaje Pseudo R-kwadratów. Przegląd można znaleźć tutaj, na przykład:
http://www.ats.ucla.edu/stat/mult_pkg/faq/general/Psuedo_RSquareds.htm
Popularną miarą jest kwadrat Nagelkerke R. Zmienia się między 0 a 1 i ostrożnie może być interpretowany jak R-kwadrat z prostego modelu regresji liniowej. Opiera się na przekształconym stosunku szacowanych prawdopodobieństw pełnego modelu do modelu tylko przechwytywania.
Można oszacować go
fit
ifit2
, odpowiednio, i porównać względną wielkość, aby uzyskać informację o swoim problemie. Znacznie wyższy kwadrat R Nagelkerke'afit
sugerowałby, żefit2
traci on dużą moc predykcyjną przez pominięcie V17.W
lrm
tejstats
wartości zapewnia Nagelkerke za R-kwadrat. Więc dawaniefit$stats
powinno dostarczyć ci oszacowania. Zobacz także?lrm
.źródło
fit
” dla ? W powyższym przykładzie różnica wynosi 0,001, ponieważ mamy kwadrat R Nagelkerke'a równy 0,173 i 0,174 odpowiednio dlafit
ifit2
. Czy masz jakieś odniesienia do „znacznie wyższego placu Nagelkerke R”? Dzięki!Właśnie o tym przeczytałem. Właściwym sposobem na to jest użycie wyjściowego modelu glm R i poszukiwanie „Residual deviance:” oraz wyprowadzenie delty między dwoma modelami i użycie tej wartości w teście chi-kwadrat za pomocą df równej # zrzuconych wartości predyktorów. I to jest twoja wartość p.
Modelowanie regresji stosowanej Iaian Pardoe 2. wydanie 2012 str. 270
źródło