Porównywanie zagnieżdżonych binarnych modeli regresji logistycznej, gdy jest duże

10

Aby lepiej zadać moje pytanie, podałem poniżej niektóre wyniki zarówno modelu zmiennego 16 ( fit), jak i modelu zmiennego 17 ( fit2) (wszystkie zmienne predykcyjne w tych modelach są ciągłe, a jedyną różnicą między tymi modelami jest to, że fitnie zawierają zmienną 17 (var17)):

fit                    Model Likelihood     Discrimination    Rank Discrim.    
                         Ratio Test            Indexes          Indexes       
 Obs        102849    LR chi2   13602.84    R2       0.173    C       0.703    
  0          69833    d.f.            17    g        1.150    Dxy     0.407    
  1          33016    Pr(> chi2) <0.0001    gr       3.160    gamma   0.416    
 max |deriv| 3e-05                          gp       0.180    tau-a   0.177    
                                            Brier    0.190       


fit2                 Model Likelihood       Discrimination    Rank Discrim.    
                         Ratio Test            Indexes          Indexes       
 Obs        102849    LR chi2   13639.70    R2       0.174    C       0.703    
  0          69833    d.f.            18    g        1.154    Dxy     0.407    
  1          33016    Pr(> chi2) <0.0001    gr       3.170    gamma   0.412    
 max |deriv| 3e-05                          gp       0.180    tau-a   0.177    
                                            Brier    0.190          

Użyłem rmspakietu Franka Harrella do zbudowania tych lrmmodeli. Jak widać, modele te nie wydają się znacznie różnić, jeśli w ogóle, między indeksami dyskryminacji i rankingiem dyskryminacji. Indeksy ; jednak przy użyciu lrtest(fit,fit2)otrzymałem następujące wyniki:

 L.R. Chisq         d.f.            P 
3.685374e+01     1.000000e+00    1.273315e-09 

Jako takie odrzucilibyśmy hipotezę zerową tego testu stosunku prawdopodobieństwa; Zakładam jednak, że jest to prawdopodobnie spowodowane dużą wielkością próby ( n = 102849), ponieważ modele te wydają się działać w podobny sposób. Ponadto jestem zainteresowany znalezieniem lepszego sposobu formalnego porównania zagnieżdżonych binarnych modeli regresji logistycznej, gdy n jest duże.

Bardzo doceniam wszelkie opinie, skrypty R lub dokumentację, które mogą poprowadzić mnie we właściwym kierunku, jeśli chodzi o porównanie tego typu modeli zagnieżdżonych! Dzięki!

Matt Reichenbach
źródło
Jaki jest cel usunięcia zmiennej 17?
Michael M
To jest przykład zabawki; jednak zazwyczaj jestem proszony o tworzenie modeli ze zmiennymi 8-12, a usuwanie zmiennych, które nie przyczyniają się do powstania modelu, jest dla mnie najważniejsze. Zmienna 17 wydaje się po prostu niewiele znaczyć dla modelu jako całości (pod względem przewidywalności), ale test współczynnika prawdopodobieństwa pokazuje nam, że istnieje znacząca różnica między tymi dwoma modelami (prawdopodobnie z powodu dużej n, a nie faktycznej różnicy między nimi) dwa modele). Jako taki mam nadzieję znaleźć sposób na porównanie tych dwóch modeli (znalezienie metody, która nie wskazuje różnicy między tymi dwoma modelami)
Matt Reichenbach,
(1) nie jestem pewien, rozumiem, czego szukasz. Ale w medycynie problem stosowania dyskryminacji, takiej jak c-statystyka, jest dobrze ustalony, c-statyka może być niezmieniona nawet po dodaniu znaczącej zmiennej i doprowadziła do opracowania wskaźników przeklasyfikowania ( circ.ahajournals.org/content/121/15/ 1768.full ) (2) czy AIC / BIC są podobne? szereg zmiennych kryteriów zdobywania informacji może być bardziej użytecznych niż kryteria dyskryminacji.
Charles
1
Myślę, że w twoim pierwszym akapicie jest literówka. Stwierdzono, że fit2jest to model 17 zmiennych, ale jest to również model pomijany V17. Możesz to zmienić.
tomka
1
@ tomka, zmieniłem fit2na fitw powyższym przykładzie zgodnie z twoją poprawką. Dzięki!
Matt Reichenbach,

Odpowiedzi:

6

(1) Istnieje obszerna literatura na temat tego, dlaczego należy preferować pełne modele niż modele ograniczone / oszczędne. Rozumiem tylko kilka powodów, dla których wolę oszczędny model. Większe modele mogą jednak nie być wykonalne w wielu zastosowaniach klinicznych.

(2) O ile mi wiadomo, wskaźniki dyskryminacji / dyskryminacji nie są (? Nie powinny) być używane jako parametr wyboru modelu / zmiennej. Nie są przeznaczone do tego zastosowania, w związku z czym może nie być zbyt wiele literatury na temat tego, dlaczego nie należy ich używać do budowy modeli.

(3) Modele oszczędne mogą mieć ograniczenia, które nie są łatwo widoczne. Mogą być gorzej skalibrowane niż większe modele, ważność zewnętrzna / wewnętrzna może być zmniejszona.

(4) Statystyka c może nie być optymalna w ocenie modeli przewidujących przyszłe ryzyko lub podzielić osoby na kategorie ryzyka. W tym ustawieniu kalibracja jest równie ważna dla dokładnej oceny ryzyka. Na przykład biomarker o ilorazie szans 3 może mieć niewielki wpływ na statystyki, ale podwyższony poziom może przesunąć szacowane 10-letnie ryzyko sercowo-naczyniowe dla pojedynczego pacjenta z 8% do 24%

Gotować NR; Zastosowanie i niewłaściwe użycie krzywej ROC w literaturze medycznej. Krążenie. 115 2007: 928–935.

(5) Wiadomo, że AUC / c-statystyka / dyskryminacja jest niewrażliwa na istotne zmienne predykcyjne. Zostało to omówione w powyższym odnośniku Cooka i siła motywująca rozwój wskaźnika przeklasyfikowania netto. Omówiono również w Cook powyżej.

(6) Duże zestawy danych mogą nadal prowadzić do większych modeli niż pożądane, jeśli stosowane są standardowe metody wyboru zmiennych. W procedurach selekcji stopniowej często stosuje się wartość odcięcia wartości p 0,05. Ale w tej wartości nie ma nic istotnego, co oznacza, że ​​powinieneś wybrać tę wartość. W przypadku mniejszych zestawów danych większa wartość p (0,2) może być bardziej odpowiednia, w większych zestawach danych może być odpowiednia mniejsza wartość p (z tego powodu użyto 0,01 dla zestawu danych GUSTO I).

(7) Chociaż AIC jest często używany do wyboru modelu i jest lepiej poparty literaturą, BIC może być ważną alternatywą w większych zestawach danych. W przypadku wyboru modelu BIC kwadrat chi musi przekraczać log (n), w wyniku czego mniejsze modele będą powstawać w większych zestawach danych. (Mallow może mieć podobne cechy)

(8) Ale jeśli chcesz maksymalnie 10 lub 12 zmiennych, łatwiejszym rozwiązaniem jest coś takiego bestglmlub leapspakiety, w których ustawiono maksymalną liczbę zmiennych, które chcesz wziąć pod uwagę.

(9) jeśli chcesz tylko testu, który sprawi, że oba modele będą wyglądały tak samo, i nie martwisz się zbytnio szczegółami, prawdopodobnie możesz porównać AUC dwóch modeli. Niektóre pakiety podają nawet wartość p dla porównania. Nie wydaje się wskazane.

Ambler G (2002) Uproszczenie modelu prognostycznego: badanie symulacyjne na podstawie danych klinicznych
Cook NR; Zastosowanie i niewłaściwe użycie krzywej ROC w literaturze medycznej. Krążenie. 115 2007: 928–935.
Gail MH, Pfeiffer RM; W sprawie kryteriów oceny modeli ryzyka bezwzględnego. Biostat. 6 2005: 227–239.

(10) Po zbudowaniu modelu indeksy c / statystyki dziesiętne mogą nie być najlepszym podejściem do porównywania modeli i mają dobrze udokumentowane ograniczenia. Porównania powinny prawdopodobnie obejmować przynajmniej kalibrację, indeks przeklasyfikowania.

Steyerber (2010) Ocena wydajności modeli prognostycznych: ramy dla niektórych tradycyjnych i nowatorskich miar

(11) Dobrym pomysłem może być wyjście poza powyższe i zastosowanie analitycznych środków decyzyjnych.

Vickers AJ, Elkin EB. Analiza krzywej decyzyjnej: nowa metoda oceny modeli predykcyjnych. Med Decis Making. 2006; 26: 565–74.
Baker SG, Cook NR, Vickers A, Kramer BS. Wykorzystanie względnych krzywych użyteczności do oceny prognozy ryzyka. JR Stat Soc A. 2009; 172: 729-48.
Van Calster B, Vickers AJ, Pencina MJ, Baker SG, Timmerman D, Steyerberg EW. Ocena markerów i modeli prognozowania ryzyka: przegląd zależności między NRI a miarami decyzyjnymi. Med Decis Making. 2013; 33: 490–501

--- Aktualizacja --- Uważam, że artykuł Vickers jest najbardziej interesujący. Ale to wciąż nie zostało powszechnie zaakceptowane pomimo wielu artykułów wstępnych. Więc może nie mieć praktycznego zastosowania. Artykuły Cooka i Steyerberga są znacznie bardziej praktyczne.

Nikt nie lubi stopniowej selekcji. Na pewno nie będę się za tym opowiadać. Mógłbym podkreślić, że większość krytyki krokowej zakłada EPV <50 i wybór między modelem pełnym lub z góry określonym a modelem zredukowanym. Jeśli EPV> 50 i istnieje zobowiązanie do modelu redukcji, analiza kosztów i korzyści może być inna.

Słaba myśl przy porównywaniu statystyki c polega na tym, że mogą się nie różnić i wydaje mi się, że ten test był znacznie słabszy. Ale teraz nie mogę znaleźć referencji, więc może być na tej podstawie.

Charles
źródło
(1) Zdaję sobie sprawę, że preferowane są pełne modele, ale mam do wyboru ponad 1 tys. Różnych modeli i muszę budować te mniejsze modele ze względu na specyficzne wymagania branżowe. (2) To ma sens! (3) Zgoda! (4) Prawda (5) Interesujące
Matt Reichenbach,
(6) uzgodnione; procedury krokowe są jednak bardzo wątpliwe, a im niższa wartość p wartości odcięcia, tym bardziej tendencyjne stają się te typy modeli, niezależnie od wielkości próby. (7) „W przypadku wyboru modelu BIC kwadrat chi musi przekraczać log (n)”, wydaje się to bardzo przydatne. Dzięki! (8) bestglmi leapspakiety są bardzo drogie obliczeniowo i uruchomienie zestawów danych takich jak te, z którymi pracuję, zajmuje wiele dni, ale dziękuję za potencjalne pomysły.
Matt Reichenbach,
(9) Te wartości p byłyby znaczące, nawet gdyby modele były prawie dokładnie takie same ze względu na samą dużą próbkę. (10) Muszę więcej badać indeks kalibracji i przeklasyfikowania, dzięki! (11) Jestem bardzo zainteresowany przeczytaniem tych artykułów, czy poleciłbym zacząć od Vickers? Dzięki!
Matt Reichenbach,
5

Jedną z opcji jest użycie pseudo miar kwadratowych R dla obu modeli. Silna różnica w pseudo kwadracie R sugerowałaby, że dopasowanie modelu silnie zmniejsza się przez pominięcie V17.

Dostępne są różne rodzaje Pseudo R-kwadratów. Przegląd można znaleźć tutaj, na przykład:

http://www.ats.ucla.edu/stat/mult_pkg/faq/general/Psuedo_RSquareds.htm

Popularną miarą jest kwadrat Nagelkerke R. Zmienia się między 0 a 1 i ostrożnie może być interpretowany jak R-kwadrat z prostego modelu regresji liniowej. Opiera się na przekształconym stosunku szacowanych prawdopodobieństw pełnego modelu do modelu tylko przechwytywania.

Można oszacować go fiti fit2, odpowiednio, i porównać względną wielkość, aby uzyskać informację o swoim problemie. Znacznie wyższy kwadrat R Nagelkerke'a fitsugerowałby, że fit2traci on dużą moc predykcyjną przez pominięcie V17.

W lrmtej statswartości zapewnia Nagelkerke za R-kwadrat. Więc dawanie fit$statspowinno dostarczyć ci oszacowania. Zobacz także ?lrm.

tomka
źródło
Znam kwadrat R Nagelkerke; jednak moje pytanie dotyczy tego, czym jest „znacznie wyższy R Nagelkerke R fit” dla ? W powyższym przykładzie różnica wynosi 0,001, ponieważ mamy kwadrat R Nagelkerke'a równy 0,173 i 0,174 odpowiednio dla fiti fit2. Czy masz jakieś odniesienia do „znacznie wyższego placu Nagelkerke R”? Dzięki!
Matt Reichenbach,
@Matt: Myślę, że nie ma uogólnionych wytycznych dotyczących interpretacji R² Nagelkerke lub innych pseudo-miar R². Należy jednak zauważyć, że jest to przekształcona miara „zmniejszenia prawdopodobieństwa” poprzez włączenie zmiennych towarzyszących do modelu wyłącznie przechwytującego, co czyni ją podobną do „wyjaśnionej wariancji” wskazanej przez standardowe R2 w regresji liniowej. W tym sensie interpretowałbym różnicę .173 / .174 jako bardzo małą. Silniejszą różnicą byłoby coś. pomosty decylowe. Sugeruję jednak oszacowanie innych miar pseudo R2, np. McFadden lub Cox / Snell, aby sprawdzić wiarygodność tego wniosku.
tomka
Zgadzam się, że różnica jest bardzo mała, ale chciałbym znaleźć odniesienie, które mówi, czym jest „mała” różnica… Doceniam twoje myśli. Dzięki jeszcze raz!
Matt Reichenbach,
1
nie ma problemu! przepraszam, że nie przegłosowałem cię wcześniej! Napiszę jeszcze raz, jeśli znajdę odpowiedź na pytanie, czym jest „mała” różnica w zakresie pseduo R-kwadrat! dzięki!
Matt Reichenbach,
-1

Właśnie o tym przeczytałem. Właściwym sposobem na to jest użycie wyjściowego modelu glm R i poszukiwanie „Residual deviance:” oraz wyprowadzenie delty między dwoma modelami i użycie tej wartości w teście chi-kwadrat za pomocą df równej # zrzuconych wartości predyktorów. I to jest twoja wartość p.

Modelowanie regresji stosowanej Iaian Pardoe 2. wydanie 2012 str. 270

thistleknot
źródło