Ocena regresji logistycznej i interpretacja dobroci dopasowania Hosmera-Lemeshowa

24

Jak wszyscy wiemy, istnieją 2 metody oceny modelu regresji logistycznej i testują one bardzo różne rzeczy

  1. Moc predykcyjna:

    Uzyskaj statystykę mierzącą, jak dobrze możesz przewidzieć zmienną zależną na podstawie zmiennych niezależnych. Dobrze znanymi Pseudo R ^ 2 są McFadden (1974) oraz Cox i Snell (1989).

  2. Statystyki dobroci dopasowania

    Test mówi, czy można zrobić jeszcze lepiej, czyniąc model bardziej skomplikowanym, a tak naprawdę sprawdza, czy występują nieliniowości lub interakcje.

    Zaimplementowałem oba testy w moim modelu, który dodał już kwadrat i interakcję
    :

    >summary(spec_q2)
    
    Call:
    glm(formula = result ~ Top + Right + Left + Bottom + I(Top^2) + 
     I(Left^2) + I(Bottom^2) + Top:Right + Top:Bottom + Right:Left, 
     family = binomial())
    
     Coefficients:
                 Estimate Std. Error z value Pr(>|z|)    
    (Intercept)  0.955431   8.838584   0.108   0.9139    
    Top          0.311891   0.189793   1.643   0.1003    
    Right       -1.015460   0.502736  -2.020   0.0434 *  
    Left        -0.962143   0.431534  -2.230   0.0258 *  
    Bottom       0.198631   0.157242   1.263   0.2065    
    I(Top^2)    -0.003213   0.002114  -1.520   0.1285    
    I(Left^2)   -0.054258   0.008768  -6.188 6.09e-10 ***
    I(Bottom^2)  0.003725   0.001782   2.091   0.0366 *  
    Top:Right    0.012290   0.007540   1.630   0.1031    
    Top:Bottom   0.004536   0.002880   1.575   0.1153    
    Right:Left  -0.044283   0.015983  -2.771   0.0056 ** 
    ---
    Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1
    (Dispersion parameter for binomial family taken to be 1)
    Null deviance: 3350.3  on 2799  degrees of freedom
    Residual deviance: 1984.6  on 2789  degrees of freedom
    AIC: 2006.6
    

a przewidywana moc jest jak poniżej, MaFadden wynosi 0,4004, a wartość między 0,2 ~ 0,4 należy przyjąć, aby przedstawić bardzo dobre dopasowanie modelu (Louviere i in. (2000), Domenich i McFadden (1975)):

 > PseudoR2(spec_q2)
    McFadden     Adj.McFadden        Cox.Snell       Nagelkerke McKelvey.Zavoina           Effron            Count        Adj.Count 
   0.4076315        0.4004680        0.3859918        0.5531859        0.6144487        0.4616466        0.8489286        0.4712500 
         AIC    Corrected.AIC 
2006.6179010     2006.7125925 

oraz statystyki dobroci dopasowania:

 > hoslem.test(result,phat,g=8)

     Hosmer and Lemeshow goodness of fit (GOF) test

  data:  result, phat
  X-squared = 2800, df = 6, p-value < 2.2e-16

W moim rozumieniu GOF faktycznie testuje następującą hipotezę zerową i alternatywną:

  H0: The models does not need interaction and non-linearity
  H1: The models needs interaction and non-linearity

Ponieważ moje modele dodały interakcję, już nieliniowość, a wartość p pokazuje, że H0 należy odrzucić, doszedłem więc do wniosku, że mój model wymaga interakcji, a nieliniowość. Mam nadzieję, że moja interpretacja jest poprawna i dziękuję za wszelkie porady z góry, dziękuję.

Samoth
źródło
2
Lepiej spojrzeć na tabelę niższą niż wartość p dla testu HL. A także na wykresach pozostałości z twojego modelu. To pokaże, gdzie jest problem.
prawdopodobieństwo prawdopodobieństwo

Odpowiedzi:

26

Jest kilka problemów do rozwiązania.

  • R2)R2)R2)
  • Test Hosmera-Lemeshowa dotyczy ogólnego błędu kalibracji, a nie jakiegokolwiek szczególnego braku dopasowania, takiego jak efekty kwadratowe. Nie uwzględnia we właściwy sposób nadmiernego dopasowania, jest arbitralne w wyborze przedziałów i metody obliczania kwantyli, a często ma zbyt niską moc.
  • Z tych powodów test Hosmer-Lemeshow nie jest już zalecany. Hosmer i wsp. Przeprowadzili lepszy test dopasowania omnibus jeden df, zaimplementowany w funkcji rmspakietu R.residuals.lrm
  • W twoim przypadku poprawność dopasowania można ocenić poprzez wspólne testowanie (w teście „fragmentu”) udziału wszystkich kwadratów i warunków interakcji.
  • Ale zalecam określenie modelu, aby zwiększyć jego zgodność z przodu (szczególnie w odniesieniu do relaksujących założeń liniowości za pomocą splajnów regresji) i użycie bootstrapu do oszacowania przeregulowania i uzyskania poprawionej krzywej kalibracji o wysokiej rozdzielczości z korekcją przeregulowania w celu sprawdzenia wartości bezwzględnej precyzja. Odbywa się to za pomocą rmspakietu R.

W ostatnim punkcie wolę filozofię, że modele są elastyczne (i tak ograniczone przez wielkość próbki) i że bardziej koncentrujemy się na „dopasowaniu” niż na „braku dopasowania”.

Frank Harrell
źródło
2
R2)
1-R2)
4

Z Wikipedii :

Test ocenia, czy obserwowane wskaźniki zdarzeń odpowiadają oczekiwanym wskaźnikom zdarzeń w podgrupach populacji modelu. Test Hosmera – Lemeshowa wyraźnie identyfikuje podgrupy jako decyle dopasowanych wartości ryzyka. Modele, dla których oczekiwane i obserwowane wskaźniki zdarzeń w podgrupach są podobne, nazywane są dobrze skalibrowanymi.

Jego znaczenie: po zbudowaniu modelu oceniającego y modelu, chcesz sprawdzić, czy jest on podzielony na 10 decyli podobnych do rzeczywistych wskaźników zdarzeń.

Tak będą hipotezy

  • H.0
  • H.1

Dlatego jeśli wartość p jest mniejsza niż 0,05, nie są one dobrze rozłożone i musisz udoskonalić swój model.

Mam nadzieję, że to odpowiada na niektóre pytania.

Rajnish Kumar
źródło
3

Jest to raczej dyskusyjne po odpowiedzi @ FrankHarrella, ale fan testu H – L wywnioskowałby z tego wyniku, że pomimo włączenia wyrażeń kwadratowych i niektórych interakcji drugiego rzędu, model nadal wykazywał znaczny brak dopasowania, i że być może odpowiedni byłby nawet bardziej złożony model. Testujesz dopasowanie dokładnie określonego modelu, a nie prostszego modelu pierwszego rzędu.

† To nie jest pełny model drugiego rzędu - są trzy interakcje.

Scortchi - Przywróć Monikę
źródło