Studiuję, jak skonstruować 95% przedział ufności dla ilorazu szans ze współczynników uzyskanych w regresji logistycznej. Biorąc pod uwagę model regresji logistycznej,
tak, że dla grupy kontrolnej i dla grupy obserwacji.
Czytałem już, że najprostszym sposobem jest zbudowanie 95% CI dla a następnie zastosowaliśmy funkcję wykładniczą, to znaczy
Moje pytania to:
Jaki jest teoretyczny powód uzasadniający tę procedurę? Wiem, że i estymatory maksymalnego prawdopodobieństwa są niezmienne. Nie znam jednak związku między tymi elementami.
Czy metoda delta powinna dawać taki sam 95% przedział ufności jak poprzednia procedura? Używając metody delta,
Następnie,
Jeśli nie, jaka jest najlepsza procedura?
logistic
confidence-interval
odds-ratio
delta-method
Márcio Augusto Diniz
źródło
źródło
Odpowiedzi:
Uzasadnieniem tej procedury jest asymptotyczna normalność MLE dla i wynika z argumentów dotyczących twierdzenia o granicy centralnej.β
Metoda Delta pochodzi z liniowego (tj. Pierwszego rzędu Taylora) rozszerzenia funkcji wokół MLE. Następnie odwołujemy się do asymptotycznej normalności i bezstronności MLE.
Asymptotycznie obie dają tę samą odpowiedź. Ale praktycznie wolałbyś ten, który wygląda bardziej normalnie. W tym przykładzie wolałbym ten pierwszy, ponieważ ten drugi prawdopodobnie będzie mniej symetryczny.
źródło
Porównanie metod przedziałów ufności na przykładzie z ISL
Książka „Wprowadzenie do uczenia statystycznego” autorstwa Tibshirani, James, Hastie zawiera przykład na stronie 267 przedziałów ufności dla wielomianowej regresji logistycznej stopnia 4 na danych płacowych . Cytując książkę:
Poniżej znajduje się krótkie podsumowanie dwóch metod konstruowania takich przedziałów, a także komentarze na temat ich implementacji od zera
Przedziały transformacji Wald / Endpoint
Ponieważ jest monotoniczną transformacjąx T βP.r ( xT.β) = F.( xT.β) xT.β
Konkretnie oznacza to obliczenie a następnie zastosowanie transformacji logit do wyniku w celu uzyskania dolnej i górnej granicy:βT.x ± z∗S.mi( βT.x )
Obliczanie błędu standardowego
Teoria maksymalnego prawdopodobieństwa mówi nam, że przybliżoną wariancję można obliczyć za pomocą macierzy kowariancji współczynników regresji za pomocąΣxT.β Σ
Zdefiniuj macierz projektową i macierz jakoV.X V.
gdzie jest wartością tej zmiennej dla obserwacji, a reprezentuje przewidywane prawdopodobieństwo obserwacji . j i π i jaxja , j jot ja π^ja ja
Macierz kowariancji można następnie znaleźć jako: a błąd standardowy jako S E ( x T β ) = √Σ = (XT.V X)- 1 S.mi( xT.β) = Va r ( xT.β)--------√
95% przedziały ufności dla przewidywanego prawdopodobieństwa można następnie wykreślić jako
Przedziały ufności metody Delta
Podejście polega na obliczeniu wariancji aproksymacji liniowej funkcji i użyciu jej do skonstruowania dużych przedziałów ufności próbki.fa
Gdzie jest gradientem, a oszacowaną macierzą kowariancji. Pamiętaj, że w jednym wymiarze:∇ Σ
Gdzie jest pochodną . Uogólnia się to w przypadku wielowymiarowymfa fa
W naszym przypadku F jest funkcją logistyczną (którą oznaczymy ), której pochodną jestπ( xT.β)
Możemy teraz skonstruować przedział ufności, używając wariancji obliczonej powyżej.
W postaci wektorowej dla przypadku wielowymiarowego
Konkluzja otwarta
Rzut oka na wykresy normalnej QQ zarówno dla prawdopodobieństw, jak i ujemnych szans na logarytmiczne wyniki pokazują, że żadne z nich nie jest normalnie rozłożone. Czy to może wyjaśnić różnicę?
Źródło:
źródło
Dla większości celów najprostszy sposób jest prawdopodobnie najlepszy, jak omówiono w kontekście transformacji dziennika na tej stronie . Pomyśl o zmiennej zależnej jako analizowanej w skali logit, z przeprowadzonymi testami statystycznymi i przedziałami ufności (CI) zdefiniowanymi w tej skali logit. Tylna transformacja do ilorazu szans polega na umieszczeniu tych wyników w skali, którą czytelnik mógłby łatwiej zrozumieć. Odbywa się to również na przykład w analizie przeżycia Coxa, w której współczynniki regresji (i 95% CI) są potęgowane w celu uzyskania współczynników ryzyka i ich CI.
źródło