Modele binarne (Probit i Logit) z przesunięciem logarytmicznym

12

Czy ktoś ma pochodne tego, jak offset działa w modelach binarnych, takich jak probit i logit?

W moim problemie okno kontrolne może mieć różną długość. Załóżmy, że pacjenci dostają zastrzyk profilaktyczny jako leczenie. Strzal zdarza się w różnych momentach, więc jeśli wynik jest binarnym wskaźnikiem tego, czy zdarzyły się jakieś zaostrzenia, musisz skorygować fakt, że niektóre osoby mają więcej czasu na wykazanie objawów. Wydaje się, że prawdopodobieństwo zaostrzenia jest proporcjonalne do długości okresu kontrolnego. Matematycznie nie jest dla mnie jasne, w jaki sposób model binarny z przesunięciem przechwytuje tę intuicję (w przeciwieństwie do Poissona).

Przesunięcie jest standardową opcją zarówno w Stacie (p.1666), jak i R , i mogę łatwo to zobaczyć dla Poissona , ale przypadek binarny jest nieco nieprzejrzysty.

Na przykład, jeśli mamy jest to algebraicznie równoważne z modelem, w którym który jest standardowym modelem ze współczynnikiem na ograniczonym do . Nazywa się to przesunięciem logarytmicznym . Mam problemy zastanawianie się, jak to działa, jeśli zastąpić z lub .E[y| x]=exp{xβ+logZ},logZ1exp{}Φ()Λ()

mi[y|x]Z=exp{xβ},
mi[y|x]=exp{xβ+logZ},
logZ1exp{}Φ()Λ()

Aktualizacja nr 1:

Przypadek logit został wyjaśniony poniżej.

Aktualizacja nr 2:

Oto wyjaśnienie tego, co wydaje się być głównym zastosowaniem przesunięć dla modeli innych niż Poissona, takich jak probit. Przesunięcie można wykorzystać do przeprowadzenia testów współczynnika wiarygodności na współczynnikach funkcji indeksowych. Najpierw oszacuj nieograniczony model i zapisz szacunki. Powiedz, że chcesz przetestować hipotezę, że . Następnie tworzysz zmienną , dopasowujesz model upuszczając i używając jako nielogarytmicznego przesunięcia. To jest model ograniczony. Testy LR porównują oba, i są alternatywą dla zwykłego testu Walda.z = 2 x x zβx=2)z=2)xxz

Dimitriy V. Masterov
źródło

Odpowiedzi:

8

Zawsze możesz dołączyć przesunięcie do dowolnego GLM: jest to po prostu zmienna predykcyjna, której współczynnik jest ustalony na 1. Regresja Poissona jest bardzo częstym przypadkiem użycia.

Zauważ, że w modelu dwumianowym, analog do ekspozycji log jako offset jest tylko dwumianowym mianownikiem, więc zwykle nie ma potrzeby podawania go jawnie. Tak jak możesz modelować RV Poissona jako liczbę z ekspozycją logarytmiczną jako przesunięcie lub jako stosunek z ekspozycją jako ciężar, możesz podobnie modelować dwumianową RV jako liczbę sukcesów i niepowodzeń lub jako częstotliwość z próbami jako waga.

W regresji logistycznej interpretowałbyś przesunięcie Z w kategoriach ilorazów szans: proporcjonalna zmiana Z skutkuje daną proporcjonalną zmianą p / ( 1 - p ) .logZZp/(1-p)

log(p/(1-p))=βX+logZp/(1-p)=Zexp(βX)

Nie ma to jednak żadnego szczególnego znaczenia, jak ekspozycja na log w regresji Poissona. To powiedziawszy, jeśli twoje dwumianowe prawdopodobieństwo jest wystarczająco małe, model logistyczny zbliży się do modelu Poissona z łączem logarytmicznym (ponieważ mianownik na LHS zbliża się do 1), a przesunięcie może być traktowane jako wartość ekspozycji log.

(Problem opisany w twoim powiązanym pytaniu R był dość osobliwy).

Hong Ooi
źródło
W moim rozumieniu równoważności tych dwóch elementów brakuje ważenia. To było bardzo pomocne. Nadal jestem trochę zdezorientowany, jak można zamienić coś takiego jak w stwierdzenie o prawdopodobieństwie wyrównania proporcjonalnego do długości okres obserwacji t , choć widzę, jak ona rośnie w t . Par(Y=1|X)=Φ(xβ+ln(t))tt
Dimitriy V. Masterov,
To nie jest prawdopodobieństwo, ale iloraz szans. Mam nadzieję, że edycja czyni to jaśniejszym.
Hong Ooi,
Wyrażenie problemu w kategoriach ilorazu szans jest bardzo jasne. Co z probitem?
Dimitriy V. Masterov,
Nie spodziewałbym się, że zadziała to dla probit, a przynajmniej będzie miał czystą interpretację, ponieważ nie jest powiązaniem kanonicznym, a binarna zmienna zależna z probit nie należy do rodziny wykładniczej. Φ()
StasK
@StasK To wydaje się słuszne, ale dlaczego te opcje istnieją w Stata i R. Co oni osiągają?
Dimitriy V. Masterov,
1

Czy przekształcając to jako problem czasu do zdarzenia, czy model logistyczny z przesunięciem ln (czas) nie zapewniłby ci parametrycznej funkcji przeżycia, która może, ale nie musi dobrze pasować do danych?

p / (1-p) = Z * exp (xbeta)

p = [Z * exp (xbeta)] / [1 + Z * exp (xbeta)]

Przewidywane przeżycie w czasie Z = 1- [Z * exp (xbeta)] / [1 + Z * exp (xbeta)]

Eric
źródło