Szacowanie współczynników regresji logistycznej w projekcie sterowania przypadkami, gdy zmienna wynikowa nie ma statusu przypadku / kontroli

10

Rozważ próbkowanie danych z populacji o wielkości w następujący sposób: DlaNk=1,...,N

  1. Obserwować indywidualne statusu «choroba» „sk

  2. Jeśli mają chorobę, włącz je do próbki z prawdopodobieństwem pk1

  3. Jeśli nie chorują, włącz je z prawdopodobieństwem p_ {k0}pk0 .

Załóżmy, że zaobserwowałeś binarną zmienną wyniku Yi i wektor predykcyjny Xi , dla i=1,...,n badanych próbkowano w ten sposób. Zmienna wynikowa nie jest statusem „choroby”. Chcę oszacować parametry modelu regresji logistycznej:

log(P(Yi=1|Xi)P(Yi=0|Xi))=α+Xiβ

Jedyne, na czym mi zależy, to (log) iloraz szans β . Przechwycenie jest dla mnie nieistotne.

Moje pytanie brzmi: czy mogę uzyskać rozsądne oszacowania , ignorując prawdopodobieństwa próbkowania , i dopasowując model tak, jakby to była zwykła losowa próbka? { s i 1 , p i 0 } i = 1 , . . . , nβ{pi1,pi0}i=1,...,n


Jestem prawie pewien, że odpowiedź na to pytanie brzmi „tak”. To, czego szukam, to referencja, która to potwierdza.

Są dwa główne powody, dla których jestem pewien co do odpowiedzi:

  1. Przeprowadziłem wiele badań symulacyjnych i żadne z nich nie jest temu przeciwne, i

  2. Łatwo jest pokazać, że jeśli populacją rządzi powyższy model, wówczas modelem rządzącym próbkowanymi danymi jest

log(P(Yi=1|Xi)P(Yi=0|Xi))=log(pi1)log(pi0)+α+Xiβ

Jeśli prawdopodobieństwa próbkowania nie zależą od , to oznaczałoby to proste przejście do punktu przecięcia i estymacja punktowa byłaby oczywiście niezmieniona. Ale jeśli przesunięcia są różne dla każdej osoby, ta logika nie do końca się stosuje, ponieważ z pewnością otrzymasz inną ocenę punktową, chociaż podejrzewam, że coś podobnego ma. iβ

Powiązane: Klasyczny artykuł Prentice i Pyke (1979) mówi, że współczynniki regresji logistycznej z kontroli przypadków (ze statusem choroby jako wynikiem) mają taki sam rozkład, jak te zebrane w prospektywnym badaniu. Podejrzewam, że ten sam wynik miałby zastosowanie tutaj, ale muszę przyznać, że nie do końca rozumiem każdą część tekstu.

Z góry dziękuję za wszelkie komentarze / referencje.

Makro
źródło
1
Stwierdzasz, że „zmienna wynikowa nie jest statusem choroby ”. Co oznacza ? Witamy ponownie w CV, btw. Yi=1
gung - Przywróć Monikę
1
Yi to inna zmienna. Chodzi mi o to, że zmienna, która decyduje o prawdopodobieństwie próbkowania (zwykle stan choroby w kontroli przypadku), nie jest taka sama jak zmienna wyniku - pomyśl wtórną analizę zestawu danych. Załóżmy na przykład, że próbka została wygenerowana przez systematyczne pobieranie próbek od użytkowników narkotyków i dodatkowy (dopasowany do częstotliwości, wrt pewnych współzmiennych) zestaw nieużywających narkotyków, ale badana zmienna wynikowa to jakiś inny pomiar behawioralny. W takim przypadku schemat pobierania próbek jest uciążliwy. Dzięki, btw!
Makro,

Odpowiedzi:

8

Jest to odmiana modelu selekcji w ekonometrii. Ważność szacunków przy użyciu tylko wybranej próbki tutaj zależy od warunku, że . Tutaj jest stan choroby „s. D i iPr(Yi=1Xi,Di=1)=Pr(Yi=1Xi,Di=0)Dii

Aby podać więcej szczegółów, zdefiniuj następujące oznaczenia: i ; odwołuje się do przypadku, znajduje się w próbce. Ponadto, dla uproszczenia załóżmy, że jest niezależny od . π 0 = Pr ( D i = 0 ) S i = 1 i D i X iπ1=Pr(Di=1)π0=Pr(Di=0)Si=1iDiXi

Prawdopodobieństwo dla jednostki w próbce to zgodnie z prawem iteracji. Załóżmy, że statusu choroby i innych zmiennych towarzyszących , wynik jest niezależny od . W rezultacie, i Pr ( Y i = 1 X i , S i = 1 )Yi=1ja DiXiYiSi Pr ( Y i = 1 X i , S i = 1 )

Pr(Yi=1Xi,Si=1)=E(YiXi,Si=1)=E{E(YiXi,Di,Si=1)Xi,Si=1}=Pr(Di=1Si=1)Pr(Yi=1Xi,Di=1,Si=1)+Pr(Di=0Si=1)Pr(Yi=1Xi,Di=0,Si=1),
DiXiYiSi
Pr(Yi=1Xi,Si=1)=Pr(Di=1Si=1)Pr(Yi=1Xi,Di=1)+Pr(Di=0Si=1)Pr(Yi=1Xi,Di=0).
Łatwo zauważyć, że Tutaj i mają zdefiniowany schemat próbkowania. A zatem, pi1pi0Pr(Yi=1Xi,Si=1)=π1pi1
Pr(Di=1Si=1)=π1pi1π1pi1+π0pi0 and Pr(Di=0Si=1)=π0pi0π1pi1+π0pi0.
pi1pi0
Pr(Yi=1Xi,Si=1)=π1pi1π1pi1+π0pi0Pr(Yi=1Xi,Di=1)+π0pi0π1pi1+π0pi0Pr(Yi=1Xi,Di=0).
Jeśli , mamy i możesz pominąć problem wyboru próbki. Z drugiej strony, jeśli , ogólnie. W szczególnym przypadku rozważ model logit, Pr(Yi=1Xi,Di=1)=Pr(Yi=1Xi,Di=0)
Pr(Yi=1Xi,Si=1)=Pr(Yi=1Xi),
Pr(Yi=1Xi,Di=1)Pr(Yi=1Xi,Di=0)
Pr(Yi=1Xi,Si=1)Pr(Yi=1Xi)
Pr(Yi=1Xi,Di=1)=eXiα1+eXiα and Pr(Yi=1Xi,Di=0)=eXiβ1+eXiβ.
Nawet jeśli i są stałe w , wynikowy rozkład nie zachowa tworzenia logitów. Co ważniejsze, interpretacja parametrów byłaby zupełnie inna. Mam nadzieję, że powyższe argumenty pomogą nieco wyjaśnić twój problem.pi1pi0i

Kusi nas, aby uwzględnić jako dodatkową zmienną objaśniającą i oszacować model na podstawie . Aby uzasadnić ważność użycia , musimy udowodnić, że , co odpowiada warunkowi, że to wystarczająca statystyka . Bez dalszych informacji na temat procesu pobierania próbek nie jestem pewien, czy to prawda. Użyjmy abstrakcyjnej notacji. Na przykład zmienną obserwowalności można postrzegać jako funkcję losową i innych zmiennych losowychDiPr(YiXi,Di)Pr(YiXi,Di)Pr(YiXi,Di,Si=1)=Pr(YiXi,Di)DiSiSiDiZi . Oznacz . Jeśli jest niezależny od od i , pozostało z definicji niezależności. Jeśli jednak nie jest niezależny od po warunkowaniu na i , intuicyjnie zawiera pewne istotne informacje o i ogólnie nie oczekuje się tegoSi=S(Di,Zi)ZiYiXiDiPr(YiXi,Di,S(Di,Zi))=Pr(YiXi,Di)ZiYiXiDiZiYiPr(YiXi,Di,S(Di,Zi))=Pr(YiXi,Di) . Zatem w przypadku „jednak” ignorancja przy doborze próby może być myląca dla wnioskowania. Nie znam się na literaturze doboru próby w ekonometrii. Poleciłbym rozdział 16 Microeconometrics: methods and applications' by Cameron and Trivedi (especially the Roy model in that chapter). Also G. S. Maddala's classic bookzmiennych zależnych i zmiennych jakościowych w ekonometrii. Jest to systematyczne podejście do kwestii wyboru próby i dyskretnych wyników.

semibruin
źródło
2
Dzięki. To świetna odpowiedź i ma sens. W mojej aplikacji założenie, że nie jest realistyczne. Ale równie dobrze byłoby dodać jako predyktor i rozważyć rozkład . Korzystając z podobnej pochodnej, myślę, że możesz pokazać, że jeśli , to nic ci nie jest. W moim przypadku jest to rozsądne założenie. Co myślisz? BTW, czy zdarzyło Ci się mieć jakieś referencje, które wspominają o tym problemie? Nie znam literatury ekonometrycznej. P(Yi|Xi,Di=1)=P(Yi|Xi,Di=0)DiP(Yi|Xi,Di)P(Yi=1|Xi,Di,Si=1)=P(Yi=1|Xi,Di,Si=0)
Makro
Nie mam nic przeciwko myśleniu o procesie selekcji jako o próbie , tj. Przy tym założeniu generowania danych ta próba jest warunkowo niezależna od , więc myślę, że nic nam nie jest. Doceniam twoje starania i wgląd w ten problem i przyjmuję odpowiedź. Zakładając, że nikt nie przychodzi z dokładnym odniesieniem, którego szukam (wolałbym po prostu „zacytować” ten problem niż dygresję przy dłuższej dyskusji), również przyznam ci nagrodę. Twoje zdrowie.
Si|Di=d,Xi=xBernoulli(p(x,d))
Yi
Makro
Ten proces selekcji pasuje do Twojej strategii. Na podstawie takiego problemu wyboru problem staje się przykładem losowego braku (MAR) w brakującej literaturze danych. Dziękuję za twoją nagrodę.
semibruin