Rozważ próbkowanie danych z populacji o wielkości w następujący sposób: Dla
Obserwować indywidualne statusu «choroba» „s
Jeśli mają chorobę, włącz je do próbki z prawdopodobieństwem
Jeśli nie chorują, włącz je z prawdopodobieństwem p_ {k0} .
Załóżmy, że zaobserwowałeś binarną zmienną wyniku i wektor predykcyjny , dla badanych próbkowano w ten sposób. Zmienna wynikowa nie jest statusem „choroby”. Chcę oszacować parametry modelu regresji logistycznej:
Jedyne, na czym mi zależy, to (log) iloraz szans . Przechwycenie jest dla mnie nieistotne.
Moje pytanie brzmi: czy mogę uzyskać rozsądne oszacowania , ignorując prawdopodobieństwa próbkowania , i dopasowując model tak, jakby to była zwykła losowa próbka? { s i 1 , p i 0 } i = 1 , . . . , n
Jestem prawie pewien, że odpowiedź na to pytanie brzmi „tak”. To, czego szukam, to referencja, która to potwierdza.
Są dwa główne powody, dla których jestem pewien co do odpowiedzi:
Przeprowadziłem wiele badań symulacyjnych i żadne z nich nie jest temu przeciwne, i
Łatwo jest pokazać, że jeśli populacją rządzi powyższy model, wówczas modelem rządzącym próbkowanymi danymi jest
Jeśli prawdopodobieństwa próbkowania nie zależą od , to oznaczałoby to proste przejście do punktu przecięcia i estymacja punktowa byłaby oczywiście niezmieniona. Ale jeśli przesunięcia są różne dla każdej osoby, ta logika nie do końca się stosuje, ponieważ z pewnością otrzymasz inną ocenę punktową, chociaż podejrzewam, że coś podobnego ma.
Powiązane: Klasyczny artykuł Prentice i Pyke (1979) mówi, że współczynniki regresji logistycznej z kontroli przypadków (ze statusem choroby jako wynikiem) mają taki sam rozkład, jak te zebrane w prospektywnym badaniu. Podejrzewam, że ten sam wynik miałby zastosowanie tutaj, ale muszę przyznać, że nie do końca rozumiem każdą część tekstu.
Z góry dziękuję za wszelkie komentarze / referencje.
źródło
Odpowiedzi:
Jest to odmiana modelu selekcji w ekonometrii. Ważność szacunków przy użyciu tylko wybranej próbki tutaj zależy od warunku, że . Tutaj jest stan choroby „s. D i iPr(Yi=1∣Xi,Di=1)=Pr(Yi=1∣Xi,Di=0) Di i
Aby podać więcej szczegółów, zdefiniuj następujące oznaczenia: i ; odwołuje się do przypadku, znajduje się w próbce. Ponadto, dla uproszczenia załóżmy, że jest niezależny od . π 0 = Pr ( D i = 0 ) S i = 1 i D i X iπ1=Pr(Di=1) π0=Pr(Di=0) Si=1 i reja Xja
Prawdopodobieństwo dla jednostki w próbce to zgodnie z prawem iteracji. Załóżmy, że statusu choroby i innych zmiennych towarzyszących , wynik jest niezależny od . W rezultacie, i Pr ( Y i = 1 ∣ X i , S i = 1 )Yja= 1 ja DiXiYiSi Pr ( Y i = 1 ∣ X i , S i = 1 )
Kusi nas, aby uwzględnić jako dodatkową zmienną objaśniającą i oszacować model na podstawie . Aby uzasadnić ważność użycia , musimy udowodnić, że , co odpowiada warunkowi, że to wystarczająca statystyka . Bez dalszych informacji na temat procesu pobierania próbek nie jestem pewien, czy to prawda. Użyjmy abstrakcyjnej notacji. Na przykład zmienną obserwowalności można postrzegać jako funkcję losową i innych zmiennych losowychDi Pr(Yi∣Xi,Di) Pr(Yi∣Xi,Di) Pr(Yi∣Xi,Di,Si=1)=Pr(Yi∣Xi,Di) Di Si Si Di Zi . Oznacz . Jeśli
jest niezależny od od i , pozostało
z definicji niezależności. Jeśli jednak nie jest niezależny od po warunkowaniu na i ,
intuicyjnie zawiera pewne istotne informacje o
i ogólnie nie oczekuje się tegoSi=S(Di,Zi) Zi Yi Xi Di Pr(Yi∣Xi,Di,S(Di,Zi))=Pr(Yi∣Xi,Di) Zi Yi Xi Di Zi Yi Pr(Yi∣Xi,Di,S(Di,Zi))=Pr(Yi∣Xi,Di) . Zatem w przypadku „jednak” ignorancja przy doborze próby może być myląca dla wnioskowania. Nie znam się na literaturze doboru próby w ekonometrii. Poleciłbym rozdział 16
Microeconometrics: methods and applications' by Cameron and Trivedi (especially the Roy model in that chapter). Also G. S. Maddala's classic book
zmiennych zależnych i zmiennych jakościowych w ekonometrii. Jest to systematyczne podejście do kwestii wyboru próby i dyskretnych wyników.źródło