Czy próbkowanie w regresji logistycznej powinno odzwierciedlać rzeczywisty stosunek 1 i 0?

23

Załóżmy, że chcę stworzyć model regresji logistycznej, który może oszacować prawdopodobieństwo wystąpienia niektórych gatunków zwierząt żyjących na drzewach w oparciu o cechy drzew (np. Wysokość). Jak zawsze mój czas i pieniądze są ograniczone, dlatego jestem w stanie zebrać tylko ograniczoną liczbę próbek.

Mam następujące pytania: Czy stosunek 1 do 0 w mojej próbce powinien odzwierciedlać prawdziwy stosunek 1 do 0? (przynajmniej w przybliżeniu) Zauważyłem, że powszechną praktyką jest wykonywanie modelu regresji logistycznej ze zrównoważoną próbką (równa liczba zer i jedynek) - ale takie modele dają surrealistycznie wysokie prawdopodobieństwo wystąpienia - prawda?

Czy są jakieś artykuły / podręczniki, których mogę ** użyć do poparcia pojęcia, że ​​modele, które nie odzwierciedlają prawdziwego stosunku 1 i 0, są „ złe ”? **

I na koniec: czy możliwe jest wykonanie próbkowania 1: 1, a następnie poprawienie modelu za pomocą tau zgodnie z Imai i in. 2007?

Kosuke Imai, Gary King i Olivia Lau. 2007. „relogit: Rzadkie zdarzenia Regresja logistyczna dla dychotomicznych zmiennych zależnych”, w: Kosuke Imai, Gary King i Olivia Lau, „Zelig: Oprogramowanie statystyczne dla wszystkich”, http: //gking.harvard.edu/zelig.

wprowadź opis zdjęcia tutaj

Kropki oznaczają drzewa (czerwony = zajęty, szary = nie zajęty). Jestem w stanie zidentyfikować wszystkie zajęte drzewa ze 100% dokładnością (1), ale nie mogę zmierzyć wszystkich drzew w lesie. Model jest inny dla każdej strategii próbkowania (stosunek).

Ladislav Naďo
źródło

Odpowiedzi:

15

Jeśli celem takiego modelu jest przewidywanie, nie można użyć nieważonej regresji logistycznej do przewidywania rezultatów: przeoczysz ryzyko. Siłą modeli logistycznych jest to, że iloraz szans (OR) - „nachylenie”, które mierzy związek między czynnikiem ryzyka a wynikiem binarnym w modelu logistycznym - jest niezmienny w stosunku do próbkowania zależnego od wyniku. Jeśli więc próbki są próbkowane w stosunku 10: 1, 5: 1, 1: 1, 5: 1, 10: 1 do kontroli, to po prostu nie ma znaczenia: OR pozostaje niezmieniony w obu scenariuszach, dopóki próbkowanie jest bezwarunkowe na temat ekspozycji (która wprowadziłaby stronniczość Berksona). Rzeczywiście, próbkowanie zależne od wyniku jest przedsięwzięciem oszczędnościowym, gdy kompletne proste losowe próbkowanie po prostu się nie wydarzy.

Dlaczego prognozy ryzyka są stronnicze od próbkowania zależnego od wyników przy użyciu modeli logistycznych? Próbkowanie zależne od wyniku wpływa na punkt przecięcia w modelu logistycznym. Powoduje to, że krzywa asocjacji w kształcie litery S „przesuwa się w górę osi x” o różnicę w logarytmicznym prawdopodobieństwie próbkowania przypadku w prostej losowej próbce w populacji i logarytmicznym prawdopodobieństwie próbkowania przypadku w pseudo -populacja twojego eksperymentalnego projektu. (Jeśli więc masz kontrole 1: 1, istnieje 50% szansy na próbkowanie sprawy w tej pseudo-populacji). W rzadkich przypadkach jest to dość duża różnica, czynnik 2 lub 3.

Kiedy mówisz o tym, że takie modele są „złe”, musisz skupić się na tym, czy celem jest wnioskowanie (właściwe) czy przewidywanie (złe). Dotyczy to również stosunku wyników do przypadków. Językiem, który zwykle widujesz w tym temacie, jest nazywanie takiego badania studium „kontroli przypadków”, o którym pisano obszernie. Być może moją ulubioną publikacją na ten temat jest Breslow i Day, która jako przełomowe badanie charakteryzowała czynniki ryzyka rzadkich przyczyn raka (wcześniej niewykonalne z uwagi na rzadkość wydarzeń). Badania kontroli przypadków wywołują pewne kontrowersje wokół częstej błędnej interpretacji wyników: w szczególności łączenie RNO z RR (przesadza wyniki), a także „bazę badań” jako pośrednika w próbie i populacji, która poprawia wyniki.zapewnia ich doskonałą krytykę. Żadna krytyka nie twierdziła jednak, że badania nad sprawami są z natury nieważne, mam na myśli, jak to możliwe? Udoskonalili zdrowie publiczne na niezliczonych drogach. Artykuł Miettenena dobrze wskazuje, że w próbkowaniu zależnym od wyników można nawet użyć modeli ryzyka względnego lub innych modeli i opisać rozbieżności między wynikami a ustaleniami poziomu populacji w większości przypadków: nie jest tak naprawdę gorsze, ponieważ OR jest zwykle trudnym parametrem interpretować.

Prawdopodobnie najlepszym i najłatwiejszym sposobem przezwyciężenia błędu nadpróbkowania w prognozach ryzyka jest zastosowanie ważonego prawdopodobieństwa. Scott i Wild omawiają ważenie i pokazują, że koryguje ono pojęcie przechwytywania i prognozy ryzyka modelu. Jest to najlepsze podejście, gdy istnieje a priori wiedza na temat odsetka przypadków w populacji. Jeśli częstość występowania wyniku wynosi w rzeczywistości 1: 100, a próbki są kontrolowane w sposób 1: 1, po prostu ważymy kontrole o wielkości 100, aby uzyskać parametry populacji spójne i obiektywne prognozy ryzyka. Minusem tej metody jest to, że nie uwzględnia niepewności w zakresie rozpowszechnienia populacji, jeśli oszacowano ją z błędem w innym miejscu. To ogromny obszar otwartych badań, Lumley i Breslowprzyszedł bardzo daleko z pewną teorią na temat próbkowania dwufazowego i podwójnie niezawodnego estymatora. Myślę, że to niezwykle interesujące rzeczy. Program Zeliga wydaje się po prostu implementacją funkcji wagi (która wydaje się nieco zbędna, ponieważ funkcja glm R pozwala na ważenie).

AdamO
źródło
(+1) Czy warto wspomnieć o wcześniejszej korekcie jako prawdopodobnie najłatwiejszym sposobie dostosowania punktu przecięcia dla prostego próbkowania z kontrolą przypadków?
Scortchi - Przywróć Monikę
@Scortchi Czy masz na myśli regresję logistyczną Bayesa z informacyjnym przejęciem w momencie przechwytywania? Czy ograniczona optymalizacja? Tak naprawdę to nie wiem, co to może być.
AdamO,
1
Wystarczy proste obliczenie tutaj: stats.stackexchange.com/a/68726/17230 . (Nie jestem do końca pewien, gdzie wybrałem tę terminologię lub jaki jest jej standard). Słyszałem, że ważenie działa lepiej w przypadku źle określonych modeli.
Scortchi - Przywróć Monikę
@Scortchi Ah, to byłoby całkiem proste! Prognozy powinny być odpowiednie, o ile szacunki błędów nie są wymagane. Ważenie da ci inne SE dla punktu przecięcia i nachylenia, ale ta metoda nie wpłynie na żaden.
AdamO,