Czy funkcja logit jest zawsze najlepsza do modelowania regresji danych binarnych?

15

Myślałem o tym problemie. Zwykłą funkcją logistyczną do modelowania danych binarnych jest: Jednak czy funkcja logit, która jest krzywą w kształcie litery S, zawsze jest najlepsza do modelowania danych? Być może masz powód, by sądzić, że twoje dane nie są zgodne z normalną krzywą w kształcie litery S, ale z innym rodzajem krzywej z domeną(0,1).

log(p1p)=β0+β1X1+β2X2+
(0,1)

Czy są na to jakieś badania? Może możesz to wymodelować jako funkcję probitową lub coś podobnego, ale co, jeśli jest to coś zupełnie innego? Czy może to prowadzić do lepszego oszacowania efektów? Pomyślałam tylko i zastanawiam się, czy są jakieś badania na ten temat.

Dolina górska
źródło
3
możliwy duplikat różnicy między modelami logit i probit
Macro
2
@macro Nie sądzę, że jest to dokładny duplikat. To pytanie dotyczy tylko logit i probit; ten prosi również o inne alternatywy.
Peter Flom - Przywróć Monikę
Głosuję za pozostawieniem tego otwartego. Główną różnicą, którą widzę, jest to, że to Q wymaga badań statystycznych na temat różnych możliwych funkcji łącza. To subtelna różnica, ale może wystarczyć. @Glen, możesz przejrzeć inne Q, jeśli jeszcze go nie widziałeś. W mojej odpowiedzi mówię o różnych możliwych linkach. Jeśli uważasz, że to Q nie jest tak naprawdę różne, oflaguj je, a mody mogą je zamknąć; jeśli możesz wymyślić sposób na rozróżnienie b / t tego, o co pytasz, i że Q jest jaśniejsze, możesz zechcieć to zrobić.
gung - Przywróć Monikę
Wiem, że to nie jest dokładna kopia pytania logit vs. probit, ale pomyślałem, że odpowiedź Gunga, która wykracza poza to, co zostało zadane przez powiązane pytanie, odnosi się do większości pytań zadanych tutaj, dlatego zamknęłam je jako duplikat. Są prawdopodobnie inne ściśle powiązane wątki, ale to pierwszy, który przyszedł mi do głowy.
Makro,
Dziękuję za komentarze. Uważam, że moje pytanie różni się od poprzedniego. Bardzo dobrze znam transformacje probit i log-log, a dyskusja z poprzedniego pytania była dla mnie bardzo pouczająca. Interesują mnie jednak inne funkcje połączeń (być może nieparametryczne?), Które są możliwe, w sytuacji, w której możesz mieć wiedzę o tym, że krzywa prawdopodobieństwa ma inny rozkład. Myślę, że kiedy interakcje są zaangażowane między zmiennymi towarzyszącymi, może to odgrywać ważną rolę. @David J. Harris odpowiedź jest również pomocna ...
Glen

Odpowiedzi:

15

Ludzie używają różnego rodzaju funkcji, aby utrzymać swoje dane pomiędzy 0 a 1. Szanse logarytmiczne wypływają naturalnie z matematyki, gdy wyprowadzasz model (nazywa się to „funkcją łącza kanonicznego”), ale masz całkowitą swobodę eksperymentowania z inne alternatywy.

t rozkładu Studenta, chociaż nigdy tego nie próbowałem.

ttt7

Mam nadzieję że to pomoże.

Zredagowano, aby dodać : Dyskusja, z którą powiązany jest Macro, jest naprawdę doskonała. Gorąco polecam przeczytanie go, jeśli jesteś zainteresowany bardziej szczegółowymi informacjami.

David J. Harris
źródło
Pytanie dotyczy konkretnie „danych binarnych”, a nie danych z przedziału od 0 do 1. Model probit nie ma teoretycznego uzasadnienia w przypadku danych binarnych.
Neil G
3
@NeilG, jednym z powodów korzystania z modelu probit jest to, że zapewnia wygodny sposób modelowania wielowymiarowych danych binarnych (np. Z modelem mieszanym) jako normalne wartości progowe. W takim przypadku macierz korelacji podstawowych zmiennych jest statystycznie nie do zidentyfikowania, podczas gdy nie ma to miejsca w przypadku logistycznym. Jest nieco dłuższy dyskusja tutaj .
Makro
@Macro: Oh, rozumiem. To bardzo interesujące, dzięki.
Neil G
@David J.Harris: Czy masz na myśli kwintyl (a może kwantyl ma to samo znaczenie), tj. Podział rozkładu na części piąte: 20%, 40%, .., 100%?
MSIS,
1
@MSIS kwintyl dzieli się na piąte, percentyl dzieli się na setne, a kwartyl dzieli się na dowolne jednostki Patrz en.wikipedia.org/wiki/Quantile#Specialized_quantiles
David J. Harris
11

Nie widzę powodu, a-a priori, dlaczego odpowiednią funkcją łącza dla danego zestawu danych musi być logit (chociaż wszechświat wydaje się ogólnie dla nas raczej miły). Nie wiem, czy są to dokładnie to, czego szukasz, ale oto kilka artykułów omawiających bardziej egzotyczne funkcje linków:

Ujawnienie: Nie znam dobrze tego materiału. Kilka lat temu próbowałem pogadać z Cauchit i Scobit, ale mój kod ciągle się zawieszał (prawdopodobnie dlatego, że nie jestem świetnym programistą) i nie wydawało się to istotne dla projektu, nad którym pracowałem, więc go porzuciłem .

X

gung - Przywróć Monikę
źródło
4

Najlepszą strategią jest modelowanie danych w świetle tego, co się dzieje (nic dziwnego!)

  • Modele Probit powstały na podstawie badań LD50 - potrzebujesz dawki środka owadobójczego, który zabija połowę błędów. Odpowiedź binarna polega na tym, czy błąd żyje, czy umiera (przy danej dawce). Błędy, które są podatne na jedną dawkę, będą również podatne na mniejsze dawki, i wtedy pojawia się pomysł modelowania do skumulowanej Normalnej.
  • Jeśli obserwacje binarne pochodzą zgrupowań, możesz użyć modelu dwumianowego. Ben Bolker ma dobre wprowadzenie w dokumentacji swojego pakietu bbmle (w języku R), który implementuje to w prostych przypadkach. Modele te umożliwiają większą kontrolę nad zmiennością danych niż w przypadku rozkładu dwumianowego.
  • Wielowymiarowe dane binarne - sortowanie, które można łączyć w wielowymiarowe tabele kontyngencji - można analizować za pomocą modelu logarytmiczno-liniowego. Funkcja link to log, a nie logarytm. Niektórzy nazywają to regresją Poissona.

Prawdopodobnie nie ma badań nad tymi modelami jako takimi, chociaż przeprowadzono wiele badań nad jednym z tych modeli, a także nad porównaniami między nimi oraz nad różnymi sposobami ich szacowania. W literaturze można zauważyć, że przez pewien czas istnieje wiele działań, ponieważ badacze rozważają szereg opcji dla określonej klasy problemów, a następnie jedna metoda okazuje się lepsza.

Placidia
źródło
+1 dla dwumianu beta. To świetne narzędzie do posiadania w przyborniku.
David J. Harris
3

Logit to model, w którym dane wejściowe są produktem ekspertów, z których każdy jest dystrybucją Bernoulliego. Innymi słowy, jeśli weźmiesz pod uwagę wszystkie dane wejściowe jako niezależne rozkłady Bernoulliego z prawdopodobieństwempja których dowody są połączone, przekonasz się, że dodajesz funkcję logistyczną zastosowaną do każdego z nich pjas. (Innym sposobem powiedzenia tego samego jest to, że konwersja z parametryzacji oczekiwanej na naturalną parametryzację rozkładu Bernoulliego jest funkcją logistyczną).

Neil G.
źródło