Intuicja regresji logistycznej

25

Ostatnio zacząłem studiować uczenie maszynowe, jednak nie rozumiałem intuicji stojącej za regresją logistyczną .

Oto fakty dotyczące regresji logistycznej, które rozumiem.

  1. Jako podstawę hipotezy wykorzystujemy funkcję sigmoidalną . Rozumiem, dlaczego to poprawny wybór, ale dlaczego jest to tylko wybór nie rozumiem. Hipoteza reprezentuje prawdopodobieństwo, że odpowiednia wartość wyjściowa wynosi 1 , dlatego domeną naszej funkcji powinna być [ 0 , 1 ] , jest to jedyna właściwość funkcji sigmoidalnej, którą uznałem tutaj za przydatną i odpowiednią, jednak wiele funkcji spełnia tę właściwość. Ponadto funkcja sigmoidalna ma pochodną w tej postaci f ( x ) ( 1 - f ( x ) )1[0,1]f(x)(1f(x)), ale nie widzę użyteczności tej specjalnej formy w regresji logistycznej.

    Pytanie : co takiego specjalnego jest w funkcji sigmoidalnej i dlaczego nie możemy używać żadnej innej funkcji z domeną ?[0,1]

  2. Funkcja kosztu składa się z dwóch parametrów jeśli y = 1 , C o s t ( h θ ( x ) , y ) = - log ( 1 - h θ ( x ) ), jeśli y =Cost(hθ(x),y)=log(hθ(x))y=1,Cost(hθ(x),y)=log(1hθ(x))y=0 . Tak samo jak powyżej, rozumiem, dlaczego jest poprawny, jednak dlaczego jest to jedyna forma? Na przykład, dlaczego nie mógł być dobrym wyborem dla funkcji kosztów?|hθ(x)y|

    Pytanie : co jest takiego specjalnego w powyższej formie funkcji kosztów; dlaczego nie możemy użyć innego formularza?

Byłbym wdzięczny, gdybyś mógł podzielić się swoim rozumieniem regresji logistycznej.

użytkownik16168
źródło
5
Funkcja logit / logistic nie jest jedyną funkcją, która może być używana jako funkcja link dla modeli regresji, gdy odpowiedź jest dystrybuowana jako dwumianowa. W związku z tym może pomóc ci przeczytać moją odpowiedź tutaj: modele różnic między logit i probit .
gung - Przywróć Monikę
4
Moja odpowiedź tutaj: czy funkcja logit jest zawsze najlepsza do modelowania regresji danych binarnych , może być również pomocna w myśleniu o różnych możliwościach.
gung - Przywróć Monikę
1
@AdamO zapewnia doskonały przegląd poniżej. Jeśli chcesz uzyskać bardziej szczegółowe informacje na temat tego, co oznacza, że ​​logit jest „funkcją kanonicznego łącza”, możesz przeczytać odpowiedź Momo tutaj: różnica między funkcją łącza a funkcją kanoniczną łącza dla glm .
gung - Przywróć Monikę
1
Pracowany zilustrowany przykład (1), w którym „sigmoid” nie jest używany, pojawia się na stronie stats.stackexchange.com/a/70922 . Ta odpowiedź zawiera wyjaśnienie (2). Kolejny przykład pojawia się na stronie stats.stackexchange.com/questions/63978/… . Bardziej przyziemna (ale mniej techniczna) dyskusja odbywa się na stronie stats.stackexchange.com/a/69873 , koncentrując się na problemie (2).
whuber

Odpowiedzi:

7

Model regresji logistycznej ma maksymalne prawdopodobieństwo przy użyciu parametru naturalnego (iloraz logarytmiczno-ilorazowy) do kontrastowania względnych zmian ryzyka wyniku na jednostkę różnicy w predyktorze. Zakłada się oczywiście dwumianowy model prawdopodobieństwa wyniku. Oznacza to, że właściwości spójności i odporności regresji logistycznej rozciągają się bezpośrednio od maksymalnego prawdopodobieństwa: odporne na brakujące losowe dane, spójność root-n oraz istnienie i unikalność rozwiązań do szacowania równań. Zakłada się, że rozwiązania nie znajdują się na granicy przestrzeni parametrów (gdzie iloraz szans logarytmicznych wynosi ). Ponieważ regresja logistyczna ma maksymalne prawdopodobieństwo, funkcja straty jest powiązana z prawdopodobieństwem, ponieważ są równoważnymi problemami optymalizacji.±

W przypadku quasilikelihood lub estymacji równań (wnioskowanie półparametryczne) istnienie, właściwości unikatowości są nadal aktualne, ale założenie, że model średniej jest nieistotny, a wnioskowanie i błędy standardowe są spójne niezależnie od błędnej specyfikacji modelu. Tak więc w tym przypadku nie jest kwestia tego, czy sigmoid jest prawidłową funkcją, ale taką, która daje nam trend, w który możemy wierzyć i jest parametryzowana przez parametry o rozszerzalnej interpretacji.

Sigmoid nie jest jednak jedyną dostępną funkcją binarnego modelowania. Najczęściej kontrastowana funkcja probit ma podobne właściwości. Nie szacuje ilorazów logarytmicznych, ale funkcjonalnie wyglądają bardzo podobnie i zwykle dają bardzo podobne przybliżenia do dokładnie tego samego . Nie trzeba też używać właściwości granicy w funkcji modelu średniego. Proste użycie krzywej logarytmicznej z funkcją wariancji dwumianowej daje regresję ryzyka względnego, a połączenie tożsamości z wariancją dwumianową daje modele ryzyka addytywnego. Wszystko to zależy od użytkownika. Popularność regresji logistycznej jest, niestety, tak często stosowana. Jednak mam swoje powody (te, które podałem), dlaczego uważam, że jest to uzasadnione, ponieważ jest używane w większości binarnych okolicznościach modelowania wyników.

W świecie wnioskowania dla rzadkich wyników iloraz szans można z grubsza interpretować jako „ryzyko względne”, tj. „Procentową względną zmianę ryzyka wyniku w porównaniu X + 1 do X”. Nie zawsze tak jest i generalnie iloraz szans nie może i nie powinien być interpretowany jako taki. Jednak parametry te mają interpretację i mogą być łatwo przekazane innym badaczom, jest ważnym punktem, czego niestety brakuje w materiałach dydaktycznych uczących się maszyny.

Model regresji logistycznej zapewnia również podstawy pojęciowe dla bardziej wyrafinowanych podejść, takich jak modelowanie hierarchiczne, a także modelowanie mieszane i podejścia oparte na prawdopodobieństwie warunkowym, które są spójne i odporne na wykładniczo rosnącą liczbę uciążliwych parametrów. GLMM i warunkowa regresja logistyczna są bardzo ważnymi pojęciami w statystyce wielowymiarowej.

AdamO
źródło
1
Bardzo dziękuję za odpowiedź! Wygląda na to, że mam ogromny brak tła.
user16168,
Myślę, że książka Uogólnione modele liniowe McCullougha i Neldera byłaby świetnym źródłem informacji dla bardziej statystycznej perspektywy.
AdamO,
Ogólnie, jaki podręcznik doradzasz w uczeniu maszynowym z bardzo szczegółową zawartością opisową?
user16168,
Elementy uczenia statystycznego przez Hastie, Tibshirani, Friedman.
AdamO
2
@ user48956 Analiza statystyczna z Missing Dada, Little & Rubin 2nd ed. Brakujące dane nie są „reprezentowane” per se, ale „obsługiwane” przez pominięcie. Nie dotyczy to w szczególności regresji logistycznej: jest to naiwne podejście stosowane we wszystkich modelach statystycznych. Gdy dane są sformatowane w prostokątną tablicę, wiersze z brakującymi wartościami są pomijane. Jest to znane jako pełna analiza przypadku. GLM i GLMMS są odporne na brakujące dane w tym sensie, że kompletne analizy przypadków są zwykle obiektywne i niezbyt nieefektywne.
AdamO,
6

Jednym ze sposobów myślenia o regresji logistycznej jest model progowej odpowiedzi. W tych modelach, masz binarną zmienną zależną, , który jest pod wpływem wartości wektora zmiennych niezależnych X . Zmienna zależna Y może przyjmować tylko wartości 0 i 1, więc nie można modelować zależności Y od X za pomocą typowego równania regresji liniowej, takiego jak Y i = X i β + ϵ iYXYYXYi=Xiβ+ϵi . Ale naprawdę bardzo lubimy równania liniowe. A przynajmniej tak robię.

YYY

Yi=Xiβ+ϵiYi=0ifYi<0Yi=1ifYi>0
X

YXYY przekroczy próg), błąd umiera. Nawiasem mówiąc, to nie tak naprawdę działa neurotoksyczny pestycyd, ale fajnie jest udawać.

βϵFP{Yi=1}=F(Xiβ)

P{Yi=1}=1F(Xiβ) .

ϵF

F

Rachunek
źródło
Opisałeś dokładnie motywację do modelu probit, a nie regresję logistyczną.
AdamO,
6
ϵi
Wydaje się to bardzo wrażliwym założeniem i trudnym do przetestowania. Myślę, że regresję logistyczną można zmotywować, gdy takie rozkłady błędów się nie utrzymują.
AdamO
2
@AdamO, niezależnie od tego, czy motywujesz regresję logistyczną, nadal jest ona matematycznie równoważna progowemu modelowi regresji liniowej, w którym błędy mają rozkład logistyczny. Zgadzam się, że to założenie może być trudne do przetestowania, ale istnieje niezależnie od tego, w jaki sposób motywujesz problem. Przypominam sobie poprzednią odpowiedź na CV (nie mogę jej teraz umieścić), która wykazała w badaniu symulacyjnym, że próba stwierdzenia, czy model logistyczny lub probitowy „lepiej pasuje” był w zasadzie rzutem monetą, niezależnie od prawdziwego modelu generowania danych . Podejrzewam, że logistyka jest bardziej popularna ze względu na wygodną interpretację.
Makro
2
@AdamO Jest to przejaw zwykłego podziału między ekonomistami / statystykami, ale. . . Nie sądzę, aby regresja logistyczna była półparametryczna. Model statystyczny toP.(Yja=1)=mixp(Xjaβ)1+mixp(Xjaβ). To parametryczne. Można (i robię) interpretować to jako pochodzące z modelu progowego z błędem logistycznym. Jeśli martwię się o przyjęcie zbyt wielu założeń dotyczących terminu błędu, porzucę regresję logistyczną, a nie model progowy. Modele progowe można oszacować przy znacznie słabszych założeniach dotyczących błędów, stosując na przykład maksymalny wynik i powiązane estymatory.
Bill