Ostatnio zacząłem studiować uczenie maszynowe, jednak nie rozumiałem intuicji stojącej za regresją logistyczną .
Oto fakty dotyczące regresji logistycznej, które rozumiem.
Jako podstawę hipotezy wykorzystujemy funkcję sigmoidalną . Rozumiem, dlaczego to poprawny wybór, ale dlaczego jest to tylko wybór nie rozumiem. Hipoteza reprezentuje prawdopodobieństwo, że odpowiednia wartość wyjściowa wynosi 1 , dlatego domeną naszej funkcji powinna być [ 0 , 1 ] , jest to jedyna właściwość funkcji sigmoidalnej, którą uznałem tutaj za przydatną i odpowiednią, jednak wiele funkcji spełnia tę właściwość. Ponadto funkcja sigmoidalna ma pochodną w tej postaci f ( x ) ( 1 - f ( x ) ), ale nie widzę użyteczności tej specjalnej formy w regresji logistycznej.
Pytanie : co takiego specjalnego jest w funkcji sigmoidalnej i dlaczego nie możemy używać żadnej innej funkcji z domeną ?
Funkcja kosztu składa się z dwóch parametrów jeśli y = 1 , C o s t ( h θ ( x ) , y ) = - log ( 1 - h θ ( x ) ), jeśli y = . Tak samo jak powyżej, rozumiem, dlaczego jest poprawny, jednak dlaczego jest to jedyna forma? Na przykład, dlaczego nie mógł być dobrym wyborem dla funkcji kosztów?
Pytanie : co jest takiego specjalnego w powyższej formie funkcji kosztów; dlaczego nie możemy użyć innego formularza?
Byłbym wdzięczny, gdybyś mógł podzielić się swoim rozumieniem regresji logistycznej.
źródło
Odpowiedzi:
Model regresji logistycznej ma maksymalne prawdopodobieństwo przy użyciu parametru naturalnego (iloraz logarytmiczno-ilorazowy) do kontrastowania względnych zmian ryzyka wyniku na jednostkę różnicy w predyktorze. Zakłada się oczywiście dwumianowy model prawdopodobieństwa wyniku. Oznacza to, że właściwości spójności i odporności regresji logistycznej rozciągają się bezpośrednio od maksymalnego prawdopodobieństwa: odporne na brakujące losowe dane, spójność root-n oraz istnienie i unikalność rozwiązań do szacowania równań. Zakłada się, że rozwiązania nie znajdują się na granicy przestrzeni parametrów (gdzie iloraz szans logarytmicznych wynosi ). Ponieważ regresja logistyczna ma maksymalne prawdopodobieństwo, funkcja straty jest powiązana z prawdopodobieństwem, ponieważ są równoważnymi problemami optymalizacji.±∞
W przypadku quasilikelihood lub estymacji równań (wnioskowanie półparametryczne) istnienie, właściwości unikatowości są nadal aktualne, ale założenie, że model średniej jest nieistotny, a wnioskowanie i błędy standardowe są spójne niezależnie od błędnej specyfikacji modelu. Tak więc w tym przypadku nie jest kwestia tego, czy sigmoid jest prawidłową funkcją, ale taką, która daje nam trend, w który możemy wierzyć i jest parametryzowana przez parametry o rozszerzalnej interpretacji.
Sigmoid nie jest jednak jedyną dostępną funkcją binarnego modelowania. Najczęściej kontrastowana funkcja probit ma podobne właściwości. Nie szacuje ilorazów logarytmicznych, ale funkcjonalnie wyglądają bardzo podobnie i zwykle dają bardzo podobne przybliżenia do dokładnie tego samego . Nie trzeba też używać właściwości granicy w funkcji modelu średniego. Proste użycie krzywej logarytmicznej z funkcją wariancji dwumianowej daje regresję ryzyka względnego, a połączenie tożsamości z wariancją dwumianową daje modele ryzyka addytywnego. Wszystko to zależy od użytkownika. Popularność regresji logistycznej jest, niestety, tak często stosowana. Jednak mam swoje powody (te, które podałem), dlaczego uważam, że jest to uzasadnione, ponieważ jest używane w większości binarnych okolicznościach modelowania wyników.
W świecie wnioskowania dla rzadkich wyników iloraz szans można z grubsza interpretować jako „ryzyko względne”, tj. „Procentową względną zmianę ryzyka wyniku w porównaniu X + 1 do X”. Nie zawsze tak jest i generalnie iloraz szans nie może i nie powinien być interpretowany jako taki. Jednak parametry te mają interpretację i mogą być łatwo przekazane innym badaczom, jest ważnym punktem, czego niestety brakuje w materiałach dydaktycznych uczących się maszyny.
Model regresji logistycznej zapewnia również podstawy pojęciowe dla bardziej wyrafinowanych podejść, takich jak modelowanie hierarchiczne, a także modelowanie mieszane i podejścia oparte na prawdopodobieństwie warunkowym, które są spójne i odporne na wykładniczo rosnącą liczbę uciążliwych parametrów. GLMM i warunkowa regresja logistyczna są bardzo ważnymi pojęciami w statystyce wielowymiarowej.
źródło
Jednym ze sposobów myślenia o regresji logistycznej jest model progowej odpowiedzi. W tych modelach, masz binarną zmienną zależną, , który jest pod wpływem wartości wektora zmiennych niezależnych X . Zmienna zależna Y może przyjmować tylko wartości 0 i 1, więc nie można modelować zależności Y od X za pomocą typowego równania regresji liniowej, takiego jak Y i = X i β + ϵ iY X Y Y X Yi=Xiβ+ϵi . Ale naprawdę bardzo lubimy równania liniowe. A przynajmniej tak robię.
źródło