Kiedy regresja logistyczna jest odpowiednia?

12

Obecnie uczę się, jak dokonywać klasyfikacji, a konkretnie przyglądam się trzem metodom: obsłudze maszyn wektorowych, sieci neuronowych i regresji logistycznej. Próbuję zrozumieć, dlaczego regresja logistyczna miałaby kiedykolwiek lepszą wydajność niż pozostałe dwa.

Z mojego zrozumienia regresji logistycznej, pomysł polega na dopasowaniu funkcji logistycznej do całych danych. Więc jeśli moje dane są binarne, wszystkie moje dane z etykietą 0 powinny być zamapowane na wartość 0 (lub blisko niej), a wszystkie moje dane o wartości 1 powinny być zamapowane na wartość 1 (lub blisko niej). Ponieważ funkcja logistyczna jest ciągła i płynna, wykonanie tej regresji wymaga, aby wszystkie moje dane pasowały do ​​krzywej; nie ma większego znaczenia dla punktów danych w pobliżu granicy decyzji, a wszystkie punkty danych przyczyniają się do straty o różne kwoty.

Jednak w przypadku maszyn wektorów nośnych i sieci neuronowych ważne są tylko te punkty danych w pobliżu granicy decyzji; tak długo, jak punkt danych pozostaje po tej samej stronie granicy decyzji, spowoduje tę samą stratę.

Dlatego dlaczego regresja logistyczna miałaby kiedykolwiek przewyższać obsługę maszyn wektorowych lub sieci neuronowych, skoro „marnuje zasoby” na próby dopasowania krzywej do wielu nieistotnych (łatwych do sklasyfikowania) danych, zamiast koncentrowania się tylko na trudnych danych wokół decyzji granica?

Karnivaurus
źródło
5
LR daje oszacowania prawdopodobieństwa, podczas gdy SVM podaje dane binarne. To sprawia, że ​​LR jest przydatny, gdy między klasami nie ma oddzielającej hiperpłaszczyzny. Ponadto należy wziąć pod uwagę złożoność algorytmów i inne cechy, takie jak liczba parametrów i czułość.
Bar
1
Powiązane: stats.stackexchange.com/questions/127042/…
Sycorax mówi Przywróć Monikę

Odpowiedzi:

28

Zasoby, które uważa się za „zmarnowane”, są w rzeczywistości zyskami informacyjnymi zapewnianymi przez regresję logistyczną. Zacząłeś od niewłaściwej przesłanki. Regresja logistyczna nie jest klasyfikatorem. Jest to estymator prawdopodobieństwa / ryzyka. W przeciwieństwie do SVM, umożliwia i oczekuje „bliskich połączeń”. Doprowadzi to do optymalnego podejmowania decyzji, ponieważ nie próbuje oszukać sygnału predykcyjnego w celu włączenia funkcji użyteczności, która jest domyślna za każdym razem, gdy klasyfikujesz obserwacje. Celem regresji logistycznej wykorzystującej oszacowanie maksymalnego prawdopodobieństwa jest zapewnienie optymalnych oszacowań Prob . Wynik jest wykorzystywany na wiele sposobów, np. Krzywe wzrostu, ocena ryzyka kredytowego itp. Patrz książka Nate'a Silvera(Y=1|X) Sygnał i hałas”, aby znaleźć przekonujące argumenty na rzecz rozumowania probabilistycznego.

Zauważ, że zmienną zależną w regresji logistycznej można kodować w dowolny sposób: 0/1, A / B, tak / nie itd.Y

Podstawowym założeniem regresji logistycznej jest to, że jest naprawdę binarna, np. Nie została utworzona z podstawowej zmiennej porządkowej lub ciągłej odpowiedzi. Podobnie jak metody klasyfikacji, dotyczy zjawisk naprawdę wszystko albo nic.Y

Niektórzy analitycy uważają, że regresja logistyczna zakłada liniowość efektów predykcyjnych w skali logarytmicznej. Było to prawdą tylko wtedy, gdy DR Cox wynalazł model logistyczny w 1958 r., Kiedy obliczenia nie były dostępne, aby rozszerzyć model przy użyciu narzędzi takich jak splajny regresji. Jedyną prawdziwą słabością regresji logistycznej jest to, że musisz określić, jakie interakcje mają być dozwolone w modelu. W przypadku większości zestawów danych staje się to siłą, ponieważ addytywne główne efekty są na ogół znacznie silniejszymi predyktorami niż interakcje, a metody uczenia maszynowego, które nadają równy priorytet interakcjom, mogą być niestabilne, trudne do interpretacji i wymagają większych próbek niż regresja logistyczna do przewidzenia dobrze.

Frank Harrell
źródło
6
+1. Szczerze mówiąc, nigdy nie uważałem SVM za przydatne. Są seksowne, ale wolno trenują i zdobywają punkty - z mojego doświadczenia - i mają wiele opcji, z którymi trzeba się bawić (w tym jądro). Sieci neuronowe okazały się przydatne, ale także wiele opcji i dostosowań. Regresja logistyczna jest prosta i daje dość dobrze skalibrowane wyniki po wyjęciu z pudełka. Kalibracja jest ważna w przypadku rzeczywistych zastosowań. Oczywiście wadą jest to, że jest liniowy, więc nie można go dopasować do zbitych, nierównych danych, a także innych metod, takich jak Losowy Las.
Wayne
1
Świetna odpowiedź. Nawiasem mówiąc, być może zainteresuje Cię informacja, że ​​ostatnio uczący się maszyn zaczęli dopasowywać swoje fantazyjne metody do tradycyjnych ram, takich jak karane maksymalne prawdopodobieństwo - i okazuje się, że fantazyjne metody działają znacznie lepiej, gdy jest to wykonane. Rozważ XGBoost, prawdopodobnie najskuteczniejszy istniejący algorytm zwiększania zespołu drzew. Matematyka jest tutaj: xgboost.readthedocs.io/en/latest/model.html . Powinno to wyglądać dość dobrze dla tradycyjnego statystyki i można dopasować modele do wielu typowych celów statystycznych ze zwykłymi funkcjami strat.
Paul
5

Masz rację, często regresja logistyczna źle radzi sobie jako klasyfikator (szczególnie w porównaniu z innymi algorytmami). Nie oznacza to jednak, że regresja logistyczna powinna zostać zapomniana i nigdy nie badana, ponieważ ma dwie duże zalety:

  1. Wyniki probabilistyczne. Frank Harrell (+1) wyjaśnił to bardzo dobrze w swojej odpowiedzi.

  2. Y=1X1=12X2,...Xp

TrynnaDoStat
źródło
5
A pozornie słaba wydajność klasyfikatora jest wynikiem zastosowania niewłaściwego wyniku dokładności, a nie problemu nieodłącznie związanego z regresją logistyczną.
Frank Harrell,
@FrankHarrell: Ostatnio przeprowadzałem kilka eksperymentów i powiedziałbym, że regresja logistyczna pasuje do danych z dużo mniejszą swobodą niż inne metody. Musisz dodać interakcje i zrobić więcej inżynierii funkcji, aby dopasować, powiedzmy, elastyczność Random Forest lub GAM. (Oczywiście elastyczność to balansowanie na linie, która przekracza przepaść.)
Wayne
3
@wayne Ta mniej swobody, jak sam twierdzisz, jest bardzo pomocna w wielu przypadkach, ponieważ zapewnia stabilność
rapaio
3
Nie tylko założenie, że warunki interakcji są mniej ważne niż terminy dodatkowe, dodaje elastyczności, ale możesz rozluźnić założenia na wiele sposobów. Dodam więcej na ten temat w mojej oryginalnej odpowiedzi.
Frank Harrell
2
@rapaio: Tak, elastyczność jest niebezpieczna, zarówno jeśli chodzi o nadmierne dopasowanie, ale także w inny sposób. Jest to problem związany z domeną / użytkowaniem: czy twoje dane są zaszumione, czy naprawdę jest to „nierówne / klastrowe”, jeśli mogę użyć tego terminu?
Wayne