Obecnie uczę się, jak dokonywać klasyfikacji, a konkretnie przyglądam się trzem metodom: obsłudze maszyn wektorowych, sieci neuronowych i regresji logistycznej. Próbuję zrozumieć, dlaczego regresja logistyczna miałaby kiedykolwiek lepszą wydajność niż pozostałe dwa.
Z mojego zrozumienia regresji logistycznej, pomysł polega na dopasowaniu funkcji logistycznej do całych danych. Więc jeśli moje dane są binarne, wszystkie moje dane z etykietą 0 powinny być zamapowane na wartość 0 (lub blisko niej), a wszystkie moje dane o wartości 1 powinny być zamapowane na wartość 1 (lub blisko niej). Ponieważ funkcja logistyczna jest ciągła i płynna, wykonanie tej regresji wymaga, aby wszystkie moje dane pasowały do krzywej; nie ma większego znaczenia dla punktów danych w pobliżu granicy decyzji, a wszystkie punkty danych przyczyniają się do straty o różne kwoty.
Jednak w przypadku maszyn wektorów nośnych i sieci neuronowych ważne są tylko te punkty danych w pobliżu granicy decyzji; tak długo, jak punkt danych pozostaje po tej samej stronie granicy decyzji, spowoduje tę samą stratę.
Dlatego dlaczego regresja logistyczna miałaby kiedykolwiek przewyższać obsługę maszyn wektorowych lub sieci neuronowych, skoro „marnuje zasoby” na próby dopasowania krzywej do wielu nieistotnych (łatwych do sklasyfikowania) danych, zamiast koncentrowania się tylko na trudnych danych wokół decyzji granica?
Odpowiedzi:
Zasoby, które uważa się za „zmarnowane”, są w rzeczywistości zyskami informacyjnymi zapewnianymi przez regresję logistyczną. Zacząłeś od niewłaściwej przesłanki. Regresja logistyczna nie jest klasyfikatorem. Jest to estymator prawdopodobieństwa / ryzyka. W przeciwieństwie do SVM, umożliwia i oczekuje „bliskich połączeń”. Doprowadzi to do optymalnego podejmowania decyzji, ponieważ nie próbuje oszukać sygnału predykcyjnego w celu włączenia funkcji użyteczności, która jest domyślna za każdym razem, gdy klasyfikujesz obserwacje. Celem regresji logistycznej wykorzystującej oszacowanie maksymalnego prawdopodobieństwa jest zapewnienie optymalnych oszacowań Prob . Wynik jest wykorzystywany na wiele sposobów, np. Krzywe wzrostu, ocena ryzyka kredytowego itp. Patrz książka Nate'a Silvera( Y= 1 | X) Sygnał i hałas”, aby znaleźć przekonujące argumenty na rzecz rozumowania probabilistycznego.
Zauważ, że zmienną zależną w regresji logistycznej można kodować w dowolny sposób: 0/1, A / B, tak / nie itd.Y
Podstawowym założeniem regresji logistycznej jest to, że jest naprawdę binarna, np. Nie została utworzona z podstawowej zmiennej porządkowej lub ciągłej odpowiedzi. Podobnie jak metody klasyfikacji, dotyczy zjawisk naprawdę wszystko albo nic.Y
Niektórzy analitycy uważają, że regresja logistyczna zakłada liniowość efektów predykcyjnych w skali logarytmicznej. Było to prawdą tylko wtedy, gdy DR Cox wynalazł model logistyczny w 1958 r., Kiedy obliczenia nie były dostępne, aby rozszerzyć model przy użyciu narzędzi takich jak splajny regresji. Jedyną prawdziwą słabością regresji logistycznej jest to, że musisz określić, jakie interakcje mają być dozwolone w modelu. W przypadku większości zestawów danych staje się to siłą, ponieważ addytywne główne efekty są na ogół znacznie silniejszymi predyktorami niż interakcje, a metody uczenia maszynowego, które nadają równy priorytet interakcjom, mogą być niestabilne, trudne do interpretacji i wymagają większych próbek niż regresja logistyczna do przewidzenia dobrze.
źródło
Masz rację, często regresja logistyczna źle radzi sobie jako klasyfikator (szczególnie w porównaniu z innymi algorytmami). Nie oznacza to jednak, że regresja logistyczna powinna zostać zapomniana i nigdy nie badana, ponieważ ma dwie duże zalety:
Wyniki probabilistyczne. Frank Harrell (+1) wyjaśnił to bardzo dobrze w swojej odpowiedzi.
źródło