Regresja logistyczna a LDA jako klasyfikatory dwuklasowe

36

Próbuję owinąć głowę wokół różnicy statystycznej między liniową analizą dyskryminacyjną a regresją logistyczną . Czy słusznie rozumiem, że w przypadku problemu klasyfikacji dwóch klas LDA przewiduje dwie funkcje gęstości normalnej (po jednej dla każdej klasy), które tworzą granicę liniową w miejscu ich przecięcia, podczas gdy regresja logistyczna przewiduje jedynie funkcję logarytmiczno-nieparzystą między dwiema klasami, które tworzy granicę, ale nie przyjmuje funkcji gęstości dla każdej klasy?

użytkownik1885116
źródło
Zobacz także podobne pytanie stats.stackexchange.com/q/14697/3277
ttnphns
Powiązana odpowiedź, stats.stackexchange.com/a/31466/3277
ttnphns

Odpowiedzi:

35

Wydaje mi się, że masz rację. Regresja logistyczna rzeczywiście nie zakłada żadnych konkretnych kształtów gęstości w przestrzeni zmiennych predykcyjnych, ale LDA tak. Oto kilka różnic między dwiema analizami, krótko.

Binarna regresja logistyczna (BLR) vs. liniowa analiza dyskryminacyjna (z 2 grupami: znana również jako LDA Fishera):

  • BLR : na podstawie oszacowania maksymalnego prawdopodobieństwa. LDA : Na podstawie oszacowania metodą najmniejszych kwadratów; równoważne regresji liniowej z predykcją binarną (współczynniki są proporcjonalne, a R-kwadrat = lambda 1-Wilka).

  • BLR : Oszacowuje prawdopodobieństwo (członkostwa w grupie) natychmiast (predykcja jest traktowana jako prawdopodobieństwo, obserwowane jedno) i warunkowo. LDA : szacuje prawdopodobieństwo od razu (predykcja jest postrzegana jako binowana zmienna ciągła, dyskryminator) za pomocą urządzenia klasyfikacyjnego (takiego jak naiwne Bayesa), które wykorzystuje zarówno informacje warunkowe, jak i marginalne.

  • BLR : Nie tak wymagający do poziomu skali i formy rozkładu w predyktorach. LDA : Przewidywalnie pożądany poziom przedziału z wielowymiarowym rozkładem normalnym.

  • BLR : Brak wymagań dotyczących wewnątrzgrupowych macierzy kowariancji predyktorów. LDA : Macierze kowariancji wewnątrz grupy powinny być identyczne w populacji.

  • nn

  • BLR : Nie tak wrażliwy na wartości odstające. LDA : Dość wrażliwy na wartości odstające.

  • BLR : Młodsza metoda. LDA : starsza metoda.

  • BLR : Zwykle preferowany, ponieważ mniej wymagający / bardziej solidny. LDA : Po spełnieniu wszystkich wymagań często klasyfikuje się lepiej niż BLR (asymptotyczna wydajność względna 3/2 razy wyższa).

ttnphns
źródło
21

Pozwól mi dodać kilka punktów do ładnej listy @ttnphns:

  • Prognozy Bayesa dotyczące prawdopodobieństwa członkostwa w tylnej klasie LDA również są zgodne z krzywą logistyczną.
    [Efron, B. Wydajność regresji logistycznej w porównaniu do normalnej analizy dyskryminacyjnej, J Am Stat Assoc, 70, 892-898 (1975).]

  • Chociaż ten dokument pokazuje, że względna efektywność LDA jest lepsza niż LR, jeśli założenia LDA są spełnione (zob .: papier Efron powyżej, ostatni punkt @tthnps), zgodnie z elementami uczenia statystycznego w praktyce nie ma prawie żadnej różnicy.
    [Hastie, T. i Tibshirani, R. i Friedman, J. The Elements of Statistics Learning; Eksploracja danych, wnioskowanie i przewidywanie Springer Verlag, Nowy Jork, 2009]

  • Ta znacznie zwiększona względna wydajność LDA ma miejsce głównie w przypadkach asymptotycznych, w których błąd bezwzględny jest praktycznie znikomy.
    [Harrell, FE i Lee, KL Porównanie dyskryminacji analizy dyskryminacyjnej i regresji logistycznej w warunkach wielowymiarowej normalności, Biostatistics: Statistics in Biomedical, Health Health and Environmental Sciences, 333-343 (1985).]

  • Chociaż w praktyce spotkałem się z sytuacjami, w których wielkość próbki o małych wymiarach jest wysoka, LDA wydaje się lepszy (pomimo, że zarówno normalność wielowymiarowa, jak i założenia równej macierzy kowariancji są wyraźnie niespełnione).
    [ Beleites, C .; Geiger, K .; Kirsch, M .; Sobottka, SB; Schackert, G. i Salzer, R. Raman spektroskopowe klasyfikowanie tkanek gwiaździaka: przy użyciu miękkich informacji odniesienia., Anal Bioanal Chem, 400, 2801-2816 (2011). DOI: 10.1007 / s00216-011-4985-4 ]

  • Należy jednak pamiętać, że w naszym artykule LR prawdopodobnie boryka się z problemem, że można znaleźć kierunki z (prawie) idealną separowalnością. Z drugiej strony LDA może być mniej poważnie przeregulowana.

  • Słynne założenia dla LDA są potrzebne tylko do udowodnienia optymalności. Jeśli nie zostaną spełnione, procedura może być nadal dobrą heurystyką.

  • Różnica, która jest dla mnie ważna w praktyce, ponieważ problemy z klasyfikacją, nad którymi czasem pracuję / często okazują się wcale nie tak wyraźnie problemami z klasyfikacją: LR można łatwo zrobić z danymi, w których referencje mają średni poziom członkostwa w klasie. W końcu jest to technika regresji .
    [patrz artykuł powyżej link]

  • Można powiedzieć, że LR koncentruje się bardziej niż LDA na przykładach w pobliżu granicy klasy i zasadniczo pomija przypadki na „tylnej stronie” dystrybucji.

  • To wyjaśnia również, dlaczego jest mniej wrażliwy na wartości odstające (tj. Te z tyłu) niż LDA.

  • (maszyny wektorów wsparcia byłyby klasyfikatorem, który zmierza w tym kierunku do samego końca: tutaj pomija się wszystko oprócz przypadków na granicy)

cbeleites obsługuje Monikę
źródło