Czy istnieje związek między regresją a liniową analizą dyskryminacyjną (LDA)? Jakie są ich podobieństwa i różnice? Czy robi to jakąkolwiek różnicę, jeśli istnieją dwie klasy lub więcej niż dwie klasy?
24
Czy istnieje związek między regresją a liniową analizą dyskryminacyjną (LDA)? Jakie są ich podobieństwa i różnice? Czy robi to jakąkolwiek różnicę, jeśli istnieją dwie klasy lub więcej niż dwie klasy?
Odpowiedzi:
Rozumiem, że pytanie dotyczy LDA i regresji liniowej (nie logistycznej).
Istnieje znaczna i znacząca zależność między regresją liniową a liniową analizą dyskryminacyjną . W przypadku, gdy zmienna zależna (DV) składa się tylko z 2 grup, dwie analizy są w rzeczywistości identyczne. Pomimo tego, że obliczenia są różne, a wyniki - współczynniki regresji i dyskryminacji - nie są takie same, są dokładnie proporcjonalne względem siebie.
Teraz sytuacja więcej niż dwóch grup. Po pierwsze, powiedzmy, że LDA (jego ekstrakcja, a nie etap klasyfikacji) jest równoważny (wyniki liniowo powiązane) z analizą korelacji kanonicznej, jeśli zmienisz grupowanie DV w zestaw zmiennych zmiennych (z jedną nadmiarową z nich zrezygnowaną) i wykonasz kanoniczność analiza z zestawami „IV” i „manekiny”. Odmiany kanoniczne po stronie zestawu „IV” są tym, co LDA nazywa „funkcjami dyskryminującymi” lub „dyskryminującymi”.
Zatem w jaki sposób analiza kanoniczna jest powiązana z regresją liniową? Analiza kanoniczna jest w istocie metodą MANOVA (w sensie „wielowymiarowej wielokrotnej regresji liniowej” lub „wielowymiarowym ogólnym modelem liniowym”) pogłębioną w utajoną strukturęrelacji między DV i IV. Te dwie odmiany są rozkładane w swoich wzajemnych relacjach na utajone „wariacje kanoniczne”. Weźmy najprostszy przykład, Y vs X1 X2 X3. Maksymalizacja korelacji między dwiema stronami to regresja liniowa (jeśli przewidujesz Y przez Xs) lub - co jest tym samym - MANOVA (jeśli przewidujesz Xs przez Y). Korelacja jest jednowymiarowa (o wielkości R ^ 2 = ślad Pillai), ponieważ mniejszy zbiór Y składa się tylko z jednej zmiennej. Teraz weźmy te dwa zestawy: Y1 Y2 vs X1 x2 x3. Korelacja maksymalizowana tutaj jest dwuwymiarowa, ponieważ mniejszy zbiór zawiera 2 zmienne. Pierwszy i silniejszy ukryty wymiar korelacji nazywa się pierwszą korelacją kanoniczną, a pozostałą część, prostopadłą do niej, drugą korelacją kanoniczną. Więc, MANOVA (lub regresja liniowa) pyta tylko, jakie są częściowe role (współczynniki) zmiennych w całej dwuwymiarowej korelacji zbiorów; podczas gdy analiza kanoniczna po prostu idzie poniżej, aby zapytać, jakie są częściowe role zmiennych w pierwszym wymiarze korelacyjnym i drugim.
Zatem kanoniczna analiza korelacji jest wielowymiarową regresją liniową pogłębioną w utajoną strukturę zależności między DV i IV. Analiza dyskryminacyjna jest szczególnym przypadkiem kanonicznej analizy korelacji ( zobacz dokładnie jak ). Oto odpowiedź na temat związku LDA z regresją liniową w ogólnym przypadku więcej niż dwóch grup.
Zauważ, że moja odpowiedź wcale nie postrzega LDA jako techniki klasyfikacji. Dyskutowałem o LDA tylko jako technikę ekstrakcji utajonych. Klasyfikacja jest drugim i niezależnym etapem LDA (opisałem ją tutaj ). @Michael Chernick koncentrował się na tym w swoich odpowiedziach.
źródło
regression formulation of LDA
, zaskakująco trudno jest coś znaleźć - po 2000 roku opublikowano wiele prac naukowych, w których napisano, że takie sformułowanie nie istnieje lub próbuje zasugerować jeden. Czy jest może dobre [stare] odniesienie?Harry Clahn. Canonical Correlation and Its Relationship to Discriminant Analysis and Multiple Regression
.W. Stuetzle. Connections between Canonical Correlation Analysis, Linear Discriminant Analysis, and Optimal Scaling
.Olcay Kursun et al. Canonical correlation analysis using within-class coupling
. Jeśli nie możesz ich znaleźć w Internecie, mogę ci wysłać. Jeśli znajdziesz więcej i lepsze źródła - daj nam znać.Oto odniesienie do jednego z artykułów Efrona: Efektywność regresji logistycznej w porównaniu z normalną analizą dyskryminacyjną , 1975.
Kolejny istotny artykuł to Ng & Jordan, 2001, On Discriminative vs. Generative classifierers: Porównanie regresji logistycznej i naiwnych Bayesa . A oto streszczenie komentarza Xue & Titterington z 2008 r., W którym wspomniane są prace O'Neilla dotyczące jego rozprawy doktorskiej:
Istnieje wiele innych odnośników na ten temat, które można znaleźć w Internecie.
źródło
Celem tej odpowiedzi jest wyjaśnienie dokładnej matematycznej zależności między liniową analizą dyskryminacyjną (LDA) a wielowymiarową regresją liniową (MLR). Okaże się, że poprawne ramy zapewnia regresja o zmniejszonej randze (RRR).
Pokażemy, że LDA jest równoważne RRR matrycy wskaźnika klasy bieli na macierzy danych.
Notacja
Niech będzie macierzą n × d z punktami danych x i w wierszach i zmiennymi w kolumnach. Każdy punkt należy do jednej z k klas lub grup. Punkt x i należy do klasy klasy g ( i ) .X n × d xja k xja sol( i )
Niech będzie członkostwem w grupie kodującej macierz wskaźników n × k w następujący sposób: G i j = 1, jeśli x i należy do klasy j , a G i j = 0 w przeciwnym razie. Istnieje n j punkty danych w klasie j ; oczywiście ∑ n j = n .sol n × k solI j= 1 xja jot solI j= 0 njot jot . Njot= n
Zakładamy, że dane są wyśrodkowane, więc średnia globalna jest równa zero, . Niech będzie średnią klasy .μ j jμ = 0 μjot jot
LDA
Całkowitą macierz rozproszenia można rozłożyć na sumę macierzy rozproszenia między klasami i wewnątrz klasy zdefiniowanych w następujący sposób: Można sprawdzić, czy . LDA poszukuje osi dyskryminujących, które mają maksymalną wariancję między grupami i minimalną wariancję projekcji wewnątrz grupy. W szczególności pierwsza oś dyskryminująca to wektor jednostkowy maksymalizująca , a pierwsza dyskryminująca osie ułożone razem w macierzC bC = X⊤X C=Cb+Cwww⊤Cbw/(w⊤Cww)pWLLDA=tr( W ⊤ C bW( W
Zakładając, że ma pełną rangę, rozwiązanie LDA jest macierzą wektorów własnych (uporządkowanych według wartości własnych w malejącym porządku).W L D A C - 1 w C bdow W.L D A do- 1wdob
To była zwykła historia. Dokonajmy teraz dwóch ważnych obserwacji.
Po pierwsze, wewnątrzklasowa macierz rozproszenia można zastąpić całkowitą macierzą rozproszenia (ostatecznie ponieważ maksymalizacja jest równoważna z maksymalizacją ) i rzeczywiście łatwo zauważyć, że ma te same wektory własne.b / ( b + w ) C - 1 C bczarno - biały b / ( b + w ) do- 1dob
Po drugie, macierz rozproszenia między klasami może być wyrażona za pomocą zdefiniowanej powyżej macierzy członkostwa w grupie. Rzeczywiście, jest macierzą sum grup. Aby uzyskać macierz średnich grup, należy ją pomnożyć przez macierz diagonalną z na przekątnej; Dało o . Stąd macierz średnich grupowych to ( sapienti zauważy, że jest to formuła regresji). Aby uzyskać , musimy wziąć jego macierz rozproszenia, ważoną tą samą macierzą diagonalną, otrzymując Jeśli wszystkie są identyczne i równesol⊤X njot sol⊤sol ( G.⊤G )- 1sol⊤X dob
Możemy zdefiniować znormalizowaną macierz wskaźników jako posiadające gdzie ma . Następnie zarówno dla symetrycznych i niesymetrycznych zbiorów danych, ekspresja jest tylko . Zauważ, że jest, aż do stałego współczynnika, bieloną macierzą wskaźników: .sol˜ G1C,b=X⊤ ~ G ~ G ⊤X ~ G ~ G =G(G⊤G)-1 / 21 / njot--√ sol 1 dob= X⊤sol˜sol˜⊤X sol˜ sol˜= G ( G⊤G )- 1 / 2
Regresja
Dla uproszczenia zaczniemy od przypadku zbilansowanego zestawu danych.
Rozważmy regresji liniowej o . Znajduje minimalizując . Zmniejszona regresja rang robi to samo pod warunkiem, że powinna mieć daną rangę . Jeśli tak, to można zapisać jako z i mając kolumny . Można pokazać, że rozwiązanie rangi drugiej można uzyskać z rozwiązania rangi, utrzymując pierwszą kolumnę i dodając dodatkową kolumnę itp.X B ‖ G - X B ‖ 2 B p B B = D F ⊤ D F psol X b ∥ G - X B ∥2) b p b B = D F⊤ re fa p
Aby ustalić związek między LDA a regresją liniową, udowodnimy, że pokrywa się z .W L D Are W.L D A
Dowód jest prosty. Dla danego optymalne można znaleźć za pomocą regresji: . Podłączając to do funkcji utraty, otrzymujemy które można zapisać jako śledź za pomocą tożsamości . Po łatwych manipulacjach otrzymujemy, że regresja jest równoważna maksymalizacji (!) Następującego przerażającego śladu: co w rzeczywistości jest niczym innym niżF.re fa fa⊤= ( D⊤X⊤X D )- 1re⊤X⊤sol
To kończy dowód. Niesymetrycznych zbiorów danych musimy zastąpić z .˜ Gsol sol˜
Podobnie można wykazać, że dodanie regularyzacji grzbietu do regresji zredukowanej rangi jest równoważne z regularyzowaną LDA.
Związek między LDA, CCA i RRR
W swojej odpowiedzi @ttnphns nawiązał do kanonicznej analizy korelacji (CCA). Rzeczywiście, LDA można wykazać równoważne CCA między i . Ponadto CCA pomiędzy każdym i może być zapisana jako RRR Przewidywanie wybielony z . Reszta wynika z tego.G Y X Y XX sol Y X Y X
Bibliografia
Trudno powiedzieć, kto zasługuje na uznanie za to, co zostało przedstawione powyżej.
Istnieje niedawny artykuł konferencyjny Cai i in. (2013) O ekwiwalencie regresji niskiej rangi i regresji opartej na analizie dyskryminacji liniowej, która przedstawia dokładnie taki sam dowód jak powyżej, ale stwarza wrażenie, że wymyślili to podejście. Z pewnością tak nie jest. Torre napisał szczegółowe omówienie tego, jak większość powszechnych liniowych metod wielowymiarowych można postrzegać jako regresję zmniejszonej rangi, patrz A Least-Squares Framework for Component Analysis , 2009, a późniejszy rozdział książki A unifikacja metod analizy składników , 2013; przedstawia ten sam argument, ale też nie podaje żadnych odniesień. Materiał ten jest także omawiany w podręczniku Nowoczesne wielowymiarowe techniki statystyczne (2008) autorstwa Izenmana, który wprowadził RRR w 1975 r.
Związek między LDA i CCA najwyraźniej sięga do Bartlett, 1938, Dalsze aspekty teorii regresji wielokrotnej - to jest odniesienie, z którym często się spotykam (ale nie weryfikuję). Zależność między CCA a RRR jest opisana w Izenman, 1975, Regresja o zmniejszonej rangi dla wielowymiarowego modelu liniowego . Więc wszystkie te pomysły istnieją już od jakiegoś czasu.
źródło
Regresja liniowa i liniowa analiza dyskryminacyjna są bardzo różne. Regresja liniowa wiąże zmienną zależną ze zbiorem niezależnych zmiennych predykcyjnych. Chodzi o to, aby znaleźć funkcję liniową w parametrach, które najlepiej pasują do danych. Nie musi nawet być liniowa w zmiennych towarzyszących. Natomiast liniowa analiza dyskryminacyjna jest procedurą klasyfikowania obiektów do kategorii. W przypadku problemu dwóch klas stara się znaleźć najlepszą oddzielającą hiperpłaszczyznę do dzielenia grup na dwie kategorie. Tutaj najlepiej oznacza, że minimalizuje funkcję straty, która jest liniową kombinacją poziomów błędów. Dla trzech lub więcej grup znajduje najlepszy zestaw hiperpłaszczyzn (k-1 dla problemu klasy k). W analizie dyskryminacyjnej hiperplany są liniowe w zmiennych cech.
Głównym podobieństwem między nimi jest termin liniowy w tytułach.
źródło