W tym artykule autor łączy liniową analizę dyskryminacyjną (LDA) z analizą głównych składników (PCA). Przy mojej ograniczonej wiedzy nie jestem w stanie śledzić, w jaki sposób LDA może być nieco podobny do PCA.
Zawsze uważałem, że LDA jest formą algorytmu klasyfikacji, podobną do regresji logistycznej. Będę wdzięczny za pomoc w zrozumieniu, w jaki sposób LDA jest podobny do PCA, tj. W jaki sposób jest to technika redukcji wymiarów.
classification
pca
dimensionality-reduction
discriminant-analysis
canonical-correlation
Zwycięzca
źródło
źródło
Odpowiedzi:
Jak zauważyłem w komentarzu do twojego pytania, analiza dyskryminacyjna jest złożoną procedurą składającą się z dwóch odrębnych etapów - redukcji wymiarowości (nadzorowanej) i etapu klasyfikacji. Przy redukcji wymiarów wyodrębniamy funkcje dyskryminacyjne, które zastępują oryginalne zmienne objaśniające. Następnie klasyfikujemy (zwykle według podejścia Bayesa) obserwacje klas za pomocą tych funkcji.
Niektórzy ludzie nie rozpoznają tej wyraźnej dwustopniowej natury LDA tylko dlatego, że zapoznali się tylko z LDA z 2 klasami (zwanymi analizą dyskryminacyjną Fishera ). W takiej analizie istnieje tylko jedna funkcja dyskryminująca, a klasyfikacja jest prosta, więc wszystko można wyjaśnić w podręczniku w jednym „przejściu” bez zachęcania do koncepcji zmniejszania przestrzeni i klasyfikacji Bayesa.
LDA jest ściśle związana z MANOVA. Ta ostatnia jest „powierzchnią i szeroką” stroną (wielowymiarowego) modelu liniowego, podczas gdy jego „głębokim i zogniskowanym” obrazem jest kanoniczna analiza korelacji (CCA). Chodzi o to, że korelacja między dwoma wielowymiarowymi zestawami zmiennych nie jest jednowymiarowa i jest wyjaśniona kilkoma parami „ukrytych” zmiennych zwanych zmiennymi kanonicznymi.
Jako zmniejszenie wymiarów, LDA jest teoretycznie CCA z dwoma zestawami zmiennych, z których jeden jest skorelowanymi zmiennymi przedziałowymi „objaśniającymi”, a drugi zestaw jest zmiennymi obojętnymi (lub innymi kodowanymi kontrastowo) reprezentującymi k grup, klas obserwacji.k - 1 k
W CCA uważamy dwa skorelowane zestawy zmiennych X i Y za równe pod względem praw. Dlatego wyodrębniamy zmienne kanoniczne z obu stron i tworzą one pary: zmienna 1 z zestawu X i zmienna 1 z zestawu Y z kanoniczną korelacją między nimi maksymalną; następnie zmienimy 2 z zestawu X i zmienimy 2 z zestawu Y z mniejszą korelacją kanoniczną itp. W LDA zwykle nie interesują nas numerycznie warianty kanoniczne od strony zestawu klas; interesujemy się jednak zmiennymi kanonicznymi od strony zbioru wyjaśniającego. Są to tak zwane kanoniczne funkcje dyskryminujące lub dyskryminujące .
Powtarzając, w rzeczywistości ma to charakter CCA. LDA z klasami 3+ jest nawet nazywany „kanonicznym LDA”. Mimo że CCA i LDA są zazwyczaj wdrażane algorytmicznie nieco inaczej, z punktu widzenia wydajności programu są wystarczająco „takie same”, aby można było ponownie przeliczyć wyniki (współczynniki itp.) Uzyskane w jednej procedurze na uzyskane w drugiej. Większość specyfiki LDA leży w dziedzinie kodowania zmiennych jakościowych reprezentujących grupy. To ten sam dylemat, który obserwuje się w (M) ANOVA. Różne schematy kodowania prowadzą do różnych sposobów interpretacji współczynników.
Ponieważ LDA (jako zmniejszenie wymiarów) można rozumieć jako szczególny przypadek CCA, zdecydowanie musisz zbadać tę odpowiedź porównując CCA z PCA i regresją. Chodzi przede wszystkim o to, że CCA jest w pewnym sensie bliższa regresji niż PCA, ponieważ CCA jest techniką nadzorowaną (rysowana jest ukryta kombinacja liniowa w celu korelacji z czymś zewnętrznym), a PCA nie jest (rysowana jest ukryta kombinacja liniowa podsumowując wewnętrzny). Są to dwie gałęzie redukcji wymiarów.
Jeśli chodzi o matematykę, może się okazać, że chociaż wariancje głównych składników odpowiadają wartościom własnym chmury danych (macierz kowariancji między zmiennymi), wariancje czynników dyskryminujących nie są tak wyraźnie powiązane z tymi wartościami własnymi, które są wytwarzane w LDA Powodem jest to, że w LDA wartości własne nie podsumowują kształtu chmury danych; odnoszą się raczej do abstrakcyjnej wielkości stosunku międzyklasowego do wewnątrzklasowej zmienności w chmurze.
Zatem główne składniki maksymalizują wariancję, a czynniki dyskryminujące maksymalizują separację klas; prosty przypadek, w którym komputer nie rozróżnia wystarczająco dobrze klas, ale dyskryminujące mogą być te obrazy. Po narysowaniu jako linie w oryginalnej funkcji wyróżniki przestrzeni zwykle nie wydają się ortogonalne (mimo to są nieskorelowane), ale robią to komputery PC.
Przypis za drobiazgowy. Jak w ich wynikach LDA jest ściśle związane z CCA . Powtarzam: jeśli wykonasz LDA ze
p
zmiennymi ik
klasami i wykonasz CCA z Set1 jako tymip
zmiennymi, a Set2 jakok-1
zmienne wskaźnikowe zastępcze reprezentujące grupy (w rzeczywistości niekoniecznie zmienne wskaźnikowe - inne typy zmiennych kontrastowych, takie jak odchylenie lub Helmert - zrobią ), to wyniki są równoważne w odniesieniu do zmiennych kanonicznych wyodrębnionych dla Set1 - bezpośrednio odpowiadają funkcjom dyskryminacyjnym wyodrębnionym w LDA. Jaki jest jednak dokładny związek?n-1
Różnica między CCA i LDA wynika z tego, że LDA „wie”, że istnieją klasy (grupy): bezpośrednio wskazuje się grupy, aby obliczyć wewnątrz i między macierzami rozproszenia. To sprawia, że zarówno obliczenia są szybsze, jak i wyniki bardziej dogodne do późniejszej klasyfikacji według dyskryminujących. Z drugiej strony CCA nie zna klas i przetwarza dane tak, jakby wszystkie były zmiennymi ciągłymi - co jest bardziej ogólne, ale wolniejszy sposób obliczeń. Ale wyniki są równoważne i pokazałem, jak to zrobić.
Dotychczas sugerowano, że
k-1
manekiny są wprowadzane do CCA w typowy sposób, tj. Wyśrodkowane (jak zmienne z Set1). Można zapytać, czy można wejść do wszystkichk
manekinów i nie centrować ich (aby uniknąć osobliwości)? Tak, jest to możliwe, choć prawdopodobnie mniej wygodne. Pojawi się dodatkowa zmienna kanoniczna o wartości własnej zero, jej współczynniki należy wyrzucić. Inne wyniki pozostają ważne. Z wyjątkiem dfs do testowania znaczenia korelacji kanonicznych. Df dla 1. korelacji będziep*k
złe, a prawdziwe df, jak w LDA, jestp*(k-1)
.źródło