Kanoniczna analiza korelacji (CCA) jest techniką związaną z analizą głównych składników (PCA). Chociaż łatwo jest nauczyć się PCA lub regresji liniowej za pomocą wykresu punktowego (zobacz kilka tysięcy przykładów w wyszukiwaniu obrazów w Google), nie widziałem podobnego intuicyjnego dwuwymiarowego przykładu dla CCA. Jak wizualnie wyjaśnić, co robi liniowy CCA?
70
Odpowiedzi:
Cóż, myślę, że naprawdę trudno jest przedstawić wizualne wyjaśnienie kanonicznej analizy korelacji (CCA) względem analizy głównych składników (PCA) lub regresji liniowej . Dwa ostatnie są często wyjaśniane i porównywane za pomocą wykresów punktowych 2D lub 3D, ale wątpię, czy jest to możliwe w przypadku CCA. Poniżej narysowałem zdjęcia, które mogą wyjaśnić istotę i różnice w trzech procedurach, ale nawet z tymi zdjęciami - które są reprezentacjami wektorowymi w „przestrzeni tematycznej” - występują problemy z odpowiednim uchwyceniem CCA. (Algebra / algorytm analizy korelacji kanonicznej znajduje się tutaj .)
Rysowanie jednostek jako punktów w przestrzeni, w której osie są zmienne, zwykły wykres rozproszenia, jest przestrzenią zmienną . Jeśli narysujesz odwrotnie - zmienne jako punkty i jednostki jako osie - będzie to przestrzeń tematyczna . Rysowanie wielu osi jest w rzeczywistości niepotrzebne, ponieważ przestrzeń ma liczbę nie nadmiarowych wymiarów równą liczbie zmiennych innych niż współliniowe. Punkty zmienne są powiązane z początkiem i tworzą wektory, strzałki, obejmujące przestrzeń tematyczną; więc oto jesteśmy ( patrz także ). W przestrzeni przedmiotowej, jeśli zmienne zostały wyśrodkowane, cosinus kąta między ich wektorami jest korelacją Pearsona między nimi, a kwadraty długości wektorów są ich wariancjami. Na poniższych zdjęciach wyświetlane zmienne są wyśrodkowane (nie ma potrzeby stałej).
Główne składniki
Wielokrotna regresja
Korelacja kanoniczna
W PCA zestaw zmiennych sam się przewiduje: modelują główne komponenty, które z kolei modelują zmienne, nie pozostawiasz przestrzeni predyktorów i (jeśli używasz wszystkich komponentów) przewidywanie jest wolne od błędów. W regresji wielokrotnej zestaw zmiennych przewiduje jedną zmienną obcą, a zatem występuje błąd przewidywania. W CCA sytuacja jest podobna do regresji, ale (1) zewnętrzne zmienne są liczne, tworząc własny zestaw; (2) oba zestawy przewidują się jednocześnie (stąd korelacja zamiast regresji); (3) to, co przewidują w sobie nawzajem, to raczej ekstrakt, zmienna utajona, niż obserwowane przewidywanie regresji ( patrz także ).
Różnicę między regresją CCA i PCA + zobacz także Wykonywanie CCA vs. budowanie zmiennej zależnej za pomocą PCA, a następnie wykonywanie regresji .
źródło
Dla mnie bardzo pomocne było przeczytanie w książce S. Mulaika „The Foundations of Factoranalysis” (1972), że istnieje metoda polegająca wyłącznie na rotacji macierzy ładunków czynnikowych w celu uzyskania korelacji kanonicznej, więc mógłbym zlokalizować w tym zestawie pojęć, które do tej pory zrozumiałem, od analizy głównych składników i analizy czynnikowej.
Być może interesuje Cię ten przykład (który przebudowałem z pierwszej implementacji / dyskusji około 1998 r. Kilka dni temu, aby sprawdzić i zweryfikować metodę pod kątem obliczeń przez SPSS). Zobacz tutaj . Korzystam z moich małych narzędzi matrycowych / pca
Inside-[R]
iMatmate
do tego, ale myślę, że można to odtworzyćR
bez większego wysiłku.źródło
Ta odpowiedź nie stanowi wizualnej pomocy w zrozumieniu CCA, jednak dobrą geometryczną interpretację CCA przedstawiono w rozdziale 12 Anderson-1958 [1]. Istota tego jest następująca:
Uważam tę perspektywę za interesującą z następujących powodów:
[1] Anderson, TW Wprowadzenie do wielowymiarowej analizy statystycznej. Vol. 2. New York: Wiley, 1958.
źródło
Najlepszym sposobem na nauczanie statystyki są dane. Wielowymiarowe techniki statystyczne są często bardzo skomplikowane dzięki matrycom, które nie są intuicyjne. Wyjaśniłbym CCA za pomocą Excela. Utwórz dwie próbki, dodaj nowe warianty (w zasadzie kolumny) i pokaż obliczenia. Jeśli chodzi o konstrukcję macierzy CCA, najlepszym sposobem jest nauczenie najpierw przypadku dwuwymiarowego, a następnie jego rozwinięcie.
źródło