W jaki sposób MANOVA jest powiązana z LDA?

W skrócie

Zarówno jednokierunkowa MANOVA, jak i LDA zaczynają się od rozkładu całkowitej macierzy rozproszenia na wewnątrz klasy macierz rozproszenia i międzyklasową macierz rozproszenia , tak że . Należy pamiętać, że jest to w pełni analogiczne do tego, jak jeden ANOVA rozkłada całkowitą sumę kwadratów-of- w ramach swojej klasie oraz między klasie sum-of-kwadratów: . W ANOVA obliczany jest następnie stosunek i wykorzystywany do znalezienia wartości p: im większy ten stosunek, tym mniejsza wartość p. MANOVA oraz LDA komponować analogiczną wielowymiarowego ilość . $\mathbf T$ $\mathbf W$ $\mathbf B$ $\mathbf T = \mathbf W + \mathbf B$ $T$ $T=B+W$ $B/W$ $\mathbf W^{-1} \mathbf B$

Odtąd są inni. Jedynym celem MANOVA jest sprawdzenie, czy środki wszystkich grup są takie same; Ta hipoteza zerowa oznacza, że powinny mieć rozmiar podobny do . Dlatego MANOVA wykonuje składową elektroniczną i znajduje swoje wartości własne . Chodzi teraz o sprawdzenie, czy są wystarczająco duże, aby odrzucić wartość zerową. Istnieją cztery typowe sposoby tworzenia statystyki skalarnej z całego zestawu wartości własnych . Jednym ze sposobów jest zebranie sumy wszystkich wartości własnych. Innym sposobem jest przyjęcie maksymalnej wartości własnej. W każdym przypadku, jeśli wybrana statystyka jest wystarczająco duża, hipoteza zerowa jest odrzucana. $\mathbf B$ $\mathbf W$ $\mathbf W^{-1} \mathbf B$ $\lambda_i$ $\lambda_i$

W przeciwieństwie do tego, LDA wykonuje składową elektroniczną i patrzy na wektory własne (nie na wartości własne). Te wektory własne określają kierunki w przestrzeni zmiennej i nazywane są osiami dyskryminacyjnymi . Projekcja danych na pierwszej osi dyskryminacyjnej ma najwyższą klasę separacji (mierzoną jako ); na drugi - drugi najwyższy; itp. Gdy do redukcji wymiarów stosuje się LDA, dane można wyświetlać np. na pierwszych dwóch osiach, a pozostałe odrzuca się. $\mathbf W^{-1} \mathbf B$ $B/W$

Zobacz także doskonałą odpowiedź @ttnphns w innym wątku, który obejmuje prawie ten sam grunt.

Przykład

Rozważmy przypadek jednokierunkowy ze zmiennymi zależnymi i grupami obserwacji (tj. Jeden czynnik z trzema poziomami). Wezmę dobrze znany zbiór danych Fisher's Iris i rozważę tylko długość i szerokość sepal (aby uczynić go dwuwymiarowym). Oto wykres punktowy: $M=2$ $k=3$

Wykres rozproszenia Fishera Iris

Możemy zacząć od obliczenia ANOVA oddzielnie dla każdej długości / szerokości sepal. Wyobraź sobie punkty danych rzutowane pionowo lub poziomo na osiach x i y oraz 1-kierunkową ANOVA wykonaną w celu sprawdzenia, czy trzy grupy mają takie same środki. Otrzymujemy i dla długości Sepal i oraz do szerokości Sepal. Okej, więc mój przykład jest dość zły, ponieważ trzy grupy różnią się znacząco z absurdalnymi wartościami p dla obu miar, ale i tak będę się trzymał. $F_{2,147}=119$ $p=10^{-31}$ $F_{2,147}=49$ $p=10^{-17}$

Teraz możemy wykonać LDA, aby znaleźć oś, która maksymalnie oddziela trzy klastry. Jak opisano powyżej, obliczamy pełną macierz rozproszenia , wewnątrz klasy macierz rozproszenia i międzyklasową macierz rozproszenia i znajdujemy wektory własne . Mogę wykreślić oba wektory własne na tym samym wykresie rozrzutu: $\mathbf{T}$ $\mathbf{W}$ $\mathbf{B}=\mathbf{T}-\mathbf{W}$ $\mathbf{W}^{-1}\mathbf{B}$

Fisher Iris LDA

Linie przerywane są osiami dyskryminującymi. Narysowałem je z dowolnymi długościami, ale dłuższa oś pokazuje wektor własny o większej wartości własnej (4.1), a krótszy --- ten o mniejszej wartości własnej (0,02). Zauważ, że nie są one ortogonalne, ale matematyka LDA gwarantuje, że rzuty na tych osiach mają zerową korelację.

Jeśli teraz wystawać nasze dane na pierwszej (dłuższy) osi dyskryminacyjnej, a następnie uruchomić ANOVA, otrzymujemy i , która jest niższa niż wcześniej i jest najniższa możliwa wartość wśród wszystkich liniowych prognozy (to był cały punkt LDA). Rzut na drugą oś daje tylko . $F=305$ $p=10^{-53}$ $p=10^{-5}$

Jeśli uruchomimy MANOVA na tych samych danych, obliczymy tę samą macierz i przyjrzymy się jej wartościom własnym w celu obliczenia wartości p. W tym przypadku większa wartość własna wynosi 4,1, co jest równe dla ANOVA wzdłuż pierwszego dyskryminatora (w rzeczywistości , gdzie to całkowita liczba punktów danych, a to liczba grup). $\mathbf{W}^{-1}\mathbf{B}$ $B/W$ $F=B/W \cdot (N-k)/(k-1) = 4.1\cdot 147/2 = 305$ $N=150$ $k=3$

Istnieje kilka powszechnie używanych testów statystycznych, które obliczają wartość p z widma własnego (w tym przypadku i ) i dają nieco inne wyniki. MATLAB daje mi test Wilksa, który podaje . Zauważ, że ta wartość jest niższa niż ta, którą mieliśmy wcześniej z jakąkolwiek ANOVA, a intuicja tutaj jest taka, że wartość p MANOVA „łączy” dwie wartości p uzyskane z ANOVA na dwóch osiach dyskryminacyjnych. $\lambda_1=4.1$ $\lambda_2=0.02$ $p=10^{-55}$

Czy można uzyskać odwrotną sytuację: wyższa wartość p z MANOVA? Tak to jest. W tym celu potrzebujemy sytuacji, w której tylko jedna oś dyskryminująca daje znaczące , a druga w ogóle nie dyskryminuje. Zmodyfikowałem powyższy zestaw danych, dodając siedem punktów o współrzędnych do klasy „zielonej” (duża zielona kropka reprezentuje te siedem identycznych punktów): $F$ $(8,4)$

Zmodyfikowano LDA Fisher Iris

Druga oś dyskryminująca zniknęła: jej wartość własna wynosi prawie zero. ANOVA na dwóch osiach dyskryminacyjnych daje i . Ale teraz MANOVA zgłasza tylko , co jest nieco wyższe niż ANOVA. Intuicja za tym stoi (wierzę), że wzrost wartości p MANOVA uwzględnia fakt, że dopasowaliśmy oś dyskryminacyjną, aby uzyskać minimalną możliwą wartość i koryguje ewentualny fałszywie dodatni. Bardziej formalnie można powiedzieć, że MANOVA zużywa więcej stopni swobody. Wyobraź sobie, że istnieje 100 zmiennych i tylko wzdłuż kierunków dostaje się $p=10^{-55}$ $p=0.26$ $p=10^{-54}$ $\sim 5$ $p\approx0.05$ znaczenie; jest to w zasadzie wielokrotne testowanie, a te pięć przypadków jest fałszywie dodatnich, więc MANOVA weźmie to pod uwagę i zgłosi ogólne nieistotne . $p$

MANOVA vs LDA jako uczenie maszynowe vs. statystyki

Wydaje mi się, że jest to jeden z przykładowych przypadków, w których różne społeczności uczące się maszynowo i statystyki zajmują się tym samym. Każdy podręcznik dotyczący uczenia maszynowego obejmuje LDA, pokazuje ładne zdjęcia itp., Ale nigdy nawet nie wspomniałby o MANOVA (np. Bishop , Hastie i Murphy ). Prawdopodobnie dlatego, że ludzie są bardziej zainteresowani dokładnością klasyfikacji LDA (co w przybliżeniu odpowiada wielkości efektu) i nie są zainteresowani statystycznym znaczeniem różnicy grup. Z drugiej strony podręczniki do analizy wielowymiarowej omawiają MANOVA ad nauseam, dostarczają wiele danych tabelarycznych (arrrgh), ale rzadko wspominają LDA, a jeszcze rzadziej pokazują jakiekolwiek wykresy (np.Anderson lub Harris ; jednak Rencher i Christensen robią, a Huberty i Olejnik jest nawet nazywany „MANOVA i analiza dyskryminacyjna”).

Czynnikowa MANOVA

Czynnikowa MANOVA jest znacznie bardziej myląca, ale jest interesująca do rozważenia, ponieważ różni się od LDA w tym sensie, że „czynnikowa LDA” tak naprawdę nie istnieje, a czynnikowa MANOVA nie odpowiada bezpośrednio żadnemu „zwykłemu LDA”.

Rozważ zrównoważoną dwukierunkową MANOVA z dwoma czynnikami (lub zmiennymi niezależnymi, IV). Jeden czynnik (czynnik A) ma trzy poziomy, a drugi czynnik (czynnik B) ma dwa poziomy, co sprawia, że „komórek” w projekcie eksperymentalnym (przy użyciu terminologii ANOVA). Dla uproszczenia rozważę tylko dwie zmienne zależne (DV): $3\cdot 2=6$

silnia MANOVA

Na tej figurze wszystkie sześć „komórek” (nazywam je również „grupami” lub „klasami”) są dobrze rozdzielone, co oczywiście rzadko zdarza się w praktyce. Zauważ, że oczywiste jest, że istnieją tutaj znaczące główne efekty obu czynników, a także znaczący efekt interakcji (ponieważ grupa w prawym górnym rogu jest przesunięta w prawo; gdybym przesunął ją do pozycji „siatki”, nie byłoby efekt interakcji).

Jak działają obliczenia MANOVA w tym przypadku?

Najpierw MANOVA wylicza połączono ciągu klasie rozrzut matrycy . Ale międzyklatowa macierz rozproszenia zależy od tego, jaki efekt testujemy. Rozważ międzyklasową macierz rozproszenia dla czynnika A. Aby ją obliczyć, znajdujemy średnią globalną (reprezentowaną na rysunku gwiazdą) i średnią zależną od poziomów czynnika A (reprezentowanych na figurze przez trzy krzyżyki) . Następnie obliczamy rozproszenie tych średnich warunkowych (ważonych liczbą punktów danych na każdym poziomie A) w stosunku do średniej globalnej, dochodząc do . Teraz możemy rozważyć zwykłą , obliczyć jej skład elektroniczny i uruchomić testy istotności MANOVA na podstawie wartości własnych. $\mathbf W$ $\mathbf B_A$ $\mathbf B_A$ $\mathbf W^{-1} \mathbf B_A$

Dla współczynnika B będzie kolejna międzyklasowa macierz rozpraszająca , i analogicznie (nieco bardziej skomplikowana, ale prosta) będzie jeszcze jedna międzyklatowa macierz rozpraszająca dla efektu interakcji, tak że ostatecznie cała macierz rozproszenia jest rozkładana na czysty [Uwaga: ten rozkład działa tylko dla zbilansowanego zestawu danych z taka sama liczba punktów danych w każdym klastrze. W przypadku niezrównoważonego zestawu danych, nie może być jednoznacznie rozłożony na sumę trzech składowych czynników, ponieważ czynniki nie są już ortogonalne; jest to podobne do dyskusji na temat SS typu I / II / III w ANOVA.] $\mathbf B_B$ $\mathbf B_{AB}$

T. = b_{ZA} + b_{b} + b_{ZA b} + W. .

$\mathbf T = \mathbf B_A + \mathbf B_B + \mathbf B_{AB} + \mathbf W.$ $\mathbf B$

Teraz naszym głównym pytaniem jest, w jaki sposób MANOVA odpowiada LDA. Nie ma czegoś takiego jak „czynnikowa LDA”. Rozważmy czynnik A. Gdybyśmy chcieli uruchomić LDA, aby sklasyfikować poziomy czynnika A (całkowicie zapominając o czynniku B), mielibyśmy tę samą macierz między klasami , ale inną macierz rozpraszania wewnątrz klasy (pomyśl o połączeniu dwóch małych elipsoid na każdym poziomie współczynnika A na mojej powyższej ilustracji). To samo dotyczy innych czynników. Nie ma więc „prostej LDA”, która bezpośrednio odpowiadałaby trzem testom przeprowadzanym w tym przypadku przez MANOVA. $\mathbf B_A$ $\mathbf W_A=\mathbf T - \mathbf B_A$

Jednak, oczywiście nic nie pozwala nam patrzeć na wektory własne o iz nazywając je „dyskryminacyjnych osie” dla czynnika A w MANOVA. $\mathbf W^{-1} \mathbf B_A$

ameba mówi Przywróć Monikę
źródło

+1, to była niezła relacja. Zmieniłem się B^-1 Wna W^-1 B. Twój obraz z dyskryminatorami jako osiami jest podobny do mojego własnego wykresu ; wierzę, że zastosowałeś to samo „nieortogonalne obracanie zgodnie ze znormalizowanymi wektorami własnymi”.

ttnphns

Byłem trochę zamglony

MANOVA accounts for the fact that we fitted the discriminant axis to get the minimum possible value and corrects for possible false positive

. MANOVA oczywiście nie wie o tym, że robimy LDA. MANOVA po prostu zużywa więcej df niż ANOVA, ponieważ jest to test dwuwymiarowy, dlatego moc wartości p musiała wynosić -54 zamiast -55.

ttnphns

Wątpię, że powinno to mówić w kategoriach wartości p. Zamiast tego kluczowy punkt, w którym MANOVA analizuje tę samą matrycę, W^-1 Bco LDA. LDA konstruuje z niego ukryte zmienne (dyskryminatory). MANOVA nie; jednak bada powyższą matrycę bardziej kompleksowo, obliczając różne statystyki (takie jak ślad Pillai, ślad Hottelinga), aby oprzeć na nich testy.

ttnphns

Fabuła, która będzie metaforą MANOVA (i myślę, że warto dodać ją do swojej odpowiedzi), w przeciwieństwie do LDA (twoje drugie zdjęcie), byłaby fabuła, na której 3 centroidy są połączone z wielkim centroidem liniami przerywanymi .

ttnphns

Wreszcie, nie sądzę, abyś miał właściwą wagę tak dużej różnicy w statystykach i uczeniu maszynowym. Nauczyłem się analizy danych statystycznych, zanim usłyszałem słowo machine learningpo raz pierwszy. A teksty, które czytałem, omawiały LDA całkiem sporo, wraz z MANOVA.

ttnphns

W jaki sposób MANOVA jest powiązana z LDA?

Odpowiedzi:

W skrócie

Przykład

MANOVA vs LDA jako uczenie maszynowe vs. statystyki

Czynnikowa MANOVA