W jaki sposób MANOVA jest powiązana z LDA?

18

W kilku miejscach widziałem twierdzenie, że MANOVA jest jak ANOVA plus liniowa analiza dyskryminacyjna (LDA), ale zawsze była wykonywana w sposób machający ręką. Chciałbym wiedzieć, co to dokładnie znaczy.

Znalazłem różne podręczniki opisujące wszystkie szczegóły obliczeń MANOVA, ale wydaje się, że bardzo trudno jest znaleźć dobrą ogólną dyskusję (nie mówiąc już o zdjęciach ) dostępną dla kogoś, kto nie jest statystykiem.

ameba mówi Przywróć Monikę
źródło
2
Moje własne lokalne konta LDA względnej ANOVA i MANOVA są to , to . Może machają ręką, ale w pewnym stopniu odnoszą się do twojego tematu. Kluczowym powiedzeniem jest to, że „LDA to MANOVA zanurzona w ukrytej strukturze”. MANOVA jest bardzo bogatym narzędziem do testowania hipotez; między innymi może analizować ukrytą strukturę różnic; ta analiza obejmuje LDA.
ttnphns
1
@ttnphns, obawiam się, że mój poprzedni komentarz nie został dostarczony (zapomniałem podać swoją nazwę użytkownika), więc powtórzę: Wow, wielkie dzięki, twoje powiązane odpowiedzi wydają się być bardzo związane z moim pytaniem i musiałem je przegapić w moich poszukiwaniach przed opublikowaniem. Zajmie mi to trochę czasu, aby je przetrawić, a potem mogę do ciebie wrócić, ale może mógłbyś już teraz wskazać mi gazety / książki na te tematy? Chciałbym kochać , aby zobaczyć szczegółowe omówienie tych rzeczy w stylu połączonym odpowiedzi.
ameba mówi Przywróć Monikę
Tylko jedno stare i klasyczne konto webia.lip6.fr/~amini/Cours/MASTER_M2_IAD/TADTI/HarryGlahn.pdf . BTW Do tej pory sam tego nie czytałem. Kolejny powiązany artykuł dl.acm.org/citation.cfm?id=1890259 .
ttnphns
@ttnphns: Dziękuję. Sam napisałem odpowiedź na moje pytanie, w zasadzie podając kilka ilustracji i konkretny przykład twojej doskonałej powiązanej odpowiedzi na temat LDA / MANOVA. Myślę, że ładnie się uzupełniają.
ameba mówi Przywróć Monikę

Odpowiedzi:

21

W skrócie

Zarówno jednokierunkowa MANOVA, jak i LDA zaczynają się od rozkładu całkowitej macierzy rozproszenia na wewnątrz klasy macierz rozproszenia i międzyklasową macierz rozproszenia , tak że . Należy pamiętać, że jest to w pełni analogiczne do tego, jak jeden ANOVA rozkłada całkowitą sumę kwadratów-of- w ramach swojej klasie oraz między klasie sum-of-kwadratów: . W ANOVA obliczany jest następnie stosunek i wykorzystywany do znalezienia wartości p: im większy ten stosunek, tym mniejsza wartość p. MANOVA oraz LDA komponować analogiczną wielowymiarowego ilość .W B T = W + B T T = B + W B / W W - 1 BT.W.bT.=W.+bT.T.=b+W.b/W.W.-1b

Odtąd są inni. Jedynym celem MANOVA jest sprawdzenie, czy środki wszystkich grup są takie same; Ta hipoteza zerowa oznacza, że powinny mieć rozmiar podobny do . Dlatego MANOVA wykonuje składową elektroniczną i znajduje swoje wartości własne . Chodzi teraz o sprawdzenie, czy są wystarczająco duże, aby odrzucić wartość zerową. Istnieją cztery typowe sposoby tworzenia statystyki skalarnej z całego zestawu wartości własnych . Jednym ze sposobów jest zebranie sumy wszystkich wartości własnych. Innym sposobem jest przyjęcie maksymalnej wartości własnej. W każdym przypadku, jeśli wybrana statystyka jest wystarczająco duża, hipoteza zerowa jest odrzucana.W W - 1 B λ i λ ibW.W.-1bλjaλja

W przeciwieństwie do tego, LDA wykonuje składową elektroniczną i patrzy na wektory własne (nie na wartości własne). Te wektory własne określają kierunki w przestrzeni zmiennej i nazywane są osiami dyskryminacyjnymi . Projekcja danych na pierwszej osi dyskryminacyjnej ma najwyższą klasę separacji (mierzoną jako B / W ); na drugi - drugi najwyższy; itp. Gdy do redukcji wymiarów stosuje się LDA, dane można wyświetlać np. na pierwszych dwóch osiach, a pozostałe odrzuca się.W.-1bb/W.

Zobacz także doskonałą odpowiedź @ttnphns w innym wątku, który obejmuje prawie ten sam grunt.

Przykład

Rozważmy przypadek jednokierunkowy ze zmiennymi zależnymi i k = 3 grupami obserwacji (tj. Jeden czynnik z trzema poziomami). Wezmę dobrze znany zbiór danych Fisher's Iris i rozważę tylko długość i szerokość sepal (aby uczynić go dwuwymiarowym). Oto wykres punktowy:M.=2)k=3)

Wykres rozproszenia Fishera Iris

Możemy zacząć od obliczenia ANOVA oddzielnie dla każdej długości / szerokości sepal. Wyobraź sobie punkty danych rzutowane pionowo lub poziomo na osiach x i y oraz 1-kierunkową ANOVA wykonaną w celu sprawdzenia, czy trzy grupy mają takie same środki. Otrzymujemy i dla długości Sepal i oraz do szerokości Sepal. Okej, więc mój przykład jest dość zły, ponieważ trzy grupy różnią się znacząco z absurdalnymi wartościami p dla obu miar, ale i tak będę się trzymał.fa2),147=119 K 2 , 147 = 49 P = 10 - 17p=10-31fa2),147=49p=10-17

Teraz możemy wykonać LDA, aby znaleźć oś, która maksymalnie oddziela trzy klastry. Jak opisano powyżej, obliczamy pełną macierz rozproszenia , wewnątrz klasy macierz rozproszenia i międzyklasową macierz rozproszenia i znajdujemy wektory własne . Mogę wykreślić oba wektory własne na tym samym wykresie rozrzutu:W B = T - W W - 1 B.T.W.b=T.-W.W.-1b

Fisher Iris LDA

Linie przerywane są osiami dyskryminującymi. Narysowałem je z dowolnymi długościami, ale dłuższa oś pokazuje wektor własny o większej wartości własnej (4.1), a krótszy --- ten o mniejszej wartości własnej (0,02). Zauważ, że nie są one ortogonalne, ale matematyka LDA gwarantuje, że rzuty na tych osiach mają zerową korelację.

Jeśli teraz wystawać nasze dane na pierwszej (dłuższy) osi dyskryminacyjnej, a następnie uruchomić ANOVA, otrzymujemy i , która jest niższa niż wcześniej i jest najniższa możliwa wartość wśród wszystkich liniowych prognozy (to był cały punkt LDA). Rzut na drugą oś daje tylko .fa=305p=10-53p=10-5

Jeśli uruchomimy MANOVA na tych samych danych, obliczymy tę samą macierz i przyjrzymy się jej wartościom własnym w celu obliczenia wartości p. W tym przypadku większa wartość własna wynosi 4,1, co jest równe dla ANOVA wzdłuż pierwszego dyskryminatora (w rzeczywistości , gdzie to całkowita liczba punktów danych, a to liczba grup).W.-1bb/W.fa=b/W.(N.-k)/(k-1)=4.1147/2)=305N.=150k=3)

Istnieje kilka powszechnie używanych testów statystycznych, które obliczają wartość p z widma własnego (w tym przypadku i ) i dają nieco inne wyniki. MATLAB daje mi test Wilksa, który podaje . Zauważ, że ta wartość jest niższa niż ta, którą mieliśmy wcześniej z jakąkolwiek ANOVA, a intuicja tutaj jest taka, że ​​wartość p MANOVA „łączy” dwie wartości p uzyskane z ANOVA na dwóch osiach dyskryminacyjnych.λ1=4.1λ2)=0,02p=10-55

Czy można uzyskać odwrotną sytuację: wyższa wartość p z MANOVA? Tak to jest. W tym celu potrzebujemy sytuacji, w której tylko jedna oś dyskryminująca daje znaczące , a druga w ogóle nie dyskryminuje. Zmodyfikowałem powyższy zestaw danych, dodając siedem punktów o współrzędnych do klasy „zielonej” (duża zielona kropka reprezentuje te siedem identycznych punktów):fa(8,4)

Zmodyfikowano LDA Fisher Iris

Druga oś dyskryminująca zniknęła: jej wartość własna wynosi prawie zero. ANOVA na dwóch osiach dyskryminacyjnych daje i . Ale teraz MANOVA zgłasza tylko , co jest nieco wyższe niż ANOVA. Intuicja za tym stoi (wierzę), że wzrost wartości p MANOVA uwzględnia fakt, że dopasowaliśmy oś dyskryminacyjną, aby uzyskać minimalną możliwą wartość i koryguje ewentualny fałszywie dodatni. Bardziej formalnie można powiedzieć, że MANOVA zużywa więcej stopni swobody. Wyobraź sobie, że istnieje 100 zmiennych i tylko wzdłuż kierunków dostaje sięp=10-55p=0,26p=10-545p0,05znaczenie; jest to w zasadzie wielokrotne testowanie, a te pięć przypadków jest fałszywie dodatnich, więc MANOVA weźmie to pod uwagę i zgłosi ogólne nieistotne .p

MANOVA vs LDA jako uczenie maszynowe vs. statystyki

Wydaje mi się, że jest to jeden z przykładowych przypadków, w których różne społeczności uczące się maszynowo i statystyki zajmują się tym samym. Każdy podręcznik dotyczący uczenia maszynowego obejmuje LDA, pokazuje ładne zdjęcia itp., Ale nigdy nawet nie wspomniałby o MANOVA (np. Bishop , Hastie i Murphy ). Prawdopodobnie dlatego, że ludzie są bardziej zainteresowani dokładnością klasyfikacji LDA (co w przybliżeniu odpowiada wielkości efektu) i nie są zainteresowani statystycznym znaczeniem różnicy grup. Z drugiej strony podręczniki do analizy wielowymiarowej omawiają MANOVA ad nauseam, dostarczają wiele danych tabelarycznych (arrrgh), ale rzadko wspominają LDA, a jeszcze rzadziej pokazują jakiekolwiek wykresy (np.Anderson lub Harris ; jednak Rencher i Christensen robią, a Huberty i Olejnik jest nawet nazywany „MANOVA i analiza dyskryminacyjna”).

Czynnikowa MANOVA

Czynnikowa MANOVA jest znacznie bardziej myląca, ale jest interesująca do rozważenia, ponieważ różni się od LDA w tym sensie, że „czynnikowa LDA” tak naprawdę nie istnieje, a czynnikowa MANOVA nie odpowiada bezpośrednio żadnemu „zwykłemu LDA”.

Rozważ zrównoważoną dwukierunkową MANOVA z dwoma czynnikami (lub zmiennymi niezależnymi, IV). Jeden czynnik (czynnik A) ma trzy poziomy, a drugi czynnik (czynnik B) ma dwa poziomy, co sprawia, że „komórek” w projekcie eksperymentalnym (przy użyciu terminologii ANOVA). Dla uproszczenia rozważę tylko dwie zmienne zależne (DV):3)2)=6

silnia MANOVA

Na tej figurze wszystkie sześć „komórek” (nazywam je również „grupami” lub „klasami”) są dobrze rozdzielone, co oczywiście rzadko zdarza się w praktyce. Zauważ, że oczywiste jest, że istnieją tutaj znaczące główne efekty obu czynników, a także znaczący efekt interakcji (ponieważ grupa w prawym górnym rogu jest przesunięta w prawo; gdybym przesunął ją do pozycji „siatki”, nie byłoby efekt interakcji).

Jak działają obliczenia MANOVA w tym przypadku?

Najpierw MANOVA wylicza połączono ciągu klasie rozrzut matrycy . Ale międzyklatowa macierz rozproszenia zależy od tego, jaki efekt testujemy. Rozważ międzyklasową macierz rozproszenia dla czynnika A. Aby ją obliczyć, znajdujemy średnią globalną (reprezentowaną na rysunku gwiazdą) i średnią zależną od poziomów czynnika A (reprezentowanych na figurze przez trzy krzyżyki) . Następnie obliczamy rozproszenie tych średnich warunkowych (ważonych liczbą punktów danych na każdym poziomie A) w stosunku do średniej globalnej, dochodząc do . Teraz możemy rozważyć zwykłą , obliczyć jej skład elektroniczny i uruchomić testy istotności MANOVA na podstawie wartości własnych.W.bZAbZAW.-1bZA

Dla współczynnika B będzie kolejna międzyklasowa macierz rozpraszająca , i analogicznie (nieco bardziej skomplikowana, ale prosta) będzie jeszcze jedna międzyklatowa macierz rozpraszająca dla efektu interakcji, tak że ostatecznie cała macierz rozproszenia jest rozkładana na czysty [Uwaga: ten rozkład działa tylko dla zbilansowanego zestawu danych z taka sama liczba punktów danych w każdym klastrze. W przypadku niezrównoważonego zestawu danych, nie może być jednoznacznie rozłożony na sumę trzech składowych czynników, ponieważ czynniki nie są już ortogonalne; jest to podobne do dyskusji na temat SS typu I / II / III w ANOVA.]bbbZAb

T.=bZA+bb+bZAb+W..
b

Teraz naszym głównym pytaniem jest, w jaki sposób MANOVA odpowiada LDA. Nie ma czegoś takiego jak „czynnikowa LDA”. Rozważmy czynnik A. Gdybyśmy chcieli uruchomić LDA, aby sklasyfikować poziomy czynnika A (całkowicie zapominając o czynniku B), mielibyśmy tę samą macierz między klasami , ale inną macierz rozpraszania wewnątrz klasy (pomyśl o połączeniu dwóch małych elipsoid na każdym poziomie współczynnika A na mojej powyższej ilustracji). To samo dotyczy innych czynników. Nie ma więc „prostej LDA”, która bezpośrednio odpowiadałaby trzem testom przeprowadzanym w tym przypadku przez MANOVA.bZAW.ZA=T.-bZA

Jednak, oczywiście nic nie pozwala nam patrzeć na wektory własne o iz nazywając je „dyskryminacyjnych osie” dla czynnika A w MANOVA.W.-1bZA

ameba mówi Przywróć Monikę
źródło
+1, to była niezła relacja. Zmieniłem się B^-1 Wna W^-1 B. Twój obraz z dyskryminatorami jako osiami jest podobny do mojego własnego wykresu ; wierzę, że zastosowałeś to samo „nieortogonalne obracanie zgodnie ze znormalizowanymi wektorami własnymi”.
ttnphns
Byłem trochę zamglony MANOVA accounts for the fact that we fitted the discriminant axis to get the minimum possible value and corrects for possible false positive. MANOVA oczywiście nie wie o tym, że robimy LDA. MANOVA po prostu zużywa więcej df niż ANOVA, ponieważ jest to test dwuwymiarowy, dlatego moc wartości p musiała wynosić -54 zamiast -55.
ttnphns
Wątpię, że powinno to mówić w kategoriach wartości p. Zamiast tego kluczowy punkt, w którym MANOVA analizuje tę samą matrycę, W^-1 Bco LDA. LDA konstruuje z niego ukryte zmienne (dyskryminatory). MANOVA nie; jednak bada powyższą matrycę bardziej kompleksowo, obliczając różne statystyki (takie jak ślad Pillai, ślad Hottelinga), aby oprzeć na nich testy.
ttnphns
Fabuła, która będzie metaforą MANOVA (i myślę, że warto dodać ją do swojej odpowiedzi), w przeciwieństwie do LDA (twoje drugie zdjęcie), byłaby fabuła, na której 3 centroidy są połączone z wielkim centroidem liniami przerywanymi .
ttnphns
Wreszcie, nie sądzę, abyś miał właściwą wagę tak dużej różnicy w statystykach i uczeniu maszynowym. Nauczyłem się analizy danych statystycznych, zanim usłyszałem słowo machine learningpo raz pierwszy. A teksty, które czytałem, omawiały LDA całkiem sporo, wraz z MANOVA.
ttnphns