Dlaczego sferyczność zdiagnozowana w teście Bartletta oznacza, że ​​PCA jest niewłaściwa?

14

Rozumiem, że test Bartletta dotyczy ustalenia, czy twoje próbki pochodzą z populacji o równych wariancjach.

Jeśli próbki pochodzą z populacji o równych wariancjach, wówczas nie odrzucamy hipotezy zerowej testu, a zatem analiza głównego składnika jest nieodpowiednia.

Nie jestem pewien, gdzie leży problem z tą sytuacją (posiadanie zestawu danych homoskedastycznych). Na czym polega problem z zestawem danych, w którym rozkład wszystkich danych jest taki sam? Po prostu nie widzę wielkiej sprawy, jeśli ten warunek istnieje. Dlaczego miałoby to uczynić PCA nieodpowiednim?

Nie mogę znaleźć dobrych informacji w Internecie. Czy ktoś ma jakieś doświadczenie w interpretowaniu, dlaczego ten test jest istotny dla PCA?

Matt O'Brien
źródło

Odpowiedzi:

15

W odpowiedzi na tytuł pytania.

1

Wyobraź sobie teraz, że chmura wielowymiarowa jest doskonale sferyczna (tzn. Jej macierz kowariancji jest proporcjonalna do macierzy tożsamości). Następnie 1) dowolne dowolne wymiary mogą służyć głównym komponentom, więc rozwiązanie PCA nie jest unikalne; 2) wszystkie składniki mają te same wariancje (wartości własne), więc PCA nie może pomóc w ograniczeniu danych.

Wyobraźmy sobie drugi przypadek, w którym chmura wielowymiarowa jest elipsoidalna z podłużnością ściśle wzdłuż osi zmiennych (tj. Jej macierz kowariancji jest diagonalna: wszystkie wartości są zerowe oprócz diagonalnej). Wtedy obrót wynikający z transformacji PCA wyniesie zero; głównymi składnikami są same zmienne, tylko ponownie uporządkowane i potencjalnie odwrócone znaki. Jest to trywialny wynik: nie trzeba było PCA, aby odrzucić niektóre słabe wymiary w celu zmniejszenia danych.


1 Kilka (przynajmniej trzy, o ile mi wiadomo) testów statystycznych nosi imię Bartlett. Mówimy tutaj o teście sferyczności Bartletta.

ttnphns
źródło
14

Wygląda na to, że istnieją dwa testy zwane testem Bartletta . Ten, do którego się powołałeś (1937), określa, czy twoje próbki pochodzą z populacji o równych wariancjach. Kolejny wydaje się sprawdzać, czy macierzą korelacji dla zestawu danych jest macierz tożsamości (1951). Bardziej sensowne jest, aby nie uruchamiać PCA na danych z macierzą korelacji tożsamości, ponieważ odzyskasz oryginalne zmienne, ponieważ są one już nieskorelowane. Porównaj np.

użytkownik42628
źródło
2
+1 To rozwiązuje zamieszanie lepiej niż inna odpowiedź.
HelloWorld,