Mam kilka szybkich pytań na temat PCA:
- Czy PCA zakłada, że zestaw danych jest gaussowski?
- Co się stanie, gdy zastosuję PCA do danych z natury nieliniowych?
Biorąc pod uwagę zestaw danych, proces polega najpierw na normalizacji średniej, ustawieniu wariancji na 1, wzięciu SVD, zmniejszeniu rangi, a na końcu odwzorowaniu zestawu danych na nową przestrzeń o zmniejszonej rangi. W nowej przestrzeni każdy wymiar odpowiada „kierunkowi” maksymalnej wariancji.
- Ale czy korelacja tego zestawu danych w nowej przestrzeni zawsze wynosi zero, czy jest to prawdą tylko w przypadku danych, które są z natury gaussowskie?
Załóżmy, że mam dwa zestawy danych, „A” i „B”, gdzie „A” odpowiada losowo próbkowanym punktom pobranym z Gaussa, podczas gdy „B” odpowiada punktom losowo próbkowanym z innego rozkładu (powiedzmy Poissona).
- Jak PCA (A) wypada w porównaniu z PCA (B)?
- Patrząc na punkty w nowej przestrzeni, jak miałbym ustalić, że PCA (A) odpowiada punktom próbkowanym z Gaussa, podczas gdy PCA (B) odpowiada punktom próbkowanym z Poissona?
- Czy korelacja punktów w „A” 0?
- Czy korelacja punktów w „B” również wynosi 0?
- Co ważniejsze, czy zadaję „właściwe” pytanie?
- Czy powinienem spojrzeć na korelację, czy też jest inna metryka, którą powinienem rozważyć?
Odpowiedzi:
Masz już kilka dobrych odpowiedzi (+1 do obu @ Cam.Davidson.Pilon i @MichaelChernick). Pozwolę sobie wyrzucić kilka punktów, które pomogą mi pomyśleć o tym problemie.
Po pierwsze, PCA działa na matrycy korelacji. Wydaje mi się zatem, że ważnym pytaniem jest, czy sensowne jest zastosowanie macierzy korelacji, która pomoże ci myśleć o swoich danych. Na przykład korelacja iloczynu Pearson-moment ocenia liniową zależność między dwiema zmiennymi; jeśli twoje zmienne są powiązane, ale nie liniowo, korelacja nie jest idealną miarą do indeksowania siły relacji. ( Oto miła dyskusja na temat CV na temat korelacji i danych niestandardowych).
Po drugie, myślę, że najłatwiejszym sposobem na zrozumienie, co się dzieje z PCA, jest po prostu obracanie osi. Możesz oczywiście robić więcej rzeczy i niestety PCA myli się z analizą czynnikową (która zdecydowanie się dzieje). Niemniej jednak zwykły stary PCA bez dzwonków i gwizdków można uznać za następujący:
To nie jest idealna metafora dla PCA (np. Nie przeskalowaliśmy wariancji do 1). Ale daje ludziom podstawową ideę. Chodzi teraz o wykorzystanie tego obrazu do zastanowienia się, jak wygląda wynik, jeśli dane nie byłyby początkowo gaussowskie; które pomogą Ci zdecydować, czy warto ten proces wykonać. Mam nadzieję, że to pomaga.
źródło
Mogę podać częściowe rozwiązanie i odpowiedzieć na twoje pytaniew1 w2) Xw1 Xw2) X
akapit drugiźródło
PCA nie zakłada liniowości ani normalności. Pomysł polega jedynie na dekompozycji wariacji p-wymiarowego zestawu danych na komponenty ortogonalne uporządkowane zgodnie z wyjaśnioną wielkością wariancji.
źródło
Czytanie strony 7 tutaj:
http://www.cs.princeton.edu/picasso/mats/PCA-Tutorial-Intuition_jp.pdf
zauważają, że PCA zakłada, że rozkład wszystkiego, co wyjaśniamy, można opisać jedynie przez średnią (zero) i wariancję, która, jak mówią, może być jedynie rozkładem Normalnym.
(Zasadniczo oprócz odpowiedzi Cam, ale nie mam wystarczającej reputacji, aby komentować:)
źródło
O ile mi wiadomo, PCA nie zakłada normalności danych. Ale jeśli jest on zwykle rozłożony (w bardziej ogólnym sensie, symetrycznie rozłożony), wówczas wynik jest bardziej niezawodny. Jak twierdzą inni ludzie, kluczem jest to, że PCA opiera się na macierzy współczynnika korelacji Pearsona, na której oszacowanie wpływ mają wartości odstające i przekrzywiony rozkład. Dlatego w niektórych analizach, takich jak test statystyczny lub wartość p, powinieneś bardziej dbać o to, czy normalność jest spełniona; ale w innych aplikacjach, takich jak analiza eksploracyjna, możesz jej używać, ale zachowaj ostrożność tylko podczas dokonywania interpretacji.
źródło
Uzgodniono z innymi, którzy powiedzieli, że dane powinny być „normalnie” rozpowszechniane. Każda dystrybucja będzie się nakładać z normalną dystrybucją, jeśli ją przekształcisz. Jeśli twój rozkład nie jest normalny, wyniki, które otrzymasz, będą gorsze niż w przypadku, gdy jest normalny, jak twierdzą niektórzy tutaj ...
Jeśli czytasz odniesienie w pierwszej odpowiedzi, w części Dodatku stwierdza, że założenie jest rozkładem normalnym.
źródło