Znormalizowałem mój zestaw danych, a następnie uruchomiłem 3-składnikowy PCA, aby uzyskać małe wyjaśnione współczynniki wariancji ([0,50, 0,1, 0,05]).
Kiedy nie znormalizowałem, ale wybieliłem mój zestaw danych, a następnie uruchomiłem 3-składnikowy PCA, otrzymałem wysokie wyjaśnione współczynniki wariancji ([0,86, 0,06,0,01]).
Ponieważ chcę zachować tyle danych w 3 komponentach, czy NIE powinienem normalizować danych? Z mojego zrozumienia zawsze powinniśmy normalizować się przed PCA.
Poprzez normalizację: ustawienie oznacza wartość 0 i posiadanie wariancji jednostkowej.
Odpowiedzi:
Zależy od celu Twojej analizy. Niektóre typowe praktyki, z których niektóre są wymienione w linku Whubera:
Intuicyjny przykład:
Załóżmy, że masz dwie zmienne: wysokość drzewa i obwód tego samego drzewa. Przekształcimy objętość na czynnik: drzewo będzie miało dużą objętość, jeśli jego objętość będzie większa niż 20 stóp sześciennych, a w przeciwnym razie będzie miała małą objętość. Użyjemy zestawu danych drzew, który jest wstępnie załadowany w R.
Załóżmy teraz, że wysokość została zmierzona w milach zamiast w stopach.
Pierwszy składnik wyjaśnia prawie 100% zmienności danych. Ładunki:
Ocena graficzna:
Widzimy, że drzewa o dużej objętości mają zwykle wysoki obwód, ale wysokość trzech nie podaje żadnych informacji na temat objętości drzewa. Jest to prawdopodobnie niewłaściwe i jest konsekwencją dwóch różnych miar jednostkowych.
Możemy użyć tych samych jednostek lub znormalizować zmienne. Oczekuję, że oba doprowadzą do bardziej zrównoważonego obrazu zmienności. Oczywiście w tym przypadku można argumentować, że zmienne powinny mieć tę samą jednostkę, ale nie powinny być standaryzowane, co może być poprawnym argumentem, gdyby nie to, że mierzymy dwie różne rzeczy. (Gdy mierzymy ciężar drzewa i obwód drzewa, skala, na której oba powinny być mierzone, nie jest już bardzo jasna. W tym przypadku mamy jasny argument, aby popracować nad znormalizowanymi zmiennymi.)
Widzimy teraz, że drzewa, które są wysokie i mają duży obwód, mają dużą objętość (lewy dolny róg), w porównaniu do niskiego obwodu i niskiej wysokości dla drzew o małej objętości (prawy górny róg). To intuicyjnie ma sens.
Jeśli jednak uważnie się przyjrzymy, zauważymy, że kontrast między wysokim / niskim poziomem głośności jest najsilniejszy w kierunku obwodu, a nie w kierunku wysokości. Zobaczmy, co się stanie, gdy ustandaryzujemy:
Rzeczywiście, obwód wyjaśnia teraz większość różnic w drzewach o wysokiej i niskiej objętości! (Długość strzałki w dwupłatku wskazuje na wariancję oryginalnej zmiennej.) Więc nawet jeśli rzeczy są mierzone w tej samej skali, użyteczne może być standaryzowanie. Nie zaleca się standaryzacji, gdy porównujemy na przykład długość różnych gatunków drzew, ponieważ jest to dokładnie ten sam pomiar.
źródło