Ciągle czytam o przypadkach, w których centrujemy dane (np. Z regularyzacją lub PCA) w celu usunięcia przechwytywania (jak wspomniano w tym pytaniu ). Wiem, że to proste, ale trudno mi intuicyjnie to zrozumieć. Czy ktoś mógłby podać intuicję lub odniesienie, które mogę przeczytać?
regression
pca
centering
Alec
źródło
źródło
Odpowiedzi:
Czy te zdjęcia mogą pomóc?
Pierwsze 2 zdjęcia dotyczą regresji. Centrowanie danych nie zmienia nachylenia linii regresji, ale powoduje, że przecięcie jest równe 0.
źródło
PCA is maximizing variance
Zasadniczo nie jest to prawdą. PCA maksymalizuje (o 1 PC) odchylenie kwadratowe odchyleń od źródła. Tylko jeśli dane były wstępnie wyśrodkowane (samo centrowanie nie jest częścią PCA), okazuje się, że maksymalizuje wariancję.