W jaki sposób centrowanie danych pozbywa się przechwytywania w regresji i PCA?

39

Ciągle czytam o przypadkach, w których centrujemy dane (np. Z regularyzacją lub PCA) w celu usunięcia przechwytywania (jak wspomniano w tym pytaniu ). Wiem, że to proste, ale trudno mi intuicyjnie to zrozumieć. Czy ktoś mógłby podać intuicję lub odniesienie, które mogę przeczytać?

Alec
źródło
2
Jest to bardzo szczególny przypadek „kontrolowania innych zmiennych”, jak wyjaśniono (na kilka sposobów) na stronie stats.stackexchange.com/questions/17336/… . Kontrolowana „zmienna” jest pojęciem stałym (przechwytującym).
whuber

Odpowiedzi:

65

Czy te zdjęcia mogą pomóc?

Pierwsze 2 zdjęcia dotyczą regresji. Centrowanie danych nie zmienia nachylenia linii regresji, ale powoduje, że przecięcie jest równe 0.

wprowadź opis zdjęcia tutaj

1

wprowadź opis zdjęcia tutaj


1

ttnphns
źródło
1
y¯X¯β
16
PCA is maximizing varianceZasadniczo nie jest to prawdą. PCA maksymalizuje (o 1 PC) odchylenie kwadratowe odchyleń od źródła. Tylko jeśli dane były wstępnie wyśrodkowane (samo centrowanie nie jest częścią PCA), okazuje się, że maksymalizuje wariancję.
ttnphns
3
PS Zauważ, że obliczenie kowariancji lub korelacji oznacza wyśrodkowanie
ttnphns
1
> PS Zauważ, że obliczenie kowariancji lub korelacji oznacza wyśrodkowanie - ttnphns 27 '12 sierpnia o 11:47 Chociaż zgadzam się z twoimi innymi komentarzami, zarówno kowariancja, jak i korelacja NIE oznaczają wyśrodkowania. Ani cor, ani covar nie zmieniają wartości, gdy do danych jest stosowana stała addytywna.
TPM
1
To jest wstecz. Stałe addytywne rzeczywiście nie wpływają na korelacje, ale dzieje się tak, ponieważ są one odejmowane w obliczeniach, jak wskazał @ttphns. Poza tym nie jest to nowa odpowiedź, ale komentarz. Rozumiemy, że nie masz jeszcze wystarczającej reputacji, aby móc komentować, więc, ufam, zostanie przeniesiony przez użytkownika o wystarczającej reputacji po oznaczeniu go.
Nick Cox