Jak korzystać z analizy głównych składników, aby wybrać zmienne do regresji?

12

Obecnie używam analizy głównych komponentów, aby wybrać zmienne do zastosowania w modelowaniu. W tej chwili wykonuję pomiary A, B i C w swoich eksperymentach - tak naprawdę chcę wiedzieć: czy mogę wykonać mniej pomiarów i przestać rejestrować C i lub B, aby zaoszczędzić czas i wysiłek?

Uważam, że wszystkie 3 zmienne mocno obciążają mój pierwszy główny składnik, który stanowi 60% wariancji w moich danych. Wyniki składowe mówią mi, że jeśli dodam te zmienne razem w pewnym stosunku (aA + bB + cC). Mogę uzyskać wynik na PC1 dla każdego przypadku w moim zbiorze danych i mogę użyć tego wyniku jako zmiennej w modelowaniu, ale to nie pozwala mi przestać mierzyć B i C.

Jeśli zsumuję obciążenia A, B i C na PC1, stwierdzę, że zmienna A odpowiada za 65% wariancji w PC1, a zmienna B odpowiada za 50% wariancji w PC1, a zmienna C również za 50%, tj. wariancji na PC1 uwzględnionej przez każdą zmienną A, B i C są dzielone z inną zmienną, ale A wychodzi na wierzch, odpowiadając za nieco więcej.

Błędem jest myśleć, że mógłbym po prostu wybrać zmienną A lub ewentualnie (aA + bB, jeśli to konieczne) do zastosowania w modelowaniu, ponieważ ta zmienna opisuje dużą część wariancji w PC1, a to z kolei opisuje dużą część wariancji w dane?

Jakie podejście wybrałeś w przeszłości?

  • Jedna zmienna, która ładuje się najmocniej na PC1, nawet jeśli istnieją inne ciężkie ładowarki?
  • Wynik komponentu na PC1 przy użyciu wszystkich zmiennych, nawet jeśli wszystkie są bardzo obciążające?
N26
źródło

Odpowiedzi:

14

Nie określiłeś, jakie „modelowanie” planujesz, ale brzmi to tak, jakbyś pytał o to, jak wybrać zmienne niezależne spośród , i w celu (powiedzmy) regresowania czwartej zmiennej zależnej na nich.ABCW

Aby przekonać się, że to podejście może się nie powieść, rozważ trzy niezależne zmienne o rozkładzie normalnym , i o wariancji jednostkowej. Dla prawdziwego modelu bazowego wybierz małą stałą , naprawdę małą stałą i pozwól (zmienna zależna) (plus trochę błędu niezależnego od , , i ).XYZβ1ϵβW=ZXYZ

Załóżmy, że można mieć zmienne niezależne to , i . Następnie i są silnie skorelowane (w zależności od wariancji błędu), ponieważ każdy z nich jest w pobliżu wielokrotności . Jednak jest skorelowane z którymkolwiek z lub . Ponieważ jest mały, pierwszy główny składnik jest równoległy do z wartością własną . i obciążają mocno ten element iA=X+ϵYB=XϵYC=βZWCZWABβ{A,B,C}X2βABCładuje się wcale, ponieważ jest niezależny od (i ). Niemniej jednak, jeśli wyeliminujesz ze zmiennych niezależnych, pozostawiając tylko i , wyrzucisz wszystkie informacje o zmiennej zależnej, ponieważ , i są niezależne!XYCABWAB

Ten przykład pokazuje, że w przypadku regresji chcesz zwrócić uwagę na to, jak zmienne niezależne są skorelowane ze zmienną zależną; nie można uciec po prostu analizując relacje między zmiennymi niezależnymi.

Whuber
źródło
1
czy powinno to być nie ? Z + ϵ YA=X+ϵYZ+ϵY
shabbychef
@ shabby Tak, dziękuję. (Musiałem zmienić wszystkie nazwy zmiennych w szkicu, aby pasowały do ​​nazw OP i pomieszałem ten.)
whuber
4

Jeśli masz tylko 3 IV, dlaczego chcesz je zmniejszyć?

To znaczy, czy twoja próbka jest bardzo mała (tak, że 3 IV grozi przeregulowaniem)? W takim przypadku rozważ częściowe najmniejsze kwadraty

A może pomiary są bardzo drogie (więc w przyszłości chciałbyś zmierzyć tylko jeden IV)? W takim przypadku rozważę przeanalizowanie różnych regresji dla każdej IV oddzielnie i razem.

A może ktoś w twojej przeszłości zbyt mocno podkreślał wartość parsimony? W takim przypadku, dlaczego nie uwzględnić wszystkich 3 IV?

Peter Flom - Przywróć Monikę
źródło