Obecnie używam analizy głównych komponentów, aby wybrać zmienne do zastosowania w modelowaniu. W tej chwili wykonuję pomiary A, B i C w swoich eksperymentach - tak naprawdę chcę wiedzieć: czy mogę wykonać mniej pomiarów i przestać rejestrować C i lub B, aby zaoszczędzić czas i wysiłek?
Uważam, że wszystkie 3 zmienne mocno obciążają mój pierwszy główny składnik, który stanowi 60% wariancji w moich danych. Wyniki składowe mówią mi, że jeśli dodam te zmienne razem w pewnym stosunku (aA + bB + cC). Mogę uzyskać wynik na PC1 dla każdego przypadku w moim zbiorze danych i mogę użyć tego wyniku jako zmiennej w modelowaniu, ale to nie pozwala mi przestać mierzyć B i C.
Jeśli zsumuję obciążenia A, B i C na PC1, stwierdzę, że zmienna A odpowiada za 65% wariancji w PC1, a zmienna B odpowiada za 50% wariancji w PC1, a zmienna C również za 50%, tj. wariancji na PC1 uwzględnionej przez każdą zmienną A, B i C są dzielone z inną zmienną, ale A wychodzi na wierzch, odpowiadając za nieco więcej.
Błędem jest myśleć, że mógłbym po prostu wybrać zmienną A lub ewentualnie (aA + bB, jeśli to konieczne) do zastosowania w modelowaniu, ponieważ ta zmienna opisuje dużą część wariancji w PC1, a to z kolei opisuje dużą część wariancji w dane?
Jakie podejście wybrałeś w przeszłości?
- Jedna zmienna, która ładuje się najmocniej na PC1, nawet jeśli istnieją inne ciężkie ładowarki?
- Wynik komponentu na PC1 przy użyciu wszystkich zmiennych, nawet jeśli wszystkie są bardzo obciążające?
Jeśli masz tylko 3 IV, dlaczego chcesz je zmniejszyć?
To znaczy, czy twoja próbka jest bardzo mała (tak, że 3 IV grozi przeregulowaniem)? W takim przypadku rozważ częściowe najmniejsze kwadraty
A może pomiary są bardzo drogie (więc w przyszłości chciałbyś zmierzyć tylko jeden IV)? W takim przypadku rozważę przeanalizowanie różnych regresji dla każdej IV oddzielnie i razem.
A może ktoś w twojej przeszłości zbyt mocno podkreślał wartość parsimony? W takim przypadku, dlaczego nie uwzględnić wszystkich 3 IV?
źródło