Jeśli mam zestaw danych z obserwacjami i zmiennymi (wymiarami), a na ogół jest mały ( ), a może być w zakresie od małego ( ) do być może znacznie większego ( ).
Pamiętam, że dowiedziałem się, że powinno być znacznie większe niż , aby uruchomić analizę głównych składowych (PCA) lub analizę czynnikową (FA), ale wydaje się, że tak nie jest w moich danych. Pamiętaj, że do moich celów rzadko jestem zainteresowany żadnymi głównymi komponentami wcześniejszymi niż PC2.
Pytania:
- Jakie są podstawowe zasady dotyczące minimalnego rozmiaru próbki, gdy PCA jest w porządku, a kiedy nie?
- Czy używanie pierwszych kilku komputerów jest kiedykolwiek w porządku, nawet jeśli lub ?
- Czy są na to jakieś odniesienia?
Nie ma znaczenia, czy Twoim głównym celem jest użycie PC1 i ewentualnie PC2:
- po prostu graficznie lub
- jako zmienna syntetyczna zastosowana następnie w regresji?
pca
sample-size
factor-analysis
Patrick
źródło
źródło
Odpowiedzi:
Można faktycznie zmierzyć, czy wielkość próbki jest „wystarczająco duża”. Jednym z objawów zbyt małej próby jest niestabilność.
Bootstrap lub cross-validate your PCA: te techniki zakłócają twój zestaw danych, usuwając / wymieniając niewielką część próbki, a następnie budując „modele zastępcze” dla każdego zaburzonego zestawu danych. Jeśli modele zastępcze są wystarczająco podobne (= stabilne), wszystko w porządku. Prawdopodobnie będziesz musiał wziąć pod uwagę, że rozwiązanie PCA nie jest unikalne: komputery PC mogą odwracać (pomnożyć zarówno wynik, jak i odpowiedni główny składnik przez ). Możesz także skorzystać z rotacji Procrustes, aby uzyskać modele PC możliwie najbardziej podobne.−1
źródło
W przypadku analizy czynnikowej (a nie analizy głównych składników) istnieje dość literatura kwestionująca niektóre stare ogólne zasady dotyczące liczby obserwacji. Tradycyjne zalecenia - przynajmniej w zakresie psychometrii - polegałyby na uzyskaniu co najmniej obserwacji na zmienną (gdzie zwykle wynosi od do ), więc w każdym przypadku .x x 5 20 n≫p
Dość dokładny przegląd z wieloma odniesieniami można znaleźć na stronie http://www.encorewiki.org/display/~nzhao/The+Minimum+Sample+Size+in+Factor+Analysis
Jednak głównym przesłaniem z ostatnich badań symulacyjnych byłoby prawdopodobnie to, że jakość wyników jest tak bardzo zróżnicowana (w zależności od gmin, liczby czynników lub stosunku czynników do zmiennych itp.), Że biorąc pod uwagę stosunek zmiennych do obserwacji nie jest dobrym sposobem na podjęcie decyzji o wymaganej liczbie obserwacji. Jeśli warunki są pomyślne, możesz być w stanie uciec o wiele mniej obserwacji niż sugerują stare wytyczne, ale nawet najbardziej konserwatywne wytyczne są w niektórych przypadkach zbyt optymistyczne. Na przykład Preacher i MacCallum (2002) uzyskali dobre wyniki przy wyjątkowo małych rozmiarach próbek ale Mundfrom, Shaw i Ke (2005) znaleźli niektóre przypadki, w których wielkość próbkip>n n>100p było konieczne. Odkryli również, że jeśli liczba czynników leżących u podstaw pozostaje taka sama, więcej zmiennych (i nie mniej, jak sugerują wytyczne oparte na stosunku obserwacji do zmiennych) może prowadzić do lepszych wyników przy małych próbkach obserwacji.
Odpowiednie referencje:
źródło
Idea stojąca za nierównościami MVA jest prosta: PCA jest równoważne do oszacowania macierzy korelacji zmiennych. Próbujesz odgadnąć współczynniki (macierz symetryczna) z danych . (Dlatego powinieneś mieć n >> p.)pp−12 np
Równoważność można postrzegać w ten sposób: każdy krok PCA stanowi problem optymalizacji. Staramy się znaleźć kierunek, który wyraża największą wariancję. to znaczy:
Gdzie jest macierzą kowariancji.σ
pod ograniczeniami:
Rozwiązaniem tych problemów są wyraźnie wektory własne związane z ich wartościami własnymi. Muszę przyznać, że nie pamiętam dokładnego sformułowania, ale czynniki własne zależą od współczynników . Modulo normalizacja zmiennych, macierz kowariancji i macierz korelacji są tym samym.Σ σ
Przyjmowanie n = p jest mniej więcej równoznaczne z odgadnięciem wartości z tylko dwoma danymi ... to nie jest wiarygodne.
Nie ma żadnych zasad, pamiętaj, że PCA jest mniej więcej tym samym, co zgadywanie wartości z wartości .2np
źródło
Mam nadzieję, że może to być pomocne:
Odniesienie:
z „R in Action” Roberta I. Kabacoffa, bardzo pouczająca książka z dobrymi poradami obejmująca prawie wszystkie testy statystyczne.
źródło