Minimalna wielkość próby dla PCA lub FA, gdy głównym celem jest oszacowanie tylko kilku składników?

27

Jeśli mam zestaw danych z obserwacjami i zmiennymi (wymiarami), a na ogół jest mały ( ), a może być w zakresie od małego ( ) do być może znacznie większego ( ).npnn=1216pp=410p=3050

Pamiętam, że dowiedziałem się, że powinno być znacznie większe niż , aby uruchomić analizę głównych składowych (PCA) lub analizę czynnikową (FA), ale wydaje się, że tak nie jest w moich danych. Pamiętaj, że do moich celów rzadko jestem zainteresowany żadnymi głównymi komponentami wcześniejszymi niż PC2.np

Pytania:

  1. Jakie są podstawowe zasady dotyczące minimalnego rozmiaru próbki, gdy PCA jest w porządku, a kiedy nie?
  2. Czy używanie pierwszych kilku komputerów jest kiedykolwiek w porządku, nawet jeśli n=p lub n<p ?
  3. Czy są na to jakieś odniesienia?
  4. Nie ma znaczenia, czy Twoim głównym celem jest użycie PC1 i ewentualnie PC2:

    • po prostu graficznie lub
    • jako zmienna syntetyczna zastosowana następnie w regresji?
Patrick
źródło
Pamiętam, że czytałem o tego rodzaju wytycznych dotyczących analizy czynnikowej. Czy jesteś tym zainteresowany, czy tylko PCA? Odpowiedź może również zależeć od rodzaju danych, z którymi masz do czynienia, czy masz na myśli konkretny obszar zastosowania?
Gala,
1
Dzięki Gael za komentarze i odniesienia poniżej. Teraz muszę poznać różnice między FA a PCA. :)
Patrick
3
To pytanie zostało obszernie potraktowane na tej stronie, patrz np. Stats.stackexchange.com/questions/1576/… i stats.stackexchange.com/questions/612/…
Gala

Odpowiedzi:

21

Można faktycznie zmierzyć, czy wielkość próbki jest „wystarczająco duża”. Jednym z objawów zbyt małej próby jest niestabilność.

Bootstrap lub cross-validate your PCA: te techniki zakłócają twój zestaw danych, usuwając / wymieniając niewielką część próbki, a następnie budując „modele zastępcze” dla każdego zaburzonego zestawu danych. Jeśli modele zastępcze są wystarczająco podobne (= stabilne), wszystko w porządku. Prawdopodobnie będziesz musiał wziąć pod uwagę, że rozwiązanie PCA nie jest unikalne: komputery PC mogą odwracać (pomnożyć zarówno wynik, jak i odpowiedni główny składnik przez ). Możesz także skorzystać z rotacji Procrustes, aby uzyskać modele PC możliwie najbardziej podobne.1

cbeleites wspiera Monikę
źródło
Dzięki cbeleites. Czy uważasz, że ładowanie początkowe będzie zbyt pouczające przy n tak niskim, jak powiedzmy 16? Aby to zrozumieć, po prostu szukałem względnej stabilności, uruchamiając wiele PCA, pozostawiając jedną stronę poza każdym uruchomieniem.
Patrick
W takim przypadku z pewnością możliwe jest spojrzenie na wszystkie 16 modeli, które są zakłócone przez usunięcie jednej próbki (lub nawet na wszystkich 120 modelach, w których pominięto 2 próbki). Myślę, że przy małej prawdopodobnie wybrałbym takie systematyczne podejście podobne do cv. n
cbeleites obsługuje Monikę
23

W przypadku analizy czynnikowej (a nie analizy głównych składników) istnieje dość literatura kwestionująca niektóre stare ogólne zasady dotyczące liczby obserwacji. Tradycyjne zalecenia - przynajmniej w zakresie psychometrii - polegałyby na uzyskaniu co najmniej obserwacji na zmienną (gdzie zwykle wynosi od do ), więc w każdym przypadku .xx520np

Dość dokładny przegląd z wieloma odniesieniami można znaleźć na stronie http://www.encorewiki.org/display/~nzhao/The+Minimum+Sample+Size+in+Factor+Analysis

Jednak głównym przesłaniem z ostatnich badań symulacyjnych byłoby prawdopodobnie to, że jakość wyników jest tak bardzo zróżnicowana (w zależności od gmin, liczby czynników lub stosunku czynników do zmiennych itp.), Że biorąc pod uwagę stosunek zmiennych do obserwacji nie jest dobrym sposobem na podjęcie decyzji o wymaganej liczbie obserwacji. Jeśli warunki są pomyślne, możesz być w stanie uciec o wiele mniej obserwacji niż sugerują stare wytyczne, ale nawet najbardziej konserwatywne wytyczne są w niektórych przypadkach zbyt optymistyczne. Na przykład Preacher i MacCallum (2002) uzyskali dobre wyniki przy wyjątkowo małych rozmiarach próbek ale Mundfrom, Shaw i Ke (2005) znaleźli niektóre przypadki, w których wielkość próbkip>nn>100pbyło konieczne. Odkryli również, że jeśli liczba czynników leżących u podstaw pozostaje taka sama, więcej zmiennych (i nie mniej, jak sugerują wytyczne oparte na stosunku obserwacji do zmiennych) może prowadzić do lepszych wyników przy małych próbkach obserwacji.

Odpowiednie referencje:

  • Mundfrom, DJ, Shaw, DG i Ke, TL (2005). Zalecenia dotyczące minimalnej wielkości próby do przeprowadzenia analiz czynnikowych. International Journal of Testing, 5 (2), 159-168.
  • Preacher, KJ i MacCallum, RC (2002). Eksploracyjna analiza czynnikowa w badaniach genetyki zachowania: Odzyskiwanie czynników przy małych próbkach. Behaviour Genetics, 32 (2), 153-161.
  • de Winter, JCF, Dodou, D. i Wieringa, PA (2009). Eksploracyjna analiza czynnikowa przy małych rozmiarach próby. Multivariate Behavioural Research, 44 (2), 147-181.
Gala
źródło
5
(+1) Oto kolejny artykuł, wykorzystujący symulację i rzeczywiste zestawy danych, który sugeruje, że zasada praktyczna N / P nie sprawdza się bardzo dobrze w praktyce i że zapewnia rozmiary próbek wymagane do uzyskania stabilnego i dokładnego rozwiązania w EFA - kontrola różnych kryteriów jakości - w zależności od liczby czynników i liczby elementów (i opcjonalnie połowy szerokości alfa 95% CI Cronbacha, w oparciu o wzór Feldta) w skali psychiatrycznej: Wymagania dotyczące wielkości próby dla wewnętrzna walidacja skal psychiatrycznych Int J Metody Psychiatr Res. Grudzień 2011 r .; 20 (4): 235–49.
chl
1

Idea stojąca za nierównościami MVA jest prosta: PCA jest równoważne do oszacowania macierzy korelacji zmiennych. Próbujesz odgadnąć współczynniki (macierz symetryczna) z danych . (Dlatego powinieneś mieć n >> p.)pp12np

Równoważność można postrzegać w ten sposób: każdy krok PCA stanowi problem optymalizacji. Staramy się znaleźć kierunek, który wyraża największą wariancję. to znaczy:

max(aiTΣai)

Gdzie jest macierzą kowariancji.σ

pod ograniczeniami:

aiTai=1
(normalizacja)

aiTaj=0
(dla , ortogonalność z poprzednimi składnikami)j<i

Rozwiązaniem tych problemów są wyraźnie wektory własne związane z ich wartościami własnymi. Muszę przyznać, że nie pamiętam dokładnego sformułowania, ale czynniki własne zależą od współczynników . Modulo normalizacja zmiennych, macierz kowariancji i macierz korelacji są tym samym.Σσ

Przyjmowanie n = p jest mniej więcej równoznaczne z odgadnięciem wartości z tylko dwoma danymi ... to nie jest wiarygodne.

Nie ma żadnych zasad, pamiętaj, że PCA jest mniej więcej tym samym, co zgadywanie wartości z wartości .2np

lcrmorin
źródło
Czy możesz bardziej szczegółowo określić, w jakim stopniu PCA jest „równoważne” z oszacowaniem macierzy korelacji? Załóżmy, że zatrzymuję mój PCA po głównych składnikach. Wymaga to oszacowania wartości własnych i niezależnych współczynników wektora własnego, wszystkie łącznie o parametrach mniejszych niż , które mogą być nieco mniejsze niż . k ( p - 1 ) + ( p - 2 ) + + ( p - k ) p k p ( p - 1 ) / 2kk(p1)+(p2)++(pk)pkp(p1)/2
whuber
Chodzi o to, że obliczasz (pk) współczynniki wektorów własnych z p (p-1) / 2 współczynników macierzy. W przypadku macierzy losowej nie sądzę, że istnieje sposób na „pominięcie” niektórych współczynników obliczających wektory własne / wartości własne.
lcrmorin
Pewnie, że są: zwykłe algorytmy znajdują wartości własne i wektory własne pojedynczo, od największej wartości własnej w dół. Poza tym nie jest to kwestia obliczeniowa, ale zliczanie liczby wartości szacunkowych - chyba że źle odczytam twoją odpowiedź?
whuber
1

Mam nadzieję, że może to być pomocne:

zarówno dla FA, jak i PCA

'Metody opisane w tym rozdziale wymagają dużych próbek w celu uzyskania stabilnych rozwiązań. To, co stanowi odpowiednią wielkość próby, jest nieco skomplikowane. Do niedawna analitycy stosowali podstawowe zasady, takie jak: „analiza czynnikowa wymaga 5–10 razy więcej badanych niż zmiennych”. Najnowsze badania sugerują, że wymagana wielkość próby zależy od liczby czynników, liczby zmiennych powiązanych z każdym czynnikiem i tego, jak dobrze zestaw czynników wyjaśnia wariancję zmiennych (Bandalos i Boehm-Kaufman, 2009). Wyjdę na kończynę i powiem, że jeśli masz kilkaset obserwacji, prawdopodobnie jesteś bezpieczny.

Odniesienie:

Bandalos, DL i MR Boehm-Kaufman. 2009. „Cztery powszechne nieporozumienia w analizie czynników eksploracyjnych”. W mitach statystycznych i metodologicznych oraz legendach miejskich, pod redakcją CE Lance i RJ Vandenberga, 61–87. Nowy Jork: Routledge.

z „R in Action” Roberta I. Kabacoffa, bardzo pouczająca książka z dobrymi poradami obejmująca prawie wszystkie testy statystyczne.

doktorat
źródło
2
Wygląda na to, że po prostu podłączasz książkę i przerabiasz niektóre punkty wcześniej wykonane na podstawie dodatkowego lub trzeciorzędnego źródła. Nie wydaje się to bardzo przydatne. Czy mógłbyś przynajmniej podać pełne odniesienie do Bandalos i Boehm-Kaufman, 2009?
Gala