Próbuję zdecydować, czy składnik PCA powinien zostać zachowany, czy nie. Istnieje wiele kryteriów opartych na wielkości wartości własnej, opisanych i porównanych np. Tutaj lub tutaj .
Jednak w mojej aplikacji wiem, że mała (est) wartość własna będzie mała w porównaniu do dużej (st) wartość własna, a wszystkie kryteria oparte na wielkości odrzuciłyby tę małą (est). Nie tego chcę. Interesuje mnie to: czy istnieje jakakolwiek znana metoda, która bierze pod uwagę faktyczny odpowiadający element małej wartości własnej, w tym sensie: czy to naprawdę „tylko” hałas, jak sugerowano we wszystkich podręcznikach, czy też jest „coś” potencjalnego zainteresowanie pozostało? Jeśli to naprawdę hałas, usuń go, w przeciwnym razie zachowaj go, niezależnie od wielkości wartości własnej.
Czy istnieje jakiś ustalony test losowości lub dystrybucji składników PCA, którego nie jestem w stanie znaleźć? A może ktoś zna powód, dla którego byłby to głupi pomysł?
Aktualizacja
Histogramy (zielony) i normalne aproksymacje (niebieski) komponentów w dwóch przypadkach użycia: raz prawdopodobnie naprawdę hałas, raz prawdopodobnie nie „tylko” hałas (tak, wartości są małe, ale prawdopodobnie nie losowe). Największa wartość pojedyncza wynosi ~ 160 w obu przypadkach, najmniejsza, tj. Ta liczba pojedyncza, wynosi 0,0xx - zdecydowanie za mała dla którejkolwiek z metod odcięcia.
To, czego szukam, to sposób na sformalizowanie tego ...
Odpowiedzi:
Jednym ze sposobów testowania losowości małego głównego komponentu (PC) jest traktowanie go jak sygnału zamiast szumu: tj. Spróbuj przewidzieć z nim inną interesującą zmienną. Jest to zasadniczo regresja podstawowych składników (PCR) .
Komputery PC w powyższych przykładach są ponumerowane zgodnie z wielkościami rankingowymi ich wartości własnych. Jolliffe (1982) opisuje model chmury, w którym ostatni komponent ma największy udział. Podsumowuje:
Zawdzięczam tę odpowiedź @Scortchi, który poprawił moje nieporozumienia na temat wyboru PC w PCR , dodając kilka bardzo pomocnych komentarzy, w tym: „ Jolliffe (2010) ocenia inne sposoby wyboru komputerów”. To odniesienie może być dobrym miejscem do poszukiwania dalszych pomysłów.
Bibliografia
- Gunst, RF i Mason, RL (1977). Błędne oszacowanie w regresji: ocena wykorzystująca średni błąd kwadratu. Journal of American Statistics Association, 72 (359), 616–628.
- Hadi, AS i Ling, RF (1998). Kilka uwag ostrzegawczych dotyczących stosowania regresji głównych składników. The American Statistician, 52 (1), 15–19. Źródło: http://www.uvm.edu/~rsingle/stat380/F04/possible/Hadi+Ling-AmStat-1998_PCRegression.pdf .
- Hawkins, DM (1973). Badanie alternatywnych regresji za pomocą analizy głównego elementu. Statystyka stosowana, 22 (3), 275–286.
- Hill, RC, Fomby, TB i Johnson, SR (1977). Normy wyboru komponentów dla regresji głównych składników.Komunikacja w statystyce - teoria i metody, 6 (4), 309–334.
- Hotelling, H. (1957). Relacje nowszych wielowymiarowych metod statystycznych do analizy czynnikowej. British Journal of Statistics Psychology, 10 (2), 69–79.
- Jackson, E. (1991). Podręcznik użytkownika głównych składników . Nowy Jork: Wiley.
- Jolliffe, IT (1982). Uwaga na temat stosowania głównych składników w regresji. Applied Statistics, 31 (3), 300–303. Źródło: http://automatica.dei.unipd.it/public/Schenato/PSC/2010_2011/gruppo4-Building_termo_identification/IdentificazioneTermodinamica20072008/Biblio/Articoli/PCR%20vecchio%2082.pdf .
- Jolliffe, IT (2010).Analiza głównych składników (wydanie 2). Skoczek.
- Kung, EC i Sharif, TA (1980). Prognozowanie regresji początku monsunu letniego w Indiach z poprzednimi warunkami górnymi. Journal of Applied Meteorology, 19 (4), 370–380. Źródło: http://iri.columbia.edu/~ousmane/print/Onset/ErnestSharif80_JAS.pdf .
- Lott, WF (1973). Optymalny zestaw ograniczeń podstawowych składników regresji metodą najmniejszych kwadratów. Komunikacja w statystyce - teoria i metody, 2 (5), 449–464.
- Mason, RL i Gunst, RF (1985). Wybieranie głównych składników w regresji. Statystyka i listy prawdopodobieństwa, 3 (6), 299–301.
- Massy, WF (1965). Regresja głównych składników w eksploracyjnych badaniach statystycznych. Journal of American Statistics Association, 60 (309), 234–256. Źródło: http://automatica.dei.unipd.it/public/Schenato/PSC/2010_2011/gruppo4-Building_termo_identification/IdentificazioneTermodinamica20072008/Biblio/Articoli/PCR%20vecchio%2065.pdf .
- Smith, G., i Campbell, F. (1980). Krytyka niektórych metod regresji grzbietu. Journal of American Statistics Association, 75 (369), 74–81. Źródło: https://cowles.econ.yale.edu/P/cp/p04b/p0496.pdf .
źródło
Dodając do odpowiedzi @Nick Stauner, gdy masz do czynienia z klastrowaniem podprzestrzeni, PCA jest często złym rozwiązaniem.
Podczas korzystania z PCA martwi się przede wszystkim wektorami własnymi o najwyższych wartościach własnych, które reprezentują kierunki, w których dane są najbardziej „rozciągnięte”. Jeśli twoje dane składają się z małych podprzestrzeni, PCA uroczyście je zignoruje, ponieważ nie mają większego wpływu na ogólną wariancję danych.
Tak więc małe wektory własne nie zawsze są czystym hałasem.
źródło