Mam zestaw danych z 11 zmiennymi i PCA (ortogonalny) został zrobiony w celu zmniejszenia danych. Zdecydowanie o liczbie składników, które miałyby je zachować, było dla mnie oczywiste z mojej wiedzy na ten temat i wykresu piargowego (patrz poniżej), że dwa główne składniki (komputery osobiste) wystarczały do wyjaśnienia danych, a pozostałe elementy były tylko mniej pouczające.
Wykres Scree z równoległą analizą: zaobserwowane wartości własne (zielone) i symulowane wartości własne na podstawie 100 symulacji (czerwone). Wykres Scree sugeruje 3 komputery, podczas gdy test równoległy sugeruje tylko dwa pierwsze komputery.
Jak widać, tylko 48% wariancji może zostać uchwycone przez dwa pierwsze komputery.
Wykresy obserwacji na pierwszej płaszczyźnie wykonane przez pierwsze 2 komputery ujawniły trzy różne klastry przy użyciu hierarchicznego skupienia aglomeracyjnego (HAC) i skupienia K-średnich. Te 3 klastry okazały się bardzo istotne dla omawianego problemu i były również zgodne z innymi ustaleniami. Pomijając fakt, że zarejestrowano tylko 48% wariancji, wszystko inne było niesamowicie w porządku.
Jeden z moich dwóch recenzentów powiedział: nie można w dużym stopniu polegać na tych odkryciach, ponieważ można wyjaśnić tylko 48% wariancji i jest to mniej niż wymagane.
Pytanie
Czy istnieje jakakolwiek wymagana wartość tego, ile wariancji należy zarejestrować przez PCA, aby była ważna? Czy to nie zależy od wiedzy w dziedzinie i stosowanej metodologii? Czy ktoś może ocenić zasadność całej analizy na podstawie samej wartości wyjaśnionej wariancji?
Notatki
- Dane to 11 zmiennych genów mierzonych bardzo czułą metodologią w biologii molekularnej zwaną ilościową reakcją łańcuchową polimerazy w czasie rzeczywistym (RT-qPCR).
- Analizy wykonano przy użyciu R.
- Doceniane są odpowiedzi analityków danych oparte na ich osobistym doświadczeniu pracującym nad rzeczywistymi problemami w dziedzinie analizy mikromacierzy, chemometrii, analiz spektrometrycznych lub podobnych.
- Proszę rozważyć udzielenie jak największej liczby odpowiedzi.
Odpowiedzi:
Odnośnie twoich konkretnych pytań:
Nie, nie ma (według mojej najlepszej wiedzy). Mocno wierzę, że nie ma jednej wartości, której można by użyć; brak magicznego progu przechwyconego procentu wariancji. Artykuł Cangelosi i Goriely: Zatrzymywanie składników w analizie głównych składników z zastosowaniem do danych mikromacierzy cDNA daje dość ładny przegląd pół tuzina standardowych reguł praktycznych do wykrywania liczby składników w badaniu. (Wykres Scree, Wyjaśnienie proporcji całkowitej wariancji, reguła średniej wartości własnej, wykres log-wartości własnej itp.). Jako zasady kciuka nie opierałem się na żadnym z nich.
Idealnie powinno być zależne, ale musisz uważać, jak to wymawiasz i co masz na myśli.
Na przykład: w akustyce istnieje tylko zauważalna różnica ( JND ). Załóżmy, że analizujesz próbkę akustyczną, a konkretny komputer ma zmienność skali fizycznej znacznie poniżej tego progu JND. Nikt nie może łatwo argumentować, że w przypadku aplikacji Acoustics powinieneś był dołączyć ten komputer. Analizowałbyś niesłyszalny hałas. Być może istnieją pewne powody, aby dołączyć ten komputer, ale powody te należy przedstawić nie na odwrót. Czy są to pojęcia podobne do JND dla analizy RT-qPCR?
Podobnie, jeśli komponent wygląda jak wielomian Legendre 9 rzędu i masz mocne dowody, że twoja próbka składa się z pojedynczych wypukłości Gaussa, masz uzasadnione powody, by sądzić, że ponownie modelujesz nieistotną zmienność. Co pokazują te ortogonalne tryby zmienności? Na przykład, co jest „nie tak” z 3. komputerem w twoim przypadku?
Fakt, że mówisz „ Te 3 klastry okazały się bardzo istotne dla danego problemu ” nie jest tak naprawdę mocnym argumentem. Możesz po prostu pogłębić dane (co jest złą rzeczą). Istnieją inne techniki, np. Izomapy i osadzanie lokalnie liniowe , które też są całkiem fajne, dlaczego ich nie użyć? Dlaczego właśnie wybrałeś PCA?
Spójność twoich ustaleń z innymi ustaleniami jest ważniejsza, szczególnie jeśli ustalenia te zostaną uznane za dobrze ugruntowane. Zagłęb się w to. Spróbuj sprawdzić, czy wyniki zgadzają się z ustaleniami PCA z innych badań.
Zasadniczo nie należy tego robić. Nie myśl jednak, że twój recenzent jest sukinsynem lub czymkolwiek podobnym; 48% to rzeczywiście niewielki odsetek do zachowania bez przedstawienia uzasadnionego uzasadnienia.
źródło