Czy istnieje jakakolwiek wymagana wariancja zarejestrowana przez PCA w celu przeprowadzenia późniejszych analiz?

15

Mam zestaw danych z 11 zmiennymi i PCA (ortogonalny) został zrobiony w celu zmniejszenia danych. Zdecydowanie o liczbie składników, które miałyby je zachować, było dla mnie oczywiste z mojej wiedzy na ten temat i wykresu piargowego (patrz poniżej), że dwa główne składniki (komputery osobiste) wystarczały do ​​wyjaśnienia danych, a pozostałe elementy były tylko mniej pouczające.

wprowadź opis zdjęcia tutaj
Wykres Scree z równoległą analizą: zaobserwowane wartości własne (zielone) i symulowane wartości własne na podstawie 100 symulacji (czerwone). Wykres Scree sugeruje 3 komputery, podczas gdy test równoległy sugeruje tylko dwa pierwsze komputery.

wprowadź opis zdjęcia tutaj

Jak widać, tylko 48% wariancji może zostać uchwycone przez dwa pierwsze komputery.

Wykresy obserwacji na pierwszej płaszczyźnie wykonane przez pierwsze 2 komputery ujawniły trzy różne klastry przy użyciu hierarchicznego skupienia aglomeracyjnego (HAC) i skupienia K-średnich. Te 3 klastry okazały się bardzo istotne dla omawianego problemu i były również zgodne z innymi ustaleniami. Pomijając fakt, że zarejestrowano tylko 48% wariancji, wszystko inne było niesamowicie w porządku.

Jeden z moich dwóch recenzentów powiedział: nie można w dużym stopniu polegać na tych odkryciach, ponieważ można wyjaśnić tylko 48% wariancji i jest to mniej niż wymagane.

Pytanie
Czy istnieje jakakolwiek wymagana wartość tego, ile wariancji należy zarejestrować przez PCA, aby była ważna? Czy to nie zależy od wiedzy w dziedzinie i stosowanej metodologii? Czy ktoś może ocenić zasadność całej analizy na podstawie samej wartości wyjaśnionej wariancji?

Notatki

  • Dane to 11 zmiennych genów mierzonych bardzo czułą metodologią w biologii molekularnej zwaną ilościową reakcją łańcuchową polimerazy w czasie rzeczywistym (RT-qPCR).
  • Analizy wykonano przy użyciu R.
  • Doceniane są odpowiedzi analityków danych oparte na ich osobistym doświadczeniu pracującym nad rzeczywistymi problemami w dziedzinie analizy mikromacierzy, chemometrii, analiz spektrometrycznych lub podobnych.
  • Proszę rozważyć udzielenie jak największej liczby odpowiedzi.
doktorat
źródło
Rozkład wartości własnych jest dość ważny dla teorii losowej macierzy. Rozkład Marcenko-Pastur jest czasem wykorzystywany do podobnych zastosowań.
John
Co pokazuje zieleń i co pokazują pomarańczowe / brązowawe linie? Jest tylko w osi.
usεr11852 mówi Przywróć Monic
@ usεr11852, zobacz zaktualizowany podpis.
doktorat

Odpowiedzi:

8

Odnośnie twoich konkretnych pytań:

Czy jest jakaś wymagana wartość tego, ile wariancji należy zarejestrować przez PCA, aby była ważna?

Nie, nie ma (według mojej najlepszej wiedzy). Mocno wierzę, że nie ma jednej wartości, której można by użyć; brak magicznego progu przechwyconego procentu wariancji. Artykuł Cangelosi i Goriely: Zatrzymywanie składników w analizie głównych składników z zastosowaniem do danych mikromacierzy cDNA daje dość ładny przegląd pół tuzina standardowych reguł praktycznych do wykrywania liczby składników w badaniu. (Wykres Scree, Wyjaśnienie proporcji całkowitej wariancji, reguła średniej wartości własnej, wykres log-wartości własnej itp.). Jako zasady kciuka nie opierałem się na żadnym z nich.

Czy to nie zależy od wiedzy w dziedzinie i stosowanej metodologii?

Idealnie powinno być zależne, ale musisz uważać, jak to wymawiasz i co masz na myśli.

Na przykład: w akustyce istnieje tylko zauważalna różnica ( JND ). Załóżmy, że analizujesz próbkę akustyczną, a konkretny komputer ma zmienność skali fizycznej znacznie poniżej tego progu JND. Nikt nie może łatwo argumentować, że w przypadku aplikacji Acoustics powinieneś był dołączyć ten komputer. Analizowałbyś niesłyszalny hałas. Być może istnieją pewne powody, aby dołączyć ten komputer, ale powody te należy przedstawić nie na odwrót. Czy są to pojęcia podobne do JND dla analizy RT-qPCR?

Podobnie, jeśli komponent wygląda jak wielomian Legendre 9 rzędu i masz mocne dowody, że twoja próbka składa się z pojedynczych wypukłości Gaussa, masz uzasadnione powody, by sądzić, że ponownie modelujesz nieistotną zmienność. Co pokazują te ortogonalne tryby zmienności? Na przykład, co jest „nie tak” z 3. komputerem w twoim przypadku?

Fakt, że mówisz „ Te 3 klastry okazały się bardzo istotne dla danego problemu ” nie jest tak naprawdę mocnym argumentem. Możesz po prostu pogłębić dane (co jest złą rzeczą). Istnieją inne techniki, np. Izomapy i osadzanie lokalnie liniowe , które też są całkiem fajne, dlaczego ich nie użyć? Dlaczego właśnie wybrałeś PCA?

Spójność twoich ustaleń z innymi ustaleniami jest ważniejsza, szczególnie jeśli ustalenia te zostaną uznane za dobrze ugruntowane. Zagłęb się w to. Spróbuj sprawdzić, czy wyniki zgadzają się z ustaleniami PCA z innych badań.

Czy ktoś może ocenić wartość całej analizy na podstawie samej wartości wyjaśnionej wariancji?

Zasadniczo nie należy tego robić. Nie myśl jednak, że twój recenzent jest sukinsynem lub czymkolwiek podobnym; 48% to rzeczywiście niewielki odsetek do zachowania bez przedstawienia uzasadnionego uzasadnienia.

usεr11852 mówi Reinstate Monic
źródło
Dziękuję za Twoją odpowiedź. Nie ma nic specjalnego w RT-qPCR jak w JND. W rzeczywistości RT-qPCR jest tylko techniką, za pomocą której mierzymy same zmienne genowe. Najprawdopodobniej miałeś na myśli komputery PC, które są nowymi zmiennymi składającymi się z liniowej kombinacji wszystkich 11. Biorąc pod uwagę inne zmienne opisowe, pierwsze 2 komputery okazały się być powiązane z komórkami odpowiedzi immunologicznej, podczas gdy komputer trzeci nie. W przeciwnym razie nie ma nic złego na 3. komputerze.
doktorat
Przyjrzę się technikom pogłębiania danych i dowiem się o nich więcej. Ale czy przypadkiem wiesz, czy zostało to zaimplementowane przez jakikolwiek pakiet R?
doktorat
1
@doctorate: Cały pomysł polega na unikaniu pogłębiania danych. Przykro mi, ale nie znam żadnych pakietów, które wyraźnie to sprawdzają.
usεr11852 mówi Przywróć Monic
1
+1, ale twoje zdanie na temat pogłębiania danych („możesz po prostu pogłębić dane”) nie jest bardzo jasne i być może dlatego @doctorate było zdezorientowane. W rzeczywistości uważam, że cały akapit nie jest zbyt jasny: co Isomap i LLE mają wspólnego z pogłębianiem danych? czy pogłębianie danych jest dobre czy złe? Artykuł na wiki, do którego linkujesz, zaczyna się od opisania go jako czegoś dobrego. Być może mógłbyś edytować tekst, aby był bardziej wyraźny w tym akapicie?
ameba mówi Przywróć Monikę