Próbuję zrozumieć zastosowanie PCA w niedawnym artykule w czasopiśmie zatytułowanym „Mapowanie aktywności mózgu na dużą skalę za pomocą obliczeń klastrowych” Freeman i in., 2014 (bezpłatny plik pdf dostępny na stronie laboratorium ). Używają PCA do danych szeregów czasowych i wykorzystują wagi PCA do stworzenia mapy mózgu.
Dane to średnie dane obrazowania z próby, przechowywane jako macierz (zwana w dokumencie ) z wokselami (lub lokalizacjami obrazowania w mózgu) punktów czasowych (długość pojedynczego stymulacja mózgu). nx t
Używają SVD, czego wynikiem jest ( wskazujący na transpozycję macierzy ).V⊤V
Autorzy twierdzą, że
Głównymi składnikami (kolumny ) są wektory długości , a wyniki (kolumny ) są wektorami o długości (liczba wokseli), opisującymi rzut każdego woksela na kierunek podane przez odpowiedni komponent, tworząc rzuty na objętość, tj. mapy całego mózgu.T U n
Komputery są więc wektorami długości . Jak mogę zinterpretować, że „pierwszy główny składnik wyjaśnia największą wariancję”, co jest często wyrażane w tutorialach PCA? Zaczęliśmy od macierzy wielu wysoce skorelowanych szeregów czasowych - jak pojedynczy szereg czasowy na PC wyjaśnia wariancję w oryginalnej macierzy? Rozumiem cały „obrót Gaussowskiej chmury punktów do najbardziej zróżnicowanej osi”, ale nie jestem pewien, w jaki sposób odnosi się to do szeregów czasowych. Co autorzy rozumieją przez kierunek, gdy stwierdzają: „wyniki (kolumny ) są wektorami o długości n (liczba wokseli), opisujący rzut każdego woksela na kierunek podany przez odpowiedni komponent „? W jaki sposób kurs czasowy głównego komponentu może mieć kierunek?
Aby zobaczyć przykład wynikowej szeregu czasowego z liniowych kombinacji podstawowych składników 1 i 2 oraz powiązanej mapy mózgu, przejdź do następującego łącza i najedź myszką na kropki na wykresie XY.
Moje drugie pytanie dotyczy trajektorii (przestrzeni stanów), które tworzą za pomocą głównych ocen składowych.
Są one tworzone przez pobranie pierwszych 2 wyników (w przypadku przykładu „optomotor”, który opisałem powyżej) i rzutowanie poszczególnych prób (wykorzystanych do utworzenia matrycy uśrednionej z próby opisanej powyżej) do głównej podprzestrzeni równaniem:
Jak widać w połączonych filmach, każdy ślad w przestrzeni stanów reprezentuje aktywność mózgu jako całości.
Czy ktoś może podać intuicję, co oznacza każda „klatka” filmu w przestrzeni stanów, w porównaniu do liczby, która kojarzy wykres XY wyników pierwszych 2 komputerów. Co to znaczy przy danej „ramce”, że 1 próba eksperymentu znajduje się w 1 pozycji w przestrzeni stanów XY i kolejna próba jest w innej pozycji? W jaki sposób pozycje fabuły XY w filmach odnoszą się do głównych śladów składowych na połączonej figurze wspomnianej w pierwszej części mojego pytania?
źródło
Odpowiedzi:
P1: Jaki jest związek między szeregami czasowymi komputera a „maksymalną wariancją”?
Dane, które są ich analizy są punktów danych dla każdego z neuronów, więc można pomyśleć o tym, jak punktów danych w -wymiarowej przestrzeni . Jest to „chmura punktów”, więc, jak dobrze wiesz, wykonywanie PCA sprowadza się do znalezienia kierunków maksymalnej wariancji. Wolę nazywać te kierunki (które są wektorami własnymi macierzy kowariancji) „głównymi osiami”, a rzuty danych na te kierunki „głównymi składnikami”. n t nRNt^ n t^ n Rn
Analizując szeregi czasowe, jedynym dodatkiem do tego obrazu jest to, że punkty są porządnie uporządkowane lub ponumerowane (od do ), w przeciwieństwie do po prostu nieuporządkowanego zbioru punktów. Co oznacza, że jeśli weźmiemy szybkość wyzwalania jednego pojedynczego neuronu (który jest jedną współrzędną w ), wówczas jego wartości można wykreślić w funkcji czasu. Podobnie, jeśli weźmiemy jeden komputer PC (który jest rzutem z na jakąś linię), wówczas również ma on wartości i może być wykreślony w funkcji czasu. Więc jeśli oryginalnymi funkcjami są szeregi czasowe, to komputery też są szeregami czasowymi.t R N R n t1 t^ Rn Rn t^
Zgadzam się z powyższą interpretacją @ Nestora: każda oryginalna funkcja może być następnie postrzegana jako liniowa kombinacja komputerów PC, a ponieważ komputery PC są ze sobą nieskorelowane, można je traktować jako funkcje podstawowe, na które rozkładają się oryginalne funkcje. To trochę jak analiza Fouriera, ale zamiast brać stałe podstawy sinusów i cosinusów, znajdujemy „najodpowiedniejszą” podstawę dla tego konkretnego zestawu danych, w tym sensie, że pierwsze PC odpowiada za największą wariancję itp.
„Uwzględnianie większości wariancji” oznacza tutaj, że jeśli weźmiesz tylko jedną funkcję podstawową (szeregi czasowe) i spróbujesz z nią przybliżyć wszystkie swoje funkcje, wtedy pierwszy komputer wykona najlepszą robotę. Podstawową intuicją jest to, że pierwszy komputer to szereg czasowy z funkcją podstawową, który najlepiej pasuje do wszystkich dostępnych szeregów czasowych itp.
Dlaczego ten fragment Freemana i in. takie mylące?
Freeman i in. analizuj macierz danych ze zmiennymi (tj. neuronami) w wierszach (!), a nie w kolumnach. Zauważ, że odejmują średnie wierszy, co ma sens, ponieważ zmienne są zwykle wyśrodkowane przed PCA. Następnie wykonują SVD:Korzystając z terminologii, którą zalecam powyżej, kolumny są głównymi osiami (kierunki w ), a kolumny są głównymi składnikami (szereg czasowy długości ). Y =USV⊤. URNSV TY^
Zdanie, które zacytowałeś z Freeman i in. jest rzeczywiście dość mylące:
Po pierwsze, kolumny nie są komputerami PC, ale komputerami skalowanymi do normy jednostkowej. Po drugie, kolumny NIE są wynikami, ponieważ „wyniki” zwykle oznaczają komputery osobiste. Po trzecie, „kierunek podany przez odpowiedni komponent” jest pojęciem tajemniczym. I pomyśleć , że przerzucenie obrazu tu i sugerują, aby myśleć o punktów w -wymiarowej przestrzeni, tak że teraz każdy neuron jest punkt danych (a nie zmienna). Koncepcyjnie brzmi to jak wielka zmiana, ale matematycznie nie robi prawie żadnej różnicy, a jedyną zmianą jest to, że główne osie i główne składniki [jednostki-normy] zmieniają miejsca. W tym przypadku moje komputery z góry ( - długie szeregi czasowe) staną się głównymi osiami, tjU N T T UV. U n t^ t^ kierunki i można traktować jako znormalizowane projekcje na te kierunki (znormalizowane wyniki?).U
Uważam to za bardzo mylące, dlatego sugeruję zignorować ich wybór słów, ale tylko patrzeć na formuły. Od tego momentu będę używać terminów tak, jak je lubię, a nie jak Freeman i in. Użyj ich.
P2: Jakie są trajektorie przestrzeni stanów?
Pobierają dane z pojedynczej próby i rzutują je na dwie pierwsze główne osie, tj. Dwie pierwsze kolumny ). Jeśli zrobiłbyś to z oryginalnymi danymi , odzyskałbyś dwa pierwsze główne składniki. Znowu, występ na jednej osi głównej jest głównym składnikiem, tj -long szeregów czasowych.T TU Y^ t^
Jeśli zrobisz to z niektórymi danymi z pojedynczej próby , ponownie otrzymasz dwie -długie szeregi czasowe. W filmie każda pojedyncza linia odpowiada takiej projekcji: współrzędna x ewoluuje zgodnie z PC1 i współrzędna y zgodnie z PC2. Jest to tak zwana „przestrzeń stanu”: PC1 wykreślony na PC2. Czas mija, a kropka się porusza.TY t^
Każda linia w filmie jest otrzymywany z innym pojedynczej próby .Y
źródło
W odniesieniu do pierwszego pytania. Rozważmy cały szereg czasowy przez określony woksel jako pojedyncze losowanie z rozkładu wielowymiarowego. Możemy teraz myśleć o tym jak o wektorze wielowymiarowym, podobnie jak w każdym innym, do którego moglibyśmy zastosować PCA. Pierwsze kolumny są następnie Eigen-timecourses, które po połączeniu zapewniają liniowe najlepsze przybliżenie do przebiegu czasowego przez konkretnego wokseli dla czas bodźca.V tp V. t^
Więc jest macierzą , a zatem jest podczas gdy to . nx T UnxnV. T x tY^ n × t^ U n × n V. t^× t^
W odniesieniu do drugiego pytania. Podane równanie to
Daje się nam, że jest macierzą 2 lub 3 . (Obejmuje to małą sztuczkę ręki w upuszczaniu rzędów / kolumn.) Dwa lub trzy są wybierane jako wymiarowość, ponieważ można to narysować na rycinie 6 artykułu.× tjot × t
Jednak więc spodziewam się, że oddzielne ślady (linie na ryc. 6) zostały uzyskane poprzez posiekanie w różne segmenty odpowiadające prezentacjom bodźca. Każdy z tych bloków można następnie narysować w przestrzeni 2 lub 3 wymiarowej, biorąc pod uwagę każdą kolumnę jako punkt w tej przestrzeni, a następnie rysując linię między punktami zdefiniowanymi przez sąsiednie kolumny podające trajektorie. Jt ≠ t^ jot
Opierając się na wyżej obrazu 8 pojawia się dla każdego bloku dodać każdy punkt (Column-) kolejno przyłączyć go do ostatniego punktu, a czyni to długość sekwencję jak wideo.t^
Nie zajmowałem się wcześniej metodologią kolorowania i minęło trochę czasu, zanim byłem pewny skomentować ten aspekt. Komentarz na temat podobieństwa do ryc. 4c był mylący, ponieważ zabarwienie uzyskuje się tam poprzez regresję per-wokseli. Natomiast na ryc. 6 każdy ślad jest artefaktem całego obrazu. Chyba, że jestem wyprostowany, myślę, że jest to kierunek bodźca podczas tego odcinka czasu, zgodnie z komentarzem na rysunku.
źródło