Mam ponad 1000 próbek danych z 19 zmiennymi. Moim celem jest przewidzenie zmiennej binarnej na podstawie pozostałych 18 zmiennych (binarnych i ciągłych). Jestem całkiem pewien, że 6 zmiennych predykcyjnych jest powiązanych z odpowiedzią binarną, chciałbym jednak dalej analizować zestaw danych i szukać innych powiązań lub struktur, których mógłbym brakować. Aby to zrobić, zdecydowałem się na użycie PCA i klastrowania.
Podczas uruchamiania PCA na znormalizowanych danych okazuje się, że należy zachować 11 składników, aby zachować 85% wariancji. Wykreślając wykresy par otrzymuję to:
Nie jestem pewien, co będzie dalej ... Nie widzę żadnego znaczącego wzorca w pca i zastanawiam się, co to oznacza i czy mogło to być spowodowane faktem, że niektóre zmienne są binarne. Po uruchomieniu algorytmu klastrowania z 6 klastrami otrzymuję następujący wynik, który nie jest dokładnie poprawą, chociaż niektóre obiekty BLOB wydają się wyróżniać (żółte).
Jak zapewne możesz powiedzieć, nie jestem ekspertem od PCA, ale widziałem kilka samouczków i jak to może być potężne, aby zobaczyć struktury w przestrzeni wielowymiarowej. Dzięki słynnemu zestawowi danych MNIST (lub IRIS) działa świetnie. Moje pytanie brzmi: co powinienem teraz zrobić, aby uzyskać więcej sensu z PCA? Klastrowanie nie wydaje się zbierać niczego pożytecznego. Jak mogę stwierdzić, że nie ma wzorca w PCA lub co mam teraz spróbować znaleźć wzorce w danych PCA?
Odpowiedzi:
Wyjaśniłeś, że wykres wariancji mówi mi, że PCA nie ma tu sensu. 18.11 to 61%, więc potrzebujesz 61% swoich zmiennych, aby wyjaśnić 85% wariancji. Moim zdaniem tak nie jest w przypadku PCA. Używam PCA, gdy 3-5 czynników 18 wyjaśnia 95% wariancji.
AKTUALIZACJA: Spójrz na wykres skumulowanego procentu wariancji wyjaśnionego liczbą komputerów. Wynika to z pola modelowania struktury terminów stóp procentowych. Widzisz, jak 3 składniki wyjaśniają ponad 99% całkowitej wariancji. Może to wyglądać na wymyślony przykład reklamy PCA :) To jednak prawdziwa rzecz. Tenory stóp procentowych są tak bardzo skorelowane, dlatego PCA jest bardzo naturalne w tej aplikacji. Zamiast zajmować się kilkadziesiąt tenorów, masz do czynienia tylko z 3 elementami.
źródło
Jeśli maszN>1000 próbki i tylko p=19 predyktory rozsądne byłoby użycie wszystkich predyktorów w modelu. W takim przypadku krok PCA może być niepotrzebny.
Jeśli masz pewność, że tylko podzbiór zmiennych jest naprawdę objaśniający, skorzystanie z rzadkiego modelu regresji, np. Elastic Net, może ci to pomóc.
Również interpretacja wyników PCA przy użyciu danych wejściowych typu mieszanego (binarny vs rzeczywisty, różne skale itp., Patrz pytanie CV ) nie jest tak prosta i możesz tego uniknąć, chyba że istnieje wyraźny powód.
źródło
Zinterpretuję twoje pytanie tak zwięźle, jak potrafię. Daj mi znać, jeśli to zmieni twoje znaczenie.
Nie widzę też żadnego „znaczącego wzorca” poza konsekwencją twoich wykresów par. Wszystkie są z grubsza okrągłymi plamami. Jestem ciekawy, czego się spodziewałeś. Wyraźnie oddzielne klastry punktowe niektórych par wykresów? Kilka działek bardzo zbliżonych do liniowych?
Twoje wyniki PCA - wykresy par typu blob i tylko 85% wariancji uchwyconych w 11 głównych komponentach - nie wykluczają przeczucia, że 6 zmiennych jest wystarczających do przewidywania odpowiedzi binarnej.
Wyobraź sobie te sytuacje:
Powiedz, że wyniki PCA pokazują, że 99% wariancji jest wychwytywanych przez 6 głównych składników.
Może to wydawać się potwierdzeniem przeczucia około 6 zmiennych predykcyjnych - być może możesz zdefiniować płaszczyznę lub inną powierzchnię w tej 6 wymiarowej przestrzeni, która bardzo dobrze klasyfikuje punkty, i możesz użyć tej powierzchni jako binarnego predyktora. Co prowadzi mnie na numer 2 ...
Powiedz, że twoje 6 głównych komponentów ma wykresy par, które wyglądają tak
Ale kolorujmy dowolną odpowiedź binarną
Mimo że udało ci się uchwycić prawie całą (99%) wariancję w 6 zmiennych, nadal nie masz gwarancji przestrzennej separacji, aby przewidzieć twoją odpowiedź binarną.
Możesz potrzebować kilku liczbowych progów (które mogą być wykreślone jako powierzchnie w tej 6 wymiarowej przestrzeni), a przynależność punktu do binarnej klasyfikacji może zależeć od złożonego wyrażenia warunkowego złożonego z relacji tego punktu do każdego z tych progów. Ale to tylko przykład tego, jak można przewidzieć klasę binarną. Istnieje mnóstwo struktur danych i metod reprezentowania, szkolenia i prognozowania. To jest zwiastun. Cytować,
źródło