Zakładając, że mam zestaw danych o wymiarach (np. ), dzięki czemu każdy wymiar to iid (alternatywnie każdy wymiar ) i niezależny od wzajemnie.
Teraz rysuję losowy obiekt z tego zestawu danych i biorę najbliższych sąsiadów i obliczam PCA na tym zestawie. W przeciwieństwie do tego, czego można się spodziewać, wartości własne nie są takie same. W 20 wymiarach jednolitych typowy wynik wygląda następująco:
0.11952316626613427, 0.1151758808663646, 0.11170020254046743, 0.1019390988585198,
0.0924502502204256, 0.08716272453538032, 0.0782945015348525, 0.06965903935713605,
0.06346159593226684, 0.054527131148532824, 0.05346303562884964, 0.04348400728546128,
0.042304834600062985, 0.03229641081461124, 0.031532033468325706, 0.0266801529298156,
0.020332085835946957, 0.01825531821510237, 0.01483790669963606, 0.0068195084468626625
W przypadku normalnych danych rozproszonych wyniki wydają się bardzo podobne, przynajmniej przy przeskalowaniu ich do całkowitej sumy ( rozkład ma wyraźnie większą wariancję w pierwszej kolejności).
Zastanawiam się, czy jest jakiś wynik, który przewiduje takie zachowanie? Szukam testu, czy seria wartości własnych jest nieco regularna i ile wartości własnych jest zgodnych z oczekiwaniami, a które znacznie różnią się od wartości oczekiwanych.
Czy dla danej (małej) wielkości próby istnieje wynik, jeśli współczynnik korelacji dla dwóch zmiennych jest znaczący? Nawet zmienne iid będą czasami miały wynik inny niż 0 dla niskiego .
źródło
Odpowiedzi:
Istnieje duża literatura na temat rozkładu wartości własnych dla macierzy losowych (możesz wypróbować teorię macierzy losowych Google). W szczególności rozkład Marcenko-Pastura przewiduje rozkład wartości własnych dla macierzy kowariancji danych ze średnią zerową i równą wariancją, gdy liczba zmiennych i obserwacji osiąga nieskończoność. Ściśle związany jest rozkład półkoli Wignera.i.i.d.
źródło