Dane gaussowskie rozmieszczone w jednym wymiarze wymagają dwóch parametrów do jego scharakteryzowania (średnia, wariancja), a plotka głosi, że około 30 losowo wybranych próbek jest zwykle wystarczających do oszacowania tych parametrów z dość dużą pewnością. Ale co się stanie, gdy liczba wymiarów wzrośnie?
W dwóch wymiarach (np. Wysokość, waga) potrzeba 5 parametrów, aby określić elipsę „najlepiej dopasowaną”. W trzech wymiarach wzrasta do 9 parametrów, aby opisać elipsoidę, aw 4-D zajmuje 14 parametrów. Interesuje mnie to, czy liczba próbek wymaganych do oszacowania tych parametrów również rośnie w porównywalnym tempie, wolniejszym tempie lub (proszę nie!) Wyższym tempie. Co więcej, jeśli istniałaby ogólnie przyjęta reguła, która sugeruje, ile próbek jest wymaganych do scharakteryzowania rozkładu gaussowskiego w danej liczbie wymiarów, dobrze byłoby wiedzieć.
Mówiąc ściślej, załóżmy, że chcemy zdefiniować symetryczną granicę „najlepiej dopasowanego” wyśrodkowaną w środku punktu, w którym możemy być pewni, że 95% wszystkich próbek spadnie. Chcę wiedzieć, ile próbek może potrzebować znalezienie parametrów do przybliżenia tej granicy (interwał w 1-D, elipsa w 2-D itp.) Z odpowiednio wysoką pewnością (> 95%) i jak ta liczba zmienia się jako liczba wymiarów wzrasta.
Odpowiedzi:
Ilość danych potrzebnych do oszacowania parametrów wielowymiarowego rozkładu normalnego z określoną dokładnością do określonej ufności nie zmienia się w zależności od wymiaru, wszystkie inne rzeczy są takie same. Dlatego możesz zastosować dowolną zasadę dotyczącą dwóch wymiarów do problemów o wyższych wymiarach bez żadnych zmian.
Dlaczego to powinno? Istnieją tylko trzy rodzaje parametrów: średnie, wariancje i kowariancje. Błąd oszacowania w średniej zależy tylko od wariancji i ilości danych, . Tak więc, gdy ma wielowymiarowego rozkładu normalnego i Posiadane odchylenia , wtedy oszacowania zależą tylko i . Skąd, w celu uzyskania odpowiedniej dokładności przy szacowaniu wszystkie tylko trzeba wziąć pod uwagę ilość danych potrzebnych do mającemu największą z( X 1 , X 2 , … , X d ) X i σ 2 i E [ X i ] σ i n E [ X i ] X i σ i d σ in ( X1, X2), … , Xre) Xja σ2)ja E [ Xja] σja n E [ Xja] Xja σja . Dlatego, gdy rozważamy szereg problemów z estymacją dla zwiększenia wymiarów , wszystko, co musimy wziąć pod uwagę, to o ile wzrośnie największy . Kiedy powyższe parametry są ograniczone powyżej, dochodzimy do wniosku, że ilość potrzebnych danych nie zależy od wymiaru.re σja
Podobne uwagi dotyczą oszacowania wariancji i kowariancji : jeśli pewna ilość danych wystarcza do oszacowania jednej kowariancji (lub współczynnika korelacji) z pożądaną dokładnością, to - pod warunkiem, że podstawowy rozkład normalny ma podobny wartości parametrów - ta sama ilość danych wystarczy do oszacowania dowolnego kowariancji lub współczynnika korelacji. σ i jσ2)ja σI j
Aby zilustrować i dostarczyć empirycznego wsparcia dla tego argumentu, przestudiujmy niektóre symulacje. Poniżej przedstawiono parametry dla wielonormalnego rozkładu określonych wymiarów, rysuje wiele niezależnych, identycznie rozmieszczonych zestawów wektorów z tego rozkładu, szacuje parametry z każdej takiej próbki i podsumowuje wyniki tych oszacowań parametrów pod względem (1) ich średnich - -by wykazać, że są bezstronni (a kod działa poprawnie - i (2) ich odchylenia standardowe, które określają ilościowo dokładność szacunków. (Nie należy mylić tych odchyleń standardowych, które określają ilościowo różnicę między szacunkami uzyskanymi w wielu przypadkach iteracje symulacji, ze standardowymi odchyleniami użytymi do zdefiniowania leżącego u podstaw rozkładu wielonormalnego!dre zmiany, pod warunkiem, że jako zmiany nie wprowadzają większych odchyleń w samym podstawowym rozkładzie wielonormalnym.re
Rozmiary wariancji rozkładu podstawowego są kontrolowane w tej symulacji poprzez uczynienie największej wartości własnej macierzy kowariancji równej . Utrzymuje to „chmurę” gęstości prawdopodobieństwa w granicach wraz ze wzrostem wymiaru, bez względu na kształt tego obłoku. Symulacje innych modeli zachowania systemu wraz ze wzrostem wymiaru można utworzyć po prostu zmieniając sposób generowania wartości własnych; jeden przykład (z zastosowaniem rozkładu gamma) został skomentowany w poniższym kodzie.1
R
To, czego szukamy, to zweryfikowanie, czy odchylenia standardowe oszacowań parametrów nie zmieniają się znacząco po zmianie wymiaru . W związku z tym przedstawiono wyniki dla dwóch skrajnych, , a , stosując tę samą ilość danych ( ), w obu przypadkach. Warto zauważyć, że liczba parametrów oszacowana, gdy , równa , znacznie przewyższa liczbę wektorów ( ) i przekracza nawet poszczególne liczby ( ) w całym zbiorze danych.d = 2re re= 2 30 d = 60 1890 30 30 ∗ 60 = 1800re= 60 30 re= 60 1890 30 30 ∗ 60 = 1800
Zacznijmy od dwóch wymiarów, . Istnieje pięć parametrów: dwie wariancje (przy odchyleniach standardowych i w tej symulacji), kowariancja (SD = ) i dwa średnie (SD = i ). Przy różnych symulacjach (możliwych do uzyskania przez zmianę wartości początkowej losowego materiału siewnego) będą one się nieco różnić, ale będą miały konsekwentnie porównywalny rozmiar, gdy wielkość próbki wynosi . Na przykład w następnej symulacji SD wynoszą , , , i0,097 0,182 0,126 0,11 0,15 n = 30 0,014 0,263 0,043 0,04 0,18re= 2 0,097 0,182 0,126 0,11 0,15 n = 30 0,014 0,263 0,043 0,04 0,18 odpowiednio: wszystkie się zmieniły, ale mają porównywalne rzędy wielkości.
(Te twierdzenia można poprzeć teoretycznie, ale chodzi tutaj o przedstawienie czysto empirycznej demonstracji).
Teraz przechodzimy do , utrzymując wielkość próbki na poziomie . W szczególności oznacza to, że każda próbka składa się z wektorów, z których każdy ma składników. Zamiast wymienić wszystkie odchylenia standardowe z , Spójrzmy na ich zdjęcia za pomocą histogramów, aby zobrazować ich zakresy.n = 30 30 60 1890re= 60 n = 30 30 60 1890
Wykresy rozrzutu w górnym rzędzie porównują rzeczywiste parametryσ μ 104
sigma
( ) i ( ) ze średnimi oszacowaniami dokonanymi podczas iteracji w tej symulacji. Szare linie odniesienia oznaczają miejsce doskonałej równości: wyraźnie szacunki działają zgodnie z przeznaczeniem i są bezstronne.μ 10 4mu
Histogramy pojawiają się w dolnym rzędzie, osobno dla wszystkich wpisów w macierzy kowariancji (po lewej) i dla średnich (po prawej). Wartości SD poszczególnych wariancji mieszczą się w przedziale od do podczas gdy wartości SD kowariancji między oddzielnymi składnikami zwykle mieszczą się w zakresie od do : dokładnie w zakresie osiągniętym, gdy . Podobnie, SD średnich oszacowań zwykle mieszczą się w zakresie od do , co jest porównywalne z tym, co zaobserwowano, gdy . Z pewnością nic nie wskazuje na to, że SD wzrosły jako0,12 0,04 0,08 d = 2 0,08 0,13 d = 2 d 2 600,08 0,12 0,04 0,08 re= 2 0,08 0,13 re= 2 re wzrosła z do .2) 60
Kod następuje.
źródło
Niektóre krótkie wartości liczbowe dają następujące rozkłady błędów dla dopasowania 30 próbek utworzonych ze standardowego rozkładu normalnego, a następnie dopasowania do jednowymiarowego Gaussa.
Kwartyle są wskazane. Zakłada się, że ten poziom zmienności jest pożądany w przypadku wielowymiarowym.
Nie mam czasu, aby pobić MatLab, aby uzyskać całkowity wynik, dlatego podzielę się moją „ogólną zasadą”. 30 jest podana jako zasada praktyczna lub heurystyczna, więc zakłada się, że heurystyka nie jest niedopuszczalna.
Moją heurystyką jest użycie trójkąta Pascala pomnożonego przez przypadek jednowymiarowy.
Jeśli używam danych 2d, przechodzę do drugiego wiersza i sumuję, aby uzyskać 2x liczbę próbek lub 60 próbek. W przypadku danych 3d przechodzę do trzeciego wiersza i sumuję, aby uzyskać 4x liczbę próbek lub 120 próbek. W przypadku danych 5d przechodzę do 5. rzędu i sumuję, aby uzyskać 16-krotną liczbę próbek lub 480 próbek.
Powodzenia.
EDYTOWAĆ:
To było intuicyjne, ale wszystko trzeba bronić z matematyki. Nie mogę po prostu skoczyć z formułowania form wielomianowych z elementów skończonych z doświadczeniem, aby uzyskać boisko.
Moim pomysłem na podejście tutaj jest zrównanie AIC rozkładu wyższego wymiaru z większą liczbą próbek z rozkładem zredukowanego wymiaru z mniejszą liczbą próbek.
Dla każdego wymiaru, który eliminujemy, oznacza to, że średnia traci rząd, a kowariancja traci zarówno rząd, jak i kolumnę. Możemy to określić jako
z
Zakładając, że błąd na punkt próbki jest stały, wiąże resztkową sumę kwadratów z liczbą próbek, a wartość w logarytmie pozostaje stała. Różnica w liczbie próbek staje się stałą skalowania.
więc mamy:
rozwiązanie problemu zwiększenia próbek o wymiar daje:
W tym miejscu powiedziałbym, że heurystyka zaczyna się trochę na niskim poziomie, ale kończy się około dwukrotnością wymaganej liczby próbek. Moim zdaniem jego najlepsza użyteczność wynosi około 4 wymiarów.
EDYTOWAĆ:
Przeczytałem więc odpowiedź @whuber i podoba mi się. Jest empiryczny, w tym przypadku autorytatywny. Głosowałem za jego odpowiedzią.
W dalszej części próbuję dyskutować i mam nadzieję, że będę w stanie użyć więcej niż ~ 300 znaków i mam nadzieję, że będę mógł osadzać zdjęcia. Dlatego dyskutuję w granicach odpowiedzi. Mam nadzieję, że to w porządku.
Nie jestem w tym momencie przekonany, że użycie AIC w tym celu lub to, jak użyto wielkości próbki i rozmiarów parametrów, było nieprawidłowe.
Następne kroki:
Komentarze i sugestie mile widziane.
źródło