Jakie są najlepsze metody dopasowania „trybu” danych próbkowanych z ciągłego rozkładu?
Ponieważ tryb jest technicznie niezdefiniowany (prawda?) Dla ciągłej dystrybucji, naprawdę pytam „jak znaleźć najczęstszą wartość”?
Jeśli przyjmiesz, że rozkład rodzica jest gaussowski, możesz bin binować dane i stwierdzić, że tryb jest lokalizacją bin z największą liczbą. Jak jednak określić rozmiar pojemnika? Czy są dostępne solidne wdrożenia? (tj. odporny na wartości odstające). Używam python
/ scipy
/ numpy
, ale prawdopodobnie potrafię tłumaczyć R
bez większych trudności.
distributions
fitting
mode
Keflavich
źródło
źródło
Odpowiedzi:
W R, stosując metodę, która nie jest oparta na modelowaniu parametrycznym rozkładu podstawowego i używa domyślnego estymatora gęstości jądra do 10000 zmiennych rozkładu gamma:
zwraca 0,199, czyli wartość x, która ma największą gęstość (szacunki gęstości są przechowywane jako „z $ y”).
źródło
Załóżmy, że tworzysz histogram wielkości pojemnika b, a największy pojemnik ma k wpisów z całej próbki o rozmiarze n. Następnie średni PDF w tym pojemniku można oszacować jako b * k / n.
Problem polega na tym, że inny pojemnik, który ma mniej wszystkich członków, może mieć wysoką gęstość plamek. Możesz o tym wiedzieć tylko wtedy, gdy masz uzasadnione założenie dotyczące tempa zmian w pliku PDF. Jeśli to zrobisz, możesz oszacować prawdopodobieństwo, że drugi największy pojemnik rzeczywiście zawiera ten tryb.
Podstawowym problemem jest to. Próbka zapewnia dobrą znajomość CDF według twierdzenia Kołmogorowa-Smirnowa, a zatem dobre oszacowanie mediany i innych kwantyli. Ale znajomość przybliżenia funkcji w L1 nie zapewnia przybliżonej wiedzy o jej pochodnej. Dlatego żadna próbka nie zapewnia dobrej znajomości pliku PDF bez dodatkowych założeń.
źródło
Oto kilka ogólnych szkiców rozwiązań, które działają również w przypadku rozkładów wielowymiarowych:
Wytrenuj f-GAN z odwrotną dywergencją KL, nie dając generatorowi żadnych losowych danych wejściowych (tj. Wymuszając determinizm).
Trenuj f-GAN z odwrotną dywergencją KL, przesuwaj rozkład wejściowy do generatora w kierunku funkcji delta Diraca w miarę postępu treningu i dodaj karę gradientu do funkcji utraty generatora.
Przećwicz (generalnie różnicowalny) model generatywny, który może w sposób praktyczny ocenić aproksymację pdf w dowolnym momencie (uważam, że wystarczyłoby np. VAE, model oparty na przepływie lub model autoregresyjny). Następnie użyj pewnego rodzaju optymalizacji (można zastosować pewien smak wznoszenia gradientu, jeśli wnioskowanie modelu jest rozróżnialne), aby znaleźć maksimum tego przybliżenia.
źródło