Określenie optymalnej dyskretyzacji danych z ciągłej dystrybucji

11

Załóżmy, że masz zestaw danych z ciągłego rozkładu o gęstości obsługiwanej na który nie jest znany, ale jest dość duży, więc gęstość jądra (na przykład) szacunek jest dość dokładny. Dla konkretnego zastosowania muszę przekształcić obserwowane dane w skończoną liczbę kategorii, aby uzyskać nowy zestaw danych z implikowaną funkcją masy .Y1,...,Ynp(y)[0,1]P ( Y ) Z 1 , . . . , Z n g ( z )np^(y)Z1,...,Zng(z)

Prostym przykładem byłoby gdy i gdy . W tym przypadku indukowana funkcja masy byłabyZi=0Yi1/2Zi=1Yi>1/2

g^(0)=01/2p^(y)dy,   g^(1)=1/21p^(y)dy

Dwa „parametry strojenia” tutaj to liczba grup, oraz wektor długości progów . Oznacz indukowaną funkcję masy przez .( m - 1 ) λ g m , λ ( R )m(m1)λg^m,λ(y)

Chciałbym wykonać procedurę, która odpowiada na przykład: „Jaki jest najlepszy wybór , aby zwiększenie liczby grup do (i wybranie tam optymalnej ) przyniosłoby nieznaczną poprawę?” . Wydaje mi się, że być może uda się stworzyć statystykę testową (może z różnicą dywergencji KL lub coś podobnego), której rozkład można wyprowadzić. Wszelkie pomysły lub odpowiednia literatura?m + 1 λm,λm+1λ

Edycja: Mam równomiernie rozmieszczone pomiary czasowe zmiennej ciągłej i używam niejednorodnego łańcucha Markowa do modelowania zależności czasowej. Szczerze mówiąc, dyskretne łańcuchy markowe są znacznie łatwiejsze w obsłudze i to jest moja motywacja. Obserwowane dane są procentami. Obecnie używam dyskretyzacji ad hoc, która wygląda dla mnie bardzo dobrze, ale myślę, że jest to interesujący problem, w którym możliwe jest formalne (i ogólne) rozwiązanie.

Edycja 2: Faktyczne zminimalizowanie rozbieżności KL byłoby równoznaczne z całkowitym dyskrecjonowaniem danych, więc pomysł został całkowicie wykluczony. Odpowiednio zredagowałem ciało.

Makro
źródło
1
W większości przypadków potrzeby aplikacji będą decydować o jakości każdego rozwiązania. Być może, aby dać nam trochę wskazówek, możesz powiedzieć o tym więcej.
whuber
Najpierw zdefiniuj, co rozumiesz przez „ nieistotny” . Wydaje się, że jest to związane z problemem zniekształceń stawki . Tekst Cover & Thomas stanowi przyjemne, czytelne wprowadzenie do takich tematów.
kardynał
Myślę o dyskretyzacji przy poziomach jak model o parametrach k - 1 (dla progów). W tym ustawieniu, gdy mówię nieistotny, mam na myśli „nie warto dodawać dodatkowego parametru” w sensie statystycznym. kk1
Makro
Nie jestem pewien, czy dyskretyzacja jest dobrym posunięciem. Nie będziesz w stanie uogólniać poza granice, które tworzą wartości dyskretne na oryginalnej przestrzeni twoich obserwacji.
bayerj

Odpowiedzi:

3

Podzielę się rozwiązaniem, które wpadłem na ten problem jakiś czas temu - nie jest to formalny test statystyczny, ale może stanowić przydatną heurystykę.


Rozważmy przypadek, gdy ogólny masz ciągły obserwacje ; bez utraty ogólności załóżmy, że przestrzenią próbki dla każdej obserwacji jest przedział [ 0 , 1 ] . Schemat kategoryzacji będzie zależeć od wielu kategorii, m , i progów lokalizacji, które dzielą kategorie, 0 < λ 1 < λ 2 < < λ m - 1 < 1 .Y1,Y2,...,Yn[0,1]m0<λ1<λ2<<λm1<1

Oznacz skategoryzowaną wersję przez , gdzie . Myśląc o dyskretyzacji danych jako podziale oryginalnych danych na klasy, wariancję można traktować jako kombinację wariancji wewnątrz i między grupami dla stałej wartości :Yiλ = { λ 1 , λ 2 , , λ m - 1 } Y i m , λZi(m,λ)λ={λ1,λ2,,λm1}Yim,λ

var(Yi)=var(E(Yi|Zi(m,λ)))+E(var(Yi|Zi(m,λ))).

Dana kategoryzacja z powodzeniem tworzy homogeniczne grupy, jeśli istnieje stosunkowo niewielka wariancja wewnątrz grupy, określona ilościowo za pomocą . , szukamy oszczędnego grupowania, które przekazuje większość zmian w do . szczególności chcemy wybrać tak, że przez dodanie dodatkowych poziomów, nie znaczący dodatek do jednorodności w obrębie grupy. z tym jest umysł, możemy określić optymalny dla ustalonej wartości będzieY i v a r ( E ( Y i | Z i ( m , λ ) ) m λ mE(var(Yi|Zi(m,λ))Yivar(E(Yi|Zi(m,λ))mλm

λm=argminλE(var(Yi|Zi(m,λ)))

Zgrubną diagnozą dla ustalenia, który wybór jest odpowiedni, jest przyjrzenie się dropoff w jako funkcja - ta trajektoria monotonicznie się nie zwiększa, a po gwałtownym spadku, możesz zauważyć, że zyskujesz względnie mniejszą precyzję poprzez dodanie większej liczby kategorii. Ta heurystyka jest podobna w duchu, jak czasami używa się „ wykresu piargowego ”, aby zobaczyć, ile głównych składników wyjaśnia „wystarczającą” zmienność.E ( v a r ( Y i | Z i ( m , λ m ) ) ) mmE(var(Yi|Zi(m,λm)))m

Makro
źródło