Załóżmy, że masz zestaw danych z ciągłego rozkładu o gęstości obsługiwanej na który nie jest znany, ale jest dość duży, więc gęstość jądra (na przykład) szacunek jest dość dokładny. Dla konkretnego zastosowania muszę przekształcić obserwowane dane w skończoną liczbę kategorii, aby uzyskać nowy zestaw danych z implikowaną funkcją masy .P ( Y ) Z 1 , . . . , Z n g ( z )
Prostym przykładem byłoby gdy i gdy . W tym przypadku indukowana funkcja masy byłaby
Dwa „parametry strojenia” tutaj to liczba grup, oraz wektor długości progów . Oznacz indukowaną funkcję masy przez .( m - 1 ) λ g m , λ ( R )
Chciałbym wykonać procedurę, która odpowiada na przykład: „Jaki jest najlepszy wybór , aby zwiększenie liczby grup do (i wybranie tam optymalnej ) przyniosłoby nieznaczną poprawę?” . Wydaje mi się, że być może uda się stworzyć statystykę testową (może z różnicą dywergencji KL lub coś podobnego), której rozkład można wyprowadzić. Wszelkie pomysły lub odpowiednia literatura?m + 1 λ
Edycja: Mam równomiernie rozmieszczone pomiary czasowe zmiennej ciągłej i używam niejednorodnego łańcucha Markowa do modelowania zależności czasowej. Szczerze mówiąc, dyskretne łańcuchy markowe są znacznie łatwiejsze w obsłudze i to jest moja motywacja. Obserwowane dane są procentami. Obecnie używam dyskretyzacji ad hoc, która wygląda dla mnie bardzo dobrze, ale myślę, że jest to interesujący problem, w którym możliwe jest formalne (i ogólne) rozwiązanie.
Edycja 2: Faktyczne zminimalizowanie rozbieżności KL byłoby równoznaczne z całkowitym dyskrecjonowaniem danych, więc pomysł został całkowicie wykluczony. Odpowiednio zredagowałem ciało.
Odpowiedzi:
Podzielę się rozwiązaniem, które wpadłem na ten problem jakiś czas temu - nie jest to formalny test statystyczny, ale może stanowić przydatną heurystykę.
Rozważmy przypadek, gdy ogólny masz ciągły obserwacje ; bez utraty ogólności załóżmy, że przestrzenią próbki dla każdej obserwacji jest przedział [ 0 , 1 ] . Schemat kategoryzacji będzie zależeć od wielu kategorii, m , i progów lokalizacji, które dzielą kategorie, 0 < λ 1 < λ 2 < ⋯ < λ m - 1 < 1 .Y1,Y2,...,Yn [0,1] m 0<λ1<λ2<⋯<λm−1<1
Oznacz skategoryzowaną wersję przez , gdzie . Myśląc o dyskretyzacji danych jako podziale oryginalnych danych na klasy, wariancję można traktować jako kombinację wariancji wewnątrz i między grupami dla stałej wartości :Yi λ = { λ 1 , λ 2 , ⋯ , λ m - 1 } Y i m , λZi(m,λ) λ={λ1,λ2,⋯,λm−1} Yi m,λ
Dana kategoryzacja z powodzeniem tworzy homogeniczne grupy, jeśli istnieje stosunkowo niewielka wariancja wewnątrz grupy, określona ilościowo za pomocą . , szukamy oszczędnego grupowania, które przekazuje większość zmian w do . szczególności chcemy wybrać tak, że przez dodanie dodatkowych poziomów, nie znaczący dodatek do jednorodności w obrębie grupy. z tym jest umysł, możemy określić optymalny dla ustalonej wartości będzieY i v a r ( E ( Y i | Z i ( m , λ ) ) m λ mE(var(Yi|Zi(m,λ)) Yi var(E(Yi|Zi(m,λ)) m λ m
Zgrubną diagnozą dla ustalenia, który wybór jest odpowiedni, jest przyjrzenie się dropoff w jako funkcja - ta trajektoria monotonicznie się nie zwiększa, a po gwałtownym spadku, możesz zauważyć, że zyskujesz względnie mniejszą precyzję poprzez dodanie większej liczby kategorii. Ta heurystyka jest podobna w duchu, jak czasami używa się „ wykresu piargowego ”, aby zobaczyć, ile głównych składników wyjaśnia „wystarczającą” zmienność.E ( v a r ( Y i | Z i ( m , λ ⋆ m ) ) ) mm E(var(Yi|Zi(m,λ⋆m))) m
źródło