Powiedzmy, że mam duży zestaw wartości , które czasem się powtarzają. Chciałbym oszacować całkowitą liczbę unikalnych wartości w dużym zestawie.
Jeśli wezmę losową próbkę wartości, a także określić, że zawiera T Ü unikalne wartości, mogę to wykorzystać, aby oszacować liczbę unikatowych wartości w dużym zestawie?
estimation
sampling
zdrowie psychiczne
źródło
źródło
Odpowiedzi:
Oto cały artykuł na temat problemu wraz z podsumowaniem różnych podejść. W literaturze nazywa się to Szacowaniem Wyróżniającej Wartości .
Gdybym musiał to zrobić sam, bez czytania fantazyjnych dokumentów, zrobiłbym to. Budując modele językowe, często trzeba oszacować prawdopodobieństwo zaobserwowania nieznanego wcześniej słowa, biorąc pod uwagę garść tekstu. Całkiem dobrym podejściem do rozwiązania tego problemu w szczególności w modelach językowych jest użycie liczby słów, które wystąpiły dokładnie raz, podzielonej przez całkowitą liczbę tokenów. To się nazywa Good Turing Estimate .
Niech u1 będzie liczbą wartości, które wystąpiły dokładnie raz w próbce m elementów.
Niech będzie liczbą unikalnych przedmiotów w Twojej próbce o rozmiarze m.
Jeśli błędnie założysz, że wskaźnik „nowy element następny” nie spadł, ponieważ masz więcej danych, to stosując Good Turing, będziesz mieć
Zachowuje się to paskudnie, ponieważ u1 staje się naprawdę mały, ale w praktyce może to nie stanowić problemu.
źródło
s
w tym przypadku? łączna liczba „słów”?s
występuje w tym dwukrotnie, zarówno w rozmiarze lewej, jak i prawej ręki?Strategia symulacji
Zbierać m losowych próbek o rozmiarze N ze zbioru S . Dla każdej z m próbek oblicz liczbę u niepowtarzalnych wartości i podziel przez n, aby normalizować. Na podstawie symulowanego rozkładu znormalizowanego u oblicz obliczeniowe statystyki podsumowujące zainteresowania (np. Średnia, wariancja, zakres międzykwartylowy). Pomnóż symulowaną średnią znormalizowaną u przez liczność S, aby oszacować liczbę unikalnych wartości.
Im większe są m i n , im ściślej symulowane średnie dopasuje prawdziwą liczbę unikatowych wartości.
źródło
Oto implementacja dla pand:
Opiera się na części 2 i 4 tego dokumentu: http://ftp.cse.buffalo.edu/users/azhang/disc/disc01/cd1/out/papers/pods/towardsestimatimosur.pdf
źródło