To pytanie opisuje podstawową różnicę między histogramem jednolitym i niejednorodnym. I to pytanie omawia ogólną zasadę wybierania liczby pojemników jednolitego histogramu, który optymalizuje (w pewnym sensie) stopień, w jakim histogram reprezentuje rozkład, z którego zostały pobrane próbki danych.
Nie mogę znaleźć takiego samego rodzaju „optymalności” dyskusji na temat histogramów jednolitych vs. niejednorodnych. Mam klastrowy rozkład nieparametryczny z odległymi wartościami odstającymi, więc niejednolity histogram intuicyjnie ma sens. Chciałbym jednak zobaczyć dokładniejszą analizę następujących dwóch pytań:
- Kiedy histogram jednolitego pojemnika jest lepszy niż niejednorodny?
- Jaka jest duża liczba przedziałów dla niejednorodnego histogramu?
W przypadku niejednorodnego histogramu uważany jestem za najprostszy przypadek, w którym pobieramy próbek z nieznanego rozkładu, porządkujemy otrzymane wartości i dzielimy je na przedziałów, tak aby każdy przedział z nich próbki (przy założeniu, że dla jakiejś dużej liczby całkowitej ). Zakresy są tworzone przez przyjęcie punktu środkowego między wartości w bin i i \ min wartości w bin i + 1 . Tu i tutaj znajdują się linki opisujące tego rodzaju niejednorodne histogramy.
źródło
Odpowiedzi:
Wymaga to pewnego rodzaju identyfikacji tego, co chcielibyśmy zoptymalizować; wiele osób próbuje zoptymalizować średni zintegrowany błąd średniokwadratowy, ale w wielu przypadkach myślę, że nieco pomija sens robienia histogramu; często (moim zdaniem) „wygładza”; w przypadku narzędzia eksploracyjnego, takiego jak histogram, mogę tolerować znacznie więcej szorstkości, ponieważ sama szorstkość daje mi poczucie zakresu, w jakim powinienem „wygładzić” wzrok; Mam tendencję do podwojenia zwykłej liczby pojemników z takich zasad, czasem o wiele więcej. Zgadzam się w tej sprawie z Andrew Gelmanem ; rzeczywiście, jeśli moim zainteresowaniem było uzyskanie dobrego AIMSE, prawdopodobnie nie powinienem brać pod uwagę histogramu.
Potrzebujemy więc kryterium.
Zacznę od omówienia niektórych opcji histogramów nierównych obszarów:
Istnieją pewne podejścia, które wykonują bardziej wygładzanie (mniej, szersze przedziały) w obszarach o niższej gęstości i mają węższe przedziały, w których gęstość jest wyższa - takie jak histogramy „równej powierzchni” lub „równej liczby”. Wydaje się, że Twoje edytowane pytanie uwzględnia możliwość równego liczenia.
histogram
Funkcja w R wlattice
opakowaniu może wyprodukować około bary równopowierzchniowa:Ten spadek po prawej stronie lewego skrajnego pojemnika jest jeszcze wyraźniejszy, jeśli zaczniesz czwarte korzenie; z pojemnikami o równej szerokości nie możesz ich zobaczyć, chyba że użyjesz 15 do 20 razy więcej pojemników, a wtedy prawy ogon będzie wyglądał okropnie.
Jest tu histogram równej liczby , z kodem R, który wykorzystuje kwantyle próbki do znalezienia podziałów.
Na przykład na tych samych danych, co powyżej, oto 6 przedziałów z (miejmy nadzieję) 8 obserwacjami:
To pytanie CV wskazuje na artykuł Denby'ego i Mallowsa, którego wersję można pobrać stąd, który opisuje kompromis między pojemnikami o równej szerokości i pojemnikami o równej powierzchni.
W pewnym stopniu odnosi się również do pytań, które miałeś.
Być może mógłbyś rozważyć ten problem jako identyfikację przerw w częściowo stałym procesie Poissona. Doprowadziłoby to do takiej pracy . Istnieje również powiązana możliwość spojrzenia na algorytmy typu klastrowania / klasyfikacji na (powiedzmy) zliczeniach Poissona, z których niektóre algorytmy dawałyby wiele przedziałów. Grupowanie zostało zastosowane na histogramach 2D ( w efekcie obrazów ) w celu zidentyfikowania regionów, które są względnie jednorodne.
-
Gdybyśmy mieli histogram równej liczby i jakieś kryterium optymalizacji, moglibyśmy wypróbować zakres zliczeń na bin i w jakiś sposób ocenić to kryterium. Wspomniany tutaj papier Wand [ papier lub dokument roboczy pdf ] i niektóre z jego odniesień (np. Do dokumentów Sheather i in.) Zarysowują szacunkową szerokość pojemnika „podłącz” w oparciu o pomysły wygładzania jądra w celu optymalizacji AIMSE; ogólnie rzecz biorąc, tego rodzaju podejście powinno być przystosowalne do tej sytuacji, chociaż nie przypominam sobie, żeby to było zrobione.
źródło