Histogram z pojemnikami jednolitymi vs niejednorodnymi

10

To pytanie opisuje podstawową różnicę między histogramem jednolitym i niejednorodnym. I to pytanie omawia ogólną zasadę wybierania liczby pojemników jednolitego histogramu, który optymalizuje (w pewnym sensie) stopień, w jakim histogram reprezentuje rozkład, z którego zostały pobrane próbki danych.

Nie mogę znaleźć takiego samego rodzaju „optymalności” dyskusji na temat histogramów jednolitych vs. niejednorodnych. Mam klastrowy rozkład nieparametryczny z odległymi wartościami odstającymi, więc niejednolity histogram intuicyjnie ma sens. Chciałbym jednak zobaczyć dokładniejszą analizę następujących dwóch pytań:

  1. Kiedy histogram jednolitego pojemnika jest lepszy niż niejednorodny?
  2. Jaka jest duża liczba przedziałów dla niejednorodnego histogramu?

W przypadku niejednorodnego histogramu uważany jestem za najprostszy przypadek, w którym pobieramy próbek z nieznanego rozkładu, porządkujemy otrzymane wartości i dzielimy je na przedziałów, tak aby każdy przedział z nich próbki (przy założeniu, że dla jakiejś dużej liczby całkowitej ). Zakresy są tworzone przez przyjęcie punktu środkowego między wartości w bin i i \ min wartości w bin i + 1 . Tu i tutaj znajdują się linki opisujące tego rodzaju niejednorodne histogramy.nnkknndokdomaxjamini+1

Alan Turing
źródło
Nie ma prawie wystarczających informacji, aby odpowiedzieć (2). Jakie są warunki niejednorodności? Czy możesz wybrać dowolne pojemniki, które lubisz, czy jest jakieś ograniczenie? Co chcesz zoptymalizować? np chcesz minimalny średni błąd kwadratowy zintegrowany pomiędzy i ? Albo coś innego? fafa^
Glen_b
@Glen_b Bardziej szczegółowo opisuję rodzaj histogramu, który rozważam w niejednolitym przypadku bin.
Alan Turing
Sprawdź swoją edycję. Miałeś na myśli „n = cm” zamiast „cn”? Jest też późniejsza literówka.
Glen_b
Czy starasz się przekazać coś jak to ?
Glen_b
Zobacz także omówienie kompromisu między tym a zwykłym histogramem
Glen_b -Reinstate Monica

Odpowiedzi:

7

Kiedy histogram jednolitego pojemnika jest lepszy niż niejednorodny?

Wymaga to pewnego rodzaju identyfikacji tego, co chcielibyśmy zoptymalizować; wiele osób próbuje zoptymalizować średni zintegrowany błąd średniokwadratowy, ale w wielu przypadkach myślę, że nieco pomija sens robienia histogramu; często (moim zdaniem) „wygładza”; w przypadku narzędzia eksploracyjnego, takiego jak histogram, mogę tolerować znacznie więcej szorstkości, ponieważ sama szorstkość daje mi poczucie zakresu, w jakim powinienem „wygładzić” wzrok; Mam tendencję do podwojenia zwykłej liczby pojemników z takich zasad, czasem o wiele więcej. Zgadzam się w tej sprawie z Andrew Gelmanem ; rzeczywiście, jeśli moim zainteresowaniem było uzyskanie dobrego AIMSE, prawdopodobnie nie powinienem brać pod uwagę histogramu.

Potrzebujemy więc kryterium.

Zacznę od omówienia niektórych opcji histogramów nierównych obszarów:

Istnieją pewne podejścia, które wykonują bardziej wygładzanie (mniej, szersze przedziały) w obszarach o niższej gęstości i mają węższe przedziały, w których gęstość jest wyższa - takie jak histogramy „równej powierzchni” lub „równej liczby”. Wydaje się, że Twoje edytowane pytanie uwzględnia możliwość równego liczenia.

histogramFunkcja w R w latticeopakowaniu może wyprodukować około bary równopowierzchniowa:

library("lattice")
histogram(islands^(1/3))  # equal width
histogram(islands^(1/3),breaks=NULL,equal.widths=FALSE)  # approx. equal area

porównanie równej szerokości i równej powierzchni

Ten spadek po prawej stronie lewego skrajnego pojemnika jest jeszcze wyraźniejszy, jeśli zaczniesz czwarte korzenie; z pojemnikami o równej szerokości nie możesz ich zobaczyć, chyba że użyjesz 15 do 20 razy więcej pojemników, a wtedy prawy ogon będzie wyglądał okropnie.

Jest tu histogram równej liczby , z kodem R, który wykorzystuje kwantyle próbki do znalezienia podziałów.

Na przykład na tych samych danych, co powyżej, oto 6 przedziałów z (miejmy nadzieję) 8 obserwacjami:

histogram równej liczby

ibr=quantile(islands^(1/3),0:6/6)
hist(islands^(1/3),breaks=ibr,col=5,main="")

To pytanie CV wskazuje na artykuł Denby'ego i Mallowsa, którego wersję można pobrać stąd, który opisuje kompromis między pojemnikami o równej szerokości i pojemnikami o równej powierzchni.

W pewnym stopniu odnosi się również do pytań, które miałeś.

Być może mógłbyś rozważyć ten problem jako identyfikację przerw w częściowo stałym procesie Poissona. Doprowadziłoby to do takiej pracy . Istnieje również powiązana możliwość spojrzenia na algorytmy typu klastrowania / klasyfikacji na (powiedzmy) zliczeniach Poissona, z których niektóre algorytmy dawałyby wiele przedziałów. Grupowanie zostało zastosowane na histogramach 2D ( w efekcie obrazów ) w celu zidentyfikowania regionów, które są względnie jednorodne.

-

Gdybyśmy mieli histogram równej liczby i jakieś kryterium optymalizacji, moglibyśmy wypróbować zakres zliczeń na bin i w jakiś sposób ocenić to kryterium. Wspomniany tutaj papier Wand [ papier lub dokument roboczy pdf ] i niektóre z jego odniesień (np. Do dokumentów Sheather i in.) Zarysowują szacunkową szerokość pojemnika „podłącz” w oparciu o pomysły wygładzania jądra w celu optymalizacji AIMSE; ogólnie rzecz biorąc, tego rodzaju podejście powinno być przystosowalne do tej sytuacji, chociaż nie przypominam sobie, żeby to było zrobione.

Glen_b - Przywróć Monikę
źródło