Czy istnieje górna granica liczby interwałów w histogramie?

10

Przeczytałem kilka artykułów i fragmentów książek, które wyjaśniają, jak wybrać dobrą liczbę interwałów (pojemników) dla histogramu zestawu danych, ale zastanawiam się, czy istnieje twarda maksymalna liczba interwałów na podstawie liczby punktów w zestaw danych lub inne kryterium.

Wstęp: Powód, dla którego pytam, jest to, że próbuję napisać oprogramowanie na podstawie procedury z pracy naukowej. Jednym z etapów procedury jest utworzenie kilku histogramów ze zbioru danych, a następnie wybranie optymalnej rozdzielczości w oparciu o charakterystyczną funkcję (zdefiniowaną przez autorów artykułu). Mój problem polega na tym, że autorzy nie wspominają o górnej granicy liczby testowanych interwałów. (Mam setki zestawów danych do analizy, a każdy z nich może mieć inną „optymalną” liczbę pojemników. Ważne jest również, aby wybrać optymalną liczbę pojemników, więc ręczne przeglądanie wyników i wybieranie dobrego nie będzie praca.)

Czy po prostu ustalenie maksymalnej liczby przedziałów jako liczby punktów w zbiorze danych byłoby dobrą wskazówką, czy może jest jakieś inne kryterium, które jest zwykle stosowane w statystyce?

Bill jaszczurka
źródło
Czy masz na myśli pojemniki o równej wielkości (tj. Pojemniki, które mają ten sam odstęp)?
Adam Ryczkowski
Uważam, że odpowiedź zależy od algorytmu, który próbujesz wdrożyć. Myślę, że pytanie jest niekompletne, jeśli nie podasz linku do tego dokumentu badawczego.
Adam Ryczkowski
Liczba punktów jest z pewnością teoretycznym maksimum, ale prawie nie byłby to histogram, byłby to dziwnie sformatowany wykres paska lub wykres dywanika.
Peter Flom
1
W rzeczywistości liczba punktów NIE jest tak naprawdę maksimum, przepraszam, nie miałem dość kawy! Niektóre przedziały będą wynosić 0. np. Załóżmy (dla absurdalnie prostego przykładu), że masz 3 punkty: 1,02 2,21 i 5,92. Jeśli naprawdę chcesz maksymalnej liczby pojemników, to wyraźnie więcej niż 3. Prawdopodobnie 6: 1-2, 2-3, 3-4, 4-5 i 5-6 (z odpowiednimi przerwami otwartymi i zamkniętymi, aby uniknąć podwójnego binowania)
Peter Flom
1
@ whuber: Wartości są zbiorem pomiarów odległości konturu obiektu od jego środka ciężkości, znormalizowanych do [0, 1]. Artykuł wykorzystuje binowanie tych odległości do przedziałów , znajdowanie optymalnego przez minimalizowanie sumy błędu kwantyzacji (z binowania) plus pdf histogramu. O ile mi wiadomo. 2)jotjot
Wayne

Odpowiedzi:

6

Tak naprawdę nie ma żadnego twardego górnego limitu, ale z drugiej strony, w większości sytuacji, gdy znajdziesz wszystkie unikalne obserwacje w ich własnym koszu, drobniejsze pojemniki służą jedynie do dokładniejszego wskazania ich pozycji bez przekazywania znacznie więcej. np. porównaj te:

histogram z 30 pojemnikami
histogram ze 100 przedziałami

Z wyjątkiem niektórych bardzo szczególnych okoliczności, na drugim wątku prawdopodobnie nie będzie żadnych praktycznych korzyści, a na pierwszym nie tak wiele. Jeśli twoje dane są ciągłe, prawdopodobnie jest to znacznie więcej niż użyteczna liczba pojemników.

Tak więc w większości sytuacji wydaje się to przynajmniej praktyczną górną granicą - każdą unikalną obserwacją we własnym koszu.

(Jeśli korzyść ma więcej pojemników niż jeden na jedną unikalną obserwację, prawdopodobnie powinieneś zrobić rugplot lub roztrzęsiony pasek, aby uzyskać tego rodzaju informacje) - coś w rodzaju tego, co zrobiono na marginesach tych histogramów:

wykres rugowy z fluktuacją
histogram z paskiem

(Te histogramy pochodzą z tej odpowiedzi , pod koniec)

Glen_b - Przywróć Monikę
źródło
5

Jest dobry przypadek posiadania dużej liczby pojemników, np. Pojemników na każdą możliwą wartość, ilekroć podejrzewa się, że szczegół histogramu nie byłby hałasem, ale interesującą lub ważną drobną strukturą.

Nie jest to bezpośrednio związane z dokładną motywacją tego pytania, ponieważ wymaga automatycznej reguły dla pewnej optymalnej liczby pojemników, ale ma to znaczenie dla całego pytania.

Przejdźmy od razu do przykładów. W demografii zaokrąglanie zgłaszanych grup wiekowych jest powszechne, szczególnie, ale nie tylko w krajach o ograniczonej wiedzy. To, co może się zdarzyć, to fakt, że wiele osób nie zna dokładnej daty urodzenia lub istnieją powody społeczne lub osobiste, by zaniżać lub przesadzać wiek. Historia wojskowości obfituje w przykłady ludzi opowiadających kłamstwa na temat swojego wieku, aby unikać lub szukać służby w siłach zbrojnych. Rzeczywiście wielu czytelników pozna kogoś, kto jest bardzo nieskory lub w inny sposób nie do końca zgodny ze swoim wiekiem, nawet jeśli nie kłamią w spisie ludności. Wynik netto jest różny, ale jak już sugeruje się, zwykle jest zaokrąglany, np. Wiek kończący się na 0 i 5 jest znacznie częstszy niż wiek mniejszy o rok lub dłużej.

Podobne zjawisko preferencji cyfr jest powszechne nawet w przypadku całkiem różnych problemów. W przypadku niektórych staromodnych metod pomiaru ostatnia cyfra zgłaszanego pomiaru musi być mierzona wzrokowo przez interpolację stopniowanych znaków. Był to długi standard w meteorologii z termometrami rtęciowymi. Stwierdzono, że zbiorowo niektóre zgłaszane cyfry są bardziej powszechne niż inne i że indywidualnie wielu z nas ma podpisy, co jest osobistym wzorem faworyzowania niektórych cyfr zamiast innych. Zwykle rozkład odniesienia jest tutaj jednolity, to znaczy, o ile zakres możliwych pomiarów jest wielokrotnie większy niż „jednostka” pomiaru, oczekuje się, że końcowe cyfry wystąpią z jednakową częstotliwością. Więc jeśli zgłoszone temperatury w cieniu mogą obejmować (powiedzmy) 50C dziesięć ostatnich cyfr, ułamki stopnia .0, .1, , .8, .9 powinny wystąpić z prawdopodobieństwem 0,1. Jakość tego przybliżenia powinna być dobra nawet dla bardziej ograniczonego zakresu.

Nawiasem mówiąc, patrzenie na ostatnie cyfry zgłaszanych danych to prosta i dobra metoda sprawdzania sfabrykowanych danych, która jest znacznie łatwiejsza do zrozumienia i mniej problematyczna niż obecnie modna kontrola pierwszych cyfr z odwołaniem do prawa Benforda.

Wynik histogramów powinien być teraz wyraźny. Prezentacja przypominająca kolec może służyć do pokazania, lub bardziej ogólnie, sprawdzenia tego rodzaju drobnej struktury. Oczywiście, jeśli nic interesującego nie jest dostrzegalne, wykres może być mało użyteczny.

Jeden przykład pokazuje wzrost wieku na podstawie spisu ludności z Ghany w 1960 r. Zobacz http://www.stata.com/manuals13/rspikeplot.pdf

Dokonano dobrego przeglądu dystrybucji cyfr końcowych w

Preece, DA 1981. Rozkład ostatnich cyfr w danych. The Statistician 30: 31-60.

Uwaga na temat terminologii: niektóre osoby piszą o unikalnych wartościach zmiennej, kiedy lepiej mówić o odrębnych wartościach zmiennej. Słowniki i przewodniki użytkowania nadal informują, że „unikatowy” oznacza występowanie tylko raz. Tak więc różne zgłaszane przedziały wiekowe populacji mogą wynosić 0, 1, 2 itd., Ale zdecydowana większość tych przedziałów wiekowych nie będzie wyjątkowa dla jednej osoby.

Nick Cox
źródło
4

Nie ma twardego maksymalnego poziomu liczby pojemników na histogramie. Jeśli wykreślana zmienna jest ciągła, można argumentować dla nieskończonej liczby kategorii (a histogram zasadniczo staje się wykresem dywanu).

Liczba punktów w zestawie danych nie jest odpowiednią górną granicą. Rozważ zestaw danych zawierający dwie wartości: 1 i 1000. Posiadanie dwóch pojemników nie byłoby właściwe.

Dwie praktyczne metody określania górnej granicy to: a) Ustalenie podstawowego zaokrąglenia danych. Na przykład, jeśli dane są liczbami całkowitymi, sensowne jest posiadanie przedziałów o szerokości całkowitej. b) Patrząc na maksymalną widoczną rozdzielczość (np. liczbę pikseli w wymiarze poziomym, które można wykorzystać do kreślenia).

Tim
źródło