Różnica między histogramem a pdf?

18

Jeśli chcemy wyraźnie zobaczyć rozkład danych ciągłych, który z histogramu i pdf powinien zostać użyty?

Jakie są różnice między histogramem a pdf, a nie pod względem formuły?

csgillespie
źródło
Czy możesz wyjaśnić, czy to pytanie dotyczy danych (których rozkład może być reprezentowany przez histogram) lub konstrukcji teoretycznych (takich jak pdf, który opisuje rozkład prawdopodobieństwa).
whuber
4
Ale skąd pochodzi pdf? Z definicji pdf opisuje teoretyczny rozkład prawdopodobieństwa. Czy masz na myśli edf (empiryczną funkcję dystrybucji)?
whuber

Odpowiedzi:

22

Aby wyjaśnić punkt Dirksa:

Powiedz, że twoje dane są próbką normalnego rozkładu. Możesz skonstruować następujący wykres:

alternatywny tekst

Czerwona linia jest oszacowaniem gęstości empirycznej, niebieska linia to teoretyczne pdf podstawowego rozkładu normalnego. Zauważ, że histogram jest tutaj wyrażony w gęstościach, a nie w częstotliwościach. Odbywa się to w celach kreślenia, na ogół częstotliwości są używane w histogramach.

Aby odpowiedzieć na twoje pytanie: używasz rozkładu empirycznego (tj. Histogramu), jeśli chcesz opisać swoją próbkę, i pdf, jeśli chcesz opisać hipotetyczny rozkład leżący u podstaw.

Wykres jest generowany przez następujący kod w R:

x <- rnorm(100)
y <- seq(-4,4,length.out=200)

hist(x,freq=F,ylim=c(0,0.5))
lines(density(x),col="red",lwd=2)
lines(y,dnorm(y),col="blue",lwd=2)
Joris Meys
źródło
jaka jest różnica między częstotliwością a gęstością?
Lakshay
2
@Lakshay częstotliwość są zliczane. Wszystkie zsumowane częstotliwości są równe liczbie obserwacji. Gęstość jest skrótem od PDF (funkcja gęstości prawdopodobieństwa), która jest wskaźnikiem prawdopodobieństwa posiadania pewnej wartości. Obszar pod PDFem wynosi 1.
Joris Meys
13

Histogram to szacunkowa gęstość wieku sprzed komputera. Szacowanie gęstości jest alternatywą.

Obecnie używamy obu tych elementów i istnieje bogata literatura na temat tego, które wartości domyślne należy zastosować.

Z drugiej strony pdf jest wyrażeniem o zamkniętej formie dla danej dystrybucji. Różni się to od opisu zestawu danych z szacunkową gęstością lub histogramem.

Dirk Eddelbuettel
źródło
1
μσ2)density
*ab***ab**$\sqrt{2}$2)
6

Nie ma tutaj twardej i szybkiej zasady. Jeśli znasz gęstość swojej populacji, to PDF jest lepszy. Z drugiej strony często mamy do czynienia z próbkami, a histogram może przekazywać pewne informacje, które pokrywa szacunkowa gęstość. Na przykład Andrew Gelman mówi o tym:

Wariacje na histogramie

Kluczową zaletą histogramu jest to, że jako wykres surowych danych zawiera on ziarna własnej oceny błędów. Innymi słowy, postrzępienie lekko niedopasowanego histogramu jest użyteczną usługą poprzez wizualne wskazanie zmienności próbkowania. Dlatego, jeśli spojrzysz na histogramy w moich książkach i opublikowanych artykułach, prawie zawsze używam wielu pojemników. Niemal nigdy też nie lubię szacunków gęstości jądra, których ludzie czasami używają do wyświetlania jednowymiarowych rozkładów. Wolę zobaczyć histogram i wiedzieć, gdzie są dane.

ars
źródło
3
Muszę przyznać, że nigdy nie rozumiem w pełni, dlaczego Gelman zaleca stosowanie histogramu o małej szerokości pojemnika; dlaczego nie skorzystać z wykresu stripchart lub surowych danych z nałożonymi szacunkami gęstości jądra, które znacznie lepiej przekazują empiryczny rozkład obserwowanych danych?
chl
2
@chl: Istnieją oczywiście inne dobre metody wizualizacji, aby uzyskać poczucie zmienności próbkowania. Ale przy węższym porównaniu histogramu v. Pdf, o którym tu dyskutujemy, uważam, że jego argument jest słuszny.
ars
1
to fajny link, podobnie jak omawiane tam artykuły. Ale czy to podejście dotyczy symulacji, w którym to przypadku próbujemy oszacować gęstość?
David LeBauer
1

Histogram częstotliwości względnej ( dyskretny )

  • Oś „y” jest liczbą znormalizowaną
  • Oś „y” jest dyskretnym prawdopodobieństwem dla tego konkretnego przedziału / zakresu
  • Znormalizowane zliczenia sumują się do 1

Histogram gęstości ( dyskretny )

  • Oś „y” to wartość gęstości („liczba znormalizowana” podzielona przez „szerokość przedziału”)
  • Pola kreskowe sumują się do 1

Funkcja gęstości prawdopodobieństwa PDF ( ciągły )

  • PDF jest ciągłą wersją histogramu, ponieważ przedziały histogramu są dyskretne
  • całkowity obszar pod krzywą łączy się z 1

Te odniesienia były pomocne :) http://stattrek.com/statistics/dictionary.aspx?definition=Probability_density_function

Continuous_probability_distribution z powyższej strony

http://www.geog.ucsb.edu/~joel/g210_w07/lecture_notes/lect04/oh07_04_1.html

Harsha Manjunath
źródło