Jeśli chcemy wyraźnie zobaczyć rozkład danych ciągłych, który z histogramu i pdf powinien zostać użyty?
Jakie są różnice między histogramem a pdf, a nie pod względem formuły?
distributions
pdf
histogram
csgillespie
źródło
źródło
Odpowiedzi:
Aby wyjaśnić punkt Dirksa:
Powiedz, że twoje dane są próbką normalnego rozkładu. Możesz skonstruować następujący wykres:
Czerwona linia jest oszacowaniem gęstości empirycznej, niebieska linia to teoretyczne pdf podstawowego rozkładu normalnego. Zauważ, że histogram jest tutaj wyrażony w gęstościach, a nie w częstotliwościach. Odbywa się to w celach kreślenia, na ogół częstotliwości są używane w histogramach.
Aby odpowiedzieć na twoje pytanie: używasz rozkładu empirycznego (tj. Histogramu), jeśli chcesz opisać swoją próbkę, i pdf, jeśli chcesz opisać hipotetyczny rozkład leżący u podstaw.
Wykres jest generowany przez następujący kod w R:
źródło
Histogram to szacunkowa gęstość wieku sprzed komputera. Szacowanie gęstości jest alternatywą.
Obecnie używamy obu tych elementów i istnieje bogata literatura na temat tego, które wartości domyślne należy zastosować.
Z drugiej strony pdf jest wyrażeniem o zamkniętej formie dla danej dystrybucji. Różni się to od opisu zestawu danych z szacunkową gęstością lub histogramem.
źródło
density
*ab*
**ab**
$\sqrt{2}$
Nie ma tutaj twardej i szybkiej zasady. Jeśli znasz gęstość swojej populacji, to PDF jest lepszy. Z drugiej strony często mamy do czynienia z próbkami, a histogram może przekazywać pewne informacje, które pokrywa szacunkowa gęstość. Na przykład Andrew Gelman mówi o tym:
źródło
Histogram częstotliwości względnej ( dyskretny )
Histogram gęstości ( dyskretny )
Funkcja gęstości prawdopodobieństwa PDF ( ciągły )
Te odniesienia były pomocne :) http://stattrek.com/statistics/dictionary.aspx?definition=Probability_density_function
Continuous_probability_distribution z powyższej strony
http://www.geog.ucsb.edu/~joel/g210_w07/lecture_notes/lect04/oh07_04_1.html
źródło