Jak sprawdzić, czy próbka danych pasuje do rodziny dystrybucji gamma?

Mam próbkę danych, która została wygenerowana z ciągłej zmiennej losowej X. I z histogramu, który rysuję za pomocą R, myślę, że może rozkład X jest zgodny z pewnym rozkładem gamma. Ale nie znam dokładnych parametrów tego rozkładu gamma.

Moje pytanie brzmi: jak sprawdzić, czy rozkład X należy do rodziny rozkładów gamma? Istnieje pewna przydatność testów dopasowania, takich jak test Kołmogorowa-Smirnowa, test Andersona-Darlinga itd., Ale jednym z ograniczeń przy stosowaniu tych testów jest to, że parametry rozkładu teoretycznego powinny być znane z góry. Czy ktoś mógłby mi powiedzieć, jak rozwiązać ten problem?

distributions hypothesis-testing goodness-of-fit gamma-distribution użytkownik8363
źródło

Być może czegoś mi brakuje, ale jeśli znasz już test do testowania dopasowania rozkładu, a wszystko, co musisz wiedzieć, to wartości teoretycznego rozkładu, możesz po prostu użyć estymatorów maksymalnego prawdopodobieństwa parametrów gamma dystrybucja danych, aby uzyskać oszacowanie parametrów. Następnie można użyć tych szacunków do zdefiniowania teoretycznego rozkładu w teście.

David

David, dziękuję za twoją odpowiedź. Odpowiedź jest również tym, o czym myślałem, ale nie jestem pewien, czy istnieją jakieś teorie, które mogą wspierać ten pomysł, czy możesz mi odpowiedzieć?

user8363

Jeśli używasz R, możesz zainteresować się pakietem fitdistrplus , który ma możliwości robienia takich rzeczy.

gung - Przywróć Monikę

Odpowiedzi:

Myślę, że pytanie wymaga dokładnego testu statystycznego, a nie porównania histogramu. Przy stosowaniu testu Kołmogorowa-Smirnowa z parametrami szacunkowymi rozkład statystyki testu pod wartością zerową zależy od badanego rozkładu, w przeciwieństwie do przypadku bez parametru szacunkowego. Na przykład przy użyciu (w R)

x <- rnorm(100)
ks.test(x, "pnorm", mean=mean(x), sd=sd(x))

prowadzi do

        One-sample Kolmogorov-Smirnov test

data:  x 
D = 0.0701, p-value = 0.7096
alternative hypothesis: two-sided

póki dostaniemy

> ks.test(x, "pnorm")

        One-sample Kolmogorov-Smirnov test

data:  x 
D = 0.1294, p-value = 0.07022
alternative hypothesis: two-sided

dla tej samej próbki x. Poziom istotności lub wartość p należy zatem ustalić za pomocą symulacji Monte Carlo pod wartością zerową, uzyskując rozkład statystyki Kołmogorowa-Smirnowa z próbek symulowanych w ramach szacowanego rozkładu (z niewielkim przybliżeniem wyniku, biorąc pod uwagę, że obserwowana próbka pochodzi z innej dystrybucji, nawet poniżej wartości zerowej).

Xi'an
źródło

(+1) Nie rozumiem, dlaczego symulowanie próbek w ramach szacowanego rozkładu jest poprawne. Sądzę, że potrzebowaliśmy wcześniej parametrów i próbki ze wszystkich możliwych dystrybucji ... czy możesz wyjaśnić coś więcej?

Elvis

Xi'an, twoja odpowiedź jest dokładnie tym, o co się martwiłem. Masz na myśli, że „Przy zastosowaniu testu Kołmogorowa-Smirnowa z parametrami szacunkowymi rozkład statystyki testu pod wartością zerową zależy od badanego rozkładu”. Nie znamy jednak rozkładu X, a ściślej nie znamy parametru rozkładu X w ramach hipotezy zerowej, stąd rozkład statystyki testowej, dlatego używamy Monte Carlo. Czy masz jakieś inne sposoby rozwiązania tego problemu, nie używając Monte Carlo, aby uzyskać wartość P? Dziękuję

user8363

Biorąc pod uwagę fakt, że „obserwowana próbka pochodzi z innego rozkładu nawet poniżej wartości zerowej”, czy nie byłoby właściwe ładowanie próbki, ponownie oceniając parametry przy każdej replikacji?

Elvis

@Elvis (1): to klasyczne statystyki, a nie bayesowskie rozwiązanie problemu dobroci dopasowania. W przypadku rozkładów z parametrami w skali lokalizacji wybór parametrów używanych do symulacji symulowanych próbek nie ma znaczenia.

Xi'an

@Elvis (2): Znów coś, co właśnie przedyskutowałem z moimi uczniami! Bootstrap pomógłby w ocenie zachowania odległości Kołmogorowa-Smirnowa przy prawdziwym rozkładzie danych, a nie pod zerą! Zasada Fishera-Neymana-Pearsona polega na tym, że ważne jest zachowanie odległości Kołmogorowa-Smirnowa pod wartością zerową, tak że jest ona odrzucana, jeśli obserwowana odległość jest zbyt ekstremalna względem tego rozkładu pod wartością zerową.

Xi'an

Oblicz MLE parametrów przyjmujących rozkład gamma dla danych i porównaj gęstość teoretyczną z histogramem danych. Jeśli oba są bardzo różne, rozkład gamma jest słabym przybliżeniem twoich danych. Do testu formalnego można na przykład obliczyć statystykę testu Kołmogorowa-Smirnoffa, porównując najlepiej dopasowany rozkład gamma z rozkładem empirycznym i test na istotność.

Makro
źródło

+1, to solidna odpowiedź. Sugerowałbym jednak zbadanie wykresu qq w stosunku do teoretycznej gamma zamiast histogramu - łatwiej będzie ocenić odchylenia.

Gung - Przywróć Monikę

Problem polega na tym, że test KS zakłada teoretyczny rozkład, który należy podać wcześniej, a nie oszacować go na podstawie danych. Xi'an (częściowo) odpowiedział na ten punkt ...

Elvis

masz na myśli, że najpierw używamy tej próbki danych do uzyskania estymatora MLS i używamy wartości estymatora MLS w rozkładzie gamma, a następnie porównujemy dane z rozkładem gamma (z oszacowanym parametrem) za pomocą testu KS?

user8363

Elvis, czy mógłbyś mi powiedzieć, jak rozwiązać problem, gdy parametr rozkładu teoretycznego jest nieznany i wymaga oszacowania. W tym przypadku, jak można użyć testu KS, aby uzyskać względnie dokładną ocenę hipotezy, dziękuję!

user8363

@Elvis: Nie sądzę, aby dokładne wyprowadzenie było możliwe w przypadku rozkładu gamma. Sam plik cdf nie jest dostępny w formie zamkniętej. Ponadto fakt, że parametr kształtu nie jest skalą ani lokalizacją, oznacza, że dla każdej wartości parametru kształtu istnieje inny rozkład ...

Xi'an