Jak mogę sprawdzić, czy moje dane, np. Wynagrodzenie, pochodzą z ciągłego wykładniczego rozkładu w R?
Oto histogram mojej próbki:
. Każda pomoc będzie mile widziana!
r
distributions
goodness-of-fit
exponential
zdecydowany
źródło
źródło
fitdistr
w R. Dostosowuje funkcje gęstości prawdopodobieństwa (pdf) na podstawie metody szacowania maksymalnego prawdopodobieństwa (MLE). Szukaj również w tej witrynie terminów, takich jak pdf, fitdistr, mle i podobne pytania. Pamiętaj, że takie pytania prawie wymagają powtarzalnego przykładu, aby uzyskać dobre odpowiedzi. Pomaga także, jeśli pytanie nie dotyczy wyłącznie programowania (co może spowodować, że zostanie ono zawieszone jako nie na temat).Odpowiedzi:
Zrobiłbym to, najpierw oceniając jedyny parametr rozkładu
rate
przy użyciufitdistr
. Nie powie ci to, czy rozkład pasuje, czy nie, więc musisz użyć testu dopasowania . W tym celu możesz użyćks.test
:Z mojego osobistego doświadczenia (chociaż nigdy oficjalnie nigdzie go nie znalazłem, proszę o potwierdzenie lub poprawienie mnie),
ks.test
będzie działać tylko wtedy, gdy najpierw podasz oszacowanie parametru. Nie można pozwolić, aby oszacowała parametry automatycznie, jak np.goodfit
Robi to. Dlatego potrzebujesz tej dwustopniowej proceduryfitdistr
.Aby uzyskać więcej informacji śledzić doskonałe przewodnika Ricci: Oprawa dystrybucje z R .
źródło
Podczas gdy normalnie zalecałbym sprawdzenie wykładniczości za pomocą wykresów diagnostycznych (takich jak wykresy QQ), omówię testy, ponieważ ludzie często ich chcą:
Jak sugeruje Tomas, test Kołmogorowa-Smirnowa nie nadaje się do testowania wykładniczości z nieokreślonym parametrem.
Jeśli jednak dostosujesz tabele do oszacowania parametru, otrzymasz test Lillieforsa dla rozkładu wykładniczego.
Lilliefors, H. (1969), „O teście Kołmogorowa – Smirnowa dla rozkładu wykładniczego o średniej nieznanej”, Journal of American Statistics Association , t. 64 s. 387–389.
Zastosowanie tego testu jest omówione w praktycznych statystykach nieparametrycznych Conovera .
Jednak w D'Agostino & Stephens ' Goodness of Fit Techniques omawiają podobną modyfikację testu Andersona-Darlinga (nieco skośnie, jeśli dobrze pamiętam, ale myślę, że wszystkie wymagane informacje na temat tego, jak podejść do niego w przypadku wykładniczym, to: w książce), a to prawie na pewno będzie miało większą moc w stosunku do interesujących alternatyw.
Wreszcie, można zastosować podejście płynnego testu , jak w książce Rayner & Best ( Smooth Tests of Goodness of Fit , 1990 - chociaż uważam, że jest nowsza, z Thas i „ in R ” dodanymi do tytułu). Przypadek wykładniczy obejmuje również:
JCW Rayner i DJ Best (1990), „Smooth Tests of Goodness of Fit: An Overview”, International Statistics Review , tom. 58, nr 1 (kwiecień 1990), s. 9–17
Cosma Shalizi omawia również sprawne testy w jednym rozdziale notatek z wykładu na temat zaawansowanej analizy danych na studiach licencjackich lub w Ch15 swojej książki Zaawansowana analiza danych z podstawowego punktu widzenia .
W przypadku niektórych z powyższych może być konieczna symulacja rozkładu statystyki testowej; dla innych dostępne są tabele (ale w niektórych z tych przypadków symulacja może być łatwiejsza, a nawet dokładniejsza - tak jak w przypadku testu Lilliefors, ze względu na ograniczony rozmiar symulacji w oryginale).
źródło
Możesz użyć wykresu qq , który jest graficzną metodą do porównania dwóch rozkładów prawdopodobieństwa poprzez wykreślenie ich kwantyli względem siebie.
W R nie ma gotowej funkcji wykresu qq dla rozkładu wykładniczego (przynajmniej wśród funkcji podstawowych). Możesz jednak użyć tego:
Podczas interpretacji wyników: Jeśli dwa porównywane rozkłady są podobne, punkty na wykresie qq będą w przybliżeniu leżeć na linii y = x. Jeśli rozkłady są liniowo powiązane, punkty na wykresie qq będą w przybliżeniu leżeć na linii, ale niekoniecznie na linii y = x.
źródło
qexp
z SSC jest implementacją w puszce.