Czytałem, że test Kołmogorowa-Smirnowa nie powinien być stosowany do testowania dobroci dopasowania rozkładu, którego parametry zostały oszacowane na podstawie próbki.
Czy sensowne jest podzielenie mojej próbki na dwie części i wykorzystanie pierwszej połowy do oszacowania parametrów, a drugiej do testu KS?
Z góry dziękuję
estimation
fitting
kolmogorov-smirnov
sortega
źródło
źródło
Odpowiedzi:
Lepszym rozwiązaniem jest obliczenie wartości krytycznej wartości p za pomocą symulacji. Problem polega na tym, że gdy szacuje się parametry na podstawie danych zamiast hipotetycznych wartości, rozkład statystyki KS nie jest zgodny z rozkładem zerowym.
Zamiast tego możesz zignorować wartości p z testu KS i zamiast tego zasymulować kilka zbiorów danych z rozkładu kandydata (z sensownym zestawem parametrów) o tym samym rozmiarze co twoje rzeczywiste dane. Następnie dla każdego zestawu oszacuj parametry i wykonaj test KS, używając parametrów szacunkowych. Wasza wartość p będzie proporcją statystyk testowych z zestawów symulowanych, które są bardziej ekstremalne niż dla oryginalnych danych.
źródło
Podział próbek może być może zmniejszyć problem z rozkładem statystyki, ale go nie usuwa.
Twój pomysł pozwala uniknąć problemu, że szacunki będą „zbyt bliskie” w stosunku do wartości populacji, ponieważ opierają się na tej samej próbie.
Nie unikasz problemu, który wciąż jest szacowany. Rozkład statystyki testowej nie jest tabelaryczny.
W tym przypadku zwiększa współczynnik odrzucania poniżej wartości zerowej, zamiast radykalnie go zmniejszać.
Lepszym wyborem jest skorzystanie z testu, w którym parametry nie są znane, na przykład Shapiro Wilk.
Jeśli jesteś poślubiony testem typu Kołmogorowa-Smirnowa, możesz podejść do testu Lillieforsa.
To znaczy, aby użyć statystyki KS, ale aby rozkład statystyki testowej odzwierciedlał wpływ oszacowania parametrów - symuluj rozkład statystyki testowej przy szacowaniu parametrów. (Nie jest już wolne od dystrybucji, więc potrzebujesz nowych tabel dla każdej dystrybucji).
http://en.wikipedia.org/wiki/Lilliefors_test
Liliefors użyli symulacji dla przypadku normalnego i wykładniczego, ale możesz to łatwo zrobić dla dowolnego określonego rozkładu; w czymś takim jak R to kwestia chwil, aby zasymulować 10 000 lub 100 000 próbek i uzyskać rozkład statystyki testowej poniżej wartości zerowej.
[Alternatywą może być rozważenie Andersona-Darlinga, który ma ten sam problem, ale który - sądząc z książki D'Agostino i Stephensa ( techniki dobroci dopasowania ) wydaje się być mniej wrażliwy na to. Możesz dostosować pomysł Lilliefors, ale sugerują oni stosunkowo prostą korektę, która wydaje się działać całkiem dobrze.]
Ale są jeszcze inne podejścia; istnieją rodziny płynnych testów dobroci dopasowania, np. (np. książka Raynera i Besta), które w wielu konkretnych przypadkach mogą poradzić sobie z oszacowaniem parametrów.
* efekt może być nadal dość duży - być może większy niż normalnie można by uznać za akceptowalny; Momo ma rację, wyrażając zaniepokojenie. Jeśli problemem jest wyższy poziom błędu typu I (i bardziej płaska krzywa mocy), może to nie być poprawa!
źródło
Obawiam się, że to nie rozwiązałoby problemu. Uważam, że problemem nie jest to, że parametry są szacowane z tej samej próbki, ale z dowolnej próbki. Wyprowadzenie zwykłego rozkładu zerowego testu KS nie uwzględnia żadnego błędu oszacowania w parametrach rozkładu odniesienia, ale raczej uznaje je za dane. Zobacz także Durbin 1973, który szczegółowo omawia te problemy i oferuje rozwiązania.
źródło