Porównuję rozkład wielkości drzew na sześciu parach poletek, gdzie jedna poletka została poddana obróbce, a druga kontroli. Używając testu Kołmogorowa-Smirnowa na każdej parze wykresów, stwierdzam, że wynosi od 0,0003707 do 0,75 . Czy istnieją jakieś odpowiednie metody radzenia sobie ze wszystkimi powtórzeniami łącznie, takie jak rozszerzenie próby KS na wiele próbek, czy też istnieje odpowiedni test kontrolny? A może powinienem po prostu wyciągnąć wniosek: „Rozkład wielkości różni się znacznie (p <0,05 ) na 2 parach wykresów i marginalnie ( p = 0,59 ) na jednej parze wykresów”.
nonparametric
kolmogorov-smirnov
N Brouwer
źródło
źródło
Odpowiedzi:
W rzeczywistości istnieje kilka przykładowych testów KS. Np. Próba r Kolmogorova-Smirnova z która, jak sądzę, ma dobrą moc. Przedruk tego pięknego papieru jest dostępny tutaj . Znam również analogi K-próbki z Kołmogorowa-Smirnowa i Cramera-V. Testy Misesa (ale o ile wiem, mają mniej mocy).r≥2
źródło
Istnieje pakiet R kSamples, który daje między innymi nieparametryczny test k-próbki Andersona-Darlinga. Hipoteza zerowa jest taka, że wszystkie k próbek pochodzi z tego samego rozkładu, którego nie trzeba podawać. Może możesz tego użyć.
Mały przykład porównywania próbek normalnych i rozproszonych gamma skalowanych w taki sposób, aby miały tę samą średnią i wariancję:
źródło
Kilka podejść:
Użyj par p-wartości, ale dostosuj je do wielu porównań, używając czegoś takiego jak Bon Bononi lub Fałszywe wskaźniki szybkości wykrywania (pierwsza prawdopodobnie będzie nieco zbyt konserwatywna). Dzięki temu możesz mieć pewność, że te, które wciąż znacznie się różnią, prawdopodobnie nie są wynikiem wielu testów.
Możesz stworzyć ogólny test w smaku KS, znajdując największą odległość między dowolnymi rozkładami, tj. Wykreśl wszystkie empiryczne pliki cdf i znajdź największą odległość od najniższej linii do najwyższej linii, a może średnią odległość lub inny znaczący pomiar. Następnie możesz sprawdzić, czy jest to istotne, wykonując test permutacji: zgrupuj wszystkie dane w 1 dużym pojemniku, a następnie losowo podziel je na grupy o takich samych rozmiarach próbek, jak oryginalne grupy, ponownie oblicz statystyki na permutowanych danych i powtórz proces wiele razy (około 999). Następnie sprawdź, jak oryginalne dane mają się do permutowanych zestawów danych. Jeśli pierwotne statystyki danych mieszczą się w środku permutowanych, nie ma znaczących różnic, ale jeśli są na krawędzi, lub poza którymkolwiek z permutowanych, dzieje się coś ważnego (ale to nie mówi ci, które są różne). Prawdopodobnie powinieneś to wypróbować na symulowanych danych, w których wiesz, że istnieje różnica, która jest wystarczająco duża, aby być interesującym, aby sprawdzić moc tego testu i znaleźć interesujące różnice.
źródło