Sprawdź różnicę między 2 empirycznymi dyskretnymi rozkładami

14

Mam dane testowe, w których mam kilka dużych próbek z rozkładów dyskretnych, których używam jako rozkłady empiryczne. Chcę przetestować, czy rozkłady są rzeczywiście różne i jaka jest różnica w średnich dla tych rozkładów, które są naprawdę różne.

Ponieważ są to rozkłady dyskretne, rozumiem, że test Kołmogorowa-Smirnowa jest nieważny z uwagi na założenie ciągłego rozkładu. Czy test chi-kwadrat byłby prawidłowym testem dla tego, czy rozkłady są faktycznie różne?

Jakiego testu użyłbym dla różnicy średnich? Czy lepszym rozwiązaniem byłoby pobranie próbki z rozkładów i wzięcie różnicy, a następnie przeprowadzenie analizy rozkładu różnicy?

Wallhood
źródło
χ2)
Dziękuję za zwrotną informację. Czy istnieje test na jaką różnicę oznacza, kiedy test chi-kwadrat potwierdza, że ​​rozkłady są różne?
Wallhood
Czy lepszym rozwiązaniem byłoby pobranie próbek z rozkładów i wzięcie różnicy, a następnie przeprowadzenie analizy różnicy?
Wallhood

Odpowiedzi:

13

1) Nadal można używać Kołmogorowa-Smirnowa, ale jeśli użyjesz tabelarycznych wartości krytycznych, będzie on konserwatywny (co stanowi jedynie problem, ponieważ przesuwa twoją krzywą mocy). Lepiej uzyskać rozkład permutacji statystyki, aby poziomy istotności były takie, jak je wybierzesz. To zrobi dużą różnicę tylko wtedy, gdy będzie dużo więzi. Ta zmiana jest naprawdę łatwa do wdrożenia. (Ale test KS nie jest jedynym możliwym takim porównaniem; jeśli i tak oblicza się rozkład permutacji, istnieją inne możliwości.)

2) waniliowe chi-kwadratowe testy dopasowania dla dyskretnych danych są, moim zdaniem, naprawdę złym pomysłem. Jeśli powyższa potencjalna utrata mocy zatrzymała cię przy użyciu testu KS, problem z chi-kwadratem jest często znacznie gorszy - wyrzuca najbardziej krytyczną informację, jaką jest uporządkowanie między kategoriami (wartości obserwacyjne), deflując jej moc poprzez rozłożenie go na alternatywy, które nie biorą pod uwagę kolejności, aby gorzej było wykrywać płynne alternatywy - na przykład zmianę lokalizacji i skali). Nawet przy złych skutkach ciężkich powiązań powyżej test KS w wielu przypadkach wciąż ma lepszą moc (jednocześnie obniżając poziom błędu Typu I).

Chi-kwadrat można również zmodyfikować w celu uwzględnienia kolejności (podziel chisquare na komponenty liniowe, kwadratowe, sześcienne itp. Za pomocą ortogonalnych wielomianów i używaj tylko kilku wyrazów niskiego rzędu - od 4 do 6 są powszechnymi wyborami). Artykuły Raynera i Besta (i innych) omawiają to podejście, które wynika z płynnych testów Neymana-Bartona. Jest to dobre podejście, ale jeśli nie masz dostępu do oprogramowania, jego konfiguracja może trochę potrwać.

Każde zmodyfikowane podejście powinno być w porządku, ale jeśli nie zamierzasz modyfikować żadnego z podejść, niekoniecznie jest tak, że chi-kwadrat będzie lepszy niż test KS - w niektórych sytuacjach może być lepszy ... lub może być znacznie gorzej.

Jeśli więzi nie są ciężkie (tzn. Dane zawierają wiele różnych wartości), uważam KS za niezmienione. Jeśli są umiarkowane, chciałbym obliczyć rozkład permutacji. Jeśli są bardzo ciężkie (tzn. Dane przyjmują tylko kilka różnych wartości), zwykły chi-kwadrat może być konkurencyjny.

Glen_b - Przywróć Monikę
źródło
Dziękuję za ostrzeżenie. Wezmę to pod uwagę, gdy zdecyduję się zastosować test KS lub Chi-Squared
Wallhood