Mój tekst nieparametryczny, Practical Nonparametric Statistics , często podaje czyste formuły dla oczekiwań, wariancji, statystyk testowych itp., Ale zawiera zastrzeżenie, że działa to tylko wtedy, gdy zignorujemy więzi. Przy obliczaniu statystyki U Manna-Whitneya zaleca się, abyś wyrzucał związane pary podczas porównywania większych.
Rozumiem, że więzi tak naprawdę nie mówią nam wiele o tym, która populacja jest większa (jeśli to nas interesuje), ponieważ żadna grupa nie jest większa od drugiej, ale nie wydaje się, żeby miało to znaczenie przy opracowywaniu rozkładów asymptotycznych.
Dlaczego więc takie rozterki wiążą się z niektórymi nieparametrycznymi procedurami? Czy istnieje sposób na wydobycie użytecznych informacji z więzi, zamiast po prostu ich wyrzucić?
EDYCJA: W odniesieniu do komentarza @ whuber ponownie sprawdziłem źródła, a niektóre procedury używają średniej rang zamiast całkowicie upuszczać powiązane wartości. Chociaż wydaje się to rozsądniejsze w odniesieniu do zatrzymywania informacji, wydaje mi się również, że brakuje jej rygoru. Duch pytania pozostaje jednak niezmienny.
źródło
Odpowiedzi:
Większość prac nad parametrami nieparametrycznymi została pierwotnie wykonana przy założeniu ciągłego rozkładu leżącego u podstaw, w którym powiązania byłyby niemożliwe (jeśli byłyby wystarczająco dokładnie zmierzone). Teorię można następnie oprzeć na rozkładach statystyk zamówień (które są znacznie prostsze bez powiązań) lub innych formuł. W niektórych przypadkach statystyki wydają się być w przybliżeniu normalne, co sprawia, że wszystko jest naprawdę łatwe. Kiedy więzi są wprowadzane albo z powodu zaokrąglenia danych, albo z natury dyskretnych, standardowe założenia się nie sprawdzają. Przybliżenie może być w niektórych przypadkach wystarczające, ale nie w innych, więc często najłatwiej jest po prostu ostrzec, że te formuły nie działają z powiązaniami.
Istnieją narzędzia do niektórych standardowych testów nieparametrycznych, które opracowały dokładny rozkład w przypadku obecności wiązań. Pakiet exactRankTests dla R jest jednym przykładem.
Jednym prostym sposobem radzenia sobie z powiązaniami jest użycie testów losowych, takich jak testy permutacji lub ładowanie początkowe. Nie martwią się one rozkładami asymptotycznymi, ale wykorzystują dane takie, jakie są, więzi i tak dalej (zauważ, że przy wielu powiązaniach nawet te techniki mogą mieć niską moc).
Kilka lat temu był artykuł (myślałem w American Statistician, ale go nie znajduję), który omawiał idee więzi i niektóre rzeczy, które możesz z nimi zrobić. Jedna kwestia polega na tym, że zależy to od pytania, które zadajesz, co zrobić z więzami może być bardzo różny w teście wyższości w porównaniu z testem nie-niższości.
źródło