Jak sprawdzić, czy różnią się dwie (niestandardowe) rozkłady?

13

Czytałem o t-teście Studenta, ale wydaje się on działać, gdy możemy założyć, że oryginalne dystrybucje są normalnie dystrybuowane. W moim przypadku zdecydowanie nie są.

Ponadto, jeśli mam 13 dystrybucji, czy muszę przeprowadzać 13^2testy?

Oto próbka dwóch rozproszeń.  Istnieje 13 dystrybucji.

Martin Velez
źródło
@Glen_b Dane nie są dyskretne. Wartości mieszczą się w zakresie od -2 do 2.
Martin Velez

Odpowiedzi:

19

Istnieje kilka zmysłów, w których „to zależy”.

(Jedną z potencjalnych obaw jest to, że pierwotne dane mogą być dyskretne; należy to wyjaśnić).

  1. w zależności od wielkości próbki, nienormalność może nie być tak dużym problemem jak wszystko w teście t. W przypadku dużych próbek jest co najmniej ogólnie dobra odporność na poziom - Poziomy błędów typu I nie powinny mieć zbyt dużego wpływu, jeśli nie są tak naprawdę dalekie od normy. Moc może być większym problemem w przypadku ciężkich ogonów.

  2. Jeśli szukasz jakichkolwiek różnic w rozkładzie, odpowiedni może być test dobroci dopasowania dla dwóch próbek, taki jak test dla dwóch prób Kołmogorowa-Smirnowa (choć zamiast tego można wykonać inne testy).

  3. Jeśli szukasz różnic typu lokalizacji w rodzinie lokalizacji lub różnic skali w rodzinie skal, a nawet po prostu relacji typu P (X> Y)> P (Y> X), Wilcoxon-Mann-Whitney odpowiedni może być test dwóch próbek.

  4. Możesz rozważyć testy ponownego próbkowania, takie jak testy permutacji lub ładowania początkowego, jeśli znajdziesz odpowiednią statystykę dla rodzaju różnic, na które chcesz mieć wrażliwość.

Ponadto, jeśli mam 13 dystrybucji, czy muszę wykonać testy 13 ^ 2?

No, no .

Po pierwsze, nie trzeba testować vs i vs (drugie porównanie jest zbędne).B B AAB BA

Po drugie, nie trzeba do testu vs .AAA

Te dwie rzeczy zmniejszyły porównania parami ze 169 do 78.

Po trzecie, byłoby znacznie bardziej zwykle (ale nie jest to obowiązkowe) do testu zbiorczo dla wszelkich różnic, a potem, być może, aby spojrzeć na różnice w parami parami post-hoc badania jeśli pierwszy zerowa została odrzucona.

Na przykład zamiast Wilcoxona-Manna-Whitneya, jak w punkcie 3. powyżej, można wykonać test Kruskala-Wallisa, który jest wrażliwy na wszelkie różnice w lokalizacji między grupami.

Istnieją również wersje K-próbki testu Kołmogorowa-Smirnowa , a podobne testy niektórych innych dwóch prób dobroci dopasowania mogą istnieć lub zostać zbudowane.

Istnieją również wersje K próbek prób ponownego próbkowania i testu t (tj. ANOVA, co może być w porządku, jeśli rozmiary próbek są dość duże).


Byłoby naprawdę miło uzyskać więcej informacji o tym, z czym mamy do czynienia i jakie różnice najbardziej Cię interesują; lub w przeciwnym razie, aby zobaczyć wykresy QQ niektórych próbek.

Glen_b - Przywróć Monikę
źródło
(+1) Wystarczy dodać, że test WMW jest interpretowany jako test dominacji stochastycznej, jeśli jesteś przygotowany na założenie, że CDF populacji nie przekracza. Ludzie IMO częściej by tego chcieli, gdyby o tym wiedzieli.
Scortchi - Przywróć Monikę
1
P(X<Y)12
@Glen_b Dane nie są dyskretne. Wartości mieszczą się w zakresie od -2 do 2.
Martin Velez
Wow - ważna informacja! Czy są ograniczone do tego zakresu (2.1 jest niemożliwe), czy też zdarzyło się, że wartości mieszczą się w tym zakresie?
Glen_b
Są ograniczone do tego zakresu.
Martin Velez
5

Tak, myślę, że nie możesz poradzić sobie lepiej niż testowanie każdej dystrybucji względem innych ...

Jeśli uważasz, że twoje pytanie jest związane z tym: Porównanie 2 dystrybucji

Radzimy skorzystać z testu Kołmogorowa-Sminorva lub testu Craméra-von Misesa. Oba są bardzo klasycznymi testami adekwatności.

W R, funkcja ks.testw pakiecie statystyk implementuje pierwszy. Drugi można znaleźć w pakietach takich jak cramer.

Aby dowiedzieć się o tych dwóch testach: http://en.wikipedia.org/wiki/Kolmogorov%E2%80%93Smirnov_test http://en.wikipedia.org/wiki/Cram%C3%A9r%E2%80%93von_Mises_criterion

Muzyka pop
źródło
2

Możesz wypróbować jednokierunkową analizę wariancji Kruskala – Wallisa

„Służy do porównywania więcej niż dwóch próbek, które są niezależne lub niepowiązane”

Naruszenie normalności w ANOVA omówiono w
Rutherford Wprowadzenie do Anova i Ancova: podejście GLM 9.1.2 Naruszenie normalności

Pierwszy wiersz brzmi: „Chociaż większość źródeł podaje, że ANOVA… jest solidna w odniesieniu do naruszeń założenia normalności…”

abbat_VL
źródło
Dzięki! Wydaje się, że należy przeprowadzić ten test przed porównaniem parami.
Martin Velez