Ocena znaczenia różnic w rozkładach

22

Mam dwie grupy danych. Każda z innym rozkładem wielu zmiennych. Próbuję ustalić, czy rozkłady tych dwóch grup różnią się w sposób istotny statystycznie. Mam dane zarówno w postaci surowej, jak i podzielone na grupy, aby łatwiej było sobie radzić z dyskretnymi kategoriami z liczeniem częstotliwości w każdej.

Jakich testów / procedur / metod powinienem użyć, aby ustalić, czy te dwie grupy są znacząco różne i jak to zrobić w SAS lub R (lub Orange)?

Jay Stevens
źródło
2
Czy jesteś zainteresowany tym, czy rozkłady mają inną formę (np. Normalną, poissona itp.), Czy też parametry są różne (np. Średnia lub sd rozkładu normalnego), czy oba?
Jeromy Anglim
Powiązane pytanie: stats.stackexchange.com/questions/9311/…
GaBorgulya 10'11

Odpowiedzi:

15

Uważam, że wymaga to dwukrotnego testu Kołmogorowa – Smirnowa lub podobnego. Dwupróbkowy test Kołmogorowa – Smirnova opiera się na porównaniu różnic w funkcjach rozkładu empirycznego (ECDF) dwóch próbek, co oznacza, że ​​jest wrażliwy zarówno na lokalizację, jak i kształt dwóch próbek. Uogólnia również na formę wielowymiarową.

Ten test można znaleźć w różnych formach w różnych pakietach w języku R, więc jeśli jesteś w zasadzie biegły, wszystko, co musisz zrobić, to zainstalować jeden z nich (np. FBasics ) i uruchomić go na przykładowych danych.

John L. Taylor
źródło
5
Dla R ks.test w domyślnym pakiecie „stats” można przeprowadzić test KS bez instalowania dodatkowych pakietów.
russellpierce
W SAS test KS jest dostępny w proc npar1way. W wersji R oprócz pakietu ks.test()znajduje się nortestpakiet, który zawiera kilka innych testów dostosowawczych.
chl
8

Zadam głupie pytanie konsultanta. Dlaczego chcesz wiedzieć, czy te rozkłady są różne w statystycznie istotny sposób?

Czy to, że dane, których używasz, są reprezentatywnymi próbkami z populacji lub procesów i chcesz ocenić dowody, że te populacje lub procesy różnią się? Jeśli tak, to test statystyczny jest właśnie dla Ciebie. Ale wydaje mi się to dziwnym pytaniem.

Czy jesteś zainteresowany tym, czy naprawdę musisz zachowywać się tak, jakby te populacje lub procesy były różne, niezależnie od prawdy? Wtedy lepiej będzie określić funkcję straty, najlepiej taką, która zwraca jednostki, które są dla ciebie znaczące, i przewidywać oczekiwaną stratę, gdy (a) potraktujesz populacje jako różne i (b) potraktujesz je tak samo. Lub możesz wybrać kwantyl rozkładu strat, jeśli chcesz przyjąć bardziej lub mniej konserwatywną pozycję.

Andrew Robinson
źródło
Twój ton jest trochę ponury i protekcjonalny ... ale masz rację, myślę, że tak naprawdę to, czy naprawdę mogłem założyć, że te dwie dystrybucje są takie same.
Jay Stevens
3
Przepraszam, że nie podoba ci się mój ton. Jeśli chcesz wiedzieć, czy możesz rozsądnie założyć, że te dwa rozkłady są takie same, KS cię wprowadzi w błąd, ponieważ testuje hipotezę zerową, że te dwa rozkłady są takie same.
Andrew Robinson
5

Możesz być zainteresowany zastosowaniem metod dystrybucji względnej. Nazwij jedną grupę grupą odniesienia, a drugą grupą porównania. W podobny sposób jak konstruowanie wykresu prawdopodobieństwa-prawdopodobieństwa, możesz zbudować względny CDF / PDF, który jest stosunkiem gęstości. Tę gęstość względną można wykorzystać do wnioskowania. Jeśli rozkłady są identyczne, oczekujesz jednolitego rozkładu względnego. Istnieją narzędzia graficzne i statystyczne do badania i badania odstępstw od jednolitości.

Dobrym punktem wyjścia do lepszego zrozumienia jest zastosowanie metod relatywnego rozproszenia w R i pakietu reldist w R. Aby uzyskać szczegółowe informacje, należy zapoznać się z książką, Metody relatywnej dystrybucji w naukach społecznych autorstwa Handcocka i Morrisa. Jest też artykuł autorów dotyczący odpowiednich technik.

ars
źródło
2

Jedną miarą różnicy między dwoma rozkładami są kryteria „maksymalnej średniej rozbieżności”, które zasadniczo mierzą różnicę między średnimi empirycznymi próbek z dwóch rozkładów w przestrzeni reprodukcji jądra Hilberta (RKHS). Zobacz ten artykuł „Metoda jądra dla problemu dwóch próbek” .

ebony1
źródło
Ta metoda jest moim zdaniem najbardziej niezawodna, ale mało znana, ponieważ działa równie dobrze, jeśli masz skończoną próbkę do swojej dystrybucji (a zatem twoje dystrybucje próbek nie są całkowicie ciągłe). Działa również z rozkładami wielomianowymi, które dla testu KS są nadal aktywnymi badaniami, o ile mi wiadomo
www3
-1

Nie wiem, jak używać SAS / R / Orange, ale wygląda na to, że test, którego potrzebujesz, to test chi-kwadrat .

Suresh Venkatasubramanian
źródło
Myślałem, że Chi-Sq był przede wszystkim dla danych kategorycznych (tabele zdarzeń) vs. ciągły?
Jay Stevens
1
Hmmm Właściwie to podoba mi się odpowiedź testowa KS lepiej niż moja!
Suresh Venkatasubramanian
1
Nie, to nie jest poprawne.
SmallChess