Powiedzmy, że mam dwie próbki. Jeśli chcę powiedzieć, czy pochodzą one z różnych populacji, mogę przeprowadzić test t. Powiedzmy, że chcę przetestować, czy próbki pochodzą z tej samej populacji. Jak to zrobić? To znaczy, jak obliczyć prawdopodobieństwo statystyczne, że te dwie próbki zostały pobrane z tej samej populacji?
statistical-significance
użytkownik1566200
źródło
źródło
Odpowiedzi:
Testy porównujące rozkłady są testami wykluczającymi. Zaczynają od hipotezy zerowej, że 2 populacje są identyczne, a następnie próbują odrzucić tę hipotezę. Nigdy nie możemy udowodnić, że wartość zerowa jest prawdziwa, po prostu ją odrzuć, więc testów tych nie można naprawdę wykorzystać do wykazania, że 2 próbki pochodzą z tej samej populacji (lub identycznych populacji).
Jest tak, ponieważ mogą występować niewielkie różnice w rozkładach (co oznacza, że nie są identyczne), ale tak małe, że testy nie mogą tak naprawdę znaleźć różnicy.
Rozważ 2 rozkłady, pierwszy jest równomierny od 0 do 1, drugi jest mieszaniną 2 mundurów, więc wynosi 1 między 0 a 0,999, a także 1 między 9999 a 10 (0 gdzie indziej). Tak wyraźnie te rozkłady są różne (pytanie, czy różnica jest znacząca, to kolejne pytanie), ale jeśli weźmiesz próbkę o wielkości 50 z każdej (łącznie 100), istnieje ponad 90% szans, że zobaczysz tylko wartości od 0 do 0,999 i nie widzieć żadnej prawdziwej różnicy.
Istnieją sposoby wykonywania tak zwanego testowania równoważności, w którym pytasz, czy 2 dystrybucje / populacje są równoważne, ale musisz zdefiniować, co uważasz za równoważne. Zwykle pewna miara różnicy mieści się w danym zakresie, tzn. Różnica w 2 średnich jest mniejsza niż 5% średniej z 2 średnich lub statystyka KS jest poniżej określonego poziomu odcięcia, itp. może następnie obliczyć przedział ufności dla statystyki różnicowej (różnica średnich może być tylko przedziałem ufności t, może być konieczne zastosowanie innych metod ładowania, symulacji lub innych metod). Jeśli cały przedział ufności mieści się w „regionie równoważności”, wówczas uznajemy 2 populacje / rozkłady za „równoważne”.
Trudność polega na ustaleniu, jaki powinien być region równoważności.
źródło
http://en.wikipedia.org/wiki/Kolmogorov%E2%80%93Smirnov_test
Zakładając, że twoje próbki pochodzą z ciągłych rozkładów, sugerowałbym test Kołmogorowa-Smirnowa. Można go użyć do przetestowania, czy dwie próbki pochodzą z różnych rozkładów (tak interpretuję twoje wykorzystanie populacji) w oparciu o powiązane z nimi rozkłady empiryczne.
Bezpośrednio z Wikipedii:
Do tego testu można użyć funkcji ks.test w języku R.
Chociaż prawdą jest, że kstest nie testuje jednorodności, argumentowałbym, że jeśli nie odrzucisz wystarczająco dużej próbki (test o dużej mocy), możesz twierdzić, że różnice nie są praktycznie znaczące. Można wnioskować, że jeśli istnieją różnice, prawdopodobnie nie mają one znaczenia (ponownie, przy założeniu dużej próby). Nie można stwierdzić, że pochodzą z tej samej populacji, co inni stwierdzili poprawnie. Biorąc to wszystko pod uwagę, zazwyczaj po prostu graficznie badam dwie próbki pod kątem podobieństwa.
źródło
Możesz użyć „funkcji zmiany biegów”, która sprawdza, czy 2 rozkłady różnią się przy każdym decylu. Choć technicznie jest to test, czy pochodzą one z różnych populacji, a nie z tych samych, jeśli rozkłady nie różnią się w żadnym z decyli, możesz być całkiem pewny, że pochodzą z tej samej populacji, szczególnie jeśli liczebność grup jest duża.
Wizualizuję również 2 grupy: nakładam ich rozkłady i sprawdzam, czy są do siebie podobne, lub lepiej narysuję kilka tysięcy próbek ładowania początkowego z każdej grupy i wykreślę je , ponieważ dałoby to wyobrażenie, czy pochodzą one z tego samego populacja, szczególnie jeśli dana populacja nie jest normalnie podzielona dla danej zmiennej.
źródło