Właśnie przeczytałem w dość szanowanym (popularnym) magazynie naukowym (niemiecki premier, 02/2013, s. 36) o ciekawym eksperymencie (niestety bez źródła). Przyciągnęło to moją uwagę, ponieważ intuicyjnie wątpiłem w znaczenie wyniku, ale dostarczone informacje były wystarczające do odtworzenia testów statystycznych.
Naukowcy zastanawiali się, czy przeziębienie w zimne dni zwiększa szanse na przeziębienie. Tak więc losowo podzielili grupę 180 uczniów na dwie grupy. Jedna grupa musiała trzymać stopy w zimnej wodzie przez 20 minut. Drugi trzymali buty. To chyba zabawna manipulacja, ale z drugiej strony nie jestem lekarzem, a może lekarze myślą śmiesznie. Pomijając kwestie etyczne.
Tak czy inaczej, po 5 dniach 13 uczniów w grupie leczonej przeziębiło się, ale tylko 5 w grupie, która trzymała buty. Iloraz szans w tym eksperymencie wynosi zatem 2,87.
Biorąc pod uwagę dość małą wielkość próby, zacząłem się zastanawiać, czy ta różnica może być znacząca. Przeprowadziłem więc dwa testy.
Najpierw prosty test równości proporcji z wykorzystaniem normalnego przybliżenia. Ten test ma przy . Domyślam się, że to właśnie przetestowali badacze. To jest naprawdę po prostu znaczące. Jednak ten test Z jest ważny tylko w dużych próbkach, o ile się nie mylę, ze względu na normalne przybliżenie. Ponadto wskaźniki rozpowszechnienia są raczej niewielkie i zastanawiam się, czy nie może to wpłynąć na wskaźnik pokrycia przedziału ufności efektu.p = 0,0468
Tak więc moją drugą próbą był test niezależności chi-kwadrat, zarówno z symulacją Monte-Carlo, jak i ze standardowym chi-kwadrat Pearsona. Tutaj znajduję p-wartości zarówno o .
Teraz nie jest to takie uspokajające w odniesieniu do wyników. Zastanawiałem się, czy istnieje więcej opcji testowania tych danych i jakie są twoje przemyślenia na temat dwóch testów (w szczególności założenia pierwszego, istotnego testu)
Odpowiedzi:
Chciałbym użyć testu permutacji zamiast obu Normal zbliżenia lub chi-kwadrat. Test permutacji jest dokładny i najsilniejszy, zależny od danych.
W takim przypadku nie możemy obliczyć wszystkich permutacji grup, ale możemy wygenerować wiele losowych permutacji danych i uzyskać dość dokładną wartość:
co oznaczałoby wartość p wynoszącą 0,039.
JEDNAK, a to jest duże, jednak zgaduję, że załamanie założenia, że badani przeziębili się są niezależnymi zdarzeniami, zostało naruszone. Osoby te są uczniami, prawdopodobnie w tej samej szkole. Wyobraź sobie, że dwóch z nich dzieli klasę, akademik, inną działalność lub kafeterię (w szkole z wieloma kawiarniami); wydarzenia „# 1 przeziębienia” i „# 2 przeziębienia” nie są niezależne. Mogłem sobie wyobrazić, że uczeń powiedziałby „zapisz się na ten eksperyment!” do swojego współlokatora lub przyjaciół; Mogłem sobie wyobrazić, że studentów rekrutowano z zajęć prowadzonych przez profesorów; Mogłem sobie wyobrazić wiele sposobów naruszenia założenia niezależności. Być może artykuł, którego nie przeczytałem, odnosi się do niektórych z nich, ale trudno jest zrozumieć, w jaki sposób mógłby rozwiązać je wszystkie,
źródło
@jbowman dał ci dobrą opcję. Myślałem, że mogę podać kilka informacji na temat swoich wyraźnych pytań o stosowności -test vs. testu. χ 2z χ2
Istnieją dwa obawy co do stosowności używając -test, zarówno czasowo, czy zakłada dystrybucję próbek jest poprawna. Po pierwsze, test- używa rozkładu normalnego zamiast rozkładu- , co oznacza, że odchylenia standardowe są znane bez błędu próbkowania. Po drugie, rozkład próbkowania jest ciągły, ale dane są dyskretne; ponieważ możliwe są tylko niektóre kombinacje danych, możliwe są tylko pewne uzyskane wartości statystyki testowej, które mogą nie odpowiadać teoretycznemu rozkładowi próbkowania. (Omawiam ten problem w kontekście innych testów tutaj: Porównywanie i kontrastowanie, wartości p, poziomy istotności i błąd typu I. )z z t
Rozważmy pierwszą kwestię w innym kontekście. Jeśli masz dwie grupy z normalnie rozłożonymi danymi i chcesz sprawdzić, czy średnie są równoważne, musisz obliczyć zarówno średnie, jak i odchylenia standardowe. Teraz wiemy, że środki są narażone na błąd próbkowania, dlatego musimy wykonać test, a nie tylko powiedzieć, że te dwa średnie próbki nie są identyczne. Jednak nasze szacunki odchyleń standardowych również muszą być obarczone błędem próbkowania i musimy w jakiś sposób wziąć to pod uwagę. Kiedy to robimy, okazuje się, że statystyka testowa (rodzaj skalowanej średniej różnicy) jest rozkładana jako . Jeśli zamiast tego użyjemy rozkładu normalnego (tj.t z -test), oznaczałoby to, że zakładamy, że nasze szacunki odchyleń standardowych są bezbłędne - idealne. Więc dlaczego z ewentualnego -test być stosowany w przypadku? Powodem jest to, że twoje dane są dwumianowe (tj. Liczba „sukcesów” ze znanej sumy „prób”), a nie normalne. W rozkładzie dwumianowym odchylenie standardowe jest funkcją średniej, więc po oszacowaniu średniej nie ma dodatkowej niepewności, o którą trzeba się martwić. Zatem rozkład normalny może być wykorzystany jako model rozkładu próbkowania statystyki testowej. z
Chociaż użycie rozkładu normalnego do zrozumienia długoterminowego zachowania statystyki testowej jest technicznie poprawne, pojawia się inny problem. Problem polega na tym, że rozkład normalny jest ciągły, ale ponieważ dane są dyskretne, nie wszystkie wartości w rozkładzie teoretycznym można znaleźć w zbiorze danych. (Znowu omówić ten problem w znacznie bardziej szczegółowo w wyżej połączonej odpowiedzi.) Na szczęście, mecz pomiędzy możliwych wyników swoich danych oraz teoretycznego rozkładu normalnego próbkowania lepiej tym większy . W twoim przypadku, niezależnie od prawdziwych prawdopodobieństw leżących u podstaw, możesz osiągnąć tyle samo sukcesów, albo tak mało jak w każdej grupie. Oznacza to, że liczba możliwych kombinacji wynosiN 91×91=1,729 , co daje wiele możliwości. Przy małym zestawie danych naprawdę możesz napotkać niektóre rodzaje problemów, które omawiam w mojej połączonej odpowiedzi, ale przy nie musisz się zbytnio przejmować. Wierzę, że -test był ważny wybór dla badaczy. N=180 z
Ale co z testem ? Myślę, że to również słuszny wybór, ale nie byłby to mój pierwszy wybór. (Pragnę zauważyć, że drugi problem omówiony powyżej - niedopasowanie między danymi dyskretnymi a ciągłym rozkładem odniesienia - dotyczy tak samo jak i testu , więc istnieje tutaj nie ma przewagi). Problem zχ2 χ2 z χ2 -test polega na tym, że nie zakłada się, że istnieje coś specjalnego w sumach kolumn w stosunku do sum wierszy; oba są traktowane tak, jakby mogły być innymi możliwymi wartościami. Nie odzwierciedla to jednak dokładnie konfiguracji eksperymentalnej. Było 180 osób, a do każdej grupy przydzielono 90 osób. Jedyną rzeczą, która naprawdę różni się w powtarzanych identycznych badaniach, jest liczba osób, które przeziębiły się w każdej grupie. -test niepoprawny traktuje zarówno liczba przeziębień i liczba osób w każdej grupie tak, jakby mogli zmianie, ale -test uzależnia prawo założenie. Dlatego -test ma większą moc tutaj. χ2 z z
Co do wartości, test permutacji sugerowany przez @jbowman również dobrze uwzględnia ten aspekt twojego projektu i nie cierpi z powodu dyskretnego ciągłego niedopasowania. Jest to zatem najlepsza opcja. Pomyślałem jednak, że możesz chcieć dowiedzieć się nieco więcej o porównaniu testów i w twojej sytuacji.z χ2
źródło