Test vs -test do porównywania szans na przeziębienie w 2 grupach

12

Właśnie przeczytałem w dość szanowanym (popularnym) magazynie naukowym (niemiecki premier, 02/2013, s. 36) o ciekawym eksperymencie (niestety bez źródła). Przyciągnęło to moją uwagę, ponieważ intuicyjnie wątpiłem w znaczenie wyniku, ale dostarczone informacje były wystarczające do odtworzenia testów statystycznych.

Naukowcy zastanawiali się, czy przeziębienie w zimne dni zwiększa szanse na przeziębienie. Tak więc losowo podzielili grupę 180 uczniów na dwie grupy. Jedna grupa musiała trzymać stopy w zimnej wodzie przez 20 minut. Drugi trzymali buty. To chyba zabawna manipulacja, ale z drugiej strony nie jestem lekarzem, a może lekarze myślą śmiesznie. Pomijając kwestie etyczne.

Tak czy inaczej, po 5 dniach 13 uczniów w grupie leczonej przeziębiło się, ale tylko 5 w grupie, która trzymała buty. Iloraz szans w tym eksperymencie wynosi zatem 2,87.

Biorąc pod uwagę dość małą wielkość próby, zacząłem się zastanawiać, czy ta różnica może być znacząca. Przeprowadziłem więc dwa testy.

Najpierw prosty test równości proporcji z wykorzystaniem normalnego przybliżenia. Ten test ma przy . Domyślam się, że to właśnie przetestowali badacze. To jest naprawdę po prostu znaczące. Jednak ten test Z jest ważny tylko w dużych próbkach, o ile się nie mylę, ze względu na normalne przybliżenie. Ponadto wskaźniki rozpowszechnienia są raczej niewielkie i zastanawiam się, czy nie może to wpłynąć na wskaźnik pokrycia przedziału ufności efektu.p = 0,0468z=1.988p=0.0468

Tak więc moją drugą próbą był test niezależności chi-kwadrat, zarówno z symulacją Monte-Carlo, jak i ze standardowym chi-kwadrat Pearsona. Tutaj znajduję p-wartości zarówno o .p=.082

Teraz nie jest to takie uspokajające w odniesieniu do wyników. Zastanawiałem się, czy istnieje więcej opcji testowania tych danych i jakie są twoje przemyślenia na temat dwóch testów (w szczególności założenia pierwszego, istotnego testu)

tomka
źródło
Uważam, że wykonałeś korektę ciągłości statystyki chi-kwadrat Pearsona, która uwzględnia rozbieżność wartości p.
Scortchi - Przywróć Monikę

Odpowiedzi:

13

Chciałbym użyć testu permutacji zamiast obu Normal zbliżenia lub chi-kwadrat. Test permutacji jest dokładny i najsilniejszy, zależny od danych.

W takim przypadku nie możemy obliczyć wszystkich permutacji grup, ale możemy wygenerować wiele losowych permutacji danych i uzyskać dość dokładną wartość:

group <- c(rep("A",90),rep("B",90))
n_a <- rep(0,100000)
for (i in 1:length(n_a)) {
   temp <- sample(group, size=18)
   n_a[i] <- sum(temp == "A")
}
> mean(n_a >= 13)
[1] 0.03904

co oznaczałoby wartość p wynoszącą 0,039.

JEDNAK, a to jest duże, jednak zgaduję, że załamanie założenia, że ​​badani przeziębili się są niezależnymi zdarzeniami, zostało naruszone. Osoby te są uczniami, prawdopodobnie w tej samej szkole. Wyobraź sobie, że dwóch z nich dzieli klasę, akademik, inną działalność lub kafeterię (w szkole z wieloma kawiarniami); wydarzenia „# 1 przeziębienia” i „# 2 przeziębienia” nie są niezależne. Mogłem sobie wyobrazić, że uczeń powiedziałby „zapisz się na ten eksperyment!” do swojego współlokatora lub przyjaciół; Mogłem sobie wyobrazić, że studentów rekrutowano z zajęć prowadzonych przez profesorów; Mogłem sobie wyobrazić wiele sposobów naruszenia założenia niezależności. Być może artykuł, którego nie przeczytałem, odnosi się do niektórych z nich, ale trudno jest zrozumieć, w jaki sposób mógłby rozwiązać je wszystkie,

łucznik
źródło
Dzięki @jbowman - oprócz tego przeprowadziłeś jednostronny test, rozumiem. Myślę, że ma to większy sens niż testy dwustronne, które zastosowałem. Jeśli normalne przybliżenie jest wykonywane jednostronnie, wartości p wynoszą 0,023 powyżej. Lubię poit o niezależności. Prawdopodobnie studenci również nie byli izolowani, gdy trzymali stopy w wodzie, więc jest to również sposób na przekazanie przeziębienia.
tomka
(+1) Warto jednak zauważyć, że nie trzeba przeprowadzać symulacji: rozkład statystyki testowej jest zgodny z rozkładem hipergeometrycznym w ramach hipotezy zerowej (i warunkowanie na wartościach krańcowych). To jest dokładny test Fishera.
Scortchi - Przywróć Monikę
11

@jbowman dał ci dobrą opcję. Myślałem, że mogę podać kilka informacji na temat swoich wyraźnych pytań o stosowności -test vs. testu. χ 2zχ2

z -test:

Istnieją dwa obawy co do stosowności używając -test, zarówno czasowo, czy zakłada dystrybucję próbek jest poprawna. Po pierwsze, test- używa rozkładu normalnego zamiast rozkładu- , co oznacza, że ​​odchylenia standardowe są znane bez błędu próbkowania. Po drugie, rozkład próbkowania jest ciągły, ale dane są dyskretne; ponieważ możliwe są tylko niektóre kombinacje danych, możliwe są tylko pewne uzyskane wartości statystyki testowej, które mogą nie odpowiadać teoretycznemu rozkładowi próbkowania. (Omawiam ten problem w kontekście innych testów tutaj: Porównywanie i kontrastowanie, wartości p, poziomy istotności i błąd typu I. ) zzt

Rozważmy pierwszą kwestię w innym kontekście. Jeśli masz dwie grupy z normalnie rozłożonymi danymi i chcesz sprawdzić, czy średnie są równoważne, musisz obliczyć zarówno średnie, jak i odchylenia standardowe. Teraz wiemy, że środki są narażone na błąd próbkowania, dlatego musimy wykonać test, a nie tylko powiedzieć, że te dwa średnie próbki nie są identyczne. Jednak nasze szacunki odchyleń standardowych również muszą być obarczone błędem próbkowania i musimy w jakiś sposób wziąć to pod uwagę. Kiedy to robimy, okazuje się, że statystyka testowa (rodzaj skalowanej średniej różnicy) jest rozkładana jako . Jeśli zamiast tego użyjemy rozkładu normalnego (tj.tz-test), oznaczałoby to, że zakładamy, że nasze szacunki odchyleń standardowych są bezbłędne - idealne. Więc dlaczego z ewentualnego -test być stosowany w przypadku? Powodem jest to, że twoje dane są dwumianowe (tj. Liczba „sukcesów” ze znanej sumy „prób”), a nie normalne. W rozkładzie dwumianowym odchylenie standardowe jest funkcją średniej, więc po oszacowaniu średniej nie ma dodatkowej niepewności, o którą trzeba się martwić. Zatem rozkład normalny może być wykorzystany jako model rozkładu próbkowania statystyki testowej. z

Chociaż użycie rozkładu normalnego do zrozumienia długoterminowego zachowania statystyki testowej jest technicznie poprawne, pojawia się inny problem. Problem polega na tym, że rozkład normalny jest ciągły, ale ponieważ dane są dyskretne, nie wszystkie wartości w rozkładzie teoretycznym można znaleźć w zbiorze danych. (Znowu omówić ten problem w znacznie bardziej szczegółowo w wyżej połączonej odpowiedzi.) Na szczęście, mecz pomiędzy możliwych wyników swoich danych oraz teoretycznego rozkładu normalnego próbkowania lepiej tym większy . W twoim przypadku, niezależnie od prawdziwych prawdopodobieństw leżących u podstaw, możesz osiągnąć tyle samo sukcesów, albo tak mało jak w każdej grupie. Oznacza to, że liczba możliwych kombinacji wynosiN91×91=1,729, co daje wiele możliwości. Przy małym zestawie danych naprawdę możesz napotkać niektóre rodzaje problemów, które omawiam w mojej połączonej odpowiedzi, ale przy nie musisz się zbytnio przejmować. Wierzę, że -test był ważny wybór dla badaczy. N=180z

χ2 -test:

Ale co z testem ? Myślę, że to również słuszny wybór, ale nie byłby to mój pierwszy wybór. (Pragnę zauważyć, że drugi problem omówiony powyżej - niedopasowanie między danymi dyskretnymi a ciągłym rozkładem odniesienia - dotyczy tak samo jak i testu , więc istnieje tutaj nie ma przewagi). Problem zχ2χ2zχ2-test polega na tym, że nie zakłada się, że istnieje coś specjalnego w sumach kolumn w stosunku do sum wierszy; oba są traktowane tak, jakby mogły być innymi możliwymi wartościami. Nie odzwierciedla to jednak dokładnie konfiguracji eksperymentalnej. Było 180 osób, a do każdej grupy przydzielono 90 osób. Jedyną rzeczą, która naprawdę różni się w powtarzanych identycznych badaniach, jest liczba osób, które przeziębiły się w każdej grupie. -test niepoprawny traktuje zarówno liczba przeziębień i liczba osób w każdej grupie tak, jakby mogli zmianie, ale -test uzależnia prawo założenie. Dlatego -test ma większą moc tutaj. χ2zz

Co do wartości, test permutacji sugerowany przez @jbowman również dobrze uwzględnia ten aspekt twojego projektu i nie cierpi z powodu dyskretnego ciągłego niedopasowania. Jest to zatem najlepsza opcja. Pomyślałem jednak, że możesz chcieć dowiedzieć się nieco więcej o porównaniu testów i w twojej sytuacji. zχ2

gung - Przywróć Monikę
źródło
Dziękuję @gung, naprawdę doceniam twoje wysiłki. Sprawia, że ​​wszystko staje się jaśniejsze.
tomka
@ Gung Jestem zdezorientowany - czy chi kwadrat i proporcja są takie same, czy nie? stats.stackexchange.com/questions/173415/…
Xavier Bourret Sicotte
@XavierBourretSicotte, test Z jest często wdrażany pod maską jako test chi-kwadrat, R wykonuje to na przykład. Nadal często wolę używać testu Z, ponieważ informacje są prezentowane w sposób zgodny ze zrozumieniem, że 1 zmienna jest zmienną towarzyszącą, a druga jest odpowiedzią.
gung - Przywróć Monikę
1
(+1) @XavierBourretSicotte: Istnieją dwa powszechnie stosowane testy Z dla różnicy między dwiema proporcjami: jeden jest testem punktowym, równoważnym testowi chi-kwadrat Pearsona (w którym wariancja mianownika jest obliczana na podstawie najlepiej dopasowanego zero); drugi to test Walda (w którym wariancja mianownika jest obliczana przy oszacowaniu maksymalnego prawdopodobieństwa różnicy w dwóch proporcjach).
Scortchi - Przywróć Monikę
@Scortchi dzięki za wyjaśnienie tego! Po raz pierwszy spotykam się z tak wyraźnym wyjaśnieniem różnicy - czy byłbyś w stanie połączyć się z miejscami, w których wyjaśniono oba podejścia? Z odpowiednimi formułami dla wariancji?
Xavier Bourret Sicotte