Wyjaśnianie testów dwustronnych

To świetne pytanie i nie mogę się doczekać, kiedy wszyscy wyjaśnią wartość p oraz test dwustronny vs jednostronny. Uczyłem statystyki chirurgów ortopedów i dlatego starałem się, aby była ona jak najbardziej podstawowa, ponieważ większość z nich nie robiła żadnej zaawansowanej matematyki przez 10-30 lat.

Mój sposób wyjaśnienia obliczania wartości p i ogonów

Zaczynam od wyjaśnienia, że jeśli uważamy, że mamy uczciwą monetę, wiemy, że powinna ona skończyć średnio 50% obrotów ( ). Teraz, jeśli zastanawiasz się, jakie jest prawdopodobieństwo otrzymania tylko 2 ogonów na 10 rzutów za pomocą tej uczciwej monety, możesz obliczyć to prawdopodobieństwo, tak jak to zrobiłem na wykresie słupkowym. Z wykresu widać, że prawdopodobieństwo uzyskania 8 na 10 rzutów uczciwą monetą wynosi około . $=H_0$ $\approx 4.4\%$

Ponieważ kwestionowalibyśmy uczciwość monety, gdybyśmy otrzymali 9 lub 10 reszek, musimy uwzględnić te możliwości, ogon testu. Po dodaniu wartości otrzymujemy, że prawdopodobieństwo wynosi teraz nieco więcej niż uzyskania 2 ogonów lub mniej. $\approx 5.5\%$

Jeśli otrzymalibyśmy tylko 2 główki, czyli 8 głów (drugi ogon), prawdopodobnie równie chętnie kwestionowalibyśmy uczciwość monety. Oznacza to, że dla testu dwustronnego otrzymujesz prawdopodobieństwo . $5.4...\%+5.4...\% \approx 10.9\%$

Ponieważ my w medycynie zazwyczaj jesteśmy zainteresowani badaniem niepowodzeń, musimy uwzględnić przeciwną stronę prawdopodobieństwa, nawet jeśli naszym celem jest czynienie dobra i wprowadzenie korzystnego leczenia.

Mój rzut monetą

Refleksje nieco nie na temat

Ten prosty przykład pokazuje również, jak jesteśmy zależni od hipotezy zerowej w celu obliczenia wartości p. Chciałbym również zwrócić uwagę na podobieństwo między krzywą dwumianową a krzywą dzwonową. Zmieniając na 200 rzutów, możesz w naturalny sposób wyjaśnić, dlaczego prawdopodobieństwo uzyskania dokładnie 100 rzutów zaczyna być mało istotne. Definiowanie przedziałów zainteresowania jest naturalnym przejściem do funkcji gęstości prawdopodobieństwa / funkcji masy i ich kumulatywnych odpowiedników.

W mojej klasie polecam im filmy ze statystykami Akademii Chana, a także niektóre jego wyjaśnienia do niektórych pojęć. Mogą także rzucać monetami, gdy patrzymy na przypadkowość rzucania monetami - staram się pokazać, że losowość jest bardziej przypadkowa niż to, co zwykle uważamy za inspirowane tym odcinkiem Radiolab .

Kod

Zwykle mam jeden wykres / slajd, kod R, którego użyłem do utworzenia wykresu:

library(graphics)

binom_plot_function <- function(x_max, my_title = FALSE, my_prob = .5, edges = 0, 
                                col=c("green", "gold", "red")){
  barplot(
    dbinom(0:x_max, x_max, my_prob)*100, 
    col=c(rep(col[1], edges), rep(col[2], x_max-2*edges+1), rep(col[3], edges)),
    #names=0:x_max,
    ylab="Probability %",
    xlab="Number of tails", names.arg=0:x_max)
  if (my_title != FALSE ){
    title(main=my_title)
  }
}

binom_plot_function(10, paste("Flipping coins", 10, "times"), edges=0, col=c("#449944", "gold", "#994444"))
binom_plot_function(10, edges=3, col=c(rgb(200/255, 0, 0), "gold", "gold"))
binom_plot_function(10, edges=3, col=c(rgb(200/255, 0, 0), "gold", rgb(200/255, 100/255, 100/255)))

Max Gordon
źródło

Świetna odpowiedź Max - i dziękuję za uznanie nietrywialności mojego pytania :)

Tal Galili

+1 fajna odpowiedź, bardzo dokładna. Wybacz mi, ale zamierzam podważyć dwie rzeczy. 1) wartość p jest rozumiana jako prawdopodobieństwo, że dane będą tak ekstremalne lub bardziej ekstremalne jak twoje pod zerem, więc twoja odpowiedź jest prawidłowa. Jednak w przypadku korzystania z dyskretnych danych, takich jak rzuty monetą, jest to niewłaściwie konserwatywne. Najlepiej użyć tak zwanej „średniej wartości p”, tj. 1/2 prawdopodobieństwa danych tak ekstremalnych jak twoje + prawdopodobieństwo, że dane będą bardziej ekstremalne. Łatwa dyskusja na te tematy znajduje się w Agresti (2007) 2.6.3. (cd.)

Gung - Przywróć Monikę

2) Oświadczasz, że losowość jest bardziej przypadkowa, niż nam się wydaje. Mogę zgadnąć, co możesz przez to rozumieć (nie miałem okazji wysłuchać odcinka Radiolab, który łączysz, ale tak będzie). Co ciekawe, zawsze mówiłem uczniom, że przypadkowość jest mniej przypadkowa, niż myślisz. Mam tu na myśli percepcję smug (np. W grach hazardowych). Ludzie uważają, że zdarzenia losowe powinny występować naprzemiennie znacznie częściej niż zdarzenia losowe, w wyniku czego wierzą, że widzą pasma. Patrz Falk (1997) Sens losowości Psych Rev 104,2. Znowu się nie mylisz - po prostu jedzenie do namysłu.

Gung - Przywróć Monikę

Dziękuję @gung za Twój wkład. Właściwie nie słyszałem o środkowej fazie - ma to jednak sens. Nie jestem pewien, czy jest to coś, o czym wspomniałbym podczas nauczania podstawowych statystyk, ponieważ może to powodować poczucie utraty praktycznego uczucia, które staram się przekazać. Jeśli chodzi o przypadkowość, mamy na myśli dokładnie to samo - widząc prawdziwie losową liczbę, oszukujemy się, myśląc, że jest w tym jakiś wzorzec. Chyba słyszał na Freakonomics podcast szaleństwo przewidywania , że ...

Max Gordon

... ludzki umysł przez lata nauczył się, że niewykrycie drapieżnika jest kosztowniejsze niż myślenie, że prawdopodobnie nic. Podoba mi się ta analogia i staram się powiedzieć moim kolegom, że jednym z głównych powodów korzystania ze statystyk jest pomoc z tą wadą, z którą wszyscy się urodziliśmy.

Max Gordon,

Załóżmy, że chcesz przetestować hipotezę, że średnia wysokość mężczyzn wynosi „5 stóp i 7 cali”. Wybierasz losową próbę mężczyzn, mierzysz ich wysokości i obliczasz średnią z próby. Twoja hipoteza jest zatem następująca:

$H_0: \mu = 5\ \text{ft} \ 7 \ \text{inches}$

$H_A: \mu \ne 5\ \text{ft} \ 7 \ \text{inches}$

W powyższej sytuacji wykonujesz test dwustronny, ponieważ odrzucasz wartość zerową, jeśli średnia próbki jest zbyt niska lub zbyt wysoka.

W tym przypadku wartość p reprezentuje prawdopodobieństwo realizacji próby średniej, która jest co najmniej tak ekstremalna jak ta, którą faktycznie uzyskaliśmy, zakładając, że wartość null jest w rzeczywistości prawdziwa. Zatem jeśli zaobserwujemy, że próbka oznacza „5 stóp 8 cali”, wówczas wartość p będzie reprezentować prawdopodobieństwo, że będziemy obserwować wysokości większe niż „5 stóp 8 cali” lub wysokości mniejsze niż „5 stóp 6 cali”, pod warunkiem, że zero jest prawdziwy.

Jeśli z drugiej strony twoja alternatywa została tak sformułowana:

$H_A: \mu > 5\ \text{ft} \ 7 \ \text{inches}$

W powyższej sytuacji wykonałeś jednostronny test po prawej stronie. Powodem jest to, że wolisz odrzucić wartość zerową na korzyść alternatywy tylko wtedy, gdy średnia próbki jest bardzo wysoka.

Interpretacja wartości p pozostaje taka sama przy niewielkim niuansie, który mówimy teraz o prawdopodobieństwie realizacji średniej próbki, która jest większa niż faktycznie uzyskana. Tak więc, jeśli zaobserwujesz, że próbka oznacza „5 stóp 8 cali”, wówczas wartość p będzie reprezentować prawdopodobieństwo, że będziemy obserwować wysokości większe niż „5 stóp 8 cali”, pod warunkiem, że zero jest prawdziwe.

Varty
źródło

Dawniej na sekundę

H_{A}

$H_A$ null powinien przeczytać

H_{0} : μ \leq 5 ft 7 inches

$H_0:\, \mu\le 5\ \text{ft}\ 7\ \text{inches}$ , nie

H_{0} : μ = 5 ft 7 inches

$H_0:\, \mu = 5\ \text{ft}\ 7\ \text{inches}$ . Zobacz jeden z komentarzy @ Whuber na to pytanie: Czy hipotezy zerowe i alternatywne muszą być wyczerpujące, czy nie? .

chl

@chl Zgadzam się. Jednak dla osoby, która dopiero zaczyna się wprowadzać do idei statystycznych, ponowne zapisanie wartości zerowej dla testu jednostronnego może być rozproszeniem, gdy skupia się na tym, jak i dlaczego wszystko się zmienia w odniesieniu do interpretacji wartości p.

varty

Słusznie. Warto o tym wspomnieć, nawet w celu nauczania.

chl

Wyjaśnianie testów dwustronnych

Odpowiedzi:

Mój sposób wyjaśnienia obliczania wartości p i ogonów

Refleksje nieco nie na temat

Kod