Porównywanie i kontrastowanie, wartości p, poziomy istotności i błąd typu I.

21

Zastanawiałem się, czy ktokolwiek mógłby przedstawić zwięzłe podsumowanie definicji i zastosowania wartości p, poziomu istotności i błędu typu I.

Rozumiem, że wartości p są definiowane jako „prawdopodobieństwo uzyskania statystyki testowej co najmniej tak ekstremalnej jak ta, którą faktycznie obserwowaliśmy”, podczas gdy poziom istotności jest tylko arbitralną wartością odcięcia do oceny, czy wartość p jest znacząca, czy nie . Błąd typu I to błąd odrzuconej hipotezy zerowej, który był prawdziwy. Nie jestem jednak pewien, czy różnica między poziomem istotności a błędem typu I jest nieprawidłowa?

Załóżmy na przykład bardzo prosty eksperyment, w którym rzucam monetą 1000 razy i liczę, ile razy wyląduje na „głowach”. Moja hipoteza zerowa, H0, jest taka, że ​​heads = 500 (bezstronna moneta). Następnie ustawiłem swój poziom istotności na alfa = 0,05.

Przerzucam monetę 1000 razy, a następnie obliczam wartość p, jeśli wartość p wynosi> 0,05, to nie odrzucam hipotezy zerowej, a jeśli wartość p wynosi <0,05, to odrzucam hipotezę zerową.

Teraz, jeśli wykonałbym ten eksperyment wielokrotnie, za każdym razem obliczając wartość p i odrzucając lub nie odrzucając hipotezy zerowej i rejestrując liczbę odrzuconych / nieudanych, ostatecznie odrzucę 5% hipotez zerowych które były w rzeczywistości prawdą, czy to prawda? To jest definicja błędu typu I. Dlatego poziom istotności w testach istotności Fishera jest zasadniczo błędem typu I z testowania hipotezy Neymana-Pearsona, jeśli przeprowadzasz powtarzane eksperymenty.

Jeśli chodzi o wartości p, gdybym uzyskał wartość p 0,06 z mojego ostatniego eksperymentu i wykonałem wiele eksperymentów i policzyłem wszystkie te, które otrzymałem wartość p od 0 do 0,06, to czy też nie miałbym 6% szans na odrzucenie prawdziwej hipotezy zerowej?

BYS2
źródło

Odpowiedzi:

16

Pytanie wydaje się proste, ale twoje odbicie wokół niego pokazuje, że nie jest takie proste.

W rzeczywistości wartości p są stosunkowo późnym dodatkiem do teorii statystyki. Obliczanie wartości p bez komputera jest bardzo uciążliwe; dlatego jedynym sposobem na przeprowadzenie testu statystycznego do niedawna było użycie tabel testów statystycznych, jak wyjaśniam w tym poście na blogu . Ponieważ te tabele zostały obliczone dla ustalonych poziomów (zwykle 0,05, 0,01 i 0,001), można wykonać test tylko z tymi poziomami.α

Komputery sprawiły, że te tabele stały się bezużyteczne, ale logika testowania jest nadal taka sama. Powinieneś:

  1. Sformułuj hipotezę zerową.
  2. Sformułuj alternatywną hipotezę.
  3. Wybierz maksymalny błąd typu I (prawdopodobieństwo fałszywego odrzucenia hipotezy zerowej) błąd, który jesteś gotowy zaakceptować.
  4. Zaprojektuj region odrzucenia. Prawdopodobieństwo, że statystyki testowe mieszczą się w regionie odrzucenia, biorąc pod uwagę, że hipoteza zerowa jest twoim poziomem . Jak wyjaśnia @ MånsT, nie powinien być mniejszy niż dopuszczalny błąd typu I, aw wielu przypadkach należy stosować asymptotyczne przybliżenia.α
  5. Przeprowadzić losowy eksperyment, obliczyć statystyki testowe i sprawdzić, czy mieści się w regionie odrzucenia.

Teoretycznie istnieje ścisła równoważność między zdarzeniami „statystyki spadają w regionie odrzucenia” a „wartością p jest mniejsza niż ”α , dlatego wydaje się, że zamiast tego można zgłosić wartość p . W praktyce pozwala to pominąć krok 3. i ocenić błąd typu I po zakończeniu testu .

Aby powrócić do swojego posta, stwierdzenie hipotezy zerowej jest nieprawidłowe. Hipoteza zerowa polega na tym, że prawdopodobieństwo przewrócenia głowy wynosi (hipoteza zerowa nie może odnosić się do wyników losowego eksperymentu).1/2)

Jeśli powtórzysz eksperyment ponownie i ponownie z progową wartością p wynoszącą 0,05, tak, powinieneś mieć około 5% odrzucenia. A jeśli ustawisz wartość odcięcia wartości p na 0,06, powinieneś otrzymać około 6% odrzucenia. Ogólniej, w przypadku testów ciągłych, z definicji wartościp

P.rob(p<x)=x,(0<x<1),

co jest w przybliżeniu prawdziwe w przypadku testów dyskretnych.

Oto trochę kodu R, który mam nadzieję może to nieco wyjaśnić. Test dwumianowy jest stosunkowo wolny, dlatego przeprowadzam tylko 10 000 losowych eksperymentów, w których przerzucam 1000 monet. Wykonuję test dwumianowy i zbieram 10 000 wartości p.

set.seed(123)
# Generate 10,000 random experiments of each 1000 coin flipping
rexperiments <- rbinom(n=10000, size=1000, prob=0.5)
all_p_values <- rep(NA, 10000)
for (i in 1:10000) {
    all_p_values[i] <- binom.test(rexperiments[i], 1000)$p.value
}
# Plot the cumulative density of p-values.
plot(ecdf(all_p_values))
# How many are less than 0.05?
mean(all_p_values < 0.05)
# [1] 0.0425
# How many are less than 0.06?
mean(all_p_values < 0.06)
# 0.0491

Widać, że proporcje nie są dokładne, ponieważ wielkość próbki nie jest nieskończona, a test jest dyskretny, ale między nimi nadal występuje wzrost o około 1%.

gui11aume
źródło
@ MånsT Thanks! +1 dla ciebie za rozróżnienie między testami ciągłymi i dyskretnymi (które szczerze całkowicie przeoczyłem).
gui11aume
4
@ gui11aume, dzięki za wkład! Jednak twoje stwierdzenie „wartości p są stosunkowo późnym dodatkiem do teorii statystyki” jest dziwne. Z tego, co przeczytałem, „testy istotności” Fishera z wartościami p pochodziły około 1925 r. Podczas gdy „testy hipotez” Neymana-Pearsona pojawiły się jako „ulepszenie” pracy Fishera kilka lat później. Chociaż prawdą jest, że wartości p były trudne do obliczenia (stąd dlaczego zastosowano standardowe poziomy istotności), jego praca była monumentalna. W rzeczywistości jest on nazywany „ojcem statystyki”, ponieważ stanowił podstawę wielu współczesnych statystyk.
BYS2
2
@ BYS2 Absolutnie racja (+1). Teoria wartości p sięga początków statystyki. To ich wszechobecne zastosowanie jest najnowsze. Dziękujemy za uwagę ;-)
gui11aume
@ guillaume dzięki za to, mam jeszcze jedno szybkie pytanie. Mówisz, że moja hipoteza zerowa Nie może być H 0 = 500, ale wydaje mi się, że wiele tekstów używa na przykład: hipoteza zerowa jest taka, że ​​średnia będzie wynosić 0 lub że różnica w średnich wyniesie 10 .. Nigdy nie miałem żadnych problemów robi to w ten sposób: s .. Rozkład t zasadniczo skaluje się, jeśli użyłem H0 = 500 zamiast H0 = 0,5
BYS2
1
@ gui11aume: Może warto spojrzeć na moją odpowiedź: stats.stackexchange.com/questions/166323/…
15

Otrzymujesz tutaj dobre odpowiedzi od @MansT & @ gui11aume (+1 do każdego). Zobaczę, czy mogę uzyskać coś wyraźniej w obu odpowiedziach.

nk

p(k)=n!k!(n-k)!pk(1-p)n-k
α=.05
number of heads:           0    1    2    3    4    5    6    7    8    9   10
individual probability:  .001 .010 .044 .117 .205 .246 .205 .117 .044 .010 .001
type I error rate:       .002 .021 .109 .344 .754   1  .754 .344 .109 .021 .002

α=.05.021αbłąd typu I.α.05prawdopodobieństwa dwumianowe. Należy ponadto zauważyć, że takie sytuacje skłoniły do ​​opracowania średniej wartości p, aby zminimalizować rozbieżność między wartością p a poziomem istotności.

Mogą zdarzyć się przypadki, w których obliczona wartość p nie jest równa długoterminowej stopie błędu typu I, oprócz tego, że stopa błędu typu I niekoniecznie jest równa poziomowi istotności. Rozważmy tabelę awaryjności 2x2 z tymi zaobserwowanymi liczbami:

     col1 col2
row1   2    4   
row2   4    2

χ2)χ12)=1.3,p=.248χ2)χ2)p=.5671.5637.5671

Tak więc tutaj są problemy z dyskretnymi danymi:

  • preferowany poziom istotności może nie być jednym z możliwych poziomów błędu typu I, i
  • zastosowanie (konwencjonalnych) przybliżeń do ciągłych statystyk da niedokładne obliczone wartości p.

N.

(Chociaż pytanie nie dotyczy rozwiązań tych problemów), istnieją rzeczy, które łagodzą te problemy:

  • N.
  • często występują korekty (takie jak korekta ciągłości Yatesa), które przybliżą obliczone wartości do poprawnych wartości,
  • N.
  • średnia wartość p oferuje możliwość przybliżenia poziomu błędu typu I do wybranego poziomu ufności,
  • możesz jawnie użyć jednego z istniejących poziomów błędów typu I (lub zwrócić uwagę na to, co by to było).
gung - Przywróć Monikę
źródło
Świetnie, że wszedłeś w szczegóły, które zostawiliśmy na boku (+1).
gui11aume
@gung - czy mógłbyś skomentować, w jaki sposób uzyskałeś wskaźniki błędów typu I dla pierwszej tabeli?
stats134711,
@ stats134711, jest to po prostu suma indywidualnych prawdopodobieństw dla opcji, które są tak ekstremalne lub bardziej ekstremalne (dwustronne).
Gung - Przywróć Monikę
14

Pojęcia są ze sobą ściśle powiązane.

P.(typmi ja mirror)=ααP.(typmi ja mirror)ααP.(typmi ja mirror)αα

Wartość p jest najniższym poziomem istotności, przy którym hipoteza zerowa zostałaby zaakceptowana . Zatem mówi nam „jak znaczący” jest wynik.

MånsT
źródło