Hackowanie wartości p jest „sztuką” patrzenia na różne wyniki i specyfikacje, aż do uzyskania „fałszywie pozytywnej”, tj. Wartości ap poniżej, powiedzmy, 0,05, która tylko hałasuje, a nie jest prawdziwa w procesie generowania danych.
Powiedzmy, że mam grupę leczoną o wielkości i grupę kontrolną o wielkości , zmienne wyniku i celuję w wartość : Jak obliczyć prawdopodobieństwo ex-ante uzyskania znaczącego wyniku fałszywie dodatniego istotnego pod ?
Można założyć, że cechy są niezależnie i normalnie dystrybuowany, a jeśli to upraszcza wiele, że .
econometrics
statistics
FooBar
źródło
źródło
Odpowiedzi:
Przy założeniu, że opisywana jest normalna charakterystyka, opisywanej sytuacji zajmują się oddzielne testy t Welcha, które uwzględniają możliwe różne wielkości próbek i różne wariancje. Oznaczają statystyki tych testów . Wartość p powiązana z każdym z nich totj,j=1,...,K
gdzie jest hipotezą, że populacje oznaczają, że między grupą leczoną i kontrolowaną są równe, a zależy od poziomu istotności . t 1 - αH0 t 1−α
Możemy zapisać prawdopodobieństwo w kategoriach odpowiedniej funkcji rozkładu skumulowanego,
W związku z tym
Jeśli zastanowimy się nad sytuacją a priori, zanim nawet spojrzymy na dane, to wartości p leżą w przyszłości i mogą być modelowane jako zmienne losowe. Patrząc jako zmienna losowa, całka prawdopodobieństwa transformacji mówi nam, że podąża za rozkładem jednolitym , a przez właściwości tego rozkładu również . U ( 0 , 1 ) p j1−pj U(0,1) pj
Zbierając wszystkie , mamy próbkę wielkości niezależnych mundurów . Prawdopodobieństwo, że co najmniej jedna z nich jest mniejsza niż określona wartość, powiedzmy , jest równe prawdopodobieństwu, że minimum z nich jest niższe niż ten próg. Można to rozumieć w następujący sposób: K U ( 0 , 1 ) p ∗pj K U(0,1) p∗
ze względu na niezależność, a zatem, ponieważ są one identycznie rozmieszczone,
Ale to skumulowana funkcja dystrybucji minimum IID zmiennych losowych.K
Oznacz to minimum .p(1)
CDF minimum niezależnych zmiennych wynosiU ( 0 , 1 )K U(0,1)
Chcemy prawdopodobieństwa
Wartości orientacyjne:
źródło
Zgadzam się z @AlecosPapadopoulos, że chcemy czegoś takiego: Ale nie rozumiem, jak i nie mógł wejść do właściwej statystyki testu. Na przykład, jeśli dane bazowe są zwykle rozprowadzane iid dane, wtedy i mają znaczenie.
Rozważmy, że hałas oznacza i wariancję , które z założenia są takie same dla grupy kontrolnej i „leczonej”. Średnia grupy leczonej o rozmiarze N będzie rozkładem i dla kontroli. Tak więc różnica średnich zostanie rozdzielonaμ σ N(μ,σ2/n) N(μ,σ2/M)
Ale nie będziesz wiedział lub , więc będziemy musieli oszacować to za pomocą , i i użyć testu t. Ta konfiguracja daje takie t-tatystyczne: gdzie SRC: Test t-Studenta na Wikipediiμ X 1 X 2 s X 1 X 2 t = ˉ X 1 - ˉ X 2σ μ X1 X2 sX1X2 sX1X2=√
Niesparowany test t próbki dla tej różnicy średnich ma stopnie swobody . Dlatego obszar odrzucenia powinien zależeć zarówno od n, jak i m, zarówno od tego, jaką wartość krytyczną testu należy zastosować poprzez stopnie swobody tego testu, jak i od samego obliczenia statystyki testu.N−M−2
źródło
Pozostałe odpowiedzi są dobre, ale pomyślałem, że inna odpowiedź z nieco innym ukierunkowaniem może być dobrym uzupełnieniem.
Czy wielkość próby zwykle wpływa na współczynnik fałszywie dodatnich?
Sądząc po komentarzach, myślę, że pytanie zostało postawione w tym artykule , który zawiera kilka błędów (lub przynajmniej błędne sformułowania).
Po pierwsze (i najbardziej niepokojąco ogólnie) niepoprawnie definiuje p-wartości, ale bardziej trafnie zawiera zdanie „Jeśli zmierzysz dużą liczbę rzeczy o małej liczbie osób, prawie na pewno uzyskasz wynik„ statystycznie istotny ” . ”
Wartość p jest prawdopodobieństwem, przy założeniu, że hipoteza zerowa jest prawdziwa, zaobserwowania wyniku co najmniej tak ekstremalnego, jak rzeczywiście zaobserwowany. Jak wskazano w innych odpowiedziach, oznacza to, że należy go równomiernie rozdzielić między 0 a 1, niezależnie od wielkości próbki, podstawowych rozkładów itp.
Zdanie powinno zatem brzmieć: „Jeśli zmierzysz dużą liczbę rzeczy
u niewielkiej liczby osób, prawie na pewno uzyskasz wynik„ statystycznie znaczący ”.”Jak poprawnie obliczono w artykule, nawet jeśli czekolada nie robi dokładnie nic, istnieje 60% szans (zakładając niezależność itp.) Na uzyskanie znaczącego wyniku.
W rzeczywistości uzyskali trzy znaczące wyniki, co jest dość zaskakujące (p = 0,06 przy - prawdopodobnie nierealistycznym - założeniu niezależności).
Czy wielkość próby kiedykolwiek wpływa na współczynnik fałszywie dodatnich?
Właściwie czasami tak jest, chociaż robi to różnicę tylko wtedy, gdy wielkość próbki jest naprawdę mała.
Powiedziałem, że (zakładając, że hipoteza zerowa jest prawdziwa) wartość p powinna być równomiernie rozłożona. Jednak równomierne rozmieszczenie jest ciągłe, podczas gdy wiele danych jest dyskretnych, z tylko nieskończenie wieloma możliwymi rezultatami.
Jeśli rzucę monetą kilka razy, aby sprawdzić, czy jest ona stronnicza, istnieje tylko kilka możliwych wyników, a zatem kilka możliwych wartości p, więc rozkład potencjalnych wartości p jest bardzo złym przybliżeniem do rozkładu równomiernego. Jeśli odwrócę to kilka razy, uzyskanie znaczącego wyniku może być niemożliwe.
Oto przykład przypadku, w którym tak się stało.
Miałbyś więc coś w rodzaju „Jeśli zmierzysz pewne rodzaje rzeczy u wystarczająco małej liczby osób, nigdy nie uzyskasz wyniku„ statystycznie znaczącego ”, bez względu na to, ile próbujesz”.
Czy to oznacza, że nie powinieneś martwić się wielkością próbki, jeśli wynik jest pozytywny?
Nie. Niektóre pozytywne wyniki są fałszywie pozytywne, a niektóre są prawdziwie pozytywne. Jak omówiono powyżej, zwykle bezpiecznie jest założyć, że odsetek wyników fałszywie dodatnich jest stały (zwykle wynosi 5%). Ale mniejszy rozmiar próbki zawsze zmniejsza prawdopodobieństwo prawdziwych wyników dodatnich (mniejszy rozmiar próbki oznacza, że test ma niższą moc ). A jeśli masz taką samą liczbę wyników fałszywie dodatnich, ale mniej prawdziwych wyników pozytywnych, losowo wybrany wynik dodatni jest bardziej prawdopodobny.
źródło
Być może warto dodać jedną z powyższych doskonałych odpowiedzi, a mianowicie, że toczy się również gra w meta-liczby. Powiedzmy, że 20 naukowców wykonuje ten sam zestaw eksperymentów, szukając czegoś, co może być słabo skorelowane, np. „Czy czekolada powoduje zawał serca”, i zaakceptuje wartość p <0,05 istotną, czego, szczerze mówiąc, nie powinni. Skumulowane prawdopodobieństwo jest takie, że jeden naukowiec otrzyma znaczące odkrycie, które jest jedynym eksperymentem, który zostanie opublikowany, ponieważ negatywne wyniki rzadko są akceptowane. Istnieje wtedy 100% szansa, że to odkrycie zostanie zauważone przez Bild Zeitungs tego świata i błędnie zgłoszone.
Niestety, ponieważ nie zgłaszamy braku wyników, jesteśmy zasadniczo zaangażowani w ćwiczenie obejmujące całą planetę, polegające na zgłaszaniu wszystkich eksperymentów, które mają szczęście - w niewłaściwym znaczeniu tego słowa.
W przypadku osób o silnych podstawach teoretycznych dobry projekt eksperymentalny zapewnia pewną ochronę przed tym - w przypadku osób, które przede wszystkim muszą pracować z danymi obserwacyjnymi i próbują wypracować teorię - podobnie jak ekonomia - jest to poważny problem.
Dodano: Aby zapoznać się z obszerną - i bardzo dobrze napisaną - dyskusją na cały temat, zobacz artykuł, który rozpoczął ostatnią debatę:
Badanie współczynnika fałszywych odkryć i błędna interpretacja wartości p David Colquhoun
źródło