Kiedy wartości p są zwodnicze?

14

Na jakie warunki danych należy zwrócić uwagę, w przypadku których wartości p mogą nie być najlepszym sposobem decydowania o istotności statystycznej? Czy istnieją konkretne typy problemów, które należą do tej kategorii?

użytkownik179
źródło
2
Snarky odpowiedź: prawie zawsze. Istnieje ogromna zachęta do tworzenia błędów typu 1 (tj. „Fałszywych alarmów”), gdy analitycy badają dane, więc prawie wszystkie wartości p, które napotkasz, są „zbyt” małe.
statsRus
7
Po prostu to rzucam, ale czy takie pytanie nie byłoby najlepiej zadawane w Cross Validated ?
buruzaemon
1
@buruzaemon: Może. Przeprowadziłem wyszukiwanie, to jest najbliższe dopasowanie: stats.stackexchange.com/questions/67320/... Wydaje się, że nie ma więcej niż garść pytań na ten temat.
Alex I

Odpowiedzi:

9

Pytasz o Pogłębianie danych , co dzieje się podczas testowania bardzo dużej liczby hipotez na zbiorze danych lub testowania hipotez na zbiorze danych sugerowanych przez te same dane.

W szczególności sprawdź ryzyko wielu hipotez i testowanie hipotez sugerowanych przez dane .

Rozwiązaniem jest użycie pewnego rodzaju korekcji współczynnika fałszywego wykrywania lub współczynnika błędu Familywise , takiego jak metoda Scheffégo lub (bardzo stara) korekcja Bonferroniego .

W nieco mniej rygorystyczny sposób może pomóc w filtrowaniu odkryć według przedziału ufności dla ilorazu szans (OR) dla każdego wyniku statystycznego. Jeśli 99% przedział ufności dla ilorazu szans wynosi 10-12, wówczas OR wynosi <= 1 z pewnym bardzo małym prawdopodobieństwem, szczególnie jeśli wielkość próby jest również duża. Jeśli znajdziesz coś takiego, prawdopodobnie będzie to silny efekt, nawet jeśli wynik próby milionów hipotez.

Alex I.
źródło
1
Chociaż Bonferroni jest zdecydowanie oldschoolowy, wciąż jest dość popularny. Związana z tym jest metoda zwana korekcją Šidáka ( en.wikipedia.org/wiki/%C5%A0id%C3%A1k_correction ). Wzywam to, ponieważ nad systemem reklamowym na dużą skalę, nad którym pracowałem, mogliśmy wdrożyć to podejście jako UDF w Hive. Jednak działa to tylko lepiej, gdy masz niezależność między testami. Jeśli nie, musisz wrócić do Bonferroni lub innej metody.
Chris Simokat
5

Nie powinieneś rozważać wartości p poza kontekstem.

Jedną raczej podstawową kwestią (jak ilustruje xkcd ) jest to, że musisz rozważyć, ile testów faktycznie wykonujesz. Oczywiście nie powinieneś być zszokowany, gdy zobaczysz p <0,05 dla jednego z 20 testów, nawet jeśli hipoteza zerowa jest prawdziwa za każdym razem.

Bardziej subtelny przykład tego występuje w fizyce wysokich energii i jest znany jako efekt look-else . Im większa przestrzeń parametrów, w której poszukujesz sygnału, który może reprezentować nową cząsteczkę, tym bardziej prawdopodobne jest, że zobaczysz sygnał pozorny, który jest naprawdę spowodowany przypadkowymi fluktuacjami.

Tim Goodman
źródło