Na jakie warunki danych należy zwrócić uwagę, w przypadku których wartości p mogą nie być najlepszym sposobem decydowania o istotności statystycznej? Czy istnieją konkretne typy problemów, które należą do tej kategorii?
bigdata
statistics
użytkownik179
źródło
źródło
Odpowiedzi:
Pytasz o Pogłębianie danych , co dzieje się podczas testowania bardzo dużej liczby hipotez na zbiorze danych lub testowania hipotez na zbiorze danych sugerowanych przez te same dane.
W szczególności sprawdź ryzyko wielu hipotez i testowanie hipotez sugerowanych przez dane .
Rozwiązaniem jest użycie pewnego rodzaju korekcji współczynnika fałszywego wykrywania lub współczynnika błędu Familywise , takiego jak metoda Scheffégo lub (bardzo stara) korekcja Bonferroniego .
W nieco mniej rygorystyczny sposób może pomóc w filtrowaniu odkryć według przedziału ufności dla ilorazu szans (OR) dla każdego wyniku statystycznego. Jeśli 99% przedział ufności dla ilorazu szans wynosi 10-12, wówczas OR wynosi <= 1 z pewnym bardzo małym prawdopodobieństwem, szczególnie jeśli wielkość próby jest również duża. Jeśli znajdziesz coś takiego, prawdopodobnie będzie to silny efekt, nawet jeśli wynik próby milionów hipotez.
źródło
Nie powinieneś rozważać wartości p poza kontekstem.
Jedną raczej podstawową kwestią (jak ilustruje xkcd ) jest to, że musisz rozważyć, ile testów faktycznie wykonujesz. Oczywiście nie powinieneś być zszokowany, gdy zobaczysz p <0,05 dla jednego z 20 testów, nawet jeśli hipoteza zerowa jest prawdziwa za każdym razem.
Bardziej subtelny przykład tego występuje w fizyce wysokich energii i jest znany jako efekt look-else . Im większa przestrzeń parametrów, w której poszukujesz sygnału, który może reprezentować nową cząsteczkę, tym bardziej prawdopodobne jest, że zobaczysz sygnał pozorny, który jest naprawdę spowodowany przypadkowymi fluktuacjami.
źródło
Jedną z rzeczy, o których powinieneś wiedzieć, jest rozmiar próbki, której używasz. Bardzo duże próbki, takie jak ekonomiści korzystający z danych spisowych, doprowadzą do deflacji wartości p. Artykuł „Zbyt duży, by upaść: duże próbki i problem z wartością p” obejmuje niektóre z zagadnień.
źródło