Słyszałem więc, że powiedziano, że wybór jednego testu statystycznego na podstawie wyniku innego nie jest dobrym pomysłem. Wydaje mi się to jednak dziwne. Na przykład ludzie często wybierają test nieparametryczny, gdy niektóre inne testy sugerują, że reszty nie są normalnie rozłożone. To podejście wydaje się dość powszechnie akceptowane, ale nie zgadza się z pierwszym zdaniem w tym akapicie. Miałem tylko nadzieję uzyskać wyjaśnienie w tej sprawie.
hypothesis-testing
Jimj
źródło
źródło
Odpowiedzi:
Biorąc pod uwagę, że jest prawdopodobieństwem zaobserwowania danych tak ekstremalnych lub bardziej ekstremalnych, jeśli jest prawdą, to jaka jest interpretacja gdzie jest uzyskiwane w procesie, w którym podjęto decyzję warunkową przy wyborze testu, który wytworzył to ? Odpowiedź jest niepoznawalna (lub przynajmniej bardzo niepoznawalna). Podejmując decyzję o uruchomieniu testu, czy nie, na podstawie innego procesu probabilistycznego, interpretacja wyniku była jeszcze bardziej skomplikowana. H 0 p p p p p pp H.0 p p p p wartości są maksymalnie interpretowalne, gdy wielkość próby i plan analizy zostały wcześniej całkowicie wybrane. W innych sytuacjach interpretacje stają się trudne, dlatego „nie jest to dobry pomysł”. To powiedziawszy, jest to powszechnie akceptowana praktyka ... w końcu, po co nawet męczyć się z przeprowadzeniem testu, jeśli dowiadujesz się, że test, który zaplanowałeś, był nieważny? Odpowiedź na to pytanie jest znacznie mniej pewna. Wszystko sprowadza się do prostego faktu, że testowanie znaczenia hipotezy zerowej (podstawowy przypadek użycia ) ma pewne problemy, które są trudne do przezwyciężenia.p
źródło
Tak, wiele osób robi takie rzeczy i zmienia swój drugi test na taki, który może poradzić sobie z heteroskedastycznością, gdy odrzuca równość wariancji i tak dalej.
To, że coś jest wspólne, nie oznacza, że jest to mądre.
Rzeczywiście, w niektórych miejscach (nie wymienię dyscyplin najgorzej obrażających) wiele z tych formalnych testów hipotez jest uzależnionych od innych formalnych testów hipotez.
Problem z robieniem tego polega na tym, że twoje procedury nie mają swoich nominalnych właściwości, a czasem nawet nie są blisko. (Z drugiej strony, zakładanie takich rzeczy bez jakiegokolwiek uwzględnienia potencjalnie ekstremalnego naruszenia może być jeszcze gorsze.)
Kilka artykułów sugeruje, że w przypadku heteroskedastycznym lepiej jest po prostu zachowywać się tak, jakby wariancje nie były równe, niż testować je i zrobić coś z tym tylko po odrzuceniu.
W przypadku normalności jest to mniej jasne. Przynajmniej w dużych próbkach, w wielu przypadkach normalność nie jest aż tak istotna (ale jak na ironię, przy dużych próbach prawdopodobieństwo testu normalności jest o wiele bardziej prawdopodobne), o ile nienormalność nie jest zbyt dzika. Jedynym wyjątkiem są przedziały prognozowania, w których naprawdę potrzebujesz, aby twoje założenie dystrybucyjne było bliskie prawicy.
Częściowo jednym z problemów jest to, że testy hipotez odpowiadają na inne pytanie niż to, na które należy odpowiedzieć. Naprawdę nie musisz wiedzieć, „czy dane są naprawdę normalne” (prawie zawsze a priori nie będzie to normalne ). Pytanie brzmi raczej „jak bardzo zakres nienormalności wpłynie na moje wnioskowanie”.
Drugi problem jest zwykle albo prawie niezależny od wielkości próbki, albo faktycznie poprawia się wraz ze wzrostem wielkości próbki - jednak testy hipotez prawie zawsze będą odrzucane przy dużych próbkach.
Istnieje wiele sytuacji, w których istnieją solidne lub nawet pozbawione dystrybucji procedury, które są bardzo bliskie w pełni wydajnemu nawet w normalnym (i potencjalnie znacznie bardziej wydajnym przy niektórych dość skromnych odstępstwach od niego) - w wielu przypadkach wydawałoby się głupie nie przyjmować takie samo ostrożne podejście.
źródło
Główne problemy zostały dobrze wyjaśnione przez innych, ale są mylone z podstawowymi lub powiązanymi
Nadmierna cześć dla wartości P, co najwyżej jeden rodzaj dowodów w statystykach.
Niechęć do stwierdzenia, że raporty statystyczne są nieuchronnie oparte na kombinacji wyborów, niektóre mocno oparte na dowodach, inne oparte na kombinacji wcześniejszych analiz, intuicji, zgadywania, oceny, teorii itd.
Załóżmy, że ja i mój ostrożny przyjaciel Test Everything wybraliśmy transformację logu w odpowiedzi, ale przechodzę do tego wniosku na podstawie mieszanki fizycznego rozumowania i wcześniejszych doświadczeń z danymi, podczas gdy Test Everything wybiera skalę logu na podstawie testów i oszacowań Box-Coxa parametru.
Teraz oboje używamy tej samej wielokrotnej regresji. Czy nasze wartości P mają różne interpretacje? Według jednej interpretacji, wartości P Test Everything są uzależnione od jej wcześniejszych wniosków. Użyłem również wnioskowania, ale w większości były one nieformalne, oparte na długiej serii wcześniejszych wykresów, obliczeń itp. W poprzednich projektach. Jak to zgłosić?
Oczywiście wyniki regresji są dokładnie takie same dla Testuj wszystko i dla mnie.
Ta sama mieszanka rozsądnych porad i wątpliwej filozofii dotyczy wyboru predyktorów i formy funkcjonalnej. Na przykład ekonomiści są powszechnie uczeni, aby szanować poprzednie dyskusje teoretyczne i uważać na szpiegowanie danych, bez uzasadnionego powodu w każdym przypadku. Ale w najsłabszych przypadkach omawiana teoria jest tylko wstępną sugestią sformułowaną wcześniej w literaturze, bardzo prawdopodobne po przeprowadzeniu analizy empirycznej. Ale literatura literacka uświęca, podczas gdy uczenie się na podstawie dostępnych danych jest podejrzane dla wielu autorów.
źródło