Właśnie natknąłem się na ten artykuł o czynniku Bayesa na zupełnie niezwiązany problem, kiedy natknąłem się na ten fragment
Testowanie hipotez z czynnikami Bayesa jest bardziej niezawodne niż testowanie częstych hipotez, ponieważ forma Bayesa unika stronniczości wyboru modelu, ocenia dowody na korzyść hipotezy zerowej, obejmuje niepewność modelu i pozwala na porównanie modeli nie-zagnieżdżonych (choć oczywiście model musi mają tę samą zmienną zależną). Również częste testy istotności stają się stronnicze na korzyść odrzucenia hipotezy zerowej przy wystarczająco dużej wielkości próby. [podkreślenie dodane]
Widziałem to twierdzenie wcześniej w artykule Karla Fristona z 2012 roku w NeuroImage , gdzie nazywa to błędem klasycznego wnioskowania .
Miałem trochę problemów ze znalezieniem prawdziwie pedagogicznego wyjaśnienia, dlaczego tak powinno być. W szczególności zastanawiam się:
- dlaczego tak się dzieje
- jak się przed tym zabezpieczyć
- w przeciwnym razie, jak to wykryć
Odpowiedzi:
Odpowiedź na pytanie 1: Dzieje się tak, ponieważ wartość staje się arbitralnie mała, gdy wielkość próby wzrasta w częstych testach na różnicę (tj. Testy z zerową hipotezą braku różnicy / jakiejś formy równości), gdy prawdziwa różnica dokładnie równa zero , w przeciwieństwie do arbitralnie bliskiego zera, nie jest realistyczny (patrz komentarz Nicka Staunera do PO). Wartość staje się arbitralnie mała, ponieważ błąd statystyk częstych testów zwykle maleje wraz z wielkością próby, w wyniku czego wszystkie różnice są znaczące do arbitralnego poziomu przy wystarczająco dużej wielkości próby . Cosma Shalizi napisał o tym erudycyjnie .pp p
Odpowiedź na pytanie 2: W ramach częstego testowania hipotez można zapobiegać temu, nie wnioskując wyłącznie o wykryciu różnicy . Na przykład, można łączyć wnioski dotyczące różnicy i równoważności, aby nie sprzyjać (lub mieszać!) Ciężarowi dowodu na dowodzie skutku z dowodem braku skutku . Dowody braku efektu pochodzą, na przykład:
To, co łączy te podejście, to decyzja z góry o tym, jaki rozmiar efektu stanowi istotną różnicę i hipoteza zerowa sformułowana pod względem różnicy przynajmniej tak dużej, jak to, co uważa się za istotne.
Łączone wnioskowanie z testów różnicy i testów równoważności chroni w ten sposób przed uprzedzeniem, które opisujesz, gdy wielkości próbek są w ten sposób duże (tabela dwa na dwa pokazująca cztery możliwości wynikające z połączonych testów różnicy - pozytywistyczna hipoteza zerowa, H - i równoważność - negatywna hipoteza zerowa, H ):- 0+0 −0
Zwróć uwagę na lewy górny kwadrant: test obezwładniony to taki, w którym tak odrzucasz hipotezę zerową braku różnicy, ale odrzucasz również hipotezę zerową istotnej różnicy, więc tak, istnieje różnica, ale z góry zdecydowałeś, że nie obchodzi cię to ponieważ jest za mały.
Odpowiedź na pytanie 3: patrz odpowiedź na pytanie 2.
źródło
Częste testy z dużymi próbkami NIE wykazują tendencyjności w odrzucaniu hipotezy zerowej, jeśli hipoteza zerowa jest prawdziwa. Jeśli założenia testu są prawidłowe, a hipoteza zerowa jest prawdziwa, nie ma większego ryzyka, że duża próbka doprowadzi do odrzucenia hipotezy zerowej, niż mała próbka. Jeśli zerowa wartość nie jest prawdziwa, z pewnością z przyjemnością ją odrzucimy, więc fakt, że duża próbka częściej odrzuca fałszywą wartość zerową niż mała próbka, nie jest „stronniczością”, ale właściwym zachowaniem.
Strach przed „obezwładnionymi eksperymentami” opiera się na założeniu, że odrzucenie hipotezy zerowej, gdy jest ona prawie prawdziwa, nie jest dobrą rzeczą. Ale jeśli to tylko prawie prawda, to tak naprawdę to fałsz! Odrzuć, ale nie zaniedbuj (i wyraźnie melduj) zaobserwowany rozmiar efektu. Może być trywialnie mały i dlatego nie zasługuje na poważne rozważenie, ale decyzję w tej sprawie należy podjąć po rozważeniu informacji spoza testu hipotez.
źródło