Dlaczego częste testowanie hipotez staje się tendencyjne do odrzucenia hipotezy zerowej przy wystarczająco dużych próbkach?

46

Właśnie natknąłem się na ten artykuł o czynniku Bayesa na zupełnie niezwiązany problem, kiedy natknąłem się na ten fragment

Testowanie hipotez z czynnikami Bayesa jest bardziej niezawodne niż testowanie częstych hipotez, ponieważ forma Bayesa unika stronniczości wyboru modelu, ocenia dowody na korzyść hipotezy zerowej, obejmuje niepewność modelu i pozwala na porównanie modeli nie-zagnieżdżonych (choć oczywiście model musi mają tę samą zmienną zależną). Również częste testy istotności stają się stronnicze na korzyść odrzucenia hipotezy zerowej przy wystarczająco dużej wielkości próby. [podkreślenie dodane]

Widziałem to twierdzenie wcześniej w artykule Karla Fristona z 2012 roku w NeuroImage , gdzie nazywa to błędem klasycznego wnioskowania .

Miałem trochę problemów ze znalezieniem prawdziwie pedagogicznego wyjaśnienia, dlaczego tak powinno być. W szczególności zastanawiam się:

  1. dlaczego tak się dzieje
  2. jak się przed tym zabezpieczyć
  3. w przeciwnym razie, jak to wykryć
blz
źródło
7
Jest to nieco dyskusyjne, ponieważ nie jest prawdą, gdy wartość null jest dosłownie, dokładnie prawdziwa, ale ponieważ tak rzadko się zdarza (z powodu różnego rodzaju złożoności, takich jak fałszywe korelacje), prawdopodobnie jest to prawdą w przypadku większości praktycznych zastosowań. Hipotetycznie można było wykryć najsłabsze z fałszywych korelacji (np. R = 0,001) z powodu łańcucha mediatorów o długości setek zmiennych pomimo podobnej liczby niekontrolowanych moderatorów, jeśli próbka była wystarczająco kolosalna. Prawdopodobnie ten związek faktycznie istnieje, więc czy to naprawdę „stronniczość” jest nadal nieco dyskusyjna IMO ...
Nick Stauner
@NickStauner Ach, które rzeczywiście sprawia, że wiele sensu! Dzięki za intuicyjne wyjaśnienie!
blz
3
Tal Yarkoni napisał bardzo pouczające krytykę Friston w artykule: talyarkoni.org/blog/2012/04/25/...
Jona
@jona, Wygląda na to, że wpadam na cały tłum cogsci tutaj =) Dzięki za odniesienie, to naprawdę wygląda na dobrą lekturę!
blz
8
Biorąc pod uwagę przyjęte założenia, to stwierdzenie wydaje się być całkowicie fałszywe w obecnej formie, ale staje się poważnym problemem (że przy wystarczająco dużych próbach NHST będzie prawie na pewno odrzucił fałszywą wartość zerową, bez względu na to, jak niewielki jest efekt) . Gdy ludzie stwierdzają, że to problem, zwykle oznacza to, że testowanie hipotez nie jest tym, czego potrzebują. Ta sama podstawowa kwestia (choć sformułowana raczej pod względem CI niż testów hipotez) jest omawiana w tej odpowiedzi
Glen_b

Odpowiedzi:

44

Odpowiedź na pytanie 1: Dzieje się tak, ponieważ wartość staje się arbitralnie mała, gdy wielkość próby wzrasta w częstych testach na różnicę (tj. Testy z zerową hipotezą braku różnicy / jakiejś formy równości), gdy prawdziwa różnica dokładnie równa zero , w przeciwieństwie do arbitralnie bliskiego zera, nie jest realistyczny (patrz komentarz Nicka Staunera do PO). Wartość staje się arbitralnie mała, ponieważ błąd statystyk częstych testów zwykle maleje wraz z wielkością próby, w wyniku czego wszystkie różnice są znaczące do arbitralnego poziomu przy wystarczająco dużej wielkości próby . Cosma Shalizi napisał o tym erudycyjnie .ppp

Odpowiedź na pytanie 2: W ramach częstego testowania hipotez można zapobiegać temu, nie wnioskując wyłącznie o wykryciu różnicy . Na przykład, można łączyć wnioski dotyczące różnicy i równoważności, aby nie sprzyjać (lub mieszać!) Ciężarowi dowodu na dowodzie skutku z dowodem braku skutku . Dowody braku efektu pochodzą, na przykład:

  1. dwa jednostronne testy równoważności (TOST),
  2. jednolicie najsilniejsze testy równoważności , oraz
  3. podejście przedziału ufności do równoważności (tj. jeśli % CI statystyki testowej mieści się w z góry określonym zakresie równoważności / istotności, wówczas wnioskuje się równoważność na poziomie istotności ).a-12αα

To, co łączy te podejście, to decyzja z góry o tym, jaki rozmiar efektu stanowi istotną różnicę i hipoteza zerowa sformułowana pod względem różnicy przynajmniej tak dużej, jak to, co uważa się za istotne.

Łączone wnioskowanie z testów różnicy i testów równoważności chroni w ten sposób przed uprzedzeniem, które opisujesz, gdy wielkości próbek są w ten sposób duże (tabela dwa na dwa pokazująca cztery możliwości wynikające z połączonych testów różnicy - pozytywistyczna hipoteza zerowa, H - i równoważność - negatywna hipoteza zerowa, H ):- 00+0

Cztery możliwości z połączonych testów różnic i testów równoważności

Zwróć uwagę na lewy górny kwadrant: test obezwładniony to taki, w którym tak odrzucasz hipotezę zerową braku różnicy, ale odrzucasz również hipotezę zerową istotnej różnicy, więc tak, istnieje różnica, ale z góry zdecydowałeś, że nie obchodzi cię to ponieważ jest za mały.

Odpowiedź na pytanie 3: patrz odpowiedź na pytanie 2.

Alexis
źródło
2
Odpowiedzi takie jak to, dlaczego ciągle tu przychodzę. Dziękuję Ci!
blz
2
Te połączone testy nazywane są „testami trafności”, a jednak tylko w niewielkim stopniu badane. Jednak (konserwatywną) decyzję o trafności można znaleźć, jeśli odrzuci się hipotezę zerową w typowym przedziale ufności jest odłączony od regionu istotności. Tak więc @Alexis, w przypadku testów trafności, bierzesz , w przypadku testów równoważności bierzesz . α 2 α1αα2α
Horst Grünbusch
Aby uzupełnić odpowiedź na pytanie 1, odpowiedni wpis na blogu od Cosmy Shalizi
2
Jestem trochę zaskoczony, że wszyscy uważają to pytanie za tak pomocne, chociaż na „Odpowiedź na pytanie 1” odpowiada właściwie Michael Lew - Alexis, ponieważ wydaje się prawie jasne, że tak pozostanie, być może mógłbyś poprawić swoją odpowiedź aby powiedzieć, że matematycznie testy hipotez NIE są BIASOWANE przez dużą wielkość próbki, zgodnie z normalną definicją błędu (odwrotnie, w rzeczywistości, mała wielkość próbki może być problemem)!
Florian Hartig
3
Rozumiem problem i zgadzam się z oceną - przeprowadzenie testu hipotezy, gdy! H0 jest w pierwszej kolejności nieskończenie prawdopodobne, a masz moc bliską 1. Nie jest to jednak stronnicze, chyba że twoja definicja błędu polega na tym, że metoda daje właściwy wynik pytania, które Twoim zdaniem nie powinno być zadawane.
Florian Hartig
21

Częste testy z dużymi próbkami NIE wykazują tendencyjności w odrzucaniu hipotezy zerowej, jeśli hipoteza zerowa jest prawdziwa. Jeśli założenia testu są prawidłowe, a hipoteza zerowa jest prawdziwa, nie ma większego ryzyka, że ​​duża próbka doprowadzi do odrzucenia hipotezy zerowej, niż mała próbka. Jeśli zerowa wartość nie jest prawdziwa, z pewnością z przyjemnością ją odrzucimy, więc fakt, że duża próbka częściej odrzuca fałszywą wartość zerową niż mała próbka, nie jest „stronniczością”, ale właściwym zachowaniem.

Strach przed „obezwładnionymi eksperymentami” opiera się na założeniu, że odrzucenie hipotezy zerowej, gdy jest ona prawie prawdziwa, nie jest dobrą rzeczą. Ale jeśli to tylko prawie prawda, to tak naprawdę to fałsz! Odrzuć, ale nie zaniedbuj (i wyraźnie melduj) zaobserwowany rozmiar efektu. Może być trywialnie mały i dlatego nie zasługuje na poważne rozważenie, ale decyzję w tej sprawie należy podjąć po rozważeniu informacji spoza testu hipotez.

Michael Lew
źródło
2
Wiara w to, że test częsty nie ma tendencji do odrzucania hipotezy zerowej wraz ze wzrostem wielkości próby, opiera się na założeniu, że jest znacząco i merytorycznie różne od . 0 + naprawdę cholernie malutkie00+really frickin' tiny
Alexis
6
@ Alexis Przeczytaj ponownie drugi akapit. Absolutnie zgadzam się, że naprawdę cholernie małe nie jest istotnie ważne, ale nie jest też logicznie zerowe.
Michael Lew
6
Przepraszam za komentarz, który jest bezwartościowy dla opinii publicznej, ale @MichaelLew, naprawdę podobała mi się twoja odpowiedź. Pierwsze zdanie jest dość ważne i nie sądzę, aby zostało skutecznie wyjaśnione w odpowiedzi Alexis (co oczywiście jest również miłe).
Richard Hardy,