Biorąc pod uwagę wystarczająco dużą wielkość próby, test zawsze pokaże znaczący wynik, chyba że rzeczywisty rozmiar efektu wynosi dokładnie zero. Czemu?

21

Jestem ciekawy twierdzenia zawartego w artykule Wikipedii dotyczącym wielkości efektu . Konkretnie:

[...] porównanie statystyczne o wartości innej niż zero zawsze będzie wykazywać statystycznie znaczące wyniki, chyba że wielkość efektu populacji będzie dokładnie równa zero

Nie jestem pewien, co to oznacza / sugeruje, nie mówiąc już o argumentach na poparcie tego. Wydaje mi się, że w końcu efektem jest statystyka, tj. Wartość obliczona z próbki, z własnym rozkładem. Czy to oznacza, że ​​efekty nigdy nie wynikają z przypadkowej zmienności (co, jak rozumiem, oznacza nieistotność)? Czy wtedy zastanawiamy się tylko, czy efekt jest wystarczająco silny - mając wysoką wartość bezwzględną?

Rozważam efekt, który znam najbardziej: współczynnik korelacji Pearsona r wydaje się temu zaprzeczać. Dlaczego każdy byłby r statystycznie nieznaczące? Jeśli r jest małe, nasza linia regresji

y=ax+b=r(sysx)=ϵx+b

Dla ϵ small, jest bliskie 0, test F prawdopodobnie będzie zawierał przedział ufności zawierający 0 dla nachylenia. Czy to nie kontrprzykład?

Gary
źródło
10
Wskazówka: klauzula przed cytowaną częścią jest niezbędna. „ Biorąc pod uwagę wystarczająco dużą wielkość próby , niepuste porównanie statystyczne zawsze pokaże statystycznie znaczące wyniki, chyba że wielkość efektu populacji wynosi dokładnie zero…”
Kodiolog
@Kodiologist Ale ponownie moim przykładem, będzie to oznaczać, że, jeżeli wielkość próbki były większe, a r sam będzie również większe, lub co najmniej ekspresja będzie większy, gdy wielkość próbki była większa? Nie widzę tego r(sy/sx)
Gary
5
Gdyby to nie była prawda, byłaby to wada metody statystycznej. Jeśli , z pewnością pewna wielkość próbki jest wystarczająco duża, aby wykryć różnicę. μ>μ0
John Coleman,

Odpowiedzi:

26

Jako prosty przykład, załóżmy, że szacuję twój wzrost za pomocą statystycznego mumbo-jumbo.

Zawsze mówiłeś innym, że masz 177 cm (około 5 stóp 10 cali).

Gdybym miał przetestować tę hipotezę (że twój wzrost jest równy 177 cm, ) i mógłbym wystarczająco zmniejszyć błąd w moim pomiarze, to mógłbym udowodnić, że tak naprawdę nie jesteś 177 cm. Ostatecznie, jeśli oszacuję twoją wysokość do wystarczającej liczby miejsc po przecinku, prawie na pewno odejdziesz od podanej wysokości 177,00000000 cm. Być może masz 177,02 cm; Muszę tylko zmniejszyć mój błąd do mniej niż 0,02, aby dowiedzieć się, że nie masz 177 cm wzrostu.h=177

Jak zmniejszyć błąd w statystykach? Zdobądź większą próbkę. Jeśli otrzymasz wystarczająco dużą próbkę, błąd staje się tak mały, że możesz wykryć najbardziej drobne odchylenia od hipotezy zerowej.

Underminer
źródło
2
To jest bardzo jasne i zwięzłe wyjaśnienie. Prawdopodobnie bardziej pomaga zrozumieć, dlaczego tak się dzieje, niż bardziej matematyczne odpowiedzi. Dobra robota.
Nikt
1
Ładnie wyjaśnione, ale myślę, że ważne jest również, aby wziąć pod uwagę przypadki, w których podana wartość jest naprawdę dokładna. Na przykład, pomijając dziwne rzeczy, które zdarzają się w teorii strun itp., Pomiar liczby wymiarów przestrzennych naszego wszechświata (co można zrobić) da 3, i bez względu na to, jak dokładnie dokonasz tego pomiaru, będziesz nigdy nie znajduj statystycznie istotnych odchyleń od 3. Oczywiście, jeśli będziesz testować wystarczająco dużo razy, dostaniesz pewne odchylenia po prostu z powodu wariancji, ale to inny problem.
David Z
Prawdopodobnie naiwne pytanie, ale jeśli twierdzę, że mam 177 cm, to czy pojęcie cyfr znaczących nie oznacza, że ​​mówię tylko, że mam 176,5–177,5? Odpowiedź wydaje się dawać dobrą koncepcję teoretyczną, prawda, ale czy nie jest oparta na fałszywej przesłance? czego mi brakuje?
JimLohse
W tym przypadku podana wysokość 177 jest analogiczna do hipotezy zerowej w statystykach. W tradycyjnych testach hipotezy dotyczących równości formułujesz stwierdzenie równości (np. ). Chodzi o to, że bez względu na to, jak podasz swój wzrost, mogę go obalić, zmniejszając błąd, chyba że hipoteza zerowa jest DOKŁADNIE prawdziwa. Użyłem wysokości jako łatwego do zrozumienia przykładu, ale ta koncepcja jest taka sama w innych obszarach (substancja x nie powoduje raka, ta moneta jest uczciwa itp.)μ=177
Underminer
13

Jak zauważa @Kodiologist, tak naprawdę chodzi o to, co dzieje się w przypadku dużych próbek. W przypadku małych próbek nie ma powodu, dla którego nie można uzyskać fałszywych wyników pozytywnych ani fałszywych wyników negatywnych.

Myślę, że -test sprawia asymptotyczne najczystszy przypadek. Załóżmy, że mamy X 1 , , X nzi chcemy przetestowaćH0:μ=0vsHA:μ0. Nasza statystyka testowa wynosi Zn= ˉ X n-0X1,,XniidN(μ,1)H0:μ=0HA:μ0

Zn=X¯n01/n=nX¯n.

więcZn=X¯nN(μ,1n). Jesteśmy zainteresowaniZn=nX¯nN(μn,1) . P(|Zn|α)= 1 + Φ ( - α - μ

P(|Zn|α)=P(Znα)+P(Znα)
NiechY
=1+Φ(αμn)Φ(αμn).
będzie naszą zmienną odniesienia. Pod H 0 μ = 0, więc mamy P ( | Z n |α ) = 1 - P ( - α Y α ), więc możemy wybrać α, aby kontrolować nasz wskaźnik błędów typu I według potrzeb. Ale pod H A μ YN(0,1)H0 μ=0P(|Zn|α)=1P(αYα)αHA więc P(|Znμn0 więc z prawdopodobieństwem 1 odrzucimy H 0, jeśli μ 0 ( ± jest w przypadku μ < 0 , ale w obu przypadkach nieskończoności mają ten sam znak).
P(|Zn|α)1+Φ(±)Φ(±)=1
H0μ0±μ<0

Chodzi o to, że jeśli dokładnie równa się 0, to nasza statystyka testowa ma rozkład odniesienia i odrzucimy 5% (lub cokolwiek innego) czasu. Ale jeśli μ nie jest dokładnie 0 , to prawdopodobieństwo, że odrzucimy głowice do 1, gdy n wzrasta. Chodzi tutaj o spójność testu, to znaczy, że pod H A moc (prawdopodobieństwo odrzucenia) zmierza do 1 jako n .μ 0μ01nHA1n

H0:ρ=ρ0HA:ρρ01

jld
źródło
1
μ<0Zn
1
μ=0X¯p0n
1
@DeltaIV, racja, jeśli współczynnik zbieżności byłby inny, należałoby zastosować inne skalowanie, aby uzyskać nieregenerowany rozkład zerowy. Ale w tym przykładzie root-n jest właściwą szybkością.
Christoph Hanck
1
nX¯0
7

Być może to, co powiedzieli, jest złe, jeśli nie z innego powodu niż ich użycie „ zawsze tak się dzieje”.

Nie wiem, czy to jest sedno zamieszania, które masz , ale opublikuję to, ponieważ myślę, że wielu robi i będzie się tym mylić:

Xnn>n0X

limnPar(X)=1

To, co dosłownie mówią, tłumaczy się następująco:

nn0

Co oni próbują powiedzieć, chociaż, co następuje:

Dla każdego poziomu istotności, wraz ze wzrostem wielkości próbki, prawdopodobieństwo, że test inny niż zerowy da znaczący wynik, zbliża się do 1, jeśli rzeczywisty rozmiar efektu nie jest dokładnie zerowy.

Istnieją tutaj zasadnicze różnice:

  • Nie ma gwarancji. Bardziej prawdopodobne jest uzyskanie znaczącego wyniku przy większej próbce. Teraz mogliby uniknąć części winy tutaj, ponieważ jak dotąd jest to tylko kwestia terminologii. W kontekście prawdopodobieństwa, to jest zrozumiałe, że stwierdzenie „jeśli n jest wystarczająco duże, wówczas X” może być również interpretowane jako oznaczające „X staje się coraz bardziej prawdopodobne, aby mogło być prawdziwe jak n rośnie duży” .
    Jednak ta interpretacja wychodzi mi z okna, gdy tylko mówią, że zawsze tak się dzieje. Właściwą terminologią byłoby tutaj stwierdzenie, że dzieje się to „ z dużym prawdopodobieństwem1 .


  • n>n0

Ale kiedy zrozumiesz literaturę, otrzymasz to, co próbują powiedzieć.

(Nota boczna: nawiasem mówiąc, jest to dokładnie jeden ze stałych problemów wielu osób z Wikipedią. Często można zrozumieć, co mówią, jeśli znasz już materiał, więc jest dobry tylko w celach informacyjnych lub jako przypomnienie , nie jako materiał do samokształcenia).

1 Dla innych pedantów (cześć!) Tak, termin ten ma bardziej szczegółowe znaczenie niż to, z którym się łączyłem. Najluzszym terminem technicznym, który prawdopodobnie chcemy tutaj, jest „asymptotycznie prawie na pewno” . Zobacz tutaj .

Mehrdad
źródło
„Prawdopodobieństwo, że test inny niż zerowy da znaczący wynik, zbliża się do 0, jeśli rzeczywisty rozmiar efektu wynosi dokładnie zero” może nie być całkiem poprawne: jeśli test ma poziom istotności αα
@Henry: Oh strzel, masz rację! Napisałem to tak szybko, że nie przestałem myśleć. Wielkie dzięki! Naprawiłem to. :)
Mehrdad
3

Moim ulubionym przykładem jest liczba palców według płci. Zdecydowana większość ludzi ma 10 palców. Niektórzy stracili palce z powodu wypadków. Niektóre mają dodatkowe palce.

Nie wiem, czy mężczyźni mają więcej palców niż kobiety (średnio). Wszystkie łatwo dostępne dowody sugerują, że zarówno mężczyźni, jak i kobiety mają po 10 palców.

Jestem jednak bardzo przekonany, że gdybym przeprowadził spis wszystkich mężczyzn i wszystkich kobiet, dowiedziałbym się, że jedna płeć ma więcej palców (średnio) niż druga.

emory
źródło