Jeśli w dużym badaniu nie odrzucimy hipotezy zerowej, czy nie jest to dowód na brak?

59

Podstawowym ograniczeniem testu istotności hipotezy zerowej jest to, że nie pozwala ona badaczowi zebrać dowodów na korzyść wartości zerowej ( Źródło )

Widzę to twierdzenie powtarzane w wielu miejscach, ale nie mogę znaleźć uzasadnienia. Jeśli przeprowadzimy duże badanie i nie znajdziemy istotnych statystycznie dowodów przeciwko hipotezie zerowej , czy nie są to dowody dla hipotezy zerowej?

Atte Juvonen
źródło
3
Ale zaczynamy naszą analizę od założenia, że ​​hipoteza zerowa jest poprawna ... Założenie może być błędne. Może nie mamy wystarczającej mocy, ale to nie znaczy, że założenie jest prawidłowe.
SmallChess
13
Jeśli go nie przeczytałeś, gorąco polecam Jacob Cohen's The Earth is Round (p <.05) . Podkreśla, że ​​przy wystarczająco dużej próbce można praktycznie odrzucić każdą hipotezę zerową. Opowiada się również za zastosowaniem rozmiarów efektów i przedziałów ufności, a także oferuje zgrabną prezentację metod bayesowskich. Ponadto czytanie to czysta przyjemność!
Dominic Comtois
7
Hipoteza zerowa może być po prostu błędna. ... brak odrzucenia wartości zerowej nie jest dowodem na wystarczająco bliską alternatywę.
Glen_b
3
Zobacz stats.stackexchange.com/questions/85903 . Ale zobacz także stats.stackexchange.com/questions/125541 . Jeśli wykonując „duże badanie” masz na myśli „wystarczająco duży, aby mieć dużą moc, aby wykryć minimalny efekt zainteresowania”, to brak odrzucenia można interpretować jako przyjęcie wartości zerowej.
ameba mówi Przywróć Monikę
7
Rozważ paradoks potwierdzający Hempela. Badanie wrony i stwierdzenie, że jest czarna jest wsparciem dla „wszystkie wrony są czarne”. Ale logiczne badanie innego niż czarny obiektu i stwierdzenie, że nie jest to wrona, musi również poprzeć tę propozycję, ponieważ stwierdzenia „wszystkie wrony są czarne” i „wszystkie inne niż czarne obiekty nie są wronami” są logicznie równoważne ... Rozdzielczość polega na tym, że liczba obiektów niebędących czarnymi jest znacznie, dużo większa niż liczba wron, więc wsparcie, które daje czarnemu wroni propozycja, jest odpowiednio większe niż małe wsparcie, które daje nie-czarny niebron.
Ben

Odpowiedzi:

63

Brak odrzucenia hipotezy zerowej jest dowodem na to, że hipoteza zerowa jest prawdziwa, ale może nie być szczególnie dobrym dowodem iz pewnością nie dowodzi hipotezy zerowej.

Weźmy krótki objazd. Zastanów się przez chwilę nad starym kliszem:

Brak dowodów nie jest dowodem nieobecności.

Bez względu na popularność to stwierdzenie jest nonsensowne. Jeśli czegoś szukasz i nie możesz go znaleźć, jest to absolutny dowód, że go nie ma. To, jak dobry jest ten dowód, zależy od dokładności wyszukiwania. Pobieżne poszukiwanie dostarcza słabych dowodów; wyczerpujące poszukiwanie dostarcza mocnych dowodów.

Wróćmy do testowania hipotez. Kiedy przeprowadzasz test hipotez, szukasz dowodów na to, że hipoteza zerowa nie jest prawdziwa. Jeśli go nie znajdziesz, to z pewnością jest to dowód, że hipoteza zerowa jest prawdziwa, ale jak silny jest ten dowód? Aby to wiedzieć, musisz wiedzieć, jak prawdopodobne jest, że dowody, które skłoniłyby cię do odrzucenia hipotezy zerowej, mogły umknąć twojemu poszukiwaniu. Jakie jest prawdopodobieństwo fałszywie ujemnego wyniku testu? Jest to związane z mocą, , testu (konkretnie jest to uzupełnienie, 1- .)βββ

Teraz moc testu, a zatem współczynnik fałszywie ujemnych, zwykle zależy od wielkości efektu, którego szukasz. Duże efekty są łatwiejsze do wykrycia niż małe. Dlatego nie ma pojedynczego dla eksperymentu, a zatem nie ma ostatecznej odpowiedzi na pytanie, jak silny jest dowód na hipotezę zerową. Innymi słowy, zawsze istnieje pewien rozmiar efektu wystarczająco mały, aby nie wykluczył go eksperyment.β

Odtąd są dwa sposoby postępowania. Czasami wiesz, że nie zależy ci na wielkości efektu mniejszej niż jakiś próg. W takim przypadku prawdopodobnie powinieneś przeformułować eksperyment tak, aby hipoteza zerowa była taka, że ​​efekt jest powyżej tego progu, a następnie przetestować alternatywną hipotezę, że efekt jest poniżej progu. Alternatywnie, możesz użyć swoich wyników, aby ustalić granice wiarygodnego rozmiaru efektu. Wniosek jest taki, że wielkość efektu leży w pewnym przedziale, z pewnym prawdopodobieństwem. Podejście to jest tylko mały krok od leczenia bayesowskiego, o którym możesz chcieć dowiedzieć się więcej, jeśli często znajdziesz się w takiej sytuacji.

Jest miła odpowiedź na powiązane pytanie, które dotyczy dowodów nieobecności , które mogą okazać się przydatne.

Nikt
źródło
9
Rozważmy test hipotezowy z , z i nieistotną wartością p. Według twojego rozumowania jest to dowód na . Kolejny test hipotez z , z i nieistotną wartością p, dostarczyłby wtedy pewnych dowodów na . Dowody te są oczywiście sprzeczne. ˉ x = 3 μ 2 H 1 : μ < 4 ˉ x = 3 μ 4H1:μ>2x¯=3μ2H1:μ<4x¯=3μ4
Macond,
4
Nie jestem pewien, czy podążę za twoją argumentacją. Z tego, co mogę powiedzieć, opisujesz dwa eksperymenty, z których każdy dostarcza (prawdopodobnie dość słaby) dowód na jedną z dwóch wzajemnie niespójnych hipotez. Dlaczego to jest zaskakujące?
Nikt
8
Kolejny przykład: wspólny . Jeśli tego nie odrzucisz, to znaczy, że masz dowody, że pośród wszystkich innych wartości w linii rzeczywistej, prawdziwa średnia wynosi dokładnie 0…? Ta odpowiedź jest myląca! H0:μ=0
Tim
3
Podoba mi się twoje zestawienie dowodów - wydaje się, że szybko prowadzi to do współczynnika Bayesa jako kwantyfikacji poparcia danych jednego modelu w porównaniu z drugim. Czy daje dowód za lub przeciw ? No to zależy od uprzedniego gęstości dla : jeśli uważasz, że „s albo gdzieś niecałe 2 lub gdzieś znacznie wyższy niż 3, dane dostarczają dowodów na to; jeśli uważasz, że „równie prawdopodobne, aby być w dowolnym miejscu pomiędzy -10 i 10, dane dostarczają s dowody przeciwko niemu. Ale w częstej analizie twój stopień przekonania nie jest reprezentowany przez liczbę, więc jakie pojęcie dowodów ma zastosowanie? μ2μμμx¯=3μ2μμμ
Scortchi - Przywróć Monikę
6
Przypomina mi hipotezę Riemanna. Szukaliśmy nietrywialnych zer poza linią z prawdziwą częścią 1/2, ale nie mogliśmy ich znaleźć. I chociaż nie uważamy hipotezy Riemanna za prawdziwą, ponieważ jej nie udowodniliśmy, większość matematyków uważa, że ​​jest ona prawdziwa i istnieje wiele wyników, które są warunkowo prawdziwe w odniesieniu do hipotezy Riemanna: prawda więc w tym przypadku zinterpretowaliśmy brak dowodów jako dowód nieobecności
Ant
29

NHST opiera się na wartościach p, które mówią nam: Biorąc pod uwagę, że hipoteza zerowa jest prawdziwa, jakie jest prawdopodobieństwo, że zaobserwujemy nasze dane (lub bardziej ekstremalne dane)?

Zakładamy, że hipoteza zerowa jest prawdziwa - w NHST jest zapisane, że hipoteza zerowa jest w 100% poprawna. Małe wartości p mówią nam, że jeśli hipoteza zerowa jest prawdziwa, nasze dane (lub bardziej ekstremalne dane) są mało prawdopodobne.

Ale co mówi nam duża wartość p? Mówi nam, że biorąc pod uwagę hipotezę zerową, nasze dane (lub bardziej ekstremalne dane) są prawdopodobne.

Ogólnie rzecz biorąc, P (A | B) ≠ P (B | A).

Wyobraź sobie, że chcesz wziąć dużą wartość p jako dowód na hipotezę zerową. Polegałbyś na tej logice:

  • Jeśli wartość null jest prawdą, prawdopodobna jest wysoka wartość p. ( Aktualizacja: nieprawda. Zobacz komentarze poniżej. )
  • Stwierdzono wysoką wartość p.
  • Dlatego zero jest prawdziwe.

To przybiera bardziej ogólną formę:

  • Jeśli B jest prawdziwe, prawdopodobne jest, że A.
  • Występuje.
  • Dlatego B jest prawdą.

Jest to jednak błędne, jak widać na przykładzie:

  • Jeśli padał deszcz na zewnątrz, prawdopodobnie ziemia jest mokra.
  • Ziemia jest mokra.
  • Dlatego padało na zewnątrz.

Ziemia mogła być bardzo mokra, ponieważ padał deszcz. Może to być spowodowane zraszaczem, czyszczeniem rynien, awarią wody itp. Bardziej ekstremalne przykłady można znaleźć w linku powyżej.

Jest to bardzo trudna koncepcja. Jeśli chcemy dowodów na wartość zerową, wymagane jest wnioskowanie bayesowskie. Dla mnie najbardziej dostępnym wyjaśnieniem tej logiki jest Rouder i in. (2016). w gazecie Czy wnioskujesz o darmowym obiedzie? opublikowane w Topics in Cognitive Science, 8, ss. 520–547.

Mark White
źródło
3
Nie podoba mi się, że wszystkie twoje przykłady stwierdzają, że „X jest prawdą”. Posiadanie dowodów na coś nie jest tym samym, co wnioskowanie ze 100% pewnością. Jeśli wyjdę na zewnątrz, a ziemia będzie mokra, będzie to dowód na „padał deszcz”. Te dowody znacznie zwiększają prawdopodobieństwo wystąpienia deszczu.
Atte Juvonen,
To uczciwe. That Rouder i in. artykuł, do którego odsyłam na końcu mojej odpowiedzi, nie zawiera przykładów, które z pewnością zawierają wnioski.
Mark White
6
@AtteJuvonen tak, mamy pewne dowody na deszcz, ale nie wiemy, jak prawdopodobne jest, więc jedynym wnioskiem, jaki można wyciągnąć, jest to, że „mógł padać lub mógł być czymś innym, co zmoczyło ziemię” . Masz więc niejednoznaczne dowody. Tylko na podstawie statystyk bayesowskich można wysunąć przeciwny argument.
Tim
3
Nie zgadzam się z twoją konkluzją „Jeśli chcemy dowodów na wartość zerową, wymagane jest wnioskowanie bayesowskie”; badanie, które cytujesz, pochodzi od Wagenmakers, który jest bardzo głośnym i twardym zwolennikiem statystyki bayesowskiej, więc najwyraźniej to twierdzą. Ale w rzeczywistości można łatwo znaleźć dowód „zerowy” w paradygmacie częstokrzyskim, np. Przeprowadzając TOST (dwa jednostronne testy) pod kątem równoważności. (cc @AtteJuvonen).
ameba mówi Przywróć Monikę
14

Aby zrozumieć, co jest nie tak z założeniem, zobacz następujący przykład:

Wyobraź sobie ogrodzenie w zoo, w którym nie widać jego mieszkańców. Chcesz przetestować hipotezę, że zamieszkują ją małpy, wkładając banana do klatki i sprawdzając, czy zniknął następnego dnia. Jest to powtarzane N razy dla zwiększenia istotności statystycznej.

Teraz możesz sformułować hipotezę zerową: biorąc pod uwagę, że w zagrodzie są małpy, jest bardzo prawdopodobne, że znajdą i zjedzą banana, więc jeśli banany są nietknięte każdego dnia, jest bardzo nieprawdopodobne, że w środku są jakieś małpy.

Ale teraz widzisz, że banany znikają (prawie) każdego dnia. Czy to mówi ci, że małpy są w środku?

Oczywiście, że nie, ponieważ są też inne zwierzęta, które lubią banany, a może troskliwy dozorca usuwa banana każdego wieczoru.

Więc jaki jest błąd popełniony w tej logice? Chodzi o to, że nie wiesz nic o prawdopodobieństwie zniknięcia bananów, jeśli w środku nie ma małp. Aby potwierdzić hipotezę zerową, prawdopodobieństwo zniknięcia bananów musi być małe, jeśli hipoteza zerowa jest błędna, ale nie musi tak być. W rzeczywistości zdarzenie może być jednakowo prawdopodobne (lub nawet bardziej prawdopodobne), jeśli hipoteza zerowa jest błędna.

Nie wiedząc o tym prawdopodobieństwie, nie można powiedzieć nic o ważności hipotezy zerowej. Jeśli dozorcy usuwają wszystkie banany każdego wieczoru, eksperyment jest całkowicie bezwartościowy, nawet jeśli na pierwszy rzut oka wydaje się, że potwierdziłeś hipotezę zerową.

Thern
źródło
To powinna być zaakceptowana odpowiedź.
Emily L.
2
@amoeba W tym przypadku zerowym hipem byłoby, że małpy są w klatce. Alt hyp byłby taki, że w klatce nie ma małp. Próbki, które zbieram, to obserwacje „banana banana” i „banana banana” każdego ranka. Biorąc kilka założeń na temat małp i ich zdolności do znajdowania bananów, mogę obliczyć prawdopodobieństwo, że widziałbym rzeczywisty wynik z małpami w klatce. Jeśli banany nadal tam są, odrzuć hiper-zero. Jeśli zawsze znikają banany, pasuje to do zerowej hip, ale to nie dowodzi, że małpy są w klatce.
Thern
1
@amoeba Nie jestem pewien, czy możliwe jest bezpośrednie przetłumaczenie małpiego przykładu na scenariusz testu t. Według mojej wiedzy, testowanie hipotez zerowych ogólnie oznacza to, co napisał Mark White w swojej odpowiedzi: „Biorąc pod uwagę, że hipoteza zerowa jest prawdziwa, jakie jest prawdopodobieństwo, że zaobserwujemy nasze dane (lub bardziej ekstremalne dane)?”. Twój scenariusz testowania t jest tego szczególnym przypadkiem, ale obecnie nie widzę, jak można uogólnić ten scenariusz. Z mojego odczucia, powiedziałbym, że twój scenariusz i przykład małpy są dwoma różnymi sposobami testowania hipotez, których nie można bezpośrednio zmapować.
Thern
1
Jeśli tak, @Nebr, znów jestem bardzo zdezorientowany co do znaczenia twojego małpiego przykładu. Test T jest prawdopodobnie najczęstszym testem hipotez; Wspomniałem o tym w moim komentarzu tylko dlatego, że jest to typowy przykład testu. Jeśli twój przykład małpy nie ma zastosowania (jak mówisz) do tego - typowo! - sytuacja, więc zastanawiam się nad jej znaczeniem. W rzeczywistości, jeśli powiesz, że test t i przykład małpy to „dwa różne sposoby testowania hipotez”, to czy możesz podać przykład testu statystycznego, który podąża za przykładem małpy „sposób”? Czym dokładnie jest twoja małpia analogia?
ameba mówi Przywróć Monikę
1
@Nebr Zgadzam się, że jest to ogólne pytanie. Ale jeśli nie możesz dać mi jeden przykład prawdziwego testu statystycznego, które mają te same właściwości jak Twój przykład małpa, to przykro mi, ale będę musiał rozważyć przykład prawie bez znaczenia dla tego wątku małpa. Nie twierdzę, że przykład małpy musi odpowiadać konkretnie testowi t. Ale to musi coś odpowiadać !!
ameba mówi Przywróć Monikę
14

W swoim słynnym artykule „ Dlaczego większość opublikowanych wyników badań jest fałszywych” Ioannidis użył rozumowania bayesowskiego i błędnego określenia stawki podstawowej, aby argumentować, że większość wyników jest fałszywie dodatnia. Krótko mówiąc, prawdopodobieństwo prawdziwości określonej hipotezy badawczej po badaniu zależy między innymi od prawdopodobieństwa tej hipotezy przed badaniem (tj. Stawki podstawowej).

W odpowiedzi Moonesinghe i in. (2007) zastosowali te same ramy, aby wykazać, że replikacja znacznie zwiększa prawdopodobieństwo prawdziwości hipotezy po badaniu. Ma to sens: jeśli wiele badań może powtórzyć pewne odkrycie, jesteśmy bardziej pewni, że hipoteza jest prawdziwa.

αPrawdopodobieństwo po studiach

Wykres pokazuje, że jeśli co najmniej 5 na 10 badań nie osiągnie znaczenia, nasze prawdopodobieństwo, że hipoteza jest prawdziwa, po badaniu wynosi prawie 0. Te same relacje istnieją w przypadku większej liczby badań. To odkrycie ma również intuicyjny sens: powtarzające się niepowodzenie w znalezieniu efektu wzmacnia nasze przekonanie, że efekt jest najprawdopodobniej fałszywy. To rozumowanie jest zgodne z zaakceptowaną odpowiedzią @RPL.

Jako drugi scenariusz załóżmy, że badania mają jedynie moc 50% (wszystkie pozostałe są równe).Prawdopodobieństwo_pow_badania 50

Teraz nasze prawdopodobieństwo po badaniu zmniejsza się wolniej, ponieważ każde badanie miało tylko małą moc, aby znaleźć efekt, jeśli naprawdę istniał.

COOLSerdash
źródło
Zauważ, że otrzymujesz wszystkie dowody dotyczące hipotezy zerowej z przypadków, w których test nie spełnia tej hipotezy. Ale założenie z OP było takie, że testy potwierdzają hipotezę zerową („Jeśli przeprowadzimy duże badanie i nie znajdziemy statystycznie istotnych dowodów przeciwko hipotezie zerowej, czy nie są to dowody na hipotezę zerową?”). Odpowiada to skrajnie lewej części twoich diagramów, a zatem przypadkowi, w którym prawdopodobieństwo efektu nadal wynosi 50% (lub, ogólnie rzecz biorąc, prawdopodobieństwo przed badaniem), więc nic nie zyskałeś.
Thern
@Nebr Nie rozumiem. Jeśli wykonamy 1 duże, dobrze napędzane badanie (powiedzmy 95% mocy) i nie uda nam się znaleźć dowodów przeciwko hipotezie zerowej (tj. Test hipotezy statystycznej nie ma znaczenia na poziomie 5%), nasze prawdopodobieństwo po badaniu wynosić 0,05 we wspomnianym schemacie (z prawdopodobieństwem przed badaniem 50%).
COOLSerdash
1
@Nebr Twój ostatni komentarz nie ma sensu: jeśli wynik nie jest znaczący, nie może być „fałszywie pozytywny”.
ameba mówi Przywróć Monikę
1
@Nebr If you have a negative, you found evidence against the null- Co? Słowo „negatywne” ma dokładnie przeciwne znaczenie. Znacząca wartość p nazywa się wynikiem „dodatnim”; nieistotne jest „negatywne”.
ameba mówi Przywróć Monikę
1
@ Nebr 100% mocy NIE oznacza „że jeśli H0 jest prawdą, możemy być pewni, że zawsze zobaczymy H1”. Oznacza to, że jeśli H1 jest prawdą, zawsze zobaczymy H1. Nie będę próbował dalej czytać twojego komentarza, ponieważ każde zdanie jest mylące.
ameba mówi Przywróć Monikę
12

Najlepsze wytłumaczenie, jakie widziałem na ten temat, pochodzi od kogoś, kto kształci się w matematyce.

H0H1H1H0H1H1H0H0

Klarnecista
źródło
4
Może powinieneś spojrzeć na ten wątek: stats.stackexchange.com/questions/163957/…
10

Jeśli nie podoba ci się ta konsekwencja testowania hipotez, ale nie jesteś przygotowany do pełnego przeskoku do metod bayesowskich, co powiesz na przedział ufności?

4207820913[0.492,0.502]

1212

Henz
źródło
2
Czym jest Bayesian w przedziale ufności?
kjetil b halvorsen
3
@kjetilbhalvorsen: Przedział ufności nie jest bayesowski (byłby to przedział wiarygodny), ale przedział ufności daje więcej informacji o dowodach, niż zwykła hipoteza odrzucenie / brak odrzucenia
Henry
9

Być może lepiej byłoby powiedzieć, że brak odrzucenia hipotezy zerowej nie jest sam w sobie dowodem na hipotezę zerową. Gdy weźmiemy pod uwagę pełne prawdopodobieństwo danych, które bardziej precyzyjnie uwzględniają ilość danych, wówczas zebrane dane mogą stanowić wsparcie dla parametrów objętych hipotezą zerową.

Powinniśmy jednak również dokładnie przemyśleć nasze hipotezy. W szczególności nie odrzucenie hipotezy point null nie jest bardzo dobrym dowodem na to, że hipoteza point null jest prawdziwa. Realistycznie gromadzi dowody, że prawdziwa wartość parametru nie jest tak daleko od danego punktu. Hipotezy point zero są w pewnym stopniu raczej sztucznymi konstruktami i najczęściej nie wierzysz, że będą prawdziwe.

Bardziej rozsądne staje się mówienie o braku odrzucenia popierającym hipotezę zerową, jeśli możesz w sposób znaczący odwrócić hipotezę zerową i alternatywną, a jeśli to robisz, odrzucasz swoją nową hipotezę zerową. Kiedy spróbujesz to zrobić za pomocą standardowej hipotezy zerowej punktu, natychmiast zobaczysz, że nigdy nie uda ci się odrzucić jej dopełnienia, ponieważ wtedy twoja odwrócona hipoteza zerowa zawiera wartości arbitralnie zbliżone do rozważanego punktu.

H0:|μ|δHA:|μ|>δμμδ+δ1α[δ,+δ]

Björn
źródło
4
+1. To IMHO powinno być przyjętą odpowiedzią. Nie rozumiem, dlaczego ma tak mało pozytywnych opinii.
ameba mówi Przywróć Monikę
1
@amoeba, ponieważ został opublikowany późno, ale zgadzam się i już daje +1.
Tim
6

To zależy od tego, jak używasz języka. Zgodnie z teorią decyzji Pearsona i Neymana nie jest to dowód na wartość zerową, ale należy zachowywać się tak, jakby wartość zerowa była prawdziwa.

Trudność wynika z modus tollens. Metody bayesowskie są formą rozumowania indukcyjnego i jako takie są formą rozumowania niepełnego. Metody hipotezy zerowej są probabilistyczną formą modus tollens i jako takie są częścią wnioskowania dedukcyjnego, a zatem stanowią kompletną formę rozumowania.

Modus tollens ma postać „jeśli A jest prawdą, to B jest prawdą, a B nie jest prawdą; dlatego A nie jest prawdą”. W tej formie byłoby, gdyby zerowa była prawdziwa, wówczas dane pojawią się w określony sposób, nie pojawią się w ten sposób, dlatego (do pewnego stopnia pewności) zerowa nie jest prawdziwa (lub przynajmniej jest „sfałszowana” . ”

Problem polega na tym, że chcesz „Jeśli A to B i B.” Na tej podstawie chcesz wnioskować o A, ale to nie jest poprawne. „Jeśli A to B”, „nie wyklucza”, jeśli nie A, to B ”również z prawidłowego stwierdzenia. Zastanów się nad stwierdzeniem „jeśli jest to niedźwiedź, może pływać. Jest rybą (a nie niedźwiedziem”). Wypowiedzi nie mówią nic o zdolności pływania nie-niedźwiedzi.

Prawdopodobieństwo i statystyka to gałąź retoryki, a nie gałąź matematyki. Jest intensywnym użytkownikiem matematyki, ale nie jest jej częścią. Istnieje z różnych powodów, perswazji, podejmowania decyzji lub wnioskowania. Rozszerza retorykę na zdyscyplinowaną dyskusję na temat dowodów.

Dave Harris
źródło
1
+1 za wzmiankę o Neymanie i Pearsonie (patrz stats.stackexchange.com/questions/125541 ).
ameba mówi Przywróć Monikę
5

Spróbuję to zilustrować przykładem.

μx¯H0:μ=μiμiμ0x¯μ

H1:μ=MH0:μ=μ0μμ0μ<μ0μ>μ0

Macond
źródło
„A teraz, na jaką wartość μ mamy dowody?” - Mamy mocniejsze dowody na wartości bliższe średniej próbki i słabsze dowody na wartości dalsze od średniej próbki. Jak silny lub słaby zależy od wielkości próbki i wariancji. Czy coś jest nie tak z tą interpretacją?
Atte Juvonen,
Tak, to błędna interpretacja. Wartość P nie jest prawdopodobieństwem prawdziwości hipotezy zerowej ani siłą dowodu na korzyść hipotezy zerowej. Podobnie, można dokonać oszacowania przedziału, ze średnią próbki w środku przedziału, ale nie oznacza to, że istnieje większe prawdopodobieństwo, że średnia populacji będzie bliska środkowi przedziału. W komentarzu Dominica Comtoisa do twojego pytania znajduje się odniesienie do dobrego wyjaśnienia tej błędnej interpretacji.
Macond,
„nie oznacza to, że istnieje większe prawdopodobieństwo, że średnia populacji będzie bliska środka przedziału”. - To nie może być poprawne. Przeczytałem gazetę, ale nie mogłem znaleźć niczego, co by to potwierdziło.
Atte Juvonen,
μμP(A|B)P(B|A)
4

x¯0tH0:x¯=μμ=0.5p>0.05H0μ=0.5tpμ=0.5μ=0.5

Dwie alternatywne hipotezy

pH0pH0 H1μμμ

L(μ|X)=f(X|μ)

μ^μ^μ^f(μ|X)f(X|μ)f(μ|X)μ^. To prowadzi do twierdzenia Bayesa

f(μ|X)=f(X|μ)f(μ)f(X|μ)f(μ)dμ

μμ^μ

H1H0H0itd. Jeśli poprosisz ją o kilka liczb, ona ci je da, ale liczby nie byłyby porównywalne . Problem polega na tym, że test / wyrocznia hipotezy działa w ramach, w których może udzielić rozstrzygających odpowiedzi tylko na pytania, czy dane są zgodne z pewną hipotezą , a nie na odwrót, ponieważ nie rozważasz innych hipotez.

Tim
źródło
2

Podążmy za prostym przykładem.

Moja hipoteza zerowa jest taka, że ​​moje dane są zgodne z rozkładem normalnym. Alternatywna hipoteza jest taka, że ​​rozkład moich danych nie jest normalny.

Rysuję dwie losowe próbki z równomiernego rozkładu na [0,1]. Nie mogę wiele zrobić z dwiema próbkami, dlatego nie byłbym w stanie odrzucić mojej hipotezy zerowej.

Czy to oznacza, że ​​mogę stwierdzić, że moje dane są zgodne z normalnym rozkładem? Nie, to jednolity rozkład !!

Problem polega na tym, że w mojej hipotezie zerowej przyjęłam założenie normalności. Dlatego nie mogę stwierdzić, że moje założenie jest prawidłowe, ponieważ nie mogę go odrzucić.

SmallChess
źródło
3
Nie sądzę, aby badanie z 2 próbkami kwalifikowało się jako „badanie”. Gdy tylko narysujemy rozsądną liczbę punktów danych, ten przykład nie działa. Jeśli narysujemy 1000 punktów danych i wyglądają one jak jednolity rozkład, mamy dowody przeciwko naszej hipotezie zerowej. Jeśli narysujemy 1000 punktów danych i wyglądają one jak rozkład normalny, mamy dowody na naszą hipotezę zerową.
Atte Juvonen,
1
@AtteJuvonen Moja odpowiedź nie jest próbą zdefiniowania, czym powinno być badanie. Po prostu staram się podać prosty przykład ilustrujący brak mocy statystycznej dla pytania. Wszyscy wiemy, że 2 próbki są złe.
SmallChess
4
Dobrze. Mówię tylko, że twój przykład ilustruje problem wyciągania wniosków z 2 próbek. Nie ilustruje to problemu wyciągania dowodów na hipotezę zerową.
Atte Juvonen,
2

H0H0

H0H0H0

Dmitrij Grigoriew
źródło
H0H0H0
0

Nie, to nie jest dowód, chyba że masz dowody, że jest to dowód. Nie staram się być słodka, raczej dosłowna. Istnieje prawdopodobieństwo, że zobaczysz takie dane, biorąc pod uwagę założenie, że wartość null jest prawdziwa. To WSZYSTKO, co otrzymujesz z wartości p (jeśli tak, ponieważ wartość p opiera się na samych założeniach).

Czy możesz przedstawić badanie, które pokazuje, że w przypadku badań, które „nie” potwierdzają hipotezy zerowej, większość hipotez zerowych okazuje się prawdą? Jeśli potrafisz znaleźć TO, to brak obalenia hipotez zerowych przynajmniej odzwierciedla BARDZO ogólne prawdopodobieństwo, że zerowa jest prawdziwa. Założę się, że nie masz tego badania. Ponieważ nie masz dowodów na to, że hipotezy zerowe są prawdziwe na podstawie wartości p, musisz po prostu odejść z pustymi rękami.

Zacząłeś od założenia, że ​​wartość null była prawdziwa, aby uzyskać tę wartość p, więc wartość p nie może ci nic powiedzieć o wartości null, tylko o danych. Pomyśl o tym. Jest to wnioskowanie jednokierunkowe - kropka.

Roger Dodger
źródło