Dlaczego statystycy twierdzą, że nieistotny wynik oznacza „nie można odrzucić wartości zerowej” w przeciwieństwie do przyjęcia hipotezy zerowej?

44

Tradycyjne testy statystyczne, takie jak test t dwóch próbek, koncentrują się na próbie wyeliminowania hipotezy, że nie ma różnicy między funkcją dwóch niezależnych próbek. Następnie wybieramy poziom ufności i mówimy, że jeśli różnica średnich przekracza poziom 95%, możemy odrzucić hipotezę zerową. Jeśli nie, „nie możemy odrzucić hipotezy zerowej”. Wydaje się to sugerować, że nie możemy tego zaakceptować. Czy to oznacza, że nie jesteśmy pewni, czy hipoteza zerowa jest prawdziwa?

Teraz chcę zaprojektować test, w którym moja hipoteza jest taka, że funkcja dwóch próbek jest taka sama (co jest przeciwieństwem tradycyjnych testów statystycznych, w których hipoteza jest taka, że dwie próbki są różne). Tak więc moją hipotezą zerową jest to, że dwie próbki są różne. Jak zaprojektować taki test? Czy to będzie tak proste, jak powiedzenie, że jeśli wartość p jest mniejsza niż 5%, możemy zaakceptować hipotezę, że nie ma znaczącej różnicy?

hypothesis-testing statistical-significance confidence-interval equivalence tost ryu576
źródło

Bardzo pokrewny: czy brak odrzucenia zera w podejściu Neymana-Pearsona oznacza, że należy go „zaakceptować”?

ameba mówi Przywróć Monikę

różnica średnich przekracza poziom 95%, możemy odrzucić hipotezę zerową. 95% nie jest „poziomem”, jest tutaj w 95 przypadkach na 100 przypadków (porównań), różnica w statystyce próbek powstaje z powodu wahań próbkowania. oznacza to, że wartość null jest akceptowana przy alfa = 0,05. Mówienie poziomu 95% nie jest poprawnym terminem.

Subhash C. Davar,

44

Tradycyjnie hipoteza zerowa jest wartością punktową. (Zazwyczaj jest to , ale w rzeczywistości może być dowolną wartością punktową). Alternatywna hipoteza jest taka, że prawdziwa wartość to dowolna wartość inna niż wartość zerowa . Ponieważ zmienna ciągła (taka jak średnia różnica) może przyjmować wartość, która jest nieskończenie bliska wartości zerowej, ale wciąż nie do końca równa, a zatem hipoteza zerowa jest fałszywa, nie można udowodnić tradycyjnej hipotezy punktowej. $0$

Wyobraź sobie, że twoja hipoteza zerowa wynosi , a średnia zaobserwowana różnica wynosi . Czy uzasadnione jest założenie, że hipoteza zerowa jest prawdziwa? Jeszcze nie wiesz; dobrze byłoby wiedzieć, jak wygląda nasz przedział ufności . Powiedzmy, że 95% przedział ufności wynosi . Czy powinniśmy teraz stwierdzić, że prawdziwa wartość wynosi ? Nie czułbym się komfortowo, mówiąc o tym, ponieważ CI jest bardzo szeroki i istnieje wiele dużych niezerowych wartości, które moglibyśmy podejrzewać, że są zgodne z naszymi danymi. Powiedzmy, że zbieramy znacznie, dużo więcej danych, a teraz nasza zaobserwowana średnia różnica wynosi , ale 95% CI wynosi $0$ $0.01$ $(-4.99,\ 5.01)$ $0$ $0.01$ $(0.005,\ 0.015)$ . Obserwowana średnia różnica pozostała taka sama (co byłoby niesamowite, gdyby to się naprawdę wydarzyło), ale przedział ufności wyklucza teraz wartość zerową. Oczywiście jest to tylko eksperyment myślowy, ale powinien wyjaśnić podstawowe idee. Nigdy nie możemy udowodnić, że prawdziwą wartością jest jakaś konkretna wartość punktowa; możemy tylko (prawdopodobnie) obalić, że jest to jakaś wartość punktowa. W statystycznym testowaniu hipotez fakt, że wartość p wynosi> 0,05 (i że 95% CI obejmuje zero) oznacza, że nie jesteśmy pewni, czy hipoteza zerowa jest prawdziwa .

Jeśli chodzi o konkretny przypadek, nie można skonstruować testu, w którym alternatywną hipotezą jest, że średnia różnica wynosi a hipoteza zerowa jest inna niż zero. To narusza logikę testowania hipotez. Jest całkowicie uzasadnione, że jest to twoja merytoryczna, naukowa hipoteza, ale nie może być twoją alternatywną hipotezą w sytuacji testowania hipotez. $0$

Więc co możesz zrobić? W tej sytuacji używasz testu równoważności. (Możesz przeczytać niektóre z naszych wątków na ten temat, klikając znacznik równoważności .) Typową strategią jest zastosowanie metody testów dwustronnych. Bardzo krótko wybierasz przedział, w którym można uznać, że prawdziwa średnia różnica może również wynosić $0$ dla wszystkiego, co możesz obchodzić, wówczas wykonujesz test jednostronny, aby ustalić, czy zaobserwowana wartość jest mniejsza niż górna granica tego przedziału, oraz kolejny test jednostronny, aby sprawdzić, czy jest ona większa niż dolna granica. Jeśli oba te testy są znaczące, to odrzuciłeś hipotezę, że prawdziwa wartość jest poza przedziałem, na którym ci zależy. Jeśli jeden (lub oba) są nieistotne, nie odrzucasz hipotezy, że prawdziwa wartość jest poza przedziałem.

Na przykład załóżmy, że wszystko w przedziale jest tak bliskie zeru, że uważasz, że jest zasadniczo takie samo jak zero dla twoich celów, więc używasz tego jako merytorycznej hipotezy. Teraz wyobraź sobie, że otrzymujesz pierwszy wynik opisany powyżej. Chociaż mieści się w tym przedziale, nie można odrzucić hipotezy zerowej w żadnym jednostronnym teście, więc nie można odrzucić hipotezy zerowej. Z drugiej strony wyobraź sobie, że masz drugi opisany powyżej wynik. Teraz okazuje się, że zaobserwowana wartość mieści się w wyznaczonym przedziale, i można wykazać, że jest ona zarówno mniejsza niż górna granica, jak i większa niż dolna granica, więc możesz odrzucić wartość zerową. (Warto zauważyć, że możesz odrzucić oba $(-0.02,\ 0.02)$ $0.01$ hipoteza, że prawdziwa wartość wynosi , oraz hipoteza, że prawdziwa wartość leży poza przedziałem , co może początkowo wydawać się kłopotliwe, ale jest w pełni zgodne z logiką testowania hipotez.) $0$ $(-0.02,\ 0.02)$

gung - Przywróć Monikę
źródło

1

„Tradycyjnie hipoteza zerowa jest wartością punktową” - choć w niektórych przypadkach zapisujemy hipotezę zerową tak, jakby była punktowa, ale w rzeczywistości jest złożona . Jestem ciekawy, jaki wpływ ma zatem argument z pierwszego akapitu na testy jednostronne. (Ponieważ, o ile wiem, nie piszemy „akceptuj ” nawet w przypadku testów jednostronnych, nie jestem pewien, czy pierwszy akapit zawiera prawdziwy powód, dla którego nie piszemy „akceptuj .)

H_{0}

$H_0$

H_{0}

$H_0$

Silverfish

1

@Silverfish, końce akapitów z „tradycyjny punkt zerowy hipoteza nie może być udowodnione”. Z tego samego powodu nie piszemy też „akceptuj ” dla testów jednostronnych. Gdy , prawda może wynosić , ale może być dowolnie zamknięta, a zatem nieistotna. Jeśli naprawdę chcesz pokazać, że było to , możesz odwrócić kierunek testu jednostronnego. Nie widzę tutaj problemu.

H_{0}

$H_0$

H_{0} : δ \leq 0

$H_0: \delta\le 0$

δ

$\delta$

> 0

$>0$

< 0

$<0$

gung - Przywróć Monikę

1

Nie twierdzę, że to, co napisałeś, jest złe i podejrzewałem, że to był pomysł, który chciałeś przekazać. Oczywiście powodem, dla którego podeszliście do testu dwustronnego z hipotezą punktową w pierwszych dwóch akapitach odpowiedzi, jest to, że tak jest w pytaniu. Ale jeśli twoja odpowiedź zostanie ponownie przeczytana przez kogoś, kto zastanawia się, dlaczego ogólnie nie „akceptujemy ”, może nie być dla nich jasne, że twój argument wykracza poza hipotezę zerową.

H_{0}

$H_0$

Silverfish,

4

Argument „nigdy nie możemy udowodnić, że prawdziwą wartością jest jakaś konkretna wartość punktowa; możemy tylko (ewentualnie) obalić, że jest to jakaś wartość punktowa” jest szczególnym przypadkiem - co jeśli okazałoby się, że CI (-0,015 , -0,005)? W jakimkolwiek stopniu „udowodniliśmy” (wiem, że nie używasz „udowodnić” w sensie dosłownym, matematycznym - być może „wykazać” lub „zasugerować” są bliższe zamierzonemu znaczeniu), wydaje się, że mamy również „udowodniono” , ale nadal nie „zaakceptowalibyśmy”

δ \neq 0

$\delta \neq 0$

δ \leq 0

$\delta \leq 0$

H_{0} : δ \leq 0

$H_0:\,\delta \leq 0$

Silverfish

1

@Silverfish Myślę, że twój ostatni komentarz ma sens. Wydaje mi się, że z filozoficznego punktu widzenia jednostronne testowanie z różni się nieco od dwustronnego z punktem zerowym , chociaż matematycznie są one prawie takie same. Przyjęcie punktu zerowego nie ma sensu; ale testowanie względem może faktycznie doprowadzić do zaakceptowania jednego z nich (lub niejednoznacznego wyniku). Plus jednostronne testowanie ma większy sens z perspektywy Bayesa. Ponadto prognozy naukowe powinny mieć kierunek. Chyba zaczynam myśleć, że jednostronne testowanie nie jest wystarczająco doceniane.

H_{0} : δ < 0

$H_0:\delta<0$

H_{0} : δ = 0

$H_0:\delta=0$

δ > 0

$\delta>0$

δ < 0

$\delta<0$

ameba mówi Przywróć Monikę

28

Rozważmy przypadek, w którym hipoteza zerowa mówi, że moneta ma 2 główki, tzn. Prawdopodobieństwo głów wynosi 1. Teraz dane są wynikiem rzutu monetą raz i zobaczenia głów. Daje to wartość p 1,0, która jest większa niż każda rozsądna wartość alfa. Czy to oznacza, że moneta jest dwugłowa? może tak być, ale może to być również uczciwa moneta i widzieliśmy głowy z przypadkiem (zdarzyłoby się to w 50% przypadków z uczciwą monetą). Tak więc wysoka wartość p w tym przypadku mówi, że obserwowane dane są idealnie zgodne z wartością zerową, ale są również zgodne z innymi możliwościami.

Podobnie jak wyrok „Niewinny” w sądzie może oznaczać, że oskarżony jest niewinny, może być również spowodowany winnym, ale brak wystarczających dowodów. To samo z hipotezą zerową, której nie odrzucamy, ponieważ zerowa może być prawdziwa lub być może nie mamy wystarczających dowodów do odrzucenia, nawet jeśli jest fałszywa.

Greg Snow
źródło

3

Podoba mi się przykład „Niewinny”. Idąc o krok dalej, ponowne otwieranie spraw opartych na dowodach DNA, których nie wiedzieliśmy, jak wykorzystać w przeszłości i obalenie niektórych przekonań, jest doskonałym przykładem tego, jak dodanie większej ilości danych może być wszystkim, czego potrzeba, aby mieć wystarczającą ilość dowodów.

Thomas Speidel,

7

Brak dowodów nie jest dowodem nieobecności (tytuł pracy Altmana, Blanda na BMJ). Wartości p dają nam dowód nieobecności tylko wtedy, gdy uznamy je za znaczące. W przeciwnym razie nic nam nie mówią. Stąd brak dowodów. Innymi słowy: nie wiemy, a więcej danych może pomóc.

Thomas Speidel
źródło

5

$H_0$

$H_1$ $H_0$

$H_0$

Jeśli mamy dwie próbki, w których spodziewamy się identycznej dystrybucji, wówczas nasza hipoteza zerowa jest taka, że próbki są takie same. Jeśli mamy dwie próbki, których spodziewalibyśmy się (dziko) różne, nasza hipoteza zerowa jest taka, że są one różne.

SomeEE
źródło

A jeśli nie mamy żadnych oczekiwań ... być może nie wiemy. Jak działa reguła decyzyjna, jeśli chcemy odrzucić hipotezę, że dwie próbki są różne?

ryu576

W przypadku, gdy nie masz żadnych oczekiwań, chcesz, aby oba typy błędów były małe, ale nie zawsze jest to możliwe. Aby to zrobić, potrzebujesz dodatkowej zmiennej (np. Zwiększenie wielkości próbki).

SomeEE

2

Ponieważ możemy odrzucić wartość zerową, ale nie udowodnić, że jest to prawda, wartość zerowa jest zwykle przeciwieństwem tego, co chcemy udowodnić lub zakładamy, że jest prawdziwe. Jeśli uważamy, że jest jakaś różnica, to zerowy nie powinien być różnicy, abyście mogli to obalić.

Greg Snow

@Greg To dobre podejście, jeśli wiesz, które z nich chcesz być prawdą, co jest prawdopodobnie zwykłym przypadkiem.

SomeEE

1

„Czego oczekujesz” i „że są różne” wcale nie mogą być hipotezami statystycznymi, ponieważ nie są ilościowe. To prowadzi do sedna sprawy: asymetria ról między hipotezą zerową i alternatywną wynika z możliwości określenia rozkładu próbkowania statystyki testowej pod zerą, w porównaniu z potrzebą parametryzacji rozkładu przez wielkość efektu pod alternatywna hipoteza. Nie jest też tak, że „minimalizujemy błąd typu I”: to się nigdy nie zdarza (minimum to zawsze 0). Testy mają na celu wyważenie poziomów błędu typu I i II.

whuber

Dlaczego statystycy twierdzą, że nieistotny wynik oznacza „nie można odrzucić wartości zerowej” w przeciwieństwie do przyjęcia hipotezy zerowej?

Odpowiedzi: