Jakie jest znaczenie wartości p it wartości w testach statystycznych?

246

Po przejściu kursu statystycznego, a następnie próbie pomocy innym studentom, zauważyłem, że jednym z tematów, który inspiruje wiele uderzeń w głowę, jest interpretacja wyników testów hipotez statystycznych. Wygląda na to, że uczniowie łatwo uczą się wykonywania obliczeń wymaganych przez dany test, ale odkładają słuchawkę na temat interpretacji wyników. Wiele skomputeryzowanych narzędzi podaje wyniki testów w kategoriach „wartości p” lub „wartości t”.

Jak wyjaśniłbyś następujące punkty studentom college'u podejmującym pierwszy kurs statystyki:

  • Co oznacza „wartość p” w odniesieniu do testowanej hipotezy? Czy zdarzają się sytuacje, w których należy szukać wysokiej wartości p lub niskiej wartości p?

  • Jaki jest związek między wartością p a wartością t?

Sharpie
źródło
11
Spora część tego jest zasadniczo opisana w pierwszym zdaniu artykułu w Wikipedii na temat wartości p , który poprawnie definiuje wartość p. Jeśli to zrozumiałe, wiele zostało wyjaśnionych.
Glen_b
1
Po prostu zdobądź książkę: Statystyka bez łez. To może uratować twoje zdrowie psychiczne !!
7
@ user48700 Czy mógłbyś podsumować, w jaki sposób statystyki bez łez to wyjaśniają?
Matt Krause,
5
Ktoś powinien narysować wykres pytań związanych z wartością p w czasie i założę się, że zobaczymy sezonowość i korelację z kalendarzami akademickimi na uczelniach lub na zajęciach z nauki o danych
Coursera
Oprócz innych fajnych i odpowiednich rekomendacji książek w odpowiedziach i komentarzach, chciałbym zasugerować inną książkę, odpowiednio nazwaną „Co to w ogóle jest wartość p?”. .
Aleksandr Blekh

Odpowiedzi:

150

Zrozumienie -valuep

Załóżmy, że chcesz przetestować hipotezę, że średnia wysokość studentów na twoim uniwersytecie wynosi stóp i cali. Zbierasz wysokości wybranych losowo uczniów i obliczasz średnią próbki (powiedzmy, że okazuje się, że to stóp cali). Stosując odpowiednią formułę / procedurę statystyczną obliczasz wartość dla swojej hipotezy i mówisz, że okazuje się to .7 100 5 9 p 0,065710059p0.06

Aby odpowiednio zinterpretować , należy pamiętać o kilku kwestiach:p=0.06

  1. Pierwszym krokiem w ramach klasycznego testowania hipotez jest założenie, że rozważana hipoteza jest prawdziwa. (W naszym kontekście zakładamy, że prawdziwa średnia wysokość wynosi stóp i cali).757

  2. Wyobraź sobie, że wykonujesz następujące obliczenia: Oblicz prawdopodobieństwo, że średnia próbki jest większa niż stóp cali, zakładając, że nasza hipoteza jest rzeczywiście poprawna (patrz punkt 1).959

Innymi słowy, chcemy poznać

P(Samplemean5ft9inches|Truevalue=5ft7inches).

Obliczenia w kroku 2 nazywane są wartością . Dlatego wartość wynosząca oznaczałaby, że gdybyśmy powtarzali nasz eksperyment wiele, wiele razy (za każdym razem, gdy wybieramy losowo uczniów i obliczamy średnią z próby), wówczas razy na możemy spodziewać się próbki oznacza większą lub równą stóp cali.p 0,06 100 6 100 5 9pp0.06100610059

Biorąc pod uwagę powyższe zrozumienie, czy powinniśmy nadal utrzymywać nasze założenie, że nasza hipoteza jest prawdziwa (patrz krok 1)? Cóż, oznacza, że ​​wydarzyła się jedna z dwóch rzeczy:p=0.06

  • (A) Albo nasza hipoteza jest poprawna i wydarzyło się bardzo mało prawdopodobne wydarzenie (np. Wszyscy studentów to sportowcy)100

lub

  • (B) Nasze założenie jest nieprawidłowe, a próba, którą uzyskaliśmy, nie jest niczym niezwykłym.

Tradycyjnym sposobem wyboru pomiędzy (A) i (B) jest wybranie arbitralnego punktu odcięcia dla . Wybieramy (A), jeśli i (B), jeśli .p > 0,05 p < 0,05pp>0.05p<0.05

prawoskrętny
źródło
3
Nie spiesz się! Nie będę myślał o wyborze „najlepszej odpowiedzi” przez jakiś tydzień.
Sharpie
1
Teraz, kiedy miałem okazję wrócić i przeczytać całą odpowiedź - duża +1 za przykład wzrostu ucznia. Bardzo jasne i dobrze rozplanowane.
Sharpie
3
Dobra robota ... ale musimy dodać (C), że nasz model (zawarty w formule / procedurze statystycznej) jest nieprawidłowy.
Andrew Robinson,
6
Wartość t (lub dowolna inna statystyka testowa) jest głównie etapem pośrednim. Zasadniczo jest to pewna statystyka, która, przy pewnych założeniach, została udowodniona, że ​​ma dobrze znany rozkład. Ponieważ znamy rozkład statystyki testowej poniżej wartości zerowej, możemy następnie użyć standardowych tabel (dziś głównie oprogramowania), aby uzyskać wartość p.
Gala
1
Czy wartość p nie jest uzyskiwana w wyniku testu chi-kwadrat, a następnie z tabeli chi-kwadrat? Zastanawiam się, dlaczego obliczone powyżej prawdopodobieństwo wskazuje samą wartość p ?!
Facet z Londynu
123

Dialog między nauczycielem a troskliwym uczniem

Pokornie podniósł się w przekonaniu, że w tym wątku do tej pory nie użyto wystarczającej ilości kredek. Na końcu pojawia się krótkie ilustrowane streszczenie.


Student : Co oznacza wartość p? Wydaje się, że wiele osób zgadza się, że istnieje szansa, że „zobaczymy, że próbka jest większa lub równa„ statystyce lub jest to ”prawdopodobieństwo zaobserwowania tego wyniku ... przy założeniu, że hipoteza zerowa jest prawdziwa”, lub gdzie „statystyki mojej próbki spadł na [symulowany] rozkład ”, a nawet „ prawdopodobieństwo zaobserwowania statystyki testowej co najmniej tak dużej, jak obliczona przy założeniu, że hipoteza zerowa jest prawdziwa ” .

Nauczyciel : właściwie zrozumiane, wszystkie te stwierdzenia są poprawne w wielu okolicznościach.

Student : Nie rozumiem, jak większość z nich jest istotna. Czy nie nas, że musimy postawić hipotezę zerową i hipotezę alternatywną ? Jak są zaangażowani w te idee „większe niż lub równe” lub „co najmniej tak duże” lub bardzo popularne „bardziej ekstremalne”?H AH0HA

Nauczyciel : Ponieważ może to ogólnie wydawać się skomplikowane, czy pomógłby nam zbadać konkretny przykład?

Student : Jasne. Ale proszę, uczyń to realistycznym, ale prostym, jeśli możesz.

Nauczyciel : Teoria testowania hipotez historycznie rozpoczęła się od potrzeby astronomów do analizy błędów obserwacyjnych, więc co powiesz na to, aby zacząć od tego. Pewnego dnia przeglądałem stare dokumenty, w których naukowiec opisał swoje wysiłki na rzecz zmniejszenia błędu pomiaru w swoim aparacie. Dokonał wielu pomiarów gwiazdy w znanej pozycji i zarejestrował ich przemieszczenia przed lub za tą pozycją. Aby zwizualizować te przemieszczenia, narysował histogram, który - po lekkim wygładzeniu - wyglądał tak.

Ryc. 1: Histogram przemieszczeń

Student : Pamiętam, jak działają histogramy: oś pionowa jest oznaczona jako „Gęstość”, aby przypomnieć mi, że względne częstotliwości pomiarów są reprezentowane raczej przez powierzchnię niż wysokość.

Nauczyciel : Zgadza się. „Niezwykła” lub „ekstremalna” wartość byłaby zlokalizowana w regionie o dość małym obszarze. Oto kredka. Czy uważasz, że możesz pokolorować w regionie, którego powierzchnia stanowi zaledwie jedną dziesiątą całości?

Student : Pewnie; to łatwe. [Kolory na rysunku.]

Ryc. 2: Pierwsza kolorystyka ucznia.

Nauczyciel : Bardzo dobrze! Dla mnie wygląda to na około 10% powierzchni. Pamiętaj jednak, że jedynym obszarem na histogramie, który ma znaczenie, są obszary między liniami pionowymi: reprezentują szansę lub prawdopodobieństwo, że przemieszczenie zostanie zlokalizowane między tymi liniami na osi poziomej. Oznacza to, że trzeba było pokolorować do samego dołu, a to stanowiłoby ponad połowę powierzchni, prawda?

Student : Och, rozumiem. Pozwól mi spróbować ponownie. Chcę pokolorować tam, gdzie krzywa jest naprawdę niska, prawda? Jest najniższy na dwóch końcach. Czy muszę pokolorować tylko w jednym obszarze, czy rozbicie go na kilka części byłoby w porządku?

Nauczyciel : Używanie kilku części to sprytny pomysł. Gdzie oni by byli?

Student (wskazując): Tu i tutaj. Ponieważ ta kredka nie jest zbyt ostra, użyłem długopisu, aby pokazać linie, których używam.

Rycina 3: Druga kolorystyka ucznia

Nauczyciel : Bardzo miło! Pozwól, że opowiem ci resztę historii. Naukowiec wprowadził kilka ulepszeń do swojego urządzenia, a następnie wykonał dodatkowe pomiary. Napisał, że przemieszczenie pierwszego wynosiło zaledwie , co uważał za dobry znak, ale będąc uważnym naukowcem, zaczął sprawdzać kolejne pomiary. Niestety, inne pomiary zostały utracone - rękopis w tym momencie się psuje - i wszystko, co mamy, to jedna liczba, .0,10.10.1

Student : To źle. Ale czy nie jest to o wiele lepsze niż szeroki zakres przemieszczeń na twojej figurze?

Nauczyciel : Na to pytanie chciałbym odpowiedzieć. Na początek, co powinniśmy uznać za ?H0

Uczeń : Cóż, sceptyk zastanawiałby się, czy ulepszenia wprowadzone w urządzeniu w ogóle miały jakiś wpływ. Ciężar dowodu spoczywa na naukowcu: chciałby pokazać, że sceptyk się myli. To sprawia, że ​​uważam hipotezę zerową za coś złego dla naukowca: mówi ona, że ​​wszystkie nowe pomiary - w tym wartość , o której wiemy - powinny zachowywać się tak, jak opisano w pierwszym histogramie. A może nawet gorzej: mogą być jeszcze bardziej rozproszeni.0.1

Nauczyciel : Kontynuuj, masz się dobrze.

Student : A więc alternatywą jest to, że nowe pomiary byłyby mniej rozłożone, prawda?

Nauczyciel : Bardzo dobrze! Czy możesz narysować mi zdjęcie, jak wyglądałby histogram o mniejszej rozpiętości? Oto kolejna kopia pierwszego histogramu; możesz narysować na nim jako odniesienie.

Uczeń (rysunek): Używam pióra do zarysu nowego histogramu i koloruję w obszarze poniżej. Sprawiłem, że większość krzywej jest bliska zeru na osi poziomej, a więc większość jej obszaru jest bliska zerowej wartości (poziomej): to znaczy, że jest mniej rozłożona lub bardziej precyzyjna.

Rycina 4: Nowy histogram ucznia

Nauczyciel : To dobry początek. Pamiętaj jednak, że histogram pokazujący szanse powinien mieć łączną powierzchnię . Całkowity obszar pierwszego histogramu wynosi zatem . Ile powierzchni jest w twoim nowym histogramie?111

Student : Myślę, że mniej niż połowa. Widzę, że to problem, ale nie wiem, jak to naprawić. Co powinienem zrobić?

Nauczyciel : Sztuką jest, aby nowy histogram był wyższy niż stary, tak aby jego łączna powierzchnia wynosiła . Tutaj pokażę ci wersję wygenerowaną komputerowo w celu zilustrowania.1

Rysunek 5: Nowy histogram nauczyciela

Uczeń : Rozumiem: rozciągnąłeś go w pionie, więc jego kształt tak naprawdę się nie zmienił, ale teraz czerwony obszar i szary obszar (w tym część pod czerwoną) są takie same.

Nauczyciel : Racja. Patrzysz na obraz hipotezy zerowej (niebieska, rozłożona) i część hipotezy alternatywnej (czerwona, mniej rozłożona).

Student : Co rozumiesz przez „część” alternatywy? Nie jest to tylko hipoteza alternatywna?

Nauczyciel : Statystycy i gramatyka wydają się nie mieszać. :-) Poważnie, to, co rozumieją przez „hipotezę”, to zwykle cały zestaw możliwości. Tutaj alternatywą (jak już wcześniej tak dobrze powiedziałeś) jest to, że pomiary są „mniej rozłożone” niż wcześniej. Ale o ile mniej ? Istnieje wiele możliwości. Tutaj pozwól, że pokażę ci inny. Narysowałem go żółtymi kreskami. Jest pomiędzy dwoma poprzednimi.

Rysunek 6: Wartość zerowa wraz z dwoma elementami alternatywy

Uczeń : Widzę: możesz mieć różne wielkości spreadu, ale nie wiesz z góry, ile tak naprawdę będzie spread. Ale dlaczego zrobiłeś zabawne cieniowanie na tym zdjęciu?

Nauczyciel : Chciałem podkreślić, gdzie i jak różnią się histogramy. Cieniowałem je na szaro, gdzie alternatywne histogramy są niższe niż zero, i na czerwono, gdzie alternatywy są wyższe .

Student : Dlaczego miałoby to mieć znaczenie?

Nauczyciel : Czy pamiętasz, jak pokolorowałeś pierwszy histogram na obu ogonach? [Przegląda dokumenty.] Ach, oto jest. Pokolorujmy to zdjęcie w ten sam sposób.

Ryc. 7: Zerowy i alternatywny, kolorowy.

Student : Pamiętam: to są ekstremalne wartości. Znalazłem miejsca, w których gęstość zerowa była tak mała, jak to możliwe i zabarwiona na 10% powierzchni.

Nauczyciel : Opowiedz mi o alternatywach w tych ekstremalnych obszarach.

Uczeń : Trudno to dostrzec, ponieważ kredka to zakryła, ale wygląda na to, że prawie nie ma szans na alternatywę w obszarach, które pokolorowałem. Ich histogramy są skierowane w dół względem osi wartości i nie ma miejsca na żaden obszar pod nimi.

Nauczyciel : Kontynuujmy tę myśl. Gdybym ci hipotetycznie powiedział, że pomiar ma przemieszczenie , i poprosiłbym cię o wybranie jednego z tych trzech histogramów, z którego najprawdopodobniej pochodzi, który by to był?2

Student : Pierwszy - niebieski. Jest najbardziej rozpowszechniony i jedyny, w którym wydaje się mieć jakiekolwiek szanse na wystąpienie.2

Nauczyciel : A co z wartością w rękopisie?0.1

Uczeń : Hmmm ... to inna historia. Wszystkie trzy histogramy znajdują się dość wysoko nad ziemią na poziomie .0.1

Nauczyciel : OK, w porządku. Przypuśćmy jednak, że powiedziałem ci, że wartość wynosiła około , na przykład od do . Czy to pomaga odczytać niektóre prawdopodobieństwa z tych wykresów?0 0,20.100.2

Student : Jasne, bo mogę korzystać z obszarów. Muszę tylko oszacować obszary pod każdą krzywą między a . Ale to wygląda dość ciężko.0,200.2

Nauczyciel : Nie musisz iść tak daleko. Czy możesz po prostu powiedzieć, który obszar jest największy?

Student : Oczywiście pod najwyższą krzywą. Wszystkie trzy obszary mają tę samą podstawę, więc im wyższy łuk, tym więcej jest obszaru pod nim i podstawy. Oznacza to, że najwyższy histogram - ten, który narysowałem, z czerwonymi kreskami - jest najbardziej prawdopodobny dla przesunięcia o . Myślę, że rozumiem, do czego zmierzasz, ale jestem trochę zaniepokojony: czy nie muszę patrzeć na wszystkie histogramy wszystkich alternatyw, a nie tylko na jedną lub dwie przedstawione tutaj? Jak mogłem to zrobić?0.1

Nauczyciel : Jesteś dobry w zbieraniu wzorców, więc powiedz mi: gdy aparat pomiarowy jest coraz bardziej precyzyjny, co dzieje się z jego histogramem?

Uczeń : robi się węższy - och, i też musi być wyższy, więc jego całkowita powierzchnia pozostaje taka sama. To sprawia, że ​​porównanie histogramów jest dość trudne. Alternatywne nich są wszystkie wyższe niż null prawo na , to oczywiste. Ale przy innych wartościach czasami alternatywy są wyższe, a czasem niższe! Na przykład [wskazując na wartość bliską ], tutaj mój czerwony histogram jest najniższy, żółty histogram jest najwyższy, a oryginalny histogram zerowy jest między nimi. Ale po prawej stronie zero jest najwyższe.3 / 403/4

Nauczyciel : Ogólnie rzecz biorąc, porównywanie histogramów to skomplikowana sprawa. Aby pomóc nam to zrobić, poprosiłem komputer o wykonanie innego wykresu: podzielił każdą z alternatywnych wysokości histogramu (lub „gęstości”) przez wysokość histogramu zerowego, tworząc wartości znane jako „współczynniki prawdopodobieństwa”. W rezultacie wartość większa niż oznacza, że ​​alternatywa jest bardziej prawdopodobna, podczas gdy wartość mniejsza niż oznacza, że ​​alternatywa jest mniej prawdopodobna. Naszkicował jeszcze jedną alternatywę: jest bardziej rozproszony niż pozostałe dwa, ale wciąż mniej rozproszony niż oryginalny aparat.111

Rycina 8: Wskaźniki wiarygodności

Nauczyciel (kontynuuje): Czy możesz mi pokazać, gdzie alternatywy są bardziej prawdopodobne niż zero?

Uczeń (kolorystyka): Oczywiście w środku. Ponieważ nie są to już histogramy, powinniśmy raczej patrzeć na wysokości, a nie na obszary, więc zaznaczam tylko zakres wartości na osi poziomej. Ale skąd mam wiedzieć, w jakim środku należy pokolorować? Gdzie przestać kolorować?

Ryc. 9: Wyznaczone wykresy współczynnika wiarygodności

Nauczyciel : Nie ma twardej zasady. Wszystko zależy od tego, w jaki sposób zamierzamy wykorzystać nasze wnioski i od jak silnych sceptyków. Ale usiądź wygodnie i pomyśl o tym, co osiągnąłeś: teraz zdajesz sobie sprawę, że wyniki z dużym współczynnikiem prawdopodobieństwa są dowodem na alternatywę, a wyniki z niskim współczynnikiem prawdopodobieństwa są dowodem przeciwko alternatywie. Poproszę o wybranie koloru w obszarze, który, o ile jest to możliwe, ma niewielką szansę na wystąpienie pod hipotezą zerową i stosunkowo dużą szansę na pojawienie się pod alternatywnymi rozwiązaniami. Wracając do pierwszego koloru, który pokolorowałeś, na początku naszej rozmowy, pokolorowałeś dwa ogony zerowe, ponieważ były „ekstremalne”. Czy nadal wykonaliby dobrą robotę?

Student : Nie wydaje mi się. Mimo że były dość ekstremalne i rzadkie pod hipotezą zerową, są praktycznie niemożliwe dla żadnej z alternatyw. Gdyby moim nowym pomiarem był, powiedzmy , myślę, że poparłbym sceptycyzm i zaprzeczam, że nastąpiła jakakolwiek poprawa, mimo że był w każdym razie niezwykłym wynikiem. Chcę zmienić tę kolorystykę. Tutaj - pozwól mi wziąć kolejną kredkę.3.03.03.0

Rysunek 10: Ulepszone znaczniki

Nauczyciel : Co to oznacza?

Uczeń : Zaczęliśmy od tego, że poprosiłeś mnie o narysowanie zaledwie 10% obszaru pod oryginalnym histogramem - tym opisującym zero. Więc teraz narysowałem 10% obszaru, na którym wydaje się, że alternatywy są bardziej prawdopodobne. Myślę, że kiedy nowy pomiar jest w tym obszarze, mówi nam, że powinniśmy wierzyć w alternatywę.

Nauczyciel : A jak sceptyk powinien na to zareagować?

Student : Sceptyk nigdy nie musi przyznać, że się myli, prawda? Ale myślę, że jego wiara powinna być nieco wstrząśnięta. W końcu ustawiliśmy go tak, aby chociaż pomiar mógł znajdować się w obszarze, który właśnie narysowałem, ma on jedynie 10% szansy na obecność, gdy wartość null jest prawdziwa. I ma większą szansę bycia tam, gdy alternatywa jest prawdziwa. Po prostu nie mogę powiedzieć, jak duża jest ta szansa, ponieważ zależy to od tego, jak bardzo naukowiec ulepszył aparat. Wiem tylko, że jest większy. Dowody byłyby zatem przeciwne sceptycznemu.

Nauczyciel : W porządku. Czy mógłbyś podsumować swoje zrozumienie, abyśmy mieli pełną jasność na temat tego, czego się nauczyłeś?

Student : Nauczyłem się, że aby porównać hipotezę alternatywną z hipotezą zerową, powinniśmy porównać ich histogramy. Gęstości alternatyw dzielimy przez gęstość zerową: to właśnie nazywasz „współczynnikiem prawdopodobieństwa”. Aby zrobić dobry test, powinienem wybrać małą liczbę, na przykład 10% lub cokolwiek, co może wystarczyć, aby wstrząsnąć sceptykiem. Następnie powinienem znaleźć wartości, w których współczynnik prawdopodobieństwa jest tak wysoki, jak to możliwe, i pokolorować je, aż 10% (lub cokolwiek) zostanie pokolorowane.

Nauczyciel : A jak użyłbyś tego kolorowania?

Uczeń : Jak przypomniałeś mi wcześniej, kolorystyka musi znajdować się między pionowymi liniami. Wartości (na osi poziomej) leżące pod kolorem są dowodami przeciwko hipotezie zerowej. Inne wartości - cóż, trudno jest powiedzieć, co mogą one oznaczać, bez dokładniejszego spojrzenia na wszystkie zaangażowane histogramy.

Nauczyciel : Wracając do wartości w rękopisie, co byś wyciągnął?0.1

Uczeń : To w obszarze, który ostatnio pokolorowałem, więc myślę, że naukowiec prawdopodobnie miał rację, a aparat naprawdę został ulepszony.

Nauczyciel : Ostatnia rzecz. Twój wniosek opierał się na wybraniu 10% jako kryterium lub „wielkości” testu. Wiele osób lubi zamiast tego używać 5%. Niektórzy wolą 1%. Co mógłbyś im powiedzieć?

Student : Nie mogłem wykonać wszystkich tych testów jednocześnie! Cóż, może mógłbym w jakiś sposób. Widzę, że bez względu na to, jaki rozmiar powinien mieć test, powinienem zacząć kolorowanie od , co jest w tym sensie wartością „najbardziej ekstremalną”, i stamtąd pracować na zewnątrz w obu kierunkach. Gdybym miał zatrzymać się dokładnie na - wartość faktycznie zaobserwowana - myślę, że zabarwiłbym obszar w zakresie od do , powiedzmy . 5% i 1% ludzi mogło od razu powiedzieć, że ja za dużo pokolorowałem: gdyby chcieli pokolorować tylko 5% lub 1%, mogliby, ale nie dostaliby tak daleko, jak0,1 0,05 0,1 0,08 0,100.10.050.10.080.1. Nie dojdą do tego samego wniosku, co ja: powiedzieliby, że nie ma wystarczających dowodów na to, że rzeczywiście nastąpiła zmiana.

Nauczyciel : Właśnie powiedziałeś mi, co naprawdę oznaczają te wszystkie cytaty na początku . Z tego przykładu powinno być oczywiste, że nie mogą one być „bardziej ekstremalne”, „większe niż lub równe” lub „co najmniej tak duże” w sensie posiadania większej wartości lub nawet wartości, w której gęstość zerowa jest mała. Naprawdę mają na myśli te rzeczy w sensie dużych prawdopodobieństw , które opisałeś. Nawiasem mówiąc, liczba około , którą obliczyłeś, nazywa się „wartością p”. Można to właściwie zrozumieć tylko tak, jak to opisałeś: w odniesieniu do analizy względnych wysokości histogramu - ilorazów prawdopodobieństwa.0.08

Student : Dziękuję. Nie jestem pewien, czy w pełni to wszystko rozumiem, ale dałeś mi wiele do przemyślenia.

Nauczyciel : Jeśli chcesz pójść dalej, spójrz na lemat Neyman-Pearson . Prawdopodobnie jesteś teraz gotowy to zrozumieć.


Streszczenie

Wiele testów opartych na jednej statystyce, takiej jak ta w oknie dialogowym, nazywa to „ ” lub „ ”. Są to sposoby na wskazanie, jak wygląda histogram zerowy, ale są jedynie wskazówkami: to, jak nazywamy ten numer, nie ma tak naprawdę znaczenia. Konstrukcja podsumowana przez ucznia, jak pokazano tutaj, pokazuje, jak jest ona powiązana z wartością p. Wartość p jest najmniejszym rozmiarem testu, który spowodowałby, że obserwacja prowadziłaby do odrzucenia hipotezy zerowej.t t = 0,1ztt=0.1

Rycina 11: Wartość p jako obszar.

Na tym rysunku, który jest powiększony, aby pokazać szczegóły, hipoteza zerowa jest wykreślona na niebiesko, a dwie typowe alternatywy są wykreślone liniami przerywanymi. Obszar, w którym te alternatywy wydają się być znacznie większe niż zero, jest zacieniony. Cieniowanie rozpoczyna się tam, gdzie względne prawdopodobieństwa alternatyw są największe (przy ). Cieniowanie ustaje po osiągnięciu obserwacji . Wartość p jest obszarem zacienionego obszaru pod histogramem zerowym: jest to szansa, przy założeniu, że zerowa jest prawdziwa, zaobserwowania wyniku, którego współczynniki prawdopodobieństwa są zwykle duże, niezależnie od tego, która alternatywa jest prawdziwa. W szczególności ta konstrukcja zależy ściśle od alternatywnej hipotezy. Nie można tego zrobić bez określenia możliwych alternatyw.t = 0,10t=0.1

Whuber
źródło
4
To doskonale poradziło sobie z moim komentarzem do innej odpowiedzi, że żadna z wcześniejszych odpowiedzi na to pytanie nie dotyczyła w ogólności powszechnie słyszanego „lub bardziej ekstremalnego” aspektu wartości p . (Chociaż odpowiedź na „testowanie herbaty” zawiera dobry konkretny przykład.) Szczególnie podziwiam sposób, w jaki ten przykład został celowo skonstruowany, aby podkreślić, że „bardziej ekstremalny” może oznaczać coś zupełnie przeciwnego do „większego” lub „dalej od zera”.
Silverfish,
4
Naprawdę chciałbym, żeby nauczyciele i podręczniki nie używali wyrażenia „lub bardziej ekstremalnie”. Dwa warianty, które słyszałem, można sparafrazować jako „bardziej przychylne wobec ” lub „bardziej przekonujące dla ”. W tym przypadku wartości bliższe zeru rzeczywiście byłyby bardziej przekonujące, że teleskop stał się bardziej niezawodny, ale wymaga pewnej akrobatyki językowej (prawdopodobnie argumentowanej, ale potencjalnie mylącej), aby opisać je jako „bardziej ekstremalne”. H 1H1H1
Silverfish,
3
Wyjątkowo wnikliwy jak zawsze, dziękuję za poświęcenie czasu na napisanie tych niezwykle pomocnych odpowiedzi. Naprawdę zastanawiam się, dlaczego podręczniki nigdy nie są pisane w sposób, który oferowałby gdziekolwiek w pobliżu poziomu jasności i intuicji.
Jeremy
Myślę, że link do definicji prawdopodobieństwa w tym przykładzie może być korzystny
baxx
1
Używanie sarkazmu w komentarzu @baxx jest niebezpieczne, ponieważ nie ma wystarczająco dużo miejsca, aby zrobić to grzecznie i elegancko. Dlatego zazwyczaj nie jest dobrym pomysłem przypuszczenie, że komentarz jest sarkastyczny, chyba że wyraźnie to mówi. Załóżmy, że komentarze mają na celu pomóc. Jeśli po prostu podążasz za pierwszym trafieniem w podanym przeze mnie wyszukiwaniu, myślę, że na twoje pytania odpowiedzą.
whuber
44

Przed dotknięciem tego tematu zawsze upewniam się, że uczniowie chętnie przechodzą między wartościami procentowymi, dziesiętnymi, szansami i ułamkami. Jeśli nie są z tego całkowicie zadowoleni, mogą bardzo szybko się zdezorientować.

Lubię wyjaśniać testowanie hipotez po raz pierwszy (a zatem wartości p i statystyki testowe) za pomocą klasycznego eksperymentu Fishera w herbacie. Mam kilka powodów:

(i) Myślę, że praca nad eksperymentem i definiowanie terminów ma większy sens niż samo zdefiniowanie wszystkich tych terminów na początek. (ii) Nie trzeba wyraźnie polegać na rozkładach prawdopodobieństwa, obszarach pod krzywą itp., aby przejść przez kluczowe punkty testowania hipotez. (iii) Wyjaśnia to absurdalnie pojęcie „jako lub bardziej ekstremalne niż obserwowane” w dość rozsądny sposób (iv) Uważam, że studenci lubią rozumieć historię, pochodzenie i historię tego, co studiują, ponieważ czyni to bardziej realnym niż niektóre abstrakcyjne teorie. (v) Nie ma znaczenia, z jakiej dyscypliny lub przedmiotu pochodzą studenci, mogą odnosić się do przykładu herbaty (Uwaga: niektórzy studenci zagraniczni mają trudności z tą szczególnie brytyjską instytucją herbaty z mlekiem).

[Uwaga: Oryginalnie wpadłem na ten pomysł ze wspaniałego artykułu Dennisa Lindleya „Analiza danych eksperymentalnych: uznanie herbaty i wina”, w którym pokazuje on, dlaczego metody bayesowskie są lepsze od metod klasycznych.]

Historia jest taka, że ​​Muriel Bristol odwiedza Fishera pewnego popołudnia w 1920 roku w Rothamsted Experimental Station na filiżankę herbaty. Kiedy Fisher włożył mleko na koniec, narzekała, mówiąc, że może także powiedzieć, czy mleko zostało nalane jako pierwsze (czy ostatnie) i że wolała to pierwsze. Aby to przetestować, zaprojektował swój klasyczny eksperyment z herbatą, w którym Muriel otrzymuje parę filiżanek z herbatą i musi zidentyfikować, do którego mleka dodano najpierw. Jest to powtarzane z sześcioma parami filiżanek do herbaty. Ma do wyboru albo Prawo (R) albo Źle (W), a jej wyniki to: RRRRRW.

Załóżmy, że Muriel tak naprawdę zgaduje i nie ma żadnej zdolności do dyskryminacji. Nazywa się to hipotezą zerową . Według Fishera celem eksperymentu jest zdyskredytowanie tej zerowej hipotezy. Jeśli Muriel zgaduje, rozpozna poprawnie filiżankę herbaty z prawdopodobieństwem 0,5 na każdym zakręcie, a ponieważ są one niezależne, zaobserwowany wynik ma 0,5 = 0,016 (lub 1/64). Fisher twierdzi następnie, że:6

(a) hipoteza zerowa (zgaduje Muriel) jest prawdziwa i wystąpiło zdarzenie o małym prawdopodobieństwie lub

(b) hipoteza zerowa jest fałszywa, a Muriel ma moc dyskryminującą.

Wartość p (lub wartość prawdopodobieństwa) to prawdopodobieństwo zaobserwowania tego wyniku (RRRRRW) przy założeniu, że hipoteza zerowa jest prawdziwa - jest to małe prawdopodobieństwo, o którym mowa w punkcie (a) powyżej. W tym przypadku jest to 0,016. Ponieważ zdarzenia o małym prawdopodobieństwie występują rzadko (z definicji) sytuacja (b) może być bardziej korzystnym wyjaśnieniem tego, co się wydarzyło niż sytuacja (a). Kiedy odrzucamy hipotezę zerową, akceptujemy hipotezę przeciwną, którą nazywamy hipotezą alternatywną. W tym przykładzie Muriel ma moc dyskryminującą, będącą alternatywną hipotezą.

Ważnym zagadnieniem jest to, co klasyfikujemy jako „małe” prawdopodobieństwo? W jakim punkcie granicznym jesteśmy skłonni powiedzieć, że wydarzenie jest mało prawdopodobne? Standardowy poziom odniesienia wynosi 5% (0,05) i nazywa się to poziomem istotności. Gdy wartość p jest mniejsza niż poziom istotności, odrzucamy hipotezę zerową jako fałszywą i akceptujemy naszą alternatywną hipotezę. Mówi się powszechnie, że wynik jest „znaczący”, gdy wartość p jest mniejsza niż poziom istotności, tj. Gdy prawdopodobieństwo tego, co zaobserwowaliśmy, biorąc pod uwagę hipotezę zerową, jest mniejsze niż nasz punkt odcięcia. Ważne jest, aby wyjaśnić, że stosowanie 5% jest całkowicie subiektywne (podobnie jak inne wspólne poziomy istotności 1% i 10%).

Fisher zdał sobie sprawę, że to nie działa; każdy możliwy wynik z jedną niewłaściwą parą w równym stopniu sugerowałby moc dyskryminującą. Istotne prawdopodobieństwo dla powyższej sytuacji (a) wynosi zatem 6 (0,5) ^ 6 = 0,094 (lub 6/64), co obecnie nie jest znaczące na poziomie istotności 5%. Aby przezwyciężyć to, Fisher argumentował, że jeśli 1 błąd na 6 jest uważany za dowód mocy dyskryminujących, to nie ma błędów, tzn. Wyniki, które silniej wskazują na moc dyskryminacyjną niż obserwowana, powinny być uwzględnione przy obliczaniu wartości p. Spowodowało to następującą zmianę uzasadnienia:

(a) hipoteza zerowa (zgaduje Muriel) jest prawdziwa, a prawdopodobieństwo zdarzeń ekstremalnych większych niż obserwowane jest niewielkie; lub

(b) hipoteza zerowa jest fałszywa, a Muriel ma moc dyskryminującą.

Wracając do naszego eksperymentu z herbatą, okazało się, że wartość p w tym układzie wynosi 7 (0,5) ^ 6 = 0,109, co nadal nie jest znaczące przy progu 5%.

Następnie każę uczniom pracować z innymi przykładami, takimi jak rzucanie monetą, aby sprawdzić, czy moneta jest uczciwa. To drąży podstawy koncepcji hipotezy zerowej / alternatywnej, wartości p i poziomów istotności. Następnie przechodzimy do przypadku zmiennej ciągłej i wprowadzamy pojęcie statystyki testowej. Ponieważ omówiliśmy już rozkład normalny, standardowy rozkład normalny i głębokość transformacji Z, to tylko kwestia połączenia kilku koncepcji.

Oprócz obliczania statystyk testowych, wartości p i podejmowania decyzji (znaczących / nieistotnych) zachęcam studentów do pracy nad opublikowanymi artykułami w wypełnieniu gry o brakujących pustych polach.

Graham Cookson
źródło
2
Wiem, że nieco odradzam bardzo stary wątek, ale proszę bardzo ... Bardzo podobała mi się twoja odpowiedź, ale tęsknię za częścią wartości t :( Czy mógłbyś użyć podanych przykładów, aby o tym porozmawiać? Nikt nie odpowiedział na część dotyczącą testu t
Sosi
@sosi Prawdopodobnie dlatego, że wartości p są znacznie bardziej ogólne niż wartości t. To tak, jakby zadać pytanie o samochody, a potem o hamulce Forda Fiesty.
przypuszcza
2
Odpowiedź jest bardzo interesująca (+1), ale na końcu kilka rzeczy jest pomieszanych. 1. Co to znaczy, że wartość ma być „znacząca na poziomie 5%”? Albo wartość jest mniejsza niż 5%, albo nie jest. Nie widzę sensu w używaniu tak niejasnego zdania, pozostawiając „znaczenie” niezdefiniowane. 2. Co to znaczy „zdecydować”, czy wartość jest znacząca? Nie wydaje się uzasadnione włączanie teorii decyzji w ten sposób (zwłaszcza, że ​​Fisher był silnym przeciwnikiem stosowania ram testowych Neyman-Pearson w naukach). p pppp
Olivier,
27

Żadna ilość ustnych wyjaśnień ani obliczeń nie pomogła mi zrozumieć na poziomie jelita, jakie były wartości p, ale naprawdę skupiło się na mnie, gdy wziąłem kurs obejmujący symulację. To dało mi możliwość zobaczenia danych wygenerowanych przez hipotezę zerową i wykreślenia średnich / etc. próbek symulowanych, a następnie spójrz na to, gdzie statystyki mojej próbki spadły na tym rozkładzie.

Myślę, że kluczową zaletą tego jest to, że pozwala uczniom na chwilę zapomnieć o matematyce i rozkładach statystyk testowych i skupić się na dostępnych pojęciach. To prawda, że to konieczne dowiedzieć jak symulować te rzeczy, które będą powodować problemy dla zupełnie innego zestawu studentów. Ale zadziałało to dla mnie i użyłem symulacji niezliczoną ilość razy, aby pomóc innym z dużym powodzeniem objaśnić statystyki (np. „Tak wyglądają twoje dane; tak wygląda nałożona dystrybucja Poissona. Czy na pewno chcesz zrobić regresję Poissona? ”).

To nie do końca odpowiada na pytania, które postawiłeś, ale dla mnie przynajmniej sprawiło, że stały się trywialne.

Matt Parker
źródło
10
Z całego serca zgadzam się na wykorzystanie symulacji do wyjaśnienia tego. Ale tylko mała uwaga na przykładzie na końcu: uważam, że ludziom (nie tylko studentom) trudno jest odróżnić jakiekolwiek szczególne założenie dystrybucyjne, np. Poissony, od bycia nieznacznie rozłożonym poissonem od bycia warunkowo rozłożonym poissonem. Ponieważ tylko to drugie ma znaczenie dla modelu regresji, wiązka wartości zmiennych zależnych, które nie są poissonem, niekoniecznie musi być powodem do niepokoju.
conjugateprior
1
Muszę wyznać, że tego nie wiedziałem. Naprawdę doceniam twoje komentarze na temat tej witryny w ciągu ostatnich kilku dni twojego członkostwa - mam nadzieję, że pozostaniesz.
Matt Parker
@MattParker, czy znasz jakieś zasoby edukacyjne ukierunkowane na wykorzystanie symulacji do rozwijania zrozumienia? Czy może chodzi tylko o połączenie kilku skryptów Python / R i przeprowadzenie szeregu testów?
baxx
1
@baxx Witryna [Seeing Theory autorstwa Daniela Kunina] (students.brown.edu/seeing-theory/) ma kilka interesujących narzędzi do tego, ale wciąż jest w budowie. W przeciwnym razie tak, w dużej mierze właśnie eksperymentowałem z wbudowanymi narzędziami R do symulacji - używając ich, aby udowodnić sobie, jak działa jedna metoda, lub zobaczyć, co by się stało, gdyby predyktor został zastąpiony zmienną losową itp. Przepraszamy, Chciałbym wiedzieć o lepszych zasobach na to!
Matt Parker,
@MattParker fajne dzięki. Tak - trochę kurczaka i jajka w tym celu, aby skonstruować eksperymenty, które (zakładam?) Musisz przynajmniej zdobyć wystarczająco dużo, aby je napisać. Ale nie martw się ... Sprawdziłem tylko link, który podlinkowałeś, jest fajny, dzięki
baxx 27.04.17
16

Dobrą definicją wartości p jest „prawdopodobieństwo zaobserwowania statystyki testowej co najmniej tak dużej, jak obliczona przy założeniu, że hipoteza zerowa jest prawdziwa”.

Problem polega na tym, że wymaga zrozumienia „statystyki testowej” i „hipotezy zerowej”. Ale łatwo się z tym pogodzić. Jeśli hipoteza zerowa jest prawdziwa, zwykle coś w rodzaju „parametr z populacji A jest równy parametrowi z populacji B”, a statystyki oblicza się w celu oszacowania tych parametrów, jakie jest prawdopodobieństwo zobaczenia statystyki testowej, która mówi: „są to różne"?

Np. Jeśli moneta jest uczciwa, jakie jest prawdopodobieństwo, że zobaczę 60 głów na 100 rzutów? To testowanie hipotezy zerowej, „moneta jest uczciwa” lub „p = .5”, gdzie p jest prawdopodobieństwem głów.

Statystyka testowa w tym przypadku byłaby liczbą głów.

Teraz zakładamy, że to, co dzwonisz kategorią „wartość” jest nazwą rodzajową „statystyka testowa”, a nie wartość z „t dystrybucji”. Nie są tym samym, a termin „wartość t” nie jest (koniecznie) szeroko stosowany i może być mylący.

To, co nazywacie „wartością t”, jest prawdopodobnie tym, co nazywam „statystyką testową”. Aby obliczyć wartość p (pamiętaj, to tylko prawdopodobieństwo), potrzebujesz rozkładu i wartości, aby podłączyć się do tego rozkładu, który zwróci prawdopodobieństwo. Gdy to zrobisz, prawdopodobieństwo, że zwrócisz, jest twoją wartością p. Widać, że są one powiązane, ponieważ w ramach tego samego rozkładu różne statystyki testowe zwrócą różne wartości p. Bardziej ekstremalne statystyki testowe zwrócą niższe wartości p, dając większą wskazówkę, że hipoteza zerowa jest fałszywa.

Zignorowałem tutaj kwestię jednostronnych i dwustronnych wartości p.

Baltimark
źródło
11

Wyobraź sobie, że masz torbę zawierającą 900 czarnych kulek i 100 białych, czyli 10% kulek jest białych. Teraz wyobraź sobie, że wyjmujesz 1 marmur, spójrz na niego i zapisz jego kolor, wyjmij inny, zapisz kolor itp. I zrób to 100 razy. Pod koniec tego procesu będziesz mieć liczbę białych kulek, które, w idealnym przypadku, spodziewalibyśmy się 10, tj. 10% ze 100, ale w rzeczywistości może to być 8 lub 13 lub cokolwiek innego z powodu losowości. Jeśli powtórzysz ten 100-krotny eksperyment z wycofaniem marmuru wiele, wiele razy, a następnie wykreślisz histogram liczby białych marmurów narysowanych w eksperymencie, przekonasz się, że będziesz miał krzywą dzwonkową wyśrodkowaną około 10.

To reprezentuje twoją hipotezę 10%: przy każdej torbie zawierającej 1000 kulek, z których 10% jest białych, jeśli losowo wyrzucisz 100 kulek, znajdziesz 10 białych kulek w wyborze, daj lub weź 4 lub więcej. Wartość p polega na tym, że „daj lub weź 4 lub więcej”. Powiedzmy, odwołując się do utworzonej wcześniej krzywej dzwonowej, możesz stwierdzić, że mniej niż 5% czasu uzyskasz 5 lub mniej białych kulek, a kolejne <5% czasu stanowi 15 lub więcej białych kulek, tj.> 90% czas, kiedy twój wybór 100 marmuru będzie zawierał od 6 do 14 białych marmurów włącznie.

Zakładając, że ktoś rzuci torbę 1000 kulek z nieznaną liczbą białych kulek, mamy narzędzia, aby odpowiedzieć na te pytania

i) Czy jest mniej niż 100 białych marmurów?

ii) Czy jest więcej niż 100 białych marmurów?

iii) Czy worek zawiera 100 białych kulek?

Po prostu wyjmij 100 kulek z torby i policz, ile z tych próbek jest białych.

a) Jeśli w próbce jest 6 do 14 białych, nie można odrzucić hipotezy, że w torbie znajduje się 100 białych marmurów, a odpowiednie wartości p dla 6 do 14 będą> 0,05.

b) Jeśli w próbce znajduje się 5 lub mniej białych, możesz odrzucić hipotezę, że w torbie znajduje się 100 białych marmurów, a odpowiednie wartości p dla 5 lub mniej będą wynosić <0,05. Można oczekiwać, że w torbie będzie znajdować się <10% białych marmurów.

c) Jeśli w próbce znajduje się 15 lub więcej białych, możesz odrzucić hipotezę, że w torbie znajduje się 100 białych marmurów, a odpowiednie wartości p dla 15 lub więcej będą wynosić <0,05. Można oczekiwać, że w torbie będzie znajdować się> 10% białych marmurów.

W odpowiedzi na komentarz Baltimarka

Biorąc pod uwagę powyższy przykład, istnieje w przybliżeniu:

4,8% szans na uzyskanie 5 białych lub mniejszych kulek

1,85% szansy na 4 lub mniej

0,55% szansy na 3 lub mniej

0,1% szansy na 2 lub mniej

6,25% szansy na 15 lub więcej

3,25% szansy na 16 lub więcej

1,5% szansy na 17 lub więcej

0,65% szansy na 18 lub więcej

0,25% szansy na 19 lub więcej

0,1% szansy na 20 lub więcej

0,05% szansy na 21 lub więcej

Liczby te oszacowano na podstawie rozkładu empirycznego wygenerowanego przez prostą rutynową procedurę Monte Carlo w R oraz uzyskanych kwantyli rozkładu próbkowania.

Aby odpowiedzieć na pierwotne pytanie, załóżmy, że narysujesz 5 białych kulek, istnieje tylko około 4,8% szansa, że ​​jeśli marmurowa torba 1000 naprawdę zawiera 10% białych kulek, wyciągniesz tylko 5 białych w próbce 100. Odpowiada to wartości p <0,05. Teraz musisz wybrać pomiędzy

i) Naprawdę jest 10% białych piłek w torbie i właśnie miałem pecha, że ​​wylosowałem tak mało

lub

ii) Narysowałem tak mało białych kulek, że tak naprawdę nie może być 10% białych kulek (odrzuć hipotezę 10% białych kulek)

czytnik babelproofreader
źródło
Przede wszystkim jest to tylko duży przykład i tak naprawdę nie wyjaśnia wyjaśnienia pojęcia wartości p i statystyki testowej. Po drugie, po prostu twierdzisz, że jeśli otrzymujesz mniej niż 5 lub więcej niż 15 białych marmurów, odrzucasz hipotezę zerową. Z jakiego rozkładu obliczasz te prawdopodobieństwa? Można to aproksymować za pomocą normalnej odległości. wyśrodkowany na 10, ze standardowym odchyleniem 3. Twoje kryteria odrzucenia nie są wystarczająco surowe.
Baltimark,
Zgodziłbym się, że to tylko przykład, i prawdą jest, że wybrałem z powietrza liczby 5 i 15 w celach ilustracyjnych. Kiedy będę miał czas, opublikuję drugą odpowiedź, która, mam nadzieję, będzie bardziej kompletna.
czytnik babelproof
10

To, czego nie mówi ci wartość p, to prawdopodobieństwo, że hipoteza zerowa jest prawdziwa. W konwencjonalnych ramach testowania znaczenia (Fisher) najpierw obliczamy prawdopodobieństwo zaobserwowania danych, zakładając, że hipoteza zerowa jest prawdziwa, jest to wartość p. Intuicyjnie wydaje się zatem założenie, że hipoteza zerowa jest prawdopodobnie fałszywa, jeśli dane są wystarczająco mało prawdopodobne do zaobserwowania w ramach hipotezy zerowej. To jest całkowicie rozsądne. Statystycy tradycyjnie stosują próg i „odrzucają hipotezę zerową na poziomie istotności 95%”, jeśli (1 - p)> 0,95; jest to jednak tylko konwencja, która okazała się uzasadniona w praktyce - nie oznacza to, że istnieje mniej niż 5% prawdopodobieństwa, że ​​hipoteza zerowa jest fałszywa (a zatem 95% prawdopodobieństwo, że hipoteza alternatywna jest prawdziwa).

Obrazowanie funkcji f (), która odwzorowuje wartość p na prawdopodobieństwo, że hipoteza alternatywna jest prawdziwa. Uzasadnione byłoby stwierdzenie, że funkcja ta ściśle maleje (tak, że im bardziej prawdopodobne są obserwacje w ramach hipotezy zerowej, tym mniej prawdopodobne jest, że hipoteza alternatywna jest prawdziwa) i że daje wartości od 0 do 1 (ponieważ daje oszacowanie prawdopodobieństwa). To jednak wszystko, co wiemy o f (), więc chociaż istnieje związek między p a prawdopodobieństwem, że hipoteza alternatywna jest prawdziwa, jest ona nieskalibrowana. Oznacza to, że nie możemy użyć wartości p do sformułowania ilościowych stwierdzeń dotyczących prawdopodobieństwa hipotezy zerowej i alternatywnej.

Lektor z zastrzeżeniami: Mówienie o prawdopodobieństwie, że hipoteza jest prawdziwa, nie mieści się w ramach częstokroć, ponieważ nie jest to zmienna losowa - albo jest to prawda, albo nie. Tak więc, gdy mówiłem o prawdopodobieństwie prawdziwości hipotezy, pośrednio przeszedłem do interpretacji bayesowskiej. Mieszanie bayesowskiego i częstokroć jest niepoprawne, jednak zawsze istnieje pokusa, aby to zrobić, ponieważ tak naprawdę chcemy ilościowego wskazania względnej wiarygodności / prawdopodobieństwa hipotez. Ale nie to zapewnia wartość p.

Dikran Torbacz
źródło
7

W statystykach nigdy nie można powiedzieć, że coś jest absolutnie pewne, więc statystycy stosują inne podejście do oceny, czy hipoteza jest prawdziwa, czy nie. Próbują odrzucić wszystkie inne hipotezy, które nie są obsługiwane przez dane.

Aby to zrobić, testy statystyczne mają hipotezę zerową i hipotezę alternatywną. Wartość p podana w teście statystycznym jest prawdopodobieństwem wyniku, biorąc pod uwagę, że hipoteza zerowa była poprawna. Dlatego chcemy małych wartości p. Im są mniejsze, tym mniej prawdopodobny byłby wynik, gdyby hipoteza zerowa była poprawna. Jeśli wartość p jest wystarczająco mała (tj. Jest bardzo mało prawdopodobne, aby wynik miał miejsce, jeśli hipoteza zerowa była poprawna), wówczas hipoteza zerowa jest odrzucana.

W ten sposób można sformułować hipotezę zerową, a następnie odrzucić. Jeśli hipoteza zerowa zostanie odrzucona, zaakceptujesz hipotezę alternatywną jako najlepsze wytłumaczenie. Pamiętaj jednak, że hipoteza alternatywna nigdy nie jest pewna, ponieważ hipoteza zerowa mogła przypadkowo wygenerować wyniki.

DaRob
źródło
wartość p oznacza prawdopodobieństwo wyniku jako „ekstremalnego” lub bardziej „ekstremalnego” niż podany wynik, a nie rzeczywistego wyniku. Wartość p wynosi a nie (T jest statystyką testową, a t jest wartością obserwowaną). Pr(Tt|H0)Pr(T=t|H0)
prawdopodobieństwo prawdopodobieństwa
5

Nie jestem pewien , czy mogę ożywić stary temat, ale skoczyłem stąd , więc opublikowałem to jako odpowiedź na pytanie w linku.

Wartość p jest konkretnym terminem, nie powinno być miejsca na nieporozumienia. Ale w pewien sposób mistyczne jest, że potoczne tłumaczenia definicji wartości p prowadzą do wielu różnych błędnych interpretacji. Myślę, że źródłem problemu jest użycie zwrotów „co najmniej tak samo negatywnych jak hipoteza zerowa” lub „co najmniej tak skrajnych jak te w twoich przykładowych danych” itp.

Na przykład Wikipedia mówi

... wartość p jest prawdopodobieństwem uzyskania obserwowanych wyników próbki (lub bardziej ekstremalnego wyniku), gdy hipoteza zerowa jest rzeczywiście prawdziwa.

Znaczenie wartości jest niewyraźne, gdy ludzie po raz pierwszy natkną się na „(lub bardziej ekstremalny wynik)” i zaczną myśleć „ bardziej ekstremalnie ?”.p

Myślę, że lepiej pozostawić „bardziej ekstremalny wynik” coś w rodzaju pośredniego aktu mowy . Więc moje zdanie jest

Wartość p to prawdopodobieństwo zobaczenia tego, co widzisz w „wyimaginowanym świecie”, w którym prawdziwa jest hipoteza zerowa.

Aby skonkretyzować ten pomysł, załóżmy, że masz próbkę xskładającą się z 10 obserwacji i postawiłeś hipotezę, że średnia populacji wynosi . Tak więc w twoim hipotetycznym świecie rozkład populacji wynosi .μ0=20N(20,1)

x
#[1] 20.82600 19.30229 18.74753 18.99071 20.14312 16.76647
#[7] 18.94962 17.99331 19.22598 18.68633

Obliczasz t-stat jako i dowiadujesz się, żet0=nX¯μ0s

sqrt(10) * (mean(x) - 20) / sd(x)  
#-2.974405

Więc jakie jest prawdopodobieństwo zaobserwowaniatak duży jak 2,97 (pojawia się „bardziej ekstremalny”) w wyimaginowanym świecie? W wyobrażonym świecie wartość musi więc wynosić |t0|t0t(9)

pvalue=Pr(|t0|2.97)=0.01559054
2*(1 - pt(2.974405, 9))
#[1] 0.01559054

Ponieważ wartość p jest niewielka, bardzo mało prawdopodobne jest, aby próbka xzostała pobrana w hipotetycznym świecie. Dlatego dochodzimy do wniosku, że jest mało prawdopodobne, aby hipotetyczny świat był faktycznie światem rzeczywistym.

Khashaa
źródło
2
+1, ale gdy piszesz „prawdopodobieństwo zobaczenia tego, co widzisz” i pomijasz część „bardziej ekstremalną”, zdanie to staje się ściśle fałszywe (i potencjalnie mylące, nawet jeśli mniej mylące). To nie jest prawdopodobieństwo zobaczenia tego, co widzisz (zwykle jest to zero). Jest to prawdopodobieństwo zobaczenia tego, co widzisz „lub bardziej ekstremalnie”. Mimo że dla wielu może to być mylące, nadal ma kluczowe znaczenie (i można bez końca dyskutować o stopniu podmiotowości, który kryje się za tym „bardziej ekstremalnym” sformułowaniem).
ameba
@amoeba Myślałem, że podając odpowiedni przykład, może on służyć jako proxy dla „uzyskiwania obserwowanych wyników próbki (lub bardziej ekstremalnego wyniku)”. Być może potrzebne jest lepsze sformułowanie.
Khashaa
1
Chciałem dokonać tej samej obserwacji, co @amoeba; „lub bardziej ekstremalna” część jest dobrze obsługiwana przez przykład na wysokościach uczniów i odpowiedziach na przyjęcie z herbatą, ale nie sądzę, aby żadne odpowiedzi w tym wątku trafiły na jasne ogólne wyjaśnienie tego, szczególnie takie, które obejmuje różne alternatywne hipotezy. Zgadzam się z tą odpowiedzią, sugerując, że „lub bardziej skrajna” część jest koncepcyjnym punktem spornym dla wielu studentów.
Silverfish,
@Silverfish: i nie tylko studenci. Ile czytałem bajek bayesowskich przeciwko częstym, którzy dyskutują na temat podmiotowości / obiektywizmu tego „bardziej ekstremalnego” kawałka!
ameba
1
@Silver Zgadzam się z twoją krytyką i opublikowałem odpowiedź, próbując ją rozwiązać. „Lub bardziej ekstremalne” to sedno sprawy.
whuber
4

Uważam, że pomocne jest przestrzeganie sekwencji, w której objaśniasz pojęcia w następującej kolejności: (1) Wynik z i proporcje powyżej i poniżej wyniku z zakładają normalną krzywą. (2) Pojęcie rozkładu próbkowania i wynik Z dla danej próbki oznaczają średnią, gdy znane jest odchylenie standardowe populacji (i stąd test Z dla jednej próbki) (3) Test t dla jednej próbki i prawdopodobieństwo próbka oznacza, kiedy odchylenie standardowe populacji jest nieznane (pełne opowieści o tajnej tożsamości pewnego przemysłowca i dlaczego Guinness jest dobry dla statystyki). (4) Dwutróbkowy test t i rozkład próbkowania średnich różnic. Łatwość, z jaką studenci wprowadzający rozumieją test t, ma wiele wspólnego z przygotowaniami do przygotowania tego tematu.

/ * instruktor trybu przerażonych uczniów wyłączony * /

StatisticsDoc Consulting
źródło
4

Uważam też, że symulacje są przydatne w nauczaniu.

nN(μ,1)σ2=1H0:μ=μ0

Następnie -statistic ma wartość pod , tak że wartość to po prostu lub w R.tN(0,1)H0pΦ(tstat)tstat:=n(X¯μ0)N(0,1)H0pΦ(tstat)pnorm(tstat)

W symulacji jest to ułamek razy, gdy dane wygenerowane pod zerowym (tutaj, ) dają przykładowe środki przechowywane w nich są mniejsze (tj. `` Bardziej ekstremalne '' w tym test lewostronny) niż obliczony na podstawie zaobserwowanych danych.μ 0 = 2N(μ0,1)μ0=2nullMeans

# p value
set.seed(1)
reps <- 1000
n <- 100      
mu <- 1.85 # true value
mu_0 <- 2 # null value
xaxis <- seq(-3, 3, length = 100)

X <- rnorm(n,mu)

nullMeans <- counter <- rep(NA,reps)

yvals <- jitter(rep(0,reps),2)

for (i in 1:reps)
{  
  tstat <- sqrt(n)*(mean(X)-mu_0) # test statistic, N(0,1) under the given assumptions

  par(mfrow=c(1,3))
  plot(xaxis,dnorm(xaxis),ylab="null distribution",xlab="possible test statistics",type="l")
  points(tstat,0,cex=2,col="salmon",pch=21,bg="salmon")

  X_null <- rnorm(n,mu_0) # generate data under H_0
  nullMeans[i] <- mean(X_null)

  plot(nullMeans[1:i],yvals[1:i],col="blue",pch=21,xlab="actual means and those generated under the null",ylab="", yaxt='n',ylim=c(-1,1),xlim=c(1.5,2.5))
  abline(v=mu_0,lty=2)
  points(mean(X),0,cex=4,col="salmon",pch=21,bg="salmon")

  # counts 1 if sample generated under H_0 is more extreme:
  counter[i] <- (nullMeans[i] < mean(X)) # i.e. we test against H_1: mu < mu_0
  barplot(table(counter[1:i])/i,col=c("green","red"),xlab="more extreme mean under the null than the mean actually observed")

  if(i<10) locator(1)
}
mean(counter)
pnorm(tstat)
Christoph Hanck
źródło
0

Co oznacza „wartość p” w odniesieniu do testowanej hipotezy?

W sensie ontologicznym (czym jest prawda?) Nic nie znaczy . Wszelkie testowanie hipotez opiera się na niesprawdzonych założeniach . Zwykle jest to część samego testu, ale także część dowolnego używanego modelu (np. W modelu regresji). Ponieważ po prostu zakładamy, że nie, nie możemy wiedzieć, czy powodem, dla którego wartość p jest poniżej naszego progu, jest to, że zero jest fałszem. Jest to non sequitur wydedukować bezwarunkowo, że z powodu niskiej wartości p musimy odrzucić null. Na przykład coś w tym modelu może być nieprawidłowe.

W sensie epistemologicznym (czego możemy się nauczyć?) To coś znaczy . Zyskujesz wiedzę pod warunkiem, że niesprawdzone przesłanki są prawdziwe. Ponieważ (przynajmniej do tej pory) nie możemy udowodnić każdego gmachu rzeczywistości, cała nasza wiedza będzie z konieczności warunkowa. Nigdy nie dojdziemy do „prawdy”.

Luchonacho
źródło
-1

Myślę, że przykłady dotyczące marmurów, monet lub pomiaru wysokości mogą być przydatne do ćwiczenia matematyki, ale nie są dobre do budowania intuicji. Studenci lubią zadawać pytania społeczeństwu, prawda? Co powiesz na przykład polityczny?

Powiedzmy, że kandydat polityczny przeprowadził kampanię obiecującą, że jakaś polityka pomoże gospodarce. Została wybrana, wprowadzono w życie politykę, a 2 lata później gospodarka kwitnie. Jest gotowa na ponowny wybór i twierdzi, że jej polityka jest powodem dobrobytu wszystkich. Czy powinieneś ją ponownie wybrać?

Przemyślany obywatel powinien powiedzieć „dobrze, to prawda, że ​​gospodarka ma się dobrze, ale czy naprawdę możemy przypisać to twojej polityce?” Aby naprawdę odpowiedzieć na to pytanie, musimy rozważyć pytanie „czy gospodarka poradziłaby sobie bez niego w ciągu ostatnich 2 lat?” Jeśli odpowiedź brzmi „tak” (np. Gospodarka przeżywa boom z powodu jakiegoś nowego niezwiązanego rozwoju technologicznego), wówczas odrzucamy wyjaśnienie danych przez polityka.

To znaczy, aby zbadać jedną hipotezę (polityka pomogła gospodarce), musimy zbudować model świata, w którym ta hipoteza jest zerowa (polityka nigdy nie została wprowadzona w życie). Następnie wykonujemy prognozy na podstawie tego modelu. Prawdopodobieństwo obserwacji tych danych w tym alternatywnym świecie nazywamy wartością p . Jeśli wartość p jest zbyt wysoka, hipoteza nie przekonuje nas - polityka nie ma znaczenia. Jeśli wartość p jest niska, ufamy hipotezie - polityka była niezbędna.

cgreen
źródło
1
Nie zgadzam się z definicją p jako „Nazywamy prawdopodobieństwo zaobserwowania tych danych w tym alternatywnym świecie wartością p”, a także siłą wyciągniętego wniosku (zwłaszcza braku odrzucenia wartości zerowej).
Silverfish,
@Silverfish Czy możesz opracować? Prawdopodobnie właściwsze byłoby nazwanie wartości p prawdopodobieństwem uczynienia tej obserwacji LUB bardziej ekstremalną obserwacją. Ale wygląda na to, że masz głębszą krytykę.
cgreen
1
Ponieważ pierwotne pytanie dotyczyło wartości p, pomyślałem, że zrozumienie tej definicji jest bardzo ważne. Samo powiedzenie „bardziej ekstremalny” samo w sobie nie jest bardzo pomocne bez wyjaśnienia, co może oznaczać „bardziej ekstremalny” - myślę, że to słabość większości odpowiedzi w tym wątku. Tylko odpowiedź Whubera i „test na herbatę” wydają się naprawdę wyjaśniać, dlaczego „bardziej ekstremalne” też ma znaczenie.
Silverfish,
Czułem również, że twoje wnioski są sformułowane zbyt mocno. Jeśli odrzucimy wartość zerową, mamy na to znaczące dowody, ale nie wiemy, że to fałsz. Kiedy nie odrzucamy wartości zerowej, z pewnością nie oznacza to, że wartość zerowa jest prawdziwa (choć może tak być). Mówiąc bardziej ogólnie, mam wrażenie, że opisywany test, w sposób dość abstrakcyjny, raczej nie będzie zrozumiały dla ucznia, który dopiero uczy się, jak wykonać test. Brak jasno zdefiniowanej statystyki testowej nie odpowiada dobrze pierwotnemu pytaniu, w jaki sposób interpretować t- statystykę.
Silverfish,
Cechą tej odpowiedzi, którą bardzo lubię, jest jasne wyjaśnienie, że wartości p są obliczane przy użyciu modelu zerowego, nawet jeśli nie (subiektywnie) uważamy, że model zerowy jest rzeczywiście prawdziwy. Myślę, że statystyki testów obliczane na podstawie modelu są kluczową kwestią, z którą zmaga się wielu studentów.
Silverfish,
-1

p

pX

0c1,FX|H0(inf{x:FX|H0(x)c})=c
FX|H0XH0

W szczególności, jeśli ma ciągły rozkład i nie używasz aproksymacji, toX

  1. Każda wartość jest statystyką o jednolitym rozkładzie na ip[0,1]
  2. Każda statystyka o jednolitym rozkładzie na jest wartością .[0,1]p

Możesz uznać to za ogólny opis wartości .p

nalzok
źródło
Ta definicja ma sens tylko dla rozkładów dyskretnych (a następnie jest niepoprawna), ponieważ drugie pojawienie się litery „ ” wyraźnie wskazuje, że odnosi się do prawdopodobieństw, a nie gęstości prawdopodobieństwa. Ponadto istnieje bardzo niewiele rozkładów (jeśli występują), które mają podaną właściwość, co sugeruje, że w instrukcji muszą występować błędy typograficzne. Jeśli chodzi o twoje kolejne twierdzenia, (1) jest idealnie prawdziwe, ale (2) nie, chyba że pozwolisz, aby hipoteza zerowa zależała od statystyki! P
whuber
@whuber Dzięki za wkład. Zmodyfikowałem definicję i teraz powinna ona mieć więcej sensu!
nalzok
1
Ma to sens, dziękuję: jeśli czytam go poprawnie, zapewnia, że ​​zerowy rozkład jest jednolity naJednak to przechwytuje tylko część właściwości wartości p; nie charakteryzuje wartości p; i nie mówi nic o ich znaczeniu ani o tym, jak je interpretować. Rozważ przeanalizowanie niektórych innych odpowiedzi w tym wątku, aby uzyskać informacje o tym, czego brakuje. X[0,1].
whuber
Oto przykład, który może Cię zainteresować. Rodzina dystrybucji to Uniform dla hipoteza zerowa wynosi a alternatywą jest jej uzupełnienie. Rozważ losową próbkęZdefiniuj statystykęOczywiście ma to jednolity rozkład na pod ale w jakim sensie jest to wartość p? Jaki jest odpowiedni test hipotez? Załóżmy, że pobieramy próbkę o rozmiarze i obserwujemy wartość czy twierdzisz, że wartość p wynosi ? θ R , θ = 0 , X = ( X 1 , , X n ) . X ( X ) = X 1 . [ 0 , 1 ] H 0 : n = 1 X 1 = - 2 : - 2(θ,θ+1)θR,θ=0,X=(X1,,Xn).X(X)=X1.[0,1]H0:n=1X1=2:2
whuber
-4

Wartość p nie jest tak tajemnicza, jak się wydaje. Jest to sposób na nieobliczanie przedziału ufności dla testu t, ale po prostu określenie poziomu ufności, z którym hipoteza zerowa może zostać odrzucona.

ILUSTRACJA. Przeprowadzasz test. Wartość p pojawia się jako 0,1866 dla zmiennej Q, 0,0023 dla zmiennej R. (Są one wyrażone w%).

Jeśli testujesz na poziomie ufności 95%, aby odrzucić hipo zerową;

dla Q: 100–18.66 = 81,34%

dla R: 100-0,23 = 99,77%.

Przy poziomie ufności 95% Q daje 81,34% pewności do odrzucenia. To spada poniżej 95% i jest nie do przyjęcia. AKCEPTUJ NULL.

R daje 99,77% pewności, aby odrzucić zero. Wyraźnie powyżej pożądanego 95%. W ten sposób odrzucamy zero.

Właśnie zilustrowałem odczyt wartości p poprzez „odwrotny sposób” zmierzenia jej do poziomu ufności, przy którym odrzucamy hipotezę zerową.

dytchay
źródło
6
Witamy na stronie. Co rozumiesz przez zmienne i zmienne ? Proszę o wyjaśnienie. Ponadto użycie wyrażenia „akceptuj zero” jest zwykle uważane za dość niepożądane, a nawet wprowadzające w błąd. R.QR
kardynał
@cardinal wskazuje na ważny punkt. Nie przyjmiesz wartości zerowej.
Patrick Coulombe,
-8

****** Wartość p w testowaniu hipotezy mierzy czułość testu. Im niższa wartość p, tym większa jest czułość. jeżeli poziom istotności jest ustawiony na 0,05, wartość p 0,0001 wskazuje na wysokie prawdopodobieństwo poprawności wyników testu ******

DR.HKLAKSHMANRAO
źródło
6
-1 Jest to wyraźnie błędne. Najpierw możesz przeczytać wyżej głosowane odpowiedzi.
Momo