Po przejściu kursu statystycznego, a następnie próbie pomocy innym studentom, zauważyłem, że jednym z tematów, który inspiruje wiele uderzeń w głowę, jest interpretacja wyników testów hipotez statystycznych. Wygląda na to, że uczniowie łatwo uczą się wykonywania obliczeń wymaganych przez dany test, ale odkładają słuchawkę na temat interpretacji wyników. Wiele skomputeryzowanych narzędzi podaje wyniki testów w kategoriach „wartości p” lub „wartości t”.
Jak wyjaśniłbyś następujące punkty studentom college'u podejmującym pierwszy kurs statystyki:
Co oznacza „wartość p” w odniesieniu do testowanej hipotezy? Czy zdarzają się sytuacje, w których należy szukać wysokiej wartości p lub niskiej wartości p?
Jaki jest związek między wartością p a wartością t?
Odpowiedzi:
Zrozumienie -valuep
Załóżmy, że chcesz przetestować hipotezę, że średnia wysokość studentów na twoim uniwersytecie wynosi stóp i cali. Zbierasz wysokości wybranych losowo uczniów i obliczasz średnią próbki (powiedzmy, że okazuje się, że to stóp cali). Stosując odpowiednią formułę / procedurę statystyczną obliczasz wartość dla swojej hipotezy i mówisz, że okazuje się to .7 100 5 9 p 0,065 7 100 5 9 p 0.06
Aby odpowiednio zinterpretować , należy pamiętać o kilku kwestiach:p=0.06
Pierwszym krokiem w ramach klasycznego testowania hipotez jest założenie, że rozważana hipoteza jest prawdziwa. (W naszym kontekście zakładamy, że prawdziwa średnia wysokość wynosi stóp i cali).75 7
Wyobraź sobie, że wykonujesz następujące obliczenia: Oblicz prawdopodobieństwo, że średnia próbki jest większa niż stóp cali, zakładając, że nasza hipoteza jest rzeczywiście poprawna (patrz punkt 1).95 9
Innymi słowy, chcemy poznać
Obliczenia w kroku 2 nazywane są wartością . Dlatego wartość wynosząca oznaczałaby, że gdybyśmy powtarzali nasz eksperyment wiele, wiele razy (za każdym razem, gdy wybieramy losowo uczniów i obliczamy średnią z próby), wówczas razy na możemy spodziewać się próbki oznacza większą lub równą stóp cali.p 0,06 100 6 100 5 9p p 0.06 100 6 100 5 9
Biorąc pod uwagę powyższe zrozumienie, czy powinniśmy nadal utrzymywać nasze założenie, że nasza hipoteza jest prawdziwa (patrz krok 1)? Cóż, oznacza, że wydarzyła się jedna z dwóch rzeczy:p=0.06
lub
Tradycyjnym sposobem wyboru pomiędzy (A) i (B) jest wybranie arbitralnego punktu odcięcia dla . Wybieramy (A), jeśli i (B), jeśli .p > 0,05 p < 0,05p p>0.05 p<0.05
źródło
Dialog między nauczycielem a troskliwym uczniem
Pokornie podniósł się w przekonaniu, że w tym wątku do tej pory nie użyto wystarczającej ilości kredek. Na końcu pojawia się krótkie ilustrowane streszczenie.
Student : Co oznacza wartość p? Wydaje się, że wiele osób zgadza się, że istnieje szansa, że „zobaczymy, że próbka jest większa lub równa„ statystyce lub jest to ”prawdopodobieństwo zaobserwowania tego wyniku ... przy założeniu, że hipoteza zerowa jest prawdziwa”, lub gdzie „statystyki mojej próbki spadł na [symulowany] rozkład ”, a nawet „ prawdopodobieństwo zaobserwowania statystyki testowej co najmniej tak dużej, jak obliczona przy założeniu, że hipoteza zerowa jest prawdziwa ” .
Nauczyciel : właściwie zrozumiane, wszystkie te stwierdzenia są poprawne w wielu okolicznościach.
Student : Nie rozumiem, jak większość z nich jest istotna. Czy nie nas, że musimy postawić hipotezę zerową i hipotezę alternatywną ? Jak są zaangażowani w te idee „większe niż lub równe” lub „co najmniej tak duże” lub bardzo popularne „bardziej ekstremalne”?H AH0 HA
Nauczyciel : Ponieważ może to ogólnie wydawać się skomplikowane, czy pomógłby nam zbadać konkretny przykład?
Student : Jasne. Ale proszę, uczyń to realistycznym, ale prostym, jeśli możesz.
Nauczyciel : Teoria testowania hipotez historycznie rozpoczęła się od potrzeby astronomów do analizy błędów obserwacyjnych, więc co powiesz na to, aby zacząć od tego. Pewnego dnia przeglądałem stare dokumenty, w których naukowiec opisał swoje wysiłki na rzecz zmniejszenia błędu pomiaru w swoim aparacie. Dokonał wielu pomiarów gwiazdy w znanej pozycji i zarejestrował ich przemieszczenia przed lub za tą pozycją. Aby zwizualizować te przemieszczenia, narysował histogram, który - po lekkim wygładzeniu - wyglądał tak.
Student : Pamiętam, jak działają histogramy: oś pionowa jest oznaczona jako „Gęstość”, aby przypomnieć mi, że względne częstotliwości pomiarów są reprezentowane raczej przez powierzchnię niż wysokość.
Nauczyciel : Zgadza się. „Niezwykła” lub „ekstremalna” wartość byłaby zlokalizowana w regionie o dość małym obszarze. Oto kredka. Czy uważasz, że możesz pokolorować w regionie, którego powierzchnia stanowi zaledwie jedną dziesiątą całości?
Student : Pewnie; to łatwe. [Kolory na rysunku.]
Nauczyciel : Bardzo dobrze! Dla mnie wygląda to na około 10% powierzchni. Pamiętaj jednak, że jedynym obszarem na histogramie, który ma znaczenie, są obszary między liniami pionowymi: reprezentują szansę lub prawdopodobieństwo, że przemieszczenie zostanie zlokalizowane między tymi liniami na osi poziomej. Oznacza to, że trzeba było pokolorować do samego dołu, a to stanowiłoby ponad połowę powierzchni, prawda?
Student : Och, rozumiem. Pozwól mi spróbować ponownie. Chcę pokolorować tam, gdzie krzywa jest naprawdę niska, prawda? Jest najniższy na dwóch końcach. Czy muszę pokolorować tylko w jednym obszarze, czy rozbicie go na kilka części byłoby w porządku?
Nauczyciel : Używanie kilku części to sprytny pomysł. Gdzie oni by byli?
Student (wskazując): Tu i tutaj. Ponieważ ta kredka nie jest zbyt ostra, użyłem długopisu, aby pokazać linie, których używam.
Nauczyciel : Bardzo miło! Pozwól, że opowiem ci resztę historii. Naukowiec wprowadził kilka ulepszeń do swojego urządzenia, a następnie wykonał dodatkowe pomiary. Napisał, że przemieszczenie pierwszego wynosiło zaledwie , co uważał za dobry znak, ale będąc uważnym naukowcem, zaczął sprawdzać kolejne pomiary. Niestety, inne pomiary zostały utracone - rękopis w tym momencie się psuje - i wszystko, co mamy, to jedna liczba, .0,10.1 0.1
Student : To źle. Ale czy nie jest to o wiele lepsze niż szeroki zakres przemieszczeń na twojej figurze?
Nauczyciel : Na to pytanie chciałbym odpowiedzieć. Na początek, co powinniśmy uznać za ?H0
Uczeń : Cóż, sceptyk zastanawiałby się, czy ulepszenia wprowadzone w urządzeniu w ogóle miały jakiś wpływ. Ciężar dowodu spoczywa na naukowcu: chciałby pokazać, że sceptyk się myli. To sprawia, że uważam hipotezę zerową za coś złego dla naukowca: mówi ona, że wszystkie nowe pomiary - w tym wartość , o której wiemy - powinny zachowywać się tak, jak opisano w pierwszym histogramie. A może nawet gorzej: mogą być jeszcze bardziej rozproszeni.0.1
Nauczyciel : Kontynuuj, masz się dobrze.
Student : A więc alternatywą jest to, że nowe pomiary byłyby mniej rozłożone, prawda?
Nauczyciel : Bardzo dobrze! Czy możesz narysować mi zdjęcie, jak wyglądałby histogram o mniejszej rozpiętości? Oto kolejna kopia pierwszego histogramu; możesz narysować na nim jako odniesienie.
Uczeń (rysunek): Używam pióra do zarysu nowego histogramu i koloruję w obszarze poniżej. Sprawiłem, że większość krzywej jest bliska zeru na osi poziomej, a więc większość jej obszaru jest bliska zerowej wartości (poziomej): to znaczy, że jest mniej rozłożona lub bardziej precyzyjna.
Nauczyciel : To dobry początek. Pamiętaj jednak, że histogram pokazujący szanse powinien mieć łączną powierzchnię . Całkowity obszar pierwszego histogramu wynosi zatem . Ile powierzchni jest w twoim nowym histogramie?11 1
Student : Myślę, że mniej niż połowa. Widzę, że to problem, ale nie wiem, jak to naprawić. Co powinienem zrobić?
Nauczyciel : Sztuką jest, aby nowy histogram był wyższy niż stary, tak aby jego łączna powierzchnia wynosiła . Tutaj pokażę ci wersję wygenerowaną komputerowo w celu zilustrowania.1
Uczeń : Rozumiem: rozciągnąłeś go w pionie, więc jego kształt tak naprawdę się nie zmienił, ale teraz czerwony obszar i szary obszar (w tym część pod czerwoną) są takie same.
Nauczyciel : Racja. Patrzysz na obraz hipotezy zerowej (niebieska, rozłożona) i część hipotezy alternatywnej (czerwona, mniej rozłożona).
Student : Co rozumiesz przez „część” alternatywy? Nie jest to tylko hipoteza alternatywna?
Nauczyciel : Statystycy i gramatyka wydają się nie mieszać. :-) Poważnie, to, co rozumieją przez „hipotezę”, to zwykle cały zestaw możliwości. Tutaj alternatywą (jak już wcześniej tak dobrze powiedziałeś) jest to, że pomiary są „mniej rozłożone” niż wcześniej. Ale o ile mniej ? Istnieje wiele możliwości. Tutaj pozwól, że pokażę ci inny. Narysowałem go żółtymi kreskami. Jest pomiędzy dwoma poprzednimi.
Uczeń : Widzę: możesz mieć różne wielkości spreadu, ale nie wiesz z góry, ile tak naprawdę będzie spread. Ale dlaczego zrobiłeś zabawne cieniowanie na tym zdjęciu?
Nauczyciel : Chciałem podkreślić, gdzie i jak różnią się histogramy. Cieniowałem je na szaro, gdzie alternatywne histogramy są niższe niż zero, i na czerwono, gdzie alternatywy są wyższe .
Student : Dlaczego miałoby to mieć znaczenie?
Nauczyciel : Czy pamiętasz, jak pokolorowałeś pierwszy histogram na obu ogonach? [Przegląda dokumenty.] Ach, oto jest. Pokolorujmy to zdjęcie w ten sam sposób.
Student : Pamiętam: to są ekstremalne wartości. Znalazłem miejsca, w których gęstość zerowa była tak mała, jak to możliwe i zabarwiona na 10% powierzchni.
Nauczyciel : Opowiedz mi o alternatywach w tych ekstremalnych obszarach.
Uczeń : Trudno to dostrzec, ponieważ kredka to zakryła, ale wygląda na to, że prawie nie ma szans na alternatywę w obszarach, które pokolorowałem. Ich histogramy są skierowane w dół względem osi wartości i nie ma miejsca na żaden obszar pod nimi.
Nauczyciel : Kontynuujmy tę myśl. Gdybym ci hipotetycznie powiedział, że pomiar ma przemieszczenie , i poprosiłbym cię o wybranie jednego z tych trzech histogramów, z którego najprawdopodobniej pochodzi, który by to był?−2
Student : Pierwszy - niebieski. Jest najbardziej rozpowszechniony i jedyny, w którym wydaje się mieć jakiekolwiek szanse na wystąpienie.−2
Nauczyciel : A co z wartością w rękopisie?0.1
Uczeń : Hmmm ... to inna historia. Wszystkie trzy histogramy znajdują się dość wysoko nad ziemią na poziomie .0.1
Nauczyciel : OK, w porządku. Przypuśćmy jednak, że powiedziałem ci, że wartość wynosiła około , na przykład od do . Czy to pomaga odczytać niektóre prawdopodobieństwa z tych wykresów?0 0,20.1 0 0.2
Student : Jasne, bo mogę korzystać z obszarów. Muszę tylko oszacować obszary pod każdą krzywą między a . Ale to wygląda dość ciężko.0,20 0.2
Nauczyciel : Nie musisz iść tak daleko. Czy możesz po prostu powiedzieć, który obszar jest największy?
Student : Oczywiście pod najwyższą krzywą. Wszystkie trzy obszary mają tę samą podstawę, więc im wyższy łuk, tym więcej jest obszaru pod nim i podstawy. Oznacza to, że najwyższy histogram - ten, który narysowałem, z czerwonymi kreskami - jest najbardziej prawdopodobny dla przesunięcia o . Myślę, że rozumiem, do czego zmierzasz, ale jestem trochę zaniepokojony: czy nie muszę patrzeć na wszystkie histogramy wszystkich alternatyw, a nie tylko na jedną lub dwie przedstawione tutaj? Jak mogłem to zrobić?0.1
Nauczyciel : Jesteś dobry w zbieraniu wzorców, więc powiedz mi: gdy aparat pomiarowy jest coraz bardziej precyzyjny, co dzieje się z jego histogramem?
Uczeń : robi się węższy - och, i też musi być wyższy, więc jego całkowita powierzchnia pozostaje taka sama. To sprawia, że porównanie histogramów jest dość trudne. Alternatywne nich są wszystkie wyższe niż null prawo na , to oczywiste. Ale przy innych wartościach czasami alternatywy są wyższe, a czasem niższe! Na przykład [wskazując na wartość bliską ], tutaj mój czerwony histogram jest najniższy, żółty histogram jest najwyższy, a oryginalny histogram zerowy jest między nimi. Ale po prawej stronie zero jest najwyższe.3 / 40 3/4
Nauczyciel : Ogólnie rzecz biorąc, porównywanie histogramów to skomplikowana sprawa. Aby pomóc nam to zrobić, poprosiłem komputer o wykonanie innego wykresu: podzielił każdą z alternatywnych wysokości histogramu (lub „gęstości”) przez wysokość histogramu zerowego, tworząc wartości znane jako „współczynniki prawdopodobieństwa”. W rezultacie wartość większa niż oznacza, że alternatywa jest bardziej prawdopodobna, podczas gdy wartość mniejsza niż oznacza, że alternatywa jest mniej prawdopodobna. Naszkicował jeszcze jedną alternatywę: jest bardziej rozproszony niż pozostałe dwa, ale wciąż mniej rozproszony niż oryginalny aparat.11 1
Nauczyciel (kontynuuje): Czy możesz mi pokazać, gdzie alternatywy są bardziej prawdopodobne niż zero?
Uczeń (kolorystyka): Oczywiście w środku. Ponieważ nie są to już histogramy, powinniśmy raczej patrzeć na wysokości, a nie na obszary, więc zaznaczam tylko zakres wartości na osi poziomej. Ale skąd mam wiedzieć, w jakim środku należy pokolorować? Gdzie przestać kolorować?
Nauczyciel : Nie ma twardej zasady. Wszystko zależy od tego, w jaki sposób zamierzamy wykorzystać nasze wnioski i od jak silnych sceptyków. Ale usiądź wygodnie i pomyśl o tym, co osiągnąłeś: teraz zdajesz sobie sprawę, że wyniki z dużym współczynnikiem prawdopodobieństwa są dowodem na alternatywę, a wyniki z niskim współczynnikiem prawdopodobieństwa są dowodem przeciwko alternatywie. Poproszę o wybranie koloru w obszarze, który, o ile jest to możliwe, ma niewielką szansę na wystąpienie pod hipotezą zerową i stosunkowo dużą szansę na pojawienie się pod alternatywnymi rozwiązaniami. Wracając do pierwszego koloru, który pokolorowałeś, na początku naszej rozmowy, pokolorowałeś dwa ogony zerowe, ponieważ były „ekstremalne”. Czy nadal wykonaliby dobrą robotę?
Student : Nie wydaje mi się. Mimo że były dość ekstremalne i rzadkie pod hipotezą zerową, są praktycznie niemożliwe dla żadnej z alternatyw. Gdyby moim nowym pomiarem był, powiedzmy , myślę, że poparłbym sceptycyzm i zaprzeczam, że nastąpiła jakakolwiek poprawa, mimo że był w każdym razie niezwykłym wynikiem. Chcę zmienić tę kolorystykę. Tutaj - pozwól mi wziąć kolejną kredkę.3.03.0 3.0
Nauczyciel : Co to oznacza?
Uczeń : Zaczęliśmy od tego, że poprosiłeś mnie o narysowanie zaledwie 10% obszaru pod oryginalnym histogramem - tym opisującym zero. Więc teraz narysowałem 10% obszaru, na którym wydaje się, że alternatywy są bardziej prawdopodobne. Myślę, że kiedy nowy pomiar jest w tym obszarze, mówi nam, że powinniśmy wierzyć w alternatywę.
Nauczyciel : A jak sceptyk powinien na to zareagować?
Student : Sceptyk nigdy nie musi przyznać, że się myli, prawda? Ale myślę, że jego wiara powinna być nieco wstrząśnięta. W końcu ustawiliśmy go tak, aby chociaż pomiar mógł znajdować się w obszarze, który właśnie narysowałem, ma on jedynie 10% szansy na obecność, gdy wartość null jest prawdziwa. I ma większą szansę bycia tam, gdy alternatywa jest prawdziwa. Po prostu nie mogę powiedzieć, jak duża jest ta szansa, ponieważ zależy to od tego, jak bardzo naukowiec ulepszył aparat. Wiem tylko, że jest większy. Dowody byłyby zatem przeciwne sceptycznemu.
Nauczyciel : W porządku. Czy mógłbyś podsumować swoje zrozumienie, abyśmy mieli pełną jasność na temat tego, czego się nauczyłeś?
Student : Nauczyłem się, że aby porównać hipotezę alternatywną z hipotezą zerową, powinniśmy porównać ich histogramy. Gęstości alternatyw dzielimy przez gęstość zerową: to właśnie nazywasz „współczynnikiem prawdopodobieństwa”. Aby zrobić dobry test, powinienem wybrać małą liczbę, na przykład 10% lub cokolwiek, co może wystarczyć, aby wstrząsnąć sceptykiem. Następnie powinienem znaleźć wartości, w których współczynnik prawdopodobieństwa jest tak wysoki, jak to możliwe, i pokolorować je, aż 10% (lub cokolwiek) zostanie pokolorowane.
Nauczyciel : A jak użyłbyś tego kolorowania?
Uczeń : Jak przypomniałeś mi wcześniej, kolorystyka musi znajdować się między pionowymi liniami. Wartości (na osi poziomej) leżące pod kolorem są dowodami przeciwko hipotezie zerowej. Inne wartości - cóż, trudno jest powiedzieć, co mogą one oznaczać, bez dokładniejszego spojrzenia na wszystkie zaangażowane histogramy.
Nauczyciel : Wracając do wartości w rękopisie, co byś wyciągnął?0.1
Uczeń : To w obszarze, który ostatnio pokolorowałem, więc myślę, że naukowiec prawdopodobnie miał rację, a aparat naprawdę został ulepszony.
Nauczyciel : Ostatnia rzecz. Twój wniosek opierał się na wybraniu 10% jako kryterium lub „wielkości” testu. Wiele osób lubi zamiast tego używać 5%. Niektórzy wolą 1%. Co mógłbyś im powiedzieć?
Student : Nie mogłem wykonać wszystkich tych testów jednocześnie! Cóż, może mógłbym w jakiś sposób. Widzę, że bez względu na to, jaki rozmiar powinien mieć test, powinienem zacząć kolorowanie od , co jest w tym sensie wartością „najbardziej ekstremalną”, i stamtąd pracować na zewnątrz w obu kierunkach. Gdybym miał zatrzymać się dokładnie na - wartość faktycznie zaobserwowana - myślę, że zabarwiłbym obszar w zakresie od do , powiedzmy . 5% i 1% ludzi mogło od razu powiedzieć, że ja za dużo pokolorowałem: gdyby chcieli pokolorować tylko 5% lub 1%, mogliby, ale nie dostaliby tak daleko, jak0,1 0,05 0,1 0,08 0,10 0.1 0.05 0.1 0.08 0.1 . Nie dojdą do tego samego wniosku, co ja: powiedzieliby, że nie ma wystarczających dowodów na to, że rzeczywiście nastąpiła zmiana.
Nauczyciel : Właśnie powiedziałeś mi, co naprawdę oznaczają te wszystkie cytaty na początku . Z tego przykładu powinno być oczywiste, że nie mogą one być „bardziej ekstremalne”, „większe niż lub równe” lub „co najmniej tak duże” w sensie posiadania większej wartości lub nawet wartości, w której gęstość zerowa jest mała. Naprawdę mają na myśli te rzeczy w sensie dużych prawdopodobieństw , które opisałeś. Nawiasem mówiąc, liczba około , którą obliczyłeś, nazywa się „wartością p”. Można to właściwie zrozumieć tylko tak, jak to opisałeś: w odniesieniu do analizy względnych wysokości histogramu - ilorazów prawdopodobieństwa.0.08
Student : Dziękuję. Nie jestem pewien, czy w pełni to wszystko rozumiem, ale dałeś mi wiele do przemyślenia.
Nauczyciel : Jeśli chcesz pójść dalej, spójrz na lemat Neyman-Pearson . Prawdopodobnie jesteś teraz gotowy to zrozumieć.
Streszczenie
Wiele testów opartych na jednej statystyce, takiej jak ta w oknie dialogowym, nazywa to „ ” lub „ ”. Są to sposoby na wskazanie, jak wygląda histogram zerowy, ale są jedynie wskazówkami: to, jak nazywamy ten numer, nie ma tak naprawdę znaczenia. Konstrukcja podsumowana przez ucznia, jak pokazano tutaj, pokazuje, jak jest ona powiązana z wartością p. Wartość p jest najmniejszym rozmiarem testu, który spowodowałby, że obserwacja prowadziłaby do odrzucenia hipotezy zerowej.t t = 0,1z t t=0.1
Na tym rysunku, który jest powiększony, aby pokazać szczegóły, hipoteza zerowa jest wykreślona na niebiesko, a dwie typowe alternatywy są wykreślone liniami przerywanymi. Obszar, w którym te alternatywy wydają się być znacznie większe niż zero, jest zacieniony. Cieniowanie rozpoczyna się tam, gdzie względne prawdopodobieństwa alternatyw są największe (przy ). Cieniowanie ustaje po osiągnięciu obserwacji . Wartość p jest obszarem zacienionego obszaru pod histogramem zerowym: jest to szansa, przy założeniu, że zerowa jest prawdziwa, zaobserwowania wyniku, którego współczynniki prawdopodobieństwa są zwykle duże, niezależnie od tego, która alternatywa jest prawdziwa. W szczególności ta konstrukcja zależy ściśle od alternatywnej hipotezy. Nie można tego zrobić bez określenia możliwych alternatyw.t = 0,10 t=0.1
źródło
Przed dotknięciem tego tematu zawsze upewniam się, że uczniowie chętnie przechodzą między wartościami procentowymi, dziesiętnymi, szansami i ułamkami. Jeśli nie są z tego całkowicie zadowoleni, mogą bardzo szybko się zdezorientować.
Lubię wyjaśniać testowanie hipotez po raz pierwszy (a zatem wartości p i statystyki testowe) za pomocą klasycznego eksperymentu Fishera w herbacie. Mam kilka powodów:
(i) Myślę, że praca nad eksperymentem i definiowanie terminów ma większy sens niż samo zdefiniowanie wszystkich tych terminów na początek. (ii) Nie trzeba wyraźnie polegać na rozkładach prawdopodobieństwa, obszarach pod krzywą itp., aby przejść przez kluczowe punkty testowania hipotez. (iii) Wyjaśnia to absurdalnie pojęcie „jako lub bardziej ekstremalne niż obserwowane” w dość rozsądny sposób (iv) Uważam, że studenci lubią rozumieć historię, pochodzenie i historię tego, co studiują, ponieważ czyni to bardziej realnym niż niektóre abstrakcyjne teorie. (v) Nie ma znaczenia, z jakiej dyscypliny lub przedmiotu pochodzą studenci, mogą odnosić się do przykładu herbaty (Uwaga: niektórzy studenci zagraniczni mają trudności z tą szczególnie brytyjską instytucją herbaty z mlekiem).
[Uwaga: Oryginalnie wpadłem na ten pomysł ze wspaniałego artykułu Dennisa Lindleya „Analiza danych eksperymentalnych: uznanie herbaty i wina”, w którym pokazuje on, dlaczego metody bayesowskie są lepsze od metod klasycznych.]
Historia jest taka, że Muriel Bristol odwiedza Fishera pewnego popołudnia w 1920 roku w Rothamsted Experimental Station na filiżankę herbaty. Kiedy Fisher włożył mleko na koniec, narzekała, mówiąc, że może także powiedzieć, czy mleko zostało nalane jako pierwsze (czy ostatnie) i że wolała to pierwsze. Aby to przetestować, zaprojektował swój klasyczny eksperyment z herbatą, w którym Muriel otrzymuje parę filiżanek z herbatą i musi zidentyfikować, do którego mleka dodano najpierw. Jest to powtarzane z sześcioma parami filiżanek do herbaty. Ma do wyboru albo Prawo (R) albo Źle (W), a jej wyniki to: RRRRRW.
Załóżmy, że Muriel tak naprawdę zgaduje i nie ma żadnej zdolności do dyskryminacji. Nazywa się to hipotezą zerową . Według Fishera celem eksperymentu jest zdyskredytowanie tej zerowej hipotezy. Jeśli Muriel zgaduje, rozpozna poprawnie filiżankę herbaty z prawdopodobieństwem 0,5 na każdym zakręcie, a ponieważ są one niezależne, zaobserwowany wynik ma 0,5 = 0,016 (lub 1/64). Fisher twierdzi następnie, że:6
(a) hipoteza zerowa (zgaduje Muriel) jest prawdziwa i wystąpiło zdarzenie o małym prawdopodobieństwie lub
(b) hipoteza zerowa jest fałszywa, a Muriel ma moc dyskryminującą.
Wartość p (lub wartość prawdopodobieństwa) to prawdopodobieństwo zaobserwowania tego wyniku (RRRRRW) przy założeniu, że hipoteza zerowa jest prawdziwa - jest to małe prawdopodobieństwo, o którym mowa w punkcie (a) powyżej. W tym przypadku jest to 0,016. Ponieważ zdarzenia o małym prawdopodobieństwie występują rzadko (z definicji) sytuacja (b) może być bardziej korzystnym wyjaśnieniem tego, co się wydarzyło niż sytuacja (a). Kiedy odrzucamy hipotezę zerową, akceptujemy hipotezę przeciwną, którą nazywamy hipotezą alternatywną. W tym przykładzie Muriel ma moc dyskryminującą, będącą alternatywną hipotezą.
Ważnym zagadnieniem jest to, co klasyfikujemy jako „małe” prawdopodobieństwo? W jakim punkcie granicznym jesteśmy skłonni powiedzieć, że wydarzenie jest mało prawdopodobne? Standardowy poziom odniesienia wynosi 5% (0,05) i nazywa się to poziomem istotności. Gdy wartość p jest mniejsza niż poziom istotności, odrzucamy hipotezę zerową jako fałszywą i akceptujemy naszą alternatywną hipotezę. Mówi się powszechnie, że wynik jest „znaczący”, gdy wartość p jest mniejsza niż poziom istotności, tj. Gdy prawdopodobieństwo tego, co zaobserwowaliśmy, biorąc pod uwagę hipotezę zerową, jest mniejsze niż nasz punkt odcięcia. Ważne jest, aby wyjaśnić, że stosowanie 5% jest całkowicie subiektywne (podobnie jak inne wspólne poziomy istotności 1% i 10%).
Fisher zdał sobie sprawę, że to nie działa; każdy możliwy wynik z jedną niewłaściwą parą w równym stopniu sugerowałby moc dyskryminującą. Istotne prawdopodobieństwo dla powyższej sytuacji (a) wynosi zatem 6 (0,5) ^ 6 = 0,094 (lub 6/64), co obecnie nie jest znaczące na poziomie istotności 5%. Aby przezwyciężyć to, Fisher argumentował, że jeśli 1 błąd na 6 jest uważany za dowód mocy dyskryminujących, to nie ma błędów, tzn. Wyniki, które silniej wskazują na moc dyskryminacyjną niż obserwowana, powinny być uwzględnione przy obliczaniu wartości p. Spowodowało to następującą zmianę uzasadnienia:
(a) hipoteza zerowa (zgaduje Muriel) jest prawdziwa, a prawdopodobieństwo zdarzeń ekstremalnych większych niż obserwowane jest niewielkie; lub
(b) hipoteza zerowa jest fałszywa, a Muriel ma moc dyskryminującą.
Wracając do naszego eksperymentu z herbatą, okazało się, że wartość p w tym układzie wynosi 7 (0,5) ^ 6 = 0,109, co nadal nie jest znaczące przy progu 5%.
Następnie każę uczniom pracować z innymi przykładami, takimi jak rzucanie monetą, aby sprawdzić, czy moneta jest uczciwa. To drąży podstawy koncepcji hipotezy zerowej / alternatywnej, wartości p i poziomów istotności. Następnie przechodzimy do przypadku zmiennej ciągłej i wprowadzamy pojęcie statystyki testowej. Ponieważ omówiliśmy już rozkład normalny, standardowy rozkład normalny i głębokość transformacji Z, to tylko kwestia połączenia kilku koncepcji.
Oprócz obliczania statystyk testowych, wartości p i podejmowania decyzji (znaczących / nieistotnych) zachęcam studentów do pracy nad opublikowanymi artykułami w wypełnieniu gry o brakujących pustych polach.
źródło
Żadna ilość ustnych wyjaśnień ani obliczeń nie pomogła mi zrozumieć na poziomie jelita, jakie były wartości p, ale naprawdę skupiło się na mnie, gdy wziąłem kurs obejmujący symulację. To dało mi możliwość zobaczenia danych wygenerowanych przez hipotezę zerową i wykreślenia średnich / etc. próbek symulowanych, a następnie spójrz na to, gdzie statystyki mojej próbki spadły na tym rozkładzie.
Myślę, że kluczową zaletą tego jest to, że pozwala uczniom na chwilę zapomnieć o matematyce i rozkładach statystyk testowych i skupić się na dostępnych pojęciach. To prawda, że to konieczne dowiedzieć jak symulować te rzeczy, które będą powodować problemy dla zupełnie innego zestawu studentów. Ale zadziałało to dla mnie i użyłem symulacji niezliczoną ilość razy, aby pomóc innym z dużym powodzeniem objaśnić statystyki (np. „Tak wyglądają twoje dane; tak wygląda nałożona dystrybucja Poissona. Czy na pewno chcesz zrobić regresję Poissona? ”).
To nie do końca odpowiada na pytania, które postawiłeś, ale dla mnie przynajmniej sprawiło, że stały się trywialne.
źródło
Dobrą definicją wartości p jest „prawdopodobieństwo zaobserwowania statystyki testowej co najmniej tak dużej, jak obliczona przy założeniu, że hipoteza zerowa jest prawdziwa”.
Problem polega na tym, że wymaga zrozumienia „statystyki testowej” i „hipotezy zerowej”. Ale łatwo się z tym pogodzić. Jeśli hipoteza zerowa jest prawdziwa, zwykle coś w rodzaju „parametr z populacji A jest równy parametrowi z populacji B”, a statystyki oblicza się w celu oszacowania tych parametrów, jakie jest prawdopodobieństwo zobaczenia statystyki testowej, która mówi: „są to różne"?
Np. Jeśli moneta jest uczciwa, jakie jest prawdopodobieństwo, że zobaczę 60 głów na 100 rzutów? To testowanie hipotezy zerowej, „moneta jest uczciwa” lub „p = .5”, gdzie p jest prawdopodobieństwem głów.
Statystyka testowa w tym przypadku byłaby liczbą głów.
Teraz zakładamy, że to, co dzwonisz kategorią „wartość” jest nazwą rodzajową „statystyka testowa”, a nie wartość z „t dystrybucji”. Nie są tym samym, a termin „wartość t” nie jest (koniecznie) szeroko stosowany i może być mylący.
To, co nazywacie „wartością t”, jest prawdopodobnie tym, co nazywam „statystyką testową”. Aby obliczyć wartość p (pamiętaj, to tylko prawdopodobieństwo), potrzebujesz rozkładu i wartości, aby podłączyć się do tego rozkładu, który zwróci prawdopodobieństwo. Gdy to zrobisz, prawdopodobieństwo, że zwrócisz, jest twoją wartością p. Widać, że są one powiązane, ponieważ w ramach tego samego rozkładu różne statystyki testowe zwrócą różne wartości p. Bardziej ekstremalne statystyki testowe zwrócą niższe wartości p, dając większą wskazówkę, że hipoteza zerowa jest fałszywa.
Zignorowałem tutaj kwestię jednostronnych i dwustronnych wartości p.
źródło
Wyobraź sobie, że masz torbę zawierającą 900 czarnych kulek i 100 białych, czyli 10% kulek jest białych. Teraz wyobraź sobie, że wyjmujesz 1 marmur, spójrz na niego i zapisz jego kolor, wyjmij inny, zapisz kolor itp. I zrób to 100 razy. Pod koniec tego procesu będziesz mieć liczbę białych kulek, które, w idealnym przypadku, spodziewalibyśmy się 10, tj. 10% ze 100, ale w rzeczywistości może to być 8 lub 13 lub cokolwiek innego z powodu losowości. Jeśli powtórzysz ten 100-krotny eksperyment z wycofaniem marmuru wiele, wiele razy, a następnie wykreślisz histogram liczby białych marmurów narysowanych w eksperymencie, przekonasz się, że będziesz miał krzywą dzwonkową wyśrodkowaną około 10.
To reprezentuje twoją hipotezę 10%: przy każdej torbie zawierającej 1000 kulek, z których 10% jest białych, jeśli losowo wyrzucisz 100 kulek, znajdziesz 10 białych kulek w wyborze, daj lub weź 4 lub więcej. Wartość p polega na tym, że „daj lub weź 4 lub więcej”. Powiedzmy, odwołując się do utworzonej wcześniej krzywej dzwonowej, możesz stwierdzić, że mniej niż 5% czasu uzyskasz 5 lub mniej białych kulek, a kolejne <5% czasu stanowi 15 lub więcej białych kulek, tj.> 90% czas, kiedy twój wybór 100 marmuru będzie zawierał od 6 do 14 białych marmurów włącznie.
Zakładając, że ktoś rzuci torbę 1000 kulek z nieznaną liczbą białych kulek, mamy narzędzia, aby odpowiedzieć na te pytania
i) Czy jest mniej niż 100 białych marmurów?
ii) Czy jest więcej niż 100 białych marmurów?
iii) Czy worek zawiera 100 białych kulek?
Po prostu wyjmij 100 kulek z torby i policz, ile z tych próbek jest białych.
a) Jeśli w próbce jest 6 do 14 białych, nie można odrzucić hipotezy, że w torbie znajduje się 100 białych marmurów, a odpowiednie wartości p dla 6 do 14 będą> 0,05.
b) Jeśli w próbce znajduje się 5 lub mniej białych, możesz odrzucić hipotezę, że w torbie znajduje się 100 białych marmurów, a odpowiednie wartości p dla 5 lub mniej będą wynosić <0,05. Można oczekiwać, że w torbie będzie znajdować się <10% białych marmurów.
c) Jeśli w próbce znajduje się 15 lub więcej białych, możesz odrzucić hipotezę, że w torbie znajduje się 100 białych marmurów, a odpowiednie wartości p dla 15 lub więcej będą wynosić <0,05. Można oczekiwać, że w torbie będzie znajdować się> 10% białych marmurów.
W odpowiedzi na komentarz Baltimarka
Biorąc pod uwagę powyższy przykład, istnieje w przybliżeniu:
4,8% szans na uzyskanie 5 białych lub mniejszych kulek
1,85% szansy na 4 lub mniej
0,55% szansy na 3 lub mniej
0,1% szansy na 2 lub mniej
6,25% szansy na 15 lub więcej
3,25% szansy na 16 lub więcej
1,5% szansy na 17 lub więcej
0,65% szansy na 18 lub więcej
0,25% szansy na 19 lub więcej
0,1% szansy na 20 lub więcej
0,05% szansy na 21 lub więcej
Liczby te oszacowano na podstawie rozkładu empirycznego wygenerowanego przez prostą rutynową procedurę Monte Carlo w R oraz uzyskanych kwantyli rozkładu próbkowania.
Aby odpowiedzieć na pierwotne pytanie, załóżmy, że narysujesz 5 białych kulek, istnieje tylko około 4,8% szansa, że jeśli marmurowa torba 1000 naprawdę zawiera 10% białych kulek, wyciągniesz tylko 5 białych w próbce 100. Odpowiada to wartości p <0,05. Teraz musisz wybrać pomiędzy
i) Naprawdę jest 10% białych piłek w torbie i właśnie miałem pecha, że wylosowałem tak mało
lub
ii) Narysowałem tak mało białych kulek, że tak naprawdę nie może być 10% białych kulek (odrzuć hipotezę 10% białych kulek)
źródło
To, czego nie mówi ci wartość p, to prawdopodobieństwo, że hipoteza zerowa jest prawdziwa. W konwencjonalnych ramach testowania znaczenia (Fisher) najpierw obliczamy prawdopodobieństwo zaobserwowania danych, zakładając, że hipoteza zerowa jest prawdziwa, jest to wartość p. Intuicyjnie wydaje się zatem założenie, że hipoteza zerowa jest prawdopodobnie fałszywa, jeśli dane są wystarczająco mało prawdopodobne do zaobserwowania w ramach hipotezy zerowej. To jest całkowicie rozsądne. Statystycy tradycyjnie stosują próg i „odrzucają hipotezę zerową na poziomie istotności 95%”, jeśli (1 - p)> 0,95; jest to jednak tylko konwencja, która okazała się uzasadniona w praktyce - nie oznacza to, że istnieje mniej niż 5% prawdopodobieństwa, że hipoteza zerowa jest fałszywa (a zatem 95% prawdopodobieństwo, że hipoteza alternatywna jest prawdziwa).
Obrazowanie funkcji f (), która odwzorowuje wartość p na prawdopodobieństwo, że hipoteza alternatywna jest prawdziwa. Uzasadnione byłoby stwierdzenie, że funkcja ta ściśle maleje (tak, że im bardziej prawdopodobne są obserwacje w ramach hipotezy zerowej, tym mniej prawdopodobne jest, że hipoteza alternatywna jest prawdziwa) i że daje wartości od 0 do 1 (ponieważ daje oszacowanie prawdopodobieństwa). To jednak wszystko, co wiemy o f (), więc chociaż istnieje związek między p a prawdopodobieństwem, że hipoteza alternatywna jest prawdziwa, jest ona nieskalibrowana. Oznacza to, że nie możemy użyć wartości p do sformułowania ilościowych stwierdzeń dotyczących prawdopodobieństwa hipotezy zerowej i alternatywnej.
Lektor z zastrzeżeniami: Mówienie o prawdopodobieństwie, że hipoteza jest prawdziwa, nie mieści się w ramach częstokroć, ponieważ nie jest to zmienna losowa - albo jest to prawda, albo nie. Tak więc, gdy mówiłem o prawdopodobieństwie prawdziwości hipotezy, pośrednio przeszedłem do interpretacji bayesowskiej. Mieszanie bayesowskiego i częstokroć jest niepoprawne, jednak zawsze istnieje pokusa, aby to zrobić, ponieważ tak naprawdę chcemy ilościowego wskazania względnej wiarygodności / prawdopodobieństwa hipotez. Ale nie to zapewnia wartość p.
źródło
W statystykach nigdy nie można powiedzieć, że coś jest absolutnie pewne, więc statystycy stosują inne podejście do oceny, czy hipoteza jest prawdziwa, czy nie. Próbują odrzucić wszystkie inne hipotezy, które nie są obsługiwane przez dane.
Aby to zrobić, testy statystyczne mają hipotezę zerową i hipotezę alternatywną. Wartość p podana w teście statystycznym jest prawdopodobieństwem wyniku, biorąc pod uwagę, że hipoteza zerowa była poprawna. Dlatego chcemy małych wartości p. Im są mniejsze, tym mniej prawdopodobny byłby wynik, gdyby hipoteza zerowa była poprawna. Jeśli wartość p jest wystarczająco mała (tj. Jest bardzo mało prawdopodobne, aby wynik miał miejsce, jeśli hipoteza zerowa była poprawna), wówczas hipoteza zerowa jest odrzucana.
W ten sposób można sformułować hipotezę zerową, a następnie odrzucić. Jeśli hipoteza zerowa zostanie odrzucona, zaakceptujesz hipotezę alternatywną jako najlepsze wytłumaczenie. Pamiętaj jednak, że hipoteza alternatywna nigdy nie jest pewna, ponieważ hipoteza zerowa mogła przypadkowo wygenerować wyniki.
źródło
Nie jestem pewien , czy mogę ożywić stary temat, ale skoczyłem stąd , więc opublikowałem to jako odpowiedź na pytanie w linku.
Wartość p jest konkretnym terminem, nie powinno być miejsca na nieporozumienia. Ale w pewien sposób mistyczne jest, że potoczne tłumaczenia definicji wartości p prowadzą do wielu różnych błędnych interpretacji. Myślę, że źródłem problemu jest użycie zwrotów „co najmniej tak samo negatywnych jak hipoteza zerowa” lub „co najmniej tak skrajnych jak te w twoich przykładowych danych” itp.
Na przykład Wikipedia mówi
Znaczenie wartości jest niewyraźne, gdy ludzie po raz pierwszy natkną się na „(lub bardziej ekstremalny wynik)” i zaczną myśleć „ bardziej ekstremalnie ?”.p
Myślę, że lepiej pozostawić „bardziej ekstremalny wynik” coś w rodzaju pośredniego aktu mowy . Więc moje zdanie jest
Aby skonkretyzować ten pomysł, załóżmy, że masz próbkęμ0=20 N(20,1)
x
składającą się z 10 obserwacji i postawiłeś hipotezę, że średnia populacji wynosi . Tak więc w twoim hipotetycznym świecie rozkład populacji wynosi .Obliczasz t-stat jako i dowiadujesz się, żet0=n−−√X¯−μ0s
Więc jakie jest prawdopodobieństwo zaobserwowaniatak duży jak 2,97 (pojawia się „bardziej ekstremalny”) w wyimaginowanym świecie? W wyobrażonym świecie wartość musi więc wynosić|t0| t0∼t(9)
Ponieważ wartość p jest niewielka, bardzo mało prawdopodobne jest, aby próbka
x
została pobrana w hipotetycznym świecie. Dlatego dochodzimy do wniosku, że jest mało prawdopodobne, aby hipotetyczny świat był faktycznie światem rzeczywistym.źródło
Uważam, że pomocne jest przestrzeganie sekwencji, w której objaśniasz pojęcia w następującej kolejności: (1) Wynik z i proporcje powyżej i poniżej wyniku z zakładają normalną krzywą. (2) Pojęcie rozkładu próbkowania i wynik Z dla danej próbki oznaczają średnią, gdy znane jest odchylenie standardowe populacji (i stąd test Z dla jednej próbki) (3) Test t dla jednej próbki i prawdopodobieństwo próbka oznacza, kiedy odchylenie standardowe populacji jest nieznane (pełne opowieści o tajnej tożsamości pewnego przemysłowca i dlaczego Guinness jest dobry dla statystyki). (4) Dwutróbkowy test t i rozkład próbkowania średnich różnic. Łatwość, z jaką studenci wprowadzający rozumieją test t, ma wiele wspólnego z przygotowaniami do przygotowania tego tematu.
/ * instruktor trybu przerażonych uczniów wyłączony * /
źródło
Uważam też, że symulacje są przydatne w nauczaniu.
Następnie -statistic ma wartość pod , tak że wartość to po prostu lub w R.t N(0,1)H0pΦ(tstat)tstat:=n−−√(X¯−μ0) N(0,1) H0 p Φ(tstat)
pnorm(tstat)
W symulacji jest to ułamek razy, gdy dane wygenerowane pod zerowym (tutaj, ) dają przykładowe środki przechowywane w nich są mniejsze (tj. `` Bardziej ekstremalne '' w tym test lewostronny) niż obliczony na podstawie zaobserwowanych danych.μ 0 = 2N(μ0,1) μ0=2
nullMeans
źródło
W sensie ontologicznym (czym jest prawda?) Nic nie znaczy . Wszelkie testowanie hipotez opiera się na niesprawdzonych założeniach . Zwykle jest to część samego testu, ale także część dowolnego używanego modelu (np. W modelu regresji). Ponieważ po prostu zakładamy, że nie, nie możemy wiedzieć, czy powodem, dla którego wartość p jest poniżej naszego progu, jest to, że zero jest fałszem. Jest to non sequitur wydedukować bezwarunkowo, że z powodu niskiej wartości p musimy odrzucić null. Na przykład coś w tym modelu może być nieprawidłowe.
W sensie epistemologicznym (czego możemy się nauczyć?) To coś znaczy . Zyskujesz wiedzę pod warunkiem, że niesprawdzone przesłanki są prawdziwe. Ponieważ (przynajmniej do tej pory) nie możemy udowodnić każdego gmachu rzeczywistości, cała nasza wiedza będzie z konieczności warunkowa. Nigdy nie dojdziemy do „prawdy”.
źródło
Myślę, że przykłady dotyczące marmurów, monet lub pomiaru wysokości mogą być przydatne do ćwiczenia matematyki, ale nie są dobre do budowania intuicji. Studenci lubią zadawać pytania społeczeństwu, prawda? Co powiesz na przykład polityczny?
Powiedzmy, że kandydat polityczny przeprowadził kampanię obiecującą, że jakaś polityka pomoże gospodarce. Została wybrana, wprowadzono w życie politykę, a 2 lata później gospodarka kwitnie. Jest gotowa na ponowny wybór i twierdzi, że jej polityka jest powodem dobrobytu wszystkich. Czy powinieneś ją ponownie wybrać?
Przemyślany obywatel powinien powiedzieć „dobrze, to prawda, że gospodarka ma się dobrze, ale czy naprawdę możemy przypisać to twojej polityce?” Aby naprawdę odpowiedzieć na to pytanie, musimy rozważyć pytanie „czy gospodarka poradziłaby sobie bez niego w ciągu ostatnich 2 lat?” Jeśli odpowiedź brzmi „tak” (np. Gospodarka przeżywa boom z powodu jakiegoś nowego niezwiązanego rozwoju technologicznego), wówczas odrzucamy wyjaśnienie danych przez polityka.
To znaczy, aby zbadać jedną hipotezę (polityka pomogła gospodarce), musimy zbudować model świata, w którym ta hipoteza jest zerowa (polityka nigdy nie została wprowadzona w życie). Następnie wykonujemy prognozy na podstawie tego modelu. Prawdopodobieństwo obserwacji tych danych w tym alternatywnym świecie nazywamy wartością p . Jeśli wartość p jest zbyt wysoka, hipoteza nie przekonuje nas - polityka nie ma znaczenia. Jeśli wartość p jest niska, ufamy hipotezie - polityka była niezbędna.
źródło
W szczególności, jeśli ma ciągły rozkład i nie używasz aproksymacji, toX
Możesz uznać to za ogólny opis wartości .p
źródło
Wartość p nie jest tak tajemnicza, jak się wydaje. Jest to sposób na nieobliczanie przedziału ufności dla testu t, ale po prostu określenie poziomu ufności, z którym hipoteza zerowa może zostać odrzucona.
ILUSTRACJA. Przeprowadzasz test. Wartość p pojawia się jako 0,1866 dla zmiennej Q, 0,0023 dla zmiennej R. (Są one wyrażone w%).
Jeśli testujesz na poziomie ufności 95%, aby odrzucić hipo zerową;
dla Q: 100–18.66 = 81,34%
dla R: 100-0,23 = 99,77%.
Przy poziomie ufności 95% Q daje 81,34% pewności do odrzucenia. To spada poniżej 95% i jest nie do przyjęcia. AKCEPTUJ NULL.
R daje 99,77% pewności, aby odrzucić zero. Wyraźnie powyżej pożądanego 95%. W ten sposób odrzucamy zero.
Właśnie zilustrowałem odczyt wartości p poprzez „odwrotny sposób” zmierzenia jej do poziomu ufności, przy którym odrzucamy hipotezę zerową.
źródło
****** Wartość p w testowaniu hipotezy mierzy czułość testu. Im niższa wartość p, tym większa jest czułość. jeżeli poziom istotności jest ustawiony na 0,05, wartość p 0,0001 wskazuje na wysokie prawdopodobieństwo poprawności wyników testu ******
źródło