Po co dalej uczyć i stosować testowanie hipotez (ze wszystkimi jego trudnymi pojęciami i które należą do najbardziej statystycznych grzechów) w przypadku problemów, w których istnieje estymator przedziałów (pewność, bootstrap, wiarygodność lub cokolwiek innego)? Jakie jest najlepsze wyjaśnienie (jeśli w ogóle) dla studentów? Tylko tradycja? Widoki będą bardzo mile widziane.
hypothesis-testing
confidence-interval
teaching
Washington S. Silva
źródło
źródło
Odpowiedzi:
To jest moja osobista opinia, więc nie jestem pewien, czy właściwie kwalifikuje się jako odpowiedź.
Dlaczego powinniśmy uczyć testowania hipotez?
Krótko mówiąc, jednym z bardzo ważnych powodów jest to, że najprawdopodobniej w czasie, gdy zajmie Ci to przeczytanie tego zdania, setki, jeśli nie tysiące (lub miliony) testów hipotez przeprowadzono w promieniu 10 stóp od miejsca, w którym siedzisz.
Twój telefon komórkowy zdecydowanie używa testu współczynnika prawdopodobieństwa, aby zdecydować, czy znajduje się w zasięgu stacji bazowej. Sprzęt WiFi twojego laptopa robi to samo w komunikacji z routerem.
Kuchenka mikrofalowa, której użyłeś do automatycznego podgrzania tego dwudniowego kawałka pizzy, posłużyła się testem hipotez, aby ustalić, kiedy pizza jest wystarczająco gorąca.
System kontroli trakcji samochodu uruchomił się, gdy dałeś mu zbyt dużo gazu na oblodzonej drodze, lub system ostrzegania o ciśnieniu w oponach informuje Cię, że twoja tylna opona po stronie pasażera była nienormalnie niska, a reflektory włączały się automatycznie około 5: 19.00 zapadał zmierzch.
Twój iPad wyświetla tę stronę w formacie poziomym na podstawie (głośnych) odczytów akcelerometru.
Twoja firma wydająca karty kredytowe wyłączyła kartę, gdy „kupiłeś” telewizor z płaskim ekranem w Best Buy w Teksasie i pierścionek z brylantem o wartości 2000 USD w Zales w centrum handlowym w stanie Waszyngton w ciągu kilku godzin od zakupu lunchu, gazu i filmu blisko twojego domu na przedmieściach Pittsburgha.
Setki tysięcy bitów wysłanych w celu renderowania tej strony w przeglądarce osobno przeszły test hipotez, aby ustalić, czy najprawdopodobniej były to 0, czy 1 (oprócz niesamowitej korekcji błędów).
Spójrz trochę w prawo na te „powiązane” tematy.
Wszystkie te rzeczy „wydarzyły się” dzięki testom hipotez . Dla wielu z tych rzeczy można obliczyć oszacowanie interwału jakiegoś parametru. Ale, szczególnie w przypadku zautomatyzowanych procesów przemysłowych, zastosowanie i zrozumienie testowania hipotez ma kluczowe znaczenie.
Na bardziej teoretycznym poziomie statystycznym ważna koncepcja władzy statystycznej wynika raczej naturalnie z ram teoretycznych / testujących hipotezę. Ponadto uważam, że „nawet” czysty matematyk może docenić piękno i prostotę lematu Neymana-Pearsona i jego dowód.
Nie oznacza to, że testowanie hipotez jest dobrze nauczane lub rozumiane. Zasadniczo tak nie jest. I chociaż zgodziłbym się, że - szczególnie w naukach medycznych - raportowanie szacunków interwałowych wraz z wielkościami efektów i pojęciami istotności praktycznej vs. statystycznej są prawie ogólnie lepsze niż jakiekolwiek formalne testy hipotez, nie oznacza to, że testowanie hipotez i powiązane koncepcje same w sobie nie są ważne i interesujące.
źródło
Uczę testów hipotez z wielu powodów. Jedna jest historyczna, że będą musieli zrozumieć dużą część wcześniejszych badań, które przeczytali i zrozumieli punkt widzenia testowania hipotez. Po drugie, nawet w dzisiejszych czasach jest nadal używany przez niektórych badaczy, często domyślnie, podczas przeprowadzania innych rodzajów analiz statystycznych.
Ale kiedy go uczę, uczę go w ramach budowania modeli, że te założenia i szacunki są częścią modeli budowania. W ten sposób można stosunkowo łatwo przejść do porównywania bardziej złożonych i interesujących teoretycznie modeli. Badania częściej zestawiają teorie między sobą niż teorię z niczym.
Grzechy testowania hipotez nie są nieodłączne od matematyki i właściwego wykorzystania tych obliczeń. Tam, gdzie przede wszystkim kłamią, jest nadmierna zależność i błędna interpretacja. Gdyby zdecydowana większość naiwnych badaczy stosowała wyłącznie oszacowanie przedziałowe, nie rozpoznając żadnego związku z tymi rzeczami, nazywamy hipotezy, możemy to nazwać grzechem.
źródło
źródło
Myślę, że to zależy od tego, o której testowaniu hipotez mówisz. Mówi się, że „klasyczne” testowanie hipotez (Neyman-Pearson) jest wadliwe, ponieważ nie warunkuje odpowiednio tego, co faktycznie się zdarzyło, gdy wykonałeś test . Zamiast tego jest zaprojektowany do pracy „niezależnie” od tego, co faktycznie widziałeś na dłuższą metę. Ale niespełnienie warunku może prowadzić do wprowadzających w błąd wyników w indywidualnym przypadku. Jest tak po prostu dlatego, że procedura „nie przejmuje się” indywidualnym przypadkiem na dłuższą metę.
Testowanie hipotez można rzucić w teoretyczne ramy decyzyjne, które moim zdaniem są znacznie lepszym sposobem na ich zrozumienie. Możesz przekształcić problem w dwie decyzje:
Ramy decyzyjne są znacznie łatwiejsze do zrozumienia, ponieważ wyraźnie oddzielają pojęcia „co zrobisz?” i „jaka jest prawda?” (poprzez wcześniejsze informacje).
Możesz nawet zastosować „teorię decyzji” (DT) do swojego pytania. Ale aby przerwać testowanie hipotez, DT mówi, że musisz mieć dla ciebie alternatywną decyzję. Pytanie zatem brzmi: jeśli zrezygnuje się z testowania hipotez, co ma zająć jego miejsce? Nie mogę wymyślić odpowiedzi na to pytanie. Mogę tylko myśleć o alternatywnych sposobach testowania hipotez.
(UWAGA: w kontekście testowania hipotez dane, rozkład próbkowania, wcześniejszy rozkład i funkcja straty są wcześniejszymi informacjami, ponieważ są uzyskiwane przed podjęciem decyzji.)
źródło
Gdybym był zagorzałym częstym internautą, przypomniałbym wam, że przedziały ufności są dość regularnie tylko odwróconymi testami hipotez, tj. Gdy przedział 95% jest po prostu innym sposobem opisania wszystkich punktów, których test z twoimi danymi nie odrzuciłby na .05 poziom. W takich sytuacjach pierwszeństwo przed innymi stanowi kwestia ekspozycji, a nie metody.
Ekspozycja jest oczywiście ważna, ale myślę, że byłby to całkiem niezły argument. Wyjaśnienie dwóch podejść jako powtórzeń tego samego wnioskowania z różnych punktów widzenia jest schludne i wyjaśniające. (Fakt, że nie wszystkie estymatory przedziałów są testami odwróconymi, jest zatem nieeleganckim, ale niezbyt niezręcznym faktem, mówiąc pedagogicznie).
Jak wspomniano powyżej, znacznie poważniejsze implikacje wynikają z decyzji o uzależnieniu się od obserwacji. Jednak nawet w czasie odosobnienia Frequentist zawsze mógł zauważyć, że jest wiele sytuacji (być może nie większość), w których uwarunkowanie obserwacji byłoby nierozsądne lub mało pouczające. Dla nich konfiguracja HT / CI jest (nie „są”) dokładnie tym, czego chce, i powinna być nauczana jako taka.
źródło
Ucząc wczesnych studentów statystyki testu Neymana Pearsona, często próbowałem zlokalizować go w jego pierwotnym otoczeniu: w podejmowaniu decyzji. Wtedy infrastruktura błędów typu 1 i typu 2 ma sens, podobnie jak pomysł, że możesz zaakceptować hipotezę zerową.
Musimy podjąć decyzję, uważamy, że wynik naszej decyzji można poprawić dzięki znajomości parametru, mamy jedynie oszacowanie tego parametru. Nadal musimy podjąć decyzję. Jaka jest zatem najlepsza decyzja w kontekście oszacowania parametru?
Wydaje mi się, że w swoim pierwotnym położeniu (podejmowanie decyzji w obliczu niepewności) test hipotezy NP ma sens. Patrz np. N & P 1933, szczególnie str. 291
Neyman and Pearson. Na temat najskuteczniejszych testów hipotez statystycznych. Transakcje filozoficzne Royal Society of London. Seria A, zawierająca dokumenty o charakterze matematycznym lub fizycznym (1933) obj. 231 s. 289–337
źródło
Testowanie hipotez jest użytecznym sposobem na sformułowanie wielu pytań: czy efekt leczenia jest zerowy czy niezerowy? Zdolność między takimi stwierdzeniami a modelem lub procedurą statystyczną (w tym konstrukcją estymatora interwału) jest ważna dla praktyków, jak sądzę.
Warto również wspomnieć, że przedział ufności (w tradycyjnym znaczeniu) nie jest z natury mniej „podatny na grzech” niż testowanie hipotez - ilu studentów wprowadzających zna prawdziwą definicję przedziału ufności?
Być może problemem nie są testowanie hipotez ani szacowanie przedziałów, ponieważ są to klasyczne wersje tego samego; Bayesowska formuła całkiem ładnie tego unika.
źródło
Powodem jest podejmowanie decyzji. W większości podejmowanych decyzji albo to robisz, albo nie. Możesz patrzeć na interwały przez cały dzień, w końcu jest chwila, w której decydujesz się to zrobić, czy nie.
Testowanie hipotez dobrze pasuje do tej prostej rzeczywistości TAK / NIE.
źródło