W niedawnym artykule na temat wad polegania na wartości p do wnioskowania statystycznego, zatytułowanym „Matrixx przeciwko Siracusano i Student przeciwko Fisher, znaczenie statystyczne w próbie” (DOI: 10.1111 / j.1740-9713.2011.00511.x), Stephen T. Ziliak sprzeciwia się zastosowaniu wartości p. W końcowych akapitach mówi:
Dane to jedna rzecz, którą już wiemy i na pewno. To, co tak naprawdę chcemy wiedzieć, to coś zupełnie innego: prawdopodobieństwo, że hipoteza jest prawdziwa (lub przynajmniej praktycznie użyteczna), biorąc pod uwagę nasze dane. Chcemy poznać prawdopodobieństwo, że oba leki są różne i o ile, biorąc pod uwagę dostępne dowody. Test istotności - oparty na błędności transponowanego warunku, pułapce, w którą wpadł Fisher - nie ma i nie może nam powiedzieć tego prawdopodobieństwa. Funkcja mocy, funkcja oczekiwanej straty i wiele innych metod teoretycznych i bayesowskich pochodzących od Studenta i Jeffreysa, obecnie szeroko dostępnych i darmowych on-line.
Jaka jest funkcja władzy, funkcja oczekiwanej straty i „inne metody teoretyczne i bayesowskie”? Czy te metody są powszechnie stosowane? Czy są dostępne w R? Jak wdrażane są te nowe sugerowane metody? Jak na przykład użyłbym tych metod do przetestowania mojej hipotezy w zbiorze danych, w przeciwnym razie zastosowałbym konwencjonalne testy t dla dwóch próbek i wartości p?
Odpowiedzi:
To brzmi jak kolejny ostry papier zdezorientowanej osoby. Fisher nie wpadł w taką pułapkę, choć wielu studentów statystyki tak.
Testowanie hipotez jest problemem teoretycznym. Ogólnie rzecz biorąc, kończy się testem z określonym progiem między dwiema decyzjami (hipoteza prawdziwa lub hipoteza fałszywa). Jeśli masz hipotezę, która odpowiada jednemu punktowi, np. , możesz obliczyć prawdopodobieństwo danych wynikające z tego, że jest to prawda. Ale co robisz, jeśli nie jest to pojedynczy punkt? Otrzymujesz funkcję θ . Hipoteza θ ≠ 0 jest taka hipoteza, a otrzymasz taką funkcję prawdopodobieństwa produkcji przy danym obserwowanych danych, że to prawda. Ta funkcja jest funkcją mocy. To bardzo klasyczne. Fisher wiedział o tym wszystko.θ = 0 θ θ ≠ 0
Oczekiwana strata jest częścią podstawowego mechanizmu teorii decyzji. Masz różne stany natury i wynikające z nich różne możliwe dane oraz niektóre możliwe decyzje, które możesz podjąć, i chcesz znaleźć dobrą funkcję od danych do decyzji. Jak definiujesz dobro? Biorąc pod uwagę szczególny stan natury leżący u podstaw uzyskanych danych oraz decyzję podjętą w ramach tej procedury, jaka jest oczekiwana strata? Jest to najprościej rozumiane w przypadku problemów biznesowych (jeśli robię to na podstawie sprzedaży, którą zaobserwowałem w ciągu ostatnich trzech kwartałów, jaka jest oczekiwana strata pieniężna?).
Procedury bayesowskie są podzbiorem procedur teoretycznych decyzji. Oczekiwana strata jest niewystarczająca, aby określić wyjątkowo najlepsze procedury we wszystkich przypadkach oprócz trywialnych. Jeśli jedna procedura jest lepsza od drugiej w obu stanach A i B, oczywiście wolisz ją, ale jeśli jedna jest lepsza w stanie A, a druga lepsza w stanie B, co wybierasz? Tutaj wkraczają pomysły pomocnicze, takie jak procedury Bayesa, minimalizacja i bezstronność.
Jestem również trochę zdezorientowany, dlaczego nazywa razem Studenta i Jeffreysa, biorąc pod uwagę, że Fisher był odpowiedzialny za szerokie rozpowszechnianie prac Studenta.
Zasadniczo ślepe stosowanie wartości p jest złym pomysłem i są one raczej subtelną koncepcją, ale to nie czyni ich bezużytecznymi. Czy powinniśmy sprzeciwić się ich niewłaściwemu wykorzystaniu przez badaczy o słabym pochodzeniu matematycznym? Oczywiście, ale pamiętajmy, jak to wyglądało, zanim Fisher próbował wydestylować coś dla człowieka w terenie.
źródło
Zalecam skupienie się na takich kwestiach, jak przedziały ufności i sprawdzanie modelu. Andrew Gelman wykonał w tym świetną robotę. Polecam jego podręczniki, ale także sprawdzam rzeczy, które umieścił w Internecie, np. Http://andrewgelman.com/2011/06/the_holes_in_my/
źródło
Ez pakiet zawiera wskaźniki wiarogodności podczas korzystania z
ezMixed()
funkcji, aby zrobić modelowanie efektów mieszanych. Wskaźniki prawdopodobieństwa mają na celu ilościowe oszacowanie dowodów na zjawisko poprzez porównanie prawdopodobieństwa (biorąc pod uwagę zaobserwowane dane) dwóch modeli: modelu „ograniczonego”, który ogranicza wpływ zjawiska do zera, oraz modelu „nieograniczonego”, który pozwala na niezerowy wpływ zjawisko. Po skorygowaniu zaobserwowanych prawdopodobieństw zróżnicowania złożoności modeli (za pomocą Kryterium Informacyjnego Akaike, które jest asymptotycznie równoważne z walidacją krzyżową), stosunek kwantyfikuje dowody na to zjawisko.źródło
Wszystkie te techniki są dostępne w R w tym samym sensie, że cała algebra jest dostępna w twoim ołówku. Nawet wartości p są dostępne przez wiele różnych funkcji w R, decydowanie, której funkcji użyć, aby uzyskać wartość p lub Bayesian a posterior, jest bardziej złożona niż wskaźnik do pojedynczej funkcji lub pakietu.
Gdy poznasz te techniki i zdecydujesz, na jakie pytanie rzeczywiście chcesz uzyskać odpowiedź, możesz zobaczyć (lub możemy zapewnić więcej pomocy), jak to zrobić za pomocą R (lub innych narzędzi). Samo powiedzenie, że chcesz zminimalizować swoją funkcję utraty lub uzyskać dystrybucję boczną, jest tak samo przydatne, jak odpowiadanie na „jedzenie”, gdy pyta cię, co chcesz zjeść na obiad.
źródło