Pojedynczy test statystyczny może udowodnić, że hipoteza zerowa (H0) jest fałszywa, a zatem hipoteza alternatywna (H1) jest prawdziwa. Ale nie można go użyć do wykazania, że H0 jest prawdą, ponieważ brak odrzucenia H0 nie oznacza, że H0 jest prawdą.
Załóżmy jednak, że masz możliwość wykonania testu statystycznego wiele razy, ponieważ masz wiele zestawów danych, wszystkie niezależne od siebie. Wszystkie zestawy danych są wynikiem tego samego procesu i chcesz złożyć oświadczenie (H0 / H1) nad samym procesem i nie są zainteresowane wynikami każdego pojedynczego testu. Następnie zbierasz wszystkie uzyskane wartości p i na wykresie histogramu widzisz, że wartości p są wyraźnie równomiernie rozłożone.
Moje rozumowanie jest takie, że może się to zdarzyć tylko wtedy, gdy H0 jest prawdziwe - w przeciwnym razie wartości p byłyby rozłożone inaczej. Czy to wystarczający dowód na to, że H0 jest prawdą? A może brakuje mi tutaj czegoś istotnego, ponieważ napisanie „wniosku, że H0 jest prawdą” zajęło mi dużo woli, co po prostu brzmi okropnie źle w mojej głowie.
źródło
Odpowiedzi:
Podoba mi się twoje pytanie, ale niestety moja odpowiedź brzmi NIE, to nie dowodzi . Powód jest bardzo prosty. Skąd wiesz, że rozkład wartości p jest jednolity? Prawdopodobnie musiałbyś przeprowadzić test jednorodności, który zwróci ci swoją własną wartość p, i skończysz z tym samym rodzajem pytania wnioskowania, którego starałeś się uniknąć, tylko o krok dalej. Zamiast patrzeć na wartość p oryginalnego , teraz patrzysz na wartość p innego dotyczącą jednorodności rozkładu oryginalnych wartości p.H0 H0 H′0
AKTUALIZACJA
Oto demonstracja. Generuję 100 próbek po 100 obserwacji z rozkładu Gaussa i Poissona, a następnie uzyskuję 100 wartości p dla testu normalności dla każdej próbki. Tak więc przesłanka pytania jest taka, że jeśli wartości p pochodzą z równomiernego rozkładu, to dowodzi, że hipoteza zerowa jest poprawna, co jest silniejszym stwierdzeniem niż zwykłe „nie odrzucanie” w wnioskowaniu statystycznym. Problem polega na tym, że „wartości p pochodzą z jednolitości” jest samą hipotezą, którą trzeba jakoś przetestować.
Na zdjęciu (pierwszy wiersz) poniżej pokazuję histogramy wartości p z testu normalności dla próbki Guassiana i Poissona i widać, że trudno jest powiedzieć, czy jedno jest bardziej jednolite od drugiego. To był mój główny punkt.
Drugi rząd pokazuje jedną z próbek z każdego rozkładu. Próbki są stosunkowo małe, więc nie można mieć zbyt wielu pojemników. W rzeczywistości ta konkretna próbka Gaussa wcale nie wygląda tak dużo Gaussa na histogramie.
W trzecim rzędzie pokazuję połączone próbki 10 000 obserwacji dla każdego rozkładu na histogramie. Tutaj możesz mieć więcej pojemników, a kształty są bardziej oczywiste.
W końcu uruchamiam ten sam test normalności i otrzymuję wartości p dla połączonych próbek, a to odrzuca normalność dla Poissona, a nie odrzuca dla Gaussa. Wartości p wynoszą: [0,45348631] [0]
Nie jest to oczywiście dowód, ale demonstracja pomysłu, że lepiej uruchomić ten sam test na połączonej próbce, zamiast próbować analizować rozkład wartości p z podpróbek.
Oto kod Python:
źródło
Twoja seria eksperymentów może być postrzegana jako pojedynczy eksperyment z dużo większą ilością danych, a jak wiemy, więcej danych jest korzystne (np. Zwykle standardowe błędy zmniejszają się, gdy rośnie dla niezależnych danych). Ale pytasz: „Czy to… wystarczający dowód, aby stwierdzić, że H0 jest prawdą?”n−−√
Nie. Podstawowym problemem jest to, że inna teoria może wytwarzać podobne wzorce w danych! Jak @ Björn omawia w swojej odpowiedzi, nie fałszywego jeśli twój eksperyment nie ma mocy, aby odróżnić od innych możliwości. Przez stulecia nie odrzucaliśmy teorii grawitacji Newtona, ponieważ nikt nie przeprowadził testów, w których teoria Newtona daje wystarczająco inne prognozy niż teoria względności Einsteina. Mniej ekstremalne przykłady są powszechne.H0 H0
David Hume i problem indukcji
Być może przeformułowanie brzmi: „Jeśli uzyskam coraz więcej danych zgodnych z , czy mogę kiedykolwiek dojść do wniosku, że jest prawdziwy?”H0 H0
Pytanie to jest głęboko związane z problemem indukcji XVIII-wiecznego filozofa Davida Hume'a . Jeśli wszystkie zaobserwowane przypadki A były B , czy możemy powiedzieć, że następnym wystąpieniem A będzie B? Hume powiedział, że nie, że nie możemy logicznie wywnioskować, że „wszystkie A są B” nawet na podstawie obszernych danych. W bardziej nowoczesnej matematyce skończony zestaw obserwacji nie może logicznie pociągać za sobą jeśli A nie jest zbiorem skończonym. Dwa godne uwagi przykłady omówione przez Magee i Passermore :∀a∈A[a∈B]
Przez wieki każdy łabędź obserwowany przez Europejczyków był biały. Następnie Europejczycy odkryli Australię i zobaczyli czarne łabędzie.
Przez stulecia prawo grawitacji Newtona zgadzało się z obserwacjami i było uważane za prawidłowe. Zostało to obalone przez teorię ogólnej teorii względności Einsteina.
Jeśli wniosek Hume'a jest poprawny, udowodnienie, że true jest nieosiągalne. To, że nie możemy składać oświadczeń z pewnością, nie jest równoznaczne z powiedzeniem, że nic nie wiemy. Eksperymentalna nauka i statystyka pomogły nam zrozumieć świat i poruszać się po nim.H0
(Niekompletna) lista sposobów postępowania:
Karl Popper i falsyfikacjonizm
W opinii Karla Poppera żadne prawo naukowe nigdy nie zostało udowodnione. Mamy tylko prawa naukowe, które nie zostały jeszcze udowodnione jako fałszywe.
Popper argumentował, że nauka rozwija się, zgadując hipotezy i poddając je rygorystycznej analizie. Postępuje naprzód poprzez dedukcję (obserwacje potwierdzające teorie fałszywe), a nie indukcję (powtarzane obserwacje potwierdzające teorie prawdziwe). Wiele statystyk częstokroć było skonstruowanych zgodnie z tą filozofią.
Poglądy Poppera były niezwykle wpływowe, ale jak twierdzili Kuhn i inni, nie do końca są zgodne z obserwowaną empirycznie praktyką udanej nauki.
Bayesowskie, subiektywne prawdopodobieństwo
Załóżmy, że interesuje nas parametr .θ
Dla statystysty parametr jest wartością skalarną, liczbą. Jeśli zamiast tego przyjmiesz subiektywny punkt widzenia Bayesa (na przykład w Foundation of Leonard Jimmie Savage's Foundation ), możesz modelować własną niepewność co do przy użyciu narzędzi prawdopodobieństwa. Dla subiektywnego bayesowskiego jest zmienną losową i masz jakieś wcześniejsze . Można wtedy mówić o subiektywnego prawdopodobieństwa z różnymi wartościami podane dane . To, jak zachowujesz się w różnych sytuacjach, ma pewną zgodność z tymi subiektywnymi prawdopodobieństwami.θ θ θ P ( θ ) P ( θ ∣ X ) θ Xθ θ P(θ) P(θ∣X) θ X
Jest to logiczny sposób modelowania własnych subiektywnych przekonań, ale nie jest to magiczny sposób na uzyskanie prawdopodobieństw, które są prawdziwe pod względem zgodności z rzeczywistością. Trudnym pytaniem dla jakiejkolwiek interpretacji bayesowskiej jest to, skąd pochodzą pierwszeństwa? A co, jeśli model zostanie źle określony?
George P. Box
Słynny aforyzm George'a Boxa polega na tym, że „wszystkie modele są fałszywe, ale niektóre są przydatne”.
Prawo Newtona może nie być prawdą, ale nadal jest przydatne w przypadku wielu problemów. Widok Boxa jest dość ważny w nowoczesnym kontekście dużych zbiorów danych, w którym badania są tak obezwładnione, że można zasadniczo odrzucić każdą sensowną propozycję. Ściśle prawda a fałsz jest złym pytaniem: ważne jest, czy model pomaga zrozumieć dane.
Dodatkowe komentarze
Istnieje statystyczna różnica w statystyce między szacowaniem parametru z małym błędem standardowym a dużym błędem standardowym! Nie odchodź, myśląc, że ponieważ pewność jest niemożliwa, rygorystyczna kontrola nie ma znaczenia.θ≈0
Być może również interesujące, statystyczna analiza wyników wielu badań nazywa się metaanalizą .
To, jak daleko można wyjść poza wąskie interpretacje statystyczne, jest trudnym pytaniem.
źródło
W pewnym sensie masz rację (patrz krzywa p) z pewnymi małymi zastrzeżeniami:
Dzięki realistycznym aplikacjom zdarzają się dodatkowe problemy. Najczęściej powstają, ponieważ żadna osoba / laboratorium / grupa badawcza zwykle nie może wykonać wszystkich niezbędnych badań. W rezultacie patrzy się na badania z wielu grup, w którym to momencie zwiększyłeś obawy (tj. Gdybyś sam przeprowadził wszystkie odpowiednie eksperymenty, przynajmniej byś wiedział) o zaniżaniu, selektywnym zgłaszaniu istotnych / zaskakujących wyników, hakowanie p, wielokrotne testowanie / wielokrotne poprawki testowe i tak dalej.
źródło
Hipoteza zerowa (H0): Grawitacja powoduje, że wszystko we wszechświecie spada na powierzchnię Ziemi.
Alternatywna hipoteza (H1): Nic nigdy nie spada.
Przeprowadzono 1 milion eksperymentów z dziesiątkami przedmiotów gospodarstwa domowego, nie odrzucając H0 przy każdym razem. Czy H0 jest prawdą?p<0.01
źródło
Gravity causes everything in the universe to fall toward Earth's surface
nie jest hipotezą alternatywną,There is at least one thing in the universe that does not fall toward the Earth's surface
a nieNothing ever falls
?