Czy jednolity rozkład wielu wartości p daje statystyczny dowód, że H0 jest prawdą?

28

Pojedynczy test statystyczny może udowodnić, że hipoteza zerowa (H0) jest fałszywa, a zatem hipoteza alternatywna (H1) jest prawdziwa. Ale nie można go użyć do wykazania, że ​​H0 jest prawdą, ponieważ brak odrzucenia H0 nie oznacza, że ​​H0 jest prawdą.

Załóżmy jednak, że masz możliwość wykonania testu statystycznego wiele razy, ponieważ masz wiele zestawów danych, wszystkie niezależne od siebie. Wszystkie zestawy danych są wynikiem tego samego procesu i chcesz złożyć oświadczenie (H0 / H1) nad samym procesem i nie są zainteresowane wynikami każdego pojedynczego testu. Następnie zbierasz wszystkie uzyskane wartości p i na wykresie histogramu widzisz, że wartości p są wyraźnie równomiernie rozłożone.

Moje rozumowanie jest takie, że może się to zdarzyć tylko wtedy, gdy H0 jest prawdziwe - w przeciwnym razie wartości p byłyby rozłożone inaczej. Czy to wystarczający dowód na to, że H0 jest prawdą? A może brakuje mi tutaj czegoś istotnego, ponieważ napisanie „wniosku, że H0 jest prawdą” zajęło mi dużo woli, co po prostu brzmi okropnie źle w mojej głowie.

Leander Moesinger
źródło
1
Być może zainteresuje Cię moja odpowiedź na inne pytanie stats.stackexchange.com/questions/171742/..., która zawiera kilka komentarzy na temat hipotez tutaj.
mdewey
H0 z definicji jest fałszem.
Joshua
1
Na marginesie, powodem, dla którego mam tak wiele testów (i nie połączyłem wszystkich danych w jeden), jest to, że moje dane są rozmieszczone przestrzennie na całym świecie i chciałem sprawdzić, czy w wartości p (nie ma, ale gdyby tak było, oznaczałoby to naruszenie niezależności lub to, że H0 / H1 jest prawdziwe w różnych częściach globu). Nie umieściłem tego w tekście pytania, ponieważ chciałem zachować ogólność.
Leander Moesinger

Odpowiedzi:

22

Podoba mi się twoje pytanie, ale niestety moja odpowiedź brzmi NIE, to nie dowodzi . Powód jest bardzo prosty. Skąd wiesz, że rozkład wartości p jest jednolity? Prawdopodobnie musiałbyś przeprowadzić test jednorodności, który zwróci ci swoją własną wartość p, i skończysz z tym samym rodzajem pytania wnioskowania, którego starałeś się uniknąć, tylko o krok dalej. Zamiast patrzeć na wartość p oryginalnego , teraz patrzysz na wartość p innego dotyczącą jednorodności rozkładu oryginalnych wartości p.H0H0H0

AKTUALIZACJA

Oto demonstracja. Generuję 100 próbek po 100 obserwacji z rozkładu Gaussa i Poissona, a następnie uzyskuję 100 wartości p dla testu normalności dla każdej próbki. Tak więc przesłanka pytania jest taka, że ​​jeśli wartości p pochodzą z równomiernego rozkładu, to dowodzi, że hipoteza zerowa jest poprawna, co jest silniejszym stwierdzeniem niż zwykłe „nie odrzucanie” w wnioskowaniu statystycznym. Problem polega na tym, że „wartości p pochodzą z jednolitości” jest samą hipotezą, którą trzeba jakoś przetestować.

Na zdjęciu (pierwszy wiersz) poniżej pokazuję histogramy wartości p z testu normalności dla próbki Guassiana i Poissona i widać, że trudno jest powiedzieć, czy jedno jest bardziej jednolite od drugiego. To był mój główny punkt.

Drugi rząd pokazuje jedną z próbek z każdego rozkładu. Próbki są stosunkowo małe, więc nie można mieć zbyt wielu pojemników. W rzeczywistości ta konkretna próbka Gaussa wcale nie wygląda tak dużo Gaussa na histogramie.

W trzecim rzędzie pokazuję połączone próbki 10 000 obserwacji dla każdego rozkładu na histogramie. Tutaj możesz mieć więcej pojemników, a kształty są bardziej oczywiste.

W końcu uruchamiam ten sam test normalności i otrzymuję wartości p dla połączonych próbek, a to odrzuca normalność dla Poissona, a nie odrzuca dla Gaussa. Wartości p wynoszą: [0,45348631] [0]

wprowadź opis zdjęcia tutaj

Nie jest to oczywiście dowód, ale demonstracja pomysłu, że lepiej uruchomić ten sam test na połączonej próbce, zamiast próbować analizować rozkład wartości p z podpróbek.

Oto kod Python:

import numpy as np
from scipy import stats
from matplotlib import pyplot as plt

def pvs(x):
    pn = x.shape[1]
    pvals = np.zeros(pn)
    for i in range(pn):
        pvals[i] = stats.jarque_bera(x[:,i])[1]
    return pvals

n = 100
pn = 100
mu, sigma = 1, 2
np.random.seed(0)
x = np.random.normal(mu, sigma, size=(n,pn))
x2 = np.random.poisson(15, size=(n,pn))
print(x[1,1])

pvals = pvs(x)
pvals2 = pvs(x2)

x_f = x.reshape((n*pn,1))
pvals_f = pvs(x_f)

x2_f = x2.reshape((n*pn,1))
pvals2_f = pvs(x2_f)
print(pvals_f,pvals2_f)

print(x_f.shape,x_f[:,0])


#print(pvals)
plt.figure(figsize=(9,9))
plt.subplot(3,2,1)
plt.hist(pvals)
plt.gca().set_title('True Normal')
plt.gca().set_ylabel('p-value')

plt.subplot(3,2,2)
plt.hist(pvals2)
plt.gca().set_title('Poisson')
plt.gca().set_ylabel('p-value')

plt.subplot(3,2,3)
plt.hist(x[:,0])
plt.gca().set_title('a small sample')
plt.gca().set_ylabel('x')

plt.subplot(3,2,4)
plt.hist(x2[:,0])
plt.gca().set_title('a small Sample')
plt.gca().set_ylabel('x')

plt.subplot(3,2,5)
plt.hist(x_f[:,0],100)
plt.gca().set_title('Full Sample')
plt.gca().set_ylabel('x')

plt.subplot(3,2,6)
plt.hist(x2_f[:,0],100)
plt.gca().set_title('Full Sample')
plt.gca().set_ylabel('x')

plt.show()
Aksakal
źródło
2
@LeanderMoesinger, zrobisz silniejszy punkt, zbierając wszystkie testy w jednym. Załóżmy, że masz próbkę ze 100 obserwacjami i otrzymujesz wartość p; następnie uzyskaj 99 dodatkowych próbek i uzyskaj 100 wartości p. Zamiast tego możesz po prostu uruchomić jedną próbkę 10 000 obserwacji i uzyskać wartość p, ale będzie to bardziej przekonujące.
Aksakal
1
@LeanderMoesinger, prawdopodobnie nie będzie mały
Aksakal,
1
Twoja odpowiedź nie dotyczy pytania, nie pytał o dowód, ale o dowód .
Carlos Cinelli,
3
@CarlosCinelli, będzie miał kilka wartości p, które, jak twierdzi, są jednolite. Jak to dowód, chyba że udowodni, że wartości pochodzą z munduru? O tym właśnie mówię.
Aksakal
2
@Aksakal chodzi o matematykę, zaobserwowane zdarzenie (jak sekwencja wartości p) może nie stanowić dowodu czegoś, ale przyczyna nie wynika logicznie z twojego argumentu.
Carlos Cinelli,
21

Twoja seria eksperymentów może być postrzegana jako pojedynczy eksperyment z dużo większą ilością danych, a jak wiemy, więcej danych jest korzystne (np. Zwykle standardowe błędy zmniejszają się, gdy rośnie dla niezależnych danych). Ale pytasz: „Czy to… wystarczający dowód, aby stwierdzić, że H0 jest prawdą?”n

Nie. Podstawowym problemem jest to, że inna teoria może wytwarzać podobne wzorce w danych! Jak @ Björn omawia w swojej odpowiedzi, nie fałszywego jeśli twój eksperyment nie ma mocy, aby odróżnić od innych możliwości. Przez stulecia nie odrzucaliśmy teorii grawitacji Newtona, ponieważ nikt nie przeprowadził testów, w których teoria Newtona daje wystarczająco inne prognozy niż teoria względności Einsteina. Mniej ekstremalne przykłady są powszechne.H0H0

David Hume i problem indukcji

Być może przeformułowanie brzmi: „Jeśli uzyskam coraz więcej danych zgodnych z , czy mogę kiedykolwiek dojść do wniosku, że jest prawdziwy?”H0H0

Pytanie to jest głęboko związane z problemem indukcji XVIII-wiecznego filozofa Davida Hume'a . Jeśli wszystkie zaobserwowane przypadki A były B , czy możemy powiedzieć, że następnym wystąpieniem A będzie B? Hume powiedział, że nie, że nie możemy logicznie wywnioskować, że „wszystkie A są B” nawet na podstawie obszernych danych. W bardziej nowoczesnej matematyce skończony zestaw obserwacji nie może logicznie pociągać za sobą jeśli A nie jest zbiorem skończonym. Dwa godne uwagi przykłady omówione przez Magee i Passermore :aA[aB]

  • Przez wieki każdy łabędź obserwowany przez Europejczyków był biały. Następnie Europejczycy odkryli Australię i zobaczyli czarne łabędzie.

  • Przez stulecia prawo grawitacji Newtona zgadzało się z obserwacjami i było uważane za prawidłowe. Zostało to obalone przez teorię ogólnej teorii względności Einsteina.

Jeśli wniosek Hume'a jest poprawny, udowodnienie, że true jest nieosiągalne. To, że nie możemy składać oświadczeń z pewnością, nie jest równoznaczne z powiedzeniem, że nic nie wiemy. Eksperymentalna nauka i statystyka pomogły nam zrozumieć świat i poruszać się po nim.H0

(Niekompletna) lista sposobów postępowania:

Karl Popper i falsyfikacjonizm

W opinii Karla Poppera żadne prawo naukowe nigdy nie zostało udowodnione. Mamy tylko prawa naukowe, które nie zostały jeszcze udowodnione jako fałszywe.

Popper argumentował, że nauka rozwija się, zgadując hipotezy i poddając je rygorystycznej analizie. Postępuje naprzód poprzez dedukcję (obserwacje potwierdzające teorie fałszywe), a nie indukcję (powtarzane obserwacje potwierdzające teorie prawdziwe). Wiele statystyk częstokroć było skonstruowanych zgodnie z tą filozofią.

Poglądy Poppera były niezwykle wpływowe, ale jak twierdzili Kuhn i inni, nie do końca są zgodne z obserwowaną empirycznie praktyką udanej nauki.

Bayesowskie, subiektywne prawdopodobieństwo

Załóżmy, że interesuje nas parametr .θ

Dla statystysty parametr jest wartością skalarną, liczbą. Jeśli zamiast tego przyjmiesz subiektywny punkt widzenia Bayesa (na przykład w Foundation of Leonard Jimmie Savage's Foundation ), możesz modelować własną niepewność co do przy użyciu narzędzi prawdopodobieństwa. Dla subiektywnego bayesowskiego jest zmienną losową i masz jakieś wcześniejsze . Można wtedy mówić o subiektywnego prawdopodobieństwa z różnymi wartościami podane dane . To, jak zachowujesz się w różnych sytuacjach, ma pewną zgodność z tymi subiektywnymi prawdopodobieństwami.θθ θ P ( θ ) P ( θ X ) θ XθθP(θ)P(θX)θX

Jest to logiczny sposób modelowania własnych subiektywnych przekonań, ale nie jest to magiczny sposób na uzyskanie prawdopodobieństw, które są prawdziwe pod względem zgodności z rzeczywistością. Trudnym pytaniem dla jakiejkolwiek interpretacji bayesowskiej jest to, skąd pochodzą pierwszeństwa? A co, jeśli model zostanie źle określony?

George P. Box

Słynny aforyzm George'a Boxa polega na tym, że „wszystkie modele są fałszywe, ale niektóre są przydatne”.

Prawo Newtona może nie być prawdą, ale nadal jest przydatne w przypadku wielu problemów. Widok Boxa jest dość ważny w nowoczesnym kontekście dużych zbiorów danych, w którym badania są tak obezwładnione, że można zasadniczo odrzucić każdą sensowną propozycję. Ściśle prawda a fałsz jest złym pytaniem: ważne jest, czy model pomaga zrozumieć dane.

Dodatkowe komentarze

Istnieje statystyczna różnica w statystyce między szacowaniem parametru z małym błędem standardowym a dużym błędem standardowym! Nie odchodź, myśląc, że ponieważ pewność jest niemożliwa, rygorystyczna kontrola nie ma znaczenia.θ0

Być może również interesujące, statystyczna analiza wyników wielu badań nazywa się metaanalizą .

To, jak daleko można wyjść poza wąskie interpretacje statystyczne, jest trudnym pytaniem.

Matthew Gunn
źródło
To była ciekawa lektura i dała kilka fajnych rzeczy do przemyślenia! Chciałbym zaakceptować wiele odpowiedzi.
Leander Moesinger
Całkiem wyjaśnienie. Mój
profesor
Kuhn itp., Który słynie z błędnej interpretacji Poppera, twierdząc, że jego obserwacje nie pasują do sposobu nauki. Jest to znane jako ojczystego falsyfikacjonizmu, a to nie to, co Popper (później) podniesione. To słomiany mężczyzna.
Konrad Rudolph
2
Takie odpowiedzi ciągle odwiedzam na stronach StackExchange.
Trilarion
5

W pewnym sensie masz rację (patrz krzywa p) z pewnymi małymi zastrzeżeniami:

  1. potrzebujesz testu, aby mieć trochę mocy pod alternatywą. Ilustracja potencjalnego problemu: generowanie wartości p jako równomiernego rozkładu od 0 do 1 i odrzucanie, gdy jest (co prawda dość bezużytecznym) testem poziomu dla dowolnej hipotezy zerowej, ale otrzymasz jednolity rozkład wartości p, czy jest prawdziwe, czy nie.pααH0
  2. Możesz tylko naprawdę pokazać, że jesteś dość bliski, że jest prawdą (tj. Przy prawdziwych wartościach parametrów trzy rozkłady mogą być bliskie jednorodności, nawet jeśli jest fałszem.H0H0

Dzięki realistycznym aplikacjom zdarzają się dodatkowe problemy. Najczęściej powstają, ponieważ żadna osoba / laboratorium / grupa badawcza zwykle nie może wykonać wszystkich niezbędnych badań. W rezultacie patrzy się na badania z wielu grup, w którym to momencie zwiększyłeś obawy (tj. Gdybyś sam przeprowadził wszystkie odpowiednie eksperymenty, przynajmniej byś wiedział) o zaniżaniu, selektywnym zgłaszaniu istotnych / zaskakujących wyników, hakowanie p, wielokrotne testowanie / wielokrotne poprawki testowe i tak dalej.

Björn
źródło
1
(+1) Punkt mocy jest niezwykle ważny! Różne teorie mogą generować dane równoważne obserwacyjnie, a kluczową częścią projektowania eksperymentu jest wytwarzanie i / lub gromadzenie danych, które pozwoliłyby na rozróżnienie.
Matthew Gunn
-2

Hipoteza zerowa (H0): Grawitacja powoduje, że wszystko we wszechświecie spada na powierzchnię Ziemi.

Alternatywna hipoteza (H1): Nic nigdy nie spada.

Przeprowadzono 1 milion eksperymentów z dziesiątkami przedmiotów gospodarstwa domowego, nie odrzucając H0 przy każdym razem. Czy H0 jest prawdą?p<0.01

usul
źródło
2
Czy myślisz, że Galileo wykonał milion prób? Żadna z tych rzeczy nie jest konieczna w naukach fizycznych. Ustanowienie praw natury poprzez zastosowanie metody naukowej nie ogranicza się do wnioskowania statystycznego.
Aksakal
1
-1 Jest to naukowo, statystycznie i historycznie niedokładne. Grecy kiedyś wierzyli, że to powinowactwo przyciągało przedmioty na Ziemię. Nieźle, ale nie wyjaśnia dobrze problemów z układem 3+. Hipotezy powinny się uzupełniać. Wreszcie stwierdzenie prawdopodobnie znanego odchylenia jako H_0 i pokazanie eksperymentów nadal prowadzi do tego samego niepoprawnego wniosku, nie czyni wniosku poprawnym. np. kobiety zarabiają mniej niż mężczyźni b / c są mniej napędzane, próbują wszystkich pensji kobiet, H_0 to prawda!
AdamO
@AdamO właśnie o to mi chodzi.
usul
@AdamO, w krajach zachodnich kobiety zarabiają mniej, gdy pracują mniej z różnych powodów, w tym z własnego wyboru, wszelkiego rodzaju czynników zniechęcających i wrogiego środowiska pracy w niektórych miejscach. Kiedy pracują tak samo, zarabiają mniej więcej tyle samo, np. Patrz pensje pielęgniarek Medicare, w których kobiety stanowią większość: medscape.com/slideshow/… . Wszyscy zarabiają te same 37 USD podczas pracy na godzinę. Oczywiście zupełnie nie na temat.
Aksakal
2
Jeśli twoja hipoteza zerowa Gravity causes everything in the universe to fall toward Earth's surfacenie jest hipotezą alternatywną, There is at least one thing in the universe that does not fall toward the Earth's surfacea nie Nothing ever falls?
Eff