Różne testy hipotez, takie jak test GOF , Kołmogorow-Smirnov, Anderson-Darling itp., Mają ten podstawowy format:
: Dane są zgodne z podanym rozkładem.
: Dane nie są zgodne z podaną dystrybucją.
Zazwyczaj ocenia się twierdzenie, że niektóre dane są zgodne z pewnym rozkładem, a jeśli odrzuca się , dane nie są dobrze dopasowane do danego rozkładu na pewnym poziomie .
Ale co jeśli nie odrzucimy ? Zawsze uczono mnie, że nie można „zaakceptować” , więc w zasadzie nie mamy dowodów na odrzucenie . Oznacza to, że nie ma dowodów na to, że odrzucamy dane zgodne z danym rozkładem.
Zatem moje pytanie brzmi: po co przeprowadzać takie testy, jeśli nie możemy stwierdzić, czy dane są zgodne z daną dystrybucją?
hypothesis-testing
distributions
goodness-of-fit
ecdf
Klarnecista
źródło
źródło
Odpowiedzi:
Mówiąc ogólnie (nie tylko w testach poprawności dopasowania, ale w wielu innych sytuacjach), po prostu nie można dojść do wniosku, że wartość zerowa jest prawdziwa, ponieważ istnieją alternatywy, które są skutecznie nierozróżnialne od wartości zerowej dla dowolnej wielkości próby.
Oto dwie rozkłady, standardowa normalna (zielona linia ciągła) i podobna (90% standardowa normalna i 10% standardowa beta (2,2), oznaczona czerwoną przerywaną linią):
Czerwony nie jest normalny. Powiedzmy, że , mamy niewielkie szanse dostrzec różnicę, więc nie możemy stwierdzić, że dane są pobierane z rozkładu normalnego - a gdyby to było z rozkładu nienormalnego, takiego jak czerwony?n = 100
Mniejsze frakcje znormalizowanych bet o jednakowych, ale większych parametrach byłyby znacznie trudniejsze do odróżnienia od normalnych.
Ale biorąc pod uwagę, że rzeczywiste dane są prawie nigdy z jakiejś dystrybucji proste, gdybyśmy mieli doskonałą Oracle (lub skutecznie nieskończonych rozmiarach próbki), chcielibyśmy zasadniczo zawsze odrzucić hipotezę, że dane pochodziły z jakiejś prostej formie dystrybucyjnej.
Jak to słyszał George Box: „ Wszystkie modele są złe, ale niektóre są przydatne ”.
Rozważmy na przykład testowanie normalności. Być może dane faktycznie pochodzą z czegoś zbliżonego do normalnego, ale czy kiedykolwiek będą dokładnie normalne? Prawdopodobnie nigdy nie są.
Zamiast tego najlepszą rzeczą, na jaką możesz mieć nadzieję przy tej formie testowania, jest opisana sytuacja. (Zobacz na przykład post Czy testowanie normalności jest zasadniczo bezużyteczne ? , ale jest tu wiele innych postów, które zawierają pokrewne uwagi)
Jest to jeden z powodów, dla których często sugeruję ludziom, że pytanie, którym tak naprawdę się interesują (które często jest bliższe „czy moje dane są wystarczająco blisko dystrybucji że mogę na tej podstawie dokonać odpowiednich wniosków?”), Jest zazwyczaj nie otrzymano dobrych odpowiedzi w testach zgodności. W przypadku normalności często procedury wnioskowania, które chcą zastosować (testy t, regresja itp.) Zwykle działają całkiem dobrze w dużych próbkach - często nawet wtedy, gdy pierwotny rozkład jest dość wyraźnie nienormalny - tylko wtedy, gdy dobro test dopasowania najprawdopodobniej odrzuci normalność . Nie ma sensu mieć procedury, która najprawdopodobniej powie Ci, że Twoje dane są nienormalne, gdy pytanie nie ma znaczenia.fa
Zastanów się ponownie nad obrazem powyżej. Rozkład czerwieni jest nienormalny, a przy naprawdę dużej próbce moglibyśmy odrzucić test normalności oparty na próbce z niego ... ale przy znacznie mniejszej wielkości próby, regresjach i dwóch próbkach t (i wielu innych testach poza tym) będzie się zachowywał tak ładnie, że nawet bezcelowe będzie nawet martwienie się o tę nienormalność.
Podobne rozważania dotyczą nie tylko innych rozkładów, ale przede wszystkim dużej liczby testów hipotezy bardziej ogólnie (nawet na przykład dwustronnego testu ). Równie dobrze można zadać to samo pytanie - jaki jest sens przeprowadzania takich testów, jeśli nie możemy stwierdzić, czy średnia ma określoną wartość?μ = μ0
Możesz być w stanie określić pewne szczególne formy odchylenia i spojrzeć na coś takiego jak testowanie równoważności, ale jest to dość trudne z dobrością dopasowania, ponieważ istnieje tak wiele sposobów, aby rozkład był zbliżony, ale różny od hipotetycznego i inny formy różnic mogą mieć różny wpływ na analizę. Jeśli alternatywą jest szersza rodzina, która obejmuje wartość zerową jako szczególny przypadek, testowanie równoważności ma większy sens (na przykład testowanie wykładnicze względem gamma) - i rzeczywiście realizuje się podejście „dwustronnego testu”, i to może być sposobem sformalizowania „wystarczająco blisko” (lub byłoby tak, gdyby model gamma był prawdziwy, ale w rzeczywistości sam byłby praktycznie pewien, że zostanie odrzucony przez zwykły test dobroci dopasowania,
Testowanie dobroci dopasowania (a często szerzej, testowanie hipotez) jest naprawdę odpowiednie tylko w dość ograniczonym zakresie sytuacji. Pytanie, na które ludzie zazwyczaj chcą odpowiedzieć, nie jest tak precyzyjne, ale nieco bardziej niejasne i trudniejsze do odpowiedzi - ale jak powiedział John Tukey: „O wiele lepsza jest przybliżona odpowiedź na właściwe pytanie, które jest często niejasne, niż dokładna odpowiedź na złe pytanie, które zawsze można sprecyzować ”.
Rozsądne podejście do odpowiedzi na bardziej niejasne pytanie może obejmować badania symulacyjne i ponowne próbkowanie w celu oceny wrażliwości pożądanej analizy na rozważane założenie, w porównaniu do innych sytuacji, które są również w miarę zgodne z dostępnymi danymi.
(Jest to również część podstawy podejścia do solidności poprzez zanieczyszczenie - zasadniczo poprzez spojrzenie na wpływ przebywania w pewnej odległości w sensie Kołmogorowa-Smirnowa)ε
źródło
Po drugie udzielam odpowiedzi @ Glen_b i dodam, że ogólnie problem „brak dowodów nie jest dowodem na nieobecność” sprawia, że testy hipotez iP. -wartości mniej użyteczne niż się wydaje. Szacowanie jest często lepszym podejściem nawet w ocenie zgodności. Jako miarę można wykorzystać odległość Kołmogorowa-Smirnowa. Po prostu trudno go używać bez marginesu błędu. Konserwatywne podejście wykorzystałoby górną granicę ufności odległości KS do modelowania przewodnika. Doprowadziłoby to (właściwie) do dużej niepewności, co może prowadzić do wniosku, że preferowane jest wybranie solidnej metody. Mając to na uwadze, i wracając do pierwotnego celu, gdy porównuje się rozkład empiryczny z więcej niż, powiedzmy, 2 możliwymi formami parametrycznymi, prawdziwa wariancja końcowego dopasowanego rozkładu nie ma lepszej precyzji niż empiryczna funkcja rozkładu skumulowanego. Jeśli więc nie ma teorii przedmiotu, która by sterowała wyborem rozkładu,
źródło
Uważam, że większość ludzi podziela pogląd, że testowanie hipotez jest probabilistyczną adaptacją zasady fałszowania .
źródło
Myślę, że to doskonały przykład ilustrujący różnicę między pracą naukową a praktycznym podejmowaniem decyzji. W środowisku akademickim (gdzie jestem) możesz dyskutować w dowolny sposób, o ile inni uznają to za uzasadnione. Dlatego w gruncie rzeczy mamy do czynienia z niekończącymi się, czasami okrągłymi, kłótniami. W tym sensie zapewnia to ludziom coś do pracy.
Jeśli jednak rzeczywiście jesteś w stanie podejmować decyzje, odpowiedź brzmi zdecydowanie tak lub nie. Niezdecydowanie zaszkodzi twojej reputacji jako osoby podejmującej decyzje. Oczywiście dokonanie wyboru wiąże się nie tylko ze statystykami, ale także czasem z elementem hazardu i skoku wiary. Podsumowując, tego rodzaju ćwiczenia są do pewnego stopnia przydatne w podejmowaniu decyzji. Jednak to, czy oprzeć swoją decyzję wyłącznie na tym teście hipotez, to zupełnie inna historia.
źródło
Chodzi o to, że z czysto statystycznego punktu widzenia nie można zaakceptować , ale w praktyce tak jest. Na przykład, jeśli szacujesz ryzyko portfela przy użyciu wartości zagrożonej lub podobnych miar, rozkład zwrotu z portfela jest dość ważny. Jest tak, ponieważ ryzyko jest określone przez ogon twojej dystrybucji.
W przypadkach podręczników często stosuje się rozkład normalny. Jeśli jednak zwroty z twojego portfela mają gruby ogon (co często robią), normalne przybliżenie rozkładu nie doceni ryzyka. Dlatego ważne jest, aby sprawdzić zwroty i zdecydować, czy zamierzasz zastosować normalne przybliżenie, czy nie. Uwaga: nie musi to oznaczać przeprowadzania testów statystycznych, może to być wykresy QQ lub inne środki. Jednak w pewnym momencie musisz podjąć decyzję w oparciu o analizę zwrotów i modeli zwrotu i użyć albo normalnego, albo nie.
Dlatego dla wszystkich praktycznych celów nie odrzucenie tak naprawdę oznacza zaakceptowanie, choć nie w ścisłym znaczeniu statystycznym. Zaakceptujesz normę i wykorzystasz ją w swoich obliczeniach, które będą codziennie pokazywane wyższemu kierownictwu, swoim organom regulacyjnym, audytorom itp. Nie odrzucenie w tym przypadku ma daleko idące konsekwencje pod każdym względem, więc jest tak lub potężniejszy niż głupi wynik statystyczny.
źródło
Żaden oskarżony w sądzie nigdy nie jest niewinny. Są albo winni (odrzucają hipotezę zerową o niewinności), albo niewinni (nie odrzucają domniemania niewinności).
Brak dowodów nie jest dowodem nieobecności.
źródło
Jeśli masz na myśli alternatywny rozkład (lub zestaw rozkładów) do porównania, może to być przydatne narzędzie.
Pewne trudności interpretacyjne związane z zastosowaniem testu chi-kwadrat. Joseph Berkson. Journal of American Statistics Association. Vol. 33, nr 203 (wrzesień 1938), str. 526–536
źródło