Testowanie hipotez dystrybucyjnych - po co to robić, jeśli nie możesz „zaakceptować” swojej hipotezy zerowej?

26

Różne testy hipotez, takie jak test GOF , Kołmogorow-Smirnov, Anderson-Darling itp., Mają ten podstawowy format:χ2)

H.0 : Dane są zgodne z podanym rozkładem.

H.1 : Dane nie są zgodne z podaną dystrybucją.

Zazwyczaj ocenia się twierdzenie, że niektóre dane są zgodne z pewnym rozkładem, a jeśli odrzuca się , dane nie są dobrze dopasowane do danego rozkładu na pewnym poziomie .H.0α

Ale co jeśli nie odrzucimy ? Zawsze uczono mnie, że nie można „zaakceptować” , więc w zasadzie nie mamy dowodów na odrzucenie . Oznacza to, że nie ma dowodów na to, że odrzucamy dane zgodne z danym rozkładem.H.0H.0H.0

Zatem moje pytanie brzmi: po co przeprowadzać takie testy, jeśli nie możemy stwierdzić, czy dane są zgodne z daną dystrybucją?

Klarnecista
źródło
1
Bardzo kusząca jest odpowiedź „tylko po co testować [ogólnie], jeśli nie można zaakceptować hipotezy zerowej?”. We wszystkich przypadkach testy statystyczne nie są jedyną podstawą do podejmowania decyzji. Zamiast tego podejmujemy decyzję i wykorzystujemy dane do oszacowania ryzyka / kosztu błędów typu I / II. Gdybyśmy tylko podsumowali jakość lub stopień dopasowania za pomocą użytecznej grafiki, wykresów QQ i statystyk predykcyjnych, bylibyśmy właściwie poinformowani o ryzyku „zaakceptowania wartości zerowej”.
AdamO,
@AdamO Kiedy zapytałem o to trzy lata temu, właśnie ukończyłem licencjat z matematyki (wyróżnienie statystyk). Teraz, gdy jestem w połowie drogi do programu statystyk MS i wykonałem trochę pracy zawodowej, rozumiem to teraz. To naprawdę niefortunne, jak uczy się statystyk w wielu programach licencjackich, ale dygresuję.
Klarnecista

Odpowiedzi:

37

Mówiąc ogólnie (nie tylko w testach poprawności dopasowania, ale w wielu innych sytuacjach), po prostu nie można dojść do wniosku, że wartość zerowa jest prawdziwa, ponieważ istnieją alternatywy, które są skutecznie nierozróżnialne od wartości zerowej dla dowolnej wielkości próby.

Oto dwie rozkłady, standardowa normalna (zielona linia ciągła) i podobna (90% standardowa normalna i 10% standardowa beta (2,2), oznaczona czerwoną przerywaną linią):

wprowadź opis zdjęcia tutaj

Czerwony nie jest normalny. Powiedzmy, że , mamy niewielkie szanse dostrzec różnicę, więc nie możemy stwierdzić, że dane są pobierane z rozkładu normalnego - a gdyby to było z rozkładu nienormalnego, takiego jak czerwony?n=100

Mniejsze frakcje znormalizowanych bet o jednakowych, ale większych parametrach byłyby znacznie trudniejsze do odróżnienia od normalnych.

Ale biorąc pod uwagę, że rzeczywiste dane są prawie nigdy z jakiejś dystrybucji proste, gdybyśmy mieli doskonałą Oracle (lub skutecznie nieskończonych rozmiarach próbki), chcielibyśmy zasadniczo zawsze odrzucić hipotezę, że dane pochodziły z jakiejś prostej formie dystrybucyjnej.

Jak to słyszał George Box:Wszystkie modele są złe, ale niektóre są przydatne ”.

Rozważmy na przykład testowanie normalności. Być może dane faktycznie pochodzą z czegoś zbliżonego do normalnego, ale czy kiedykolwiek będą dokładnie normalne? Prawdopodobnie nigdy nie są.

Zamiast tego najlepszą rzeczą, na jaką możesz mieć nadzieję przy tej formie testowania, jest opisana sytuacja. (Zobacz na przykład post Czy testowanie normalności jest zasadniczo bezużyteczne ? , ale jest tu wiele innych postów, które zawierają pokrewne uwagi)

Jest to jeden z powodów, dla których często sugeruję ludziom, że pytanie, którym tak naprawdę się interesują (które często jest bliższe „czy moje dane są wystarczająco blisko dystrybucji że mogę na tej podstawie dokonać odpowiednich wniosków?”), Jest zazwyczaj nie otrzymano dobrych odpowiedzi w testach zgodności. W przypadku normalności często procedury wnioskowania, które chcą zastosować (testy t, regresja itp.) Zwykle działają całkiem dobrze w dużych próbkach - często nawet wtedy, gdy pierwotny rozkład jest dość wyraźnie nienormalny - tylko wtedy, gdy dobro test dopasowania najprawdopodobniej odrzuci normalność . Nie ma sensu mieć procedury, która najprawdopodobniej powie Ci, że Twoje dane są nienormalne, gdy pytanie nie ma znaczenia.fa

Zastanów się ponownie nad obrazem powyżej. Rozkład czerwieni jest nienormalny, a przy naprawdę dużej próbce moglibyśmy odrzucić test normalności oparty na próbce z niego ... ale przy znacznie mniejszej wielkości próby, regresjach i dwóch próbkach t (i wielu innych testach poza tym) będzie się zachowywał tak ładnie, że nawet bezcelowe będzie nawet martwienie się o tę nienormalność.

Podobne rozważania dotyczą nie tylko innych rozkładów, ale przede wszystkim dużej liczby testów hipotezy bardziej ogólnie (nawet na przykład dwustronnego testu ). Równie dobrze można zadać to samo pytanie - jaki jest sens przeprowadzania takich testów, jeśli nie możemy stwierdzić, czy średnia ma określoną wartość?μ=μ0

Możesz być w stanie określić pewne szczególne formy odchylenia i spojrzeć na coś takiego jak testowanie równoważności, ale jest to dość trudne z dobrością dopasowania, ponieważ istnieje tak wiele sposobów, aby rozkład był zbliżony, ale różny od hipotetycznego i inny formy różnic mogą mieć różny wpływ na analizę. Jeśli alternatywą jest szersza rodzina, która obejmuje wartość zerową jako szczególny przypadek, testowanie równoważności ma większy sens (na przykład testowanie wykładnicze względem gamma) - i rzeczywiście realizuje się podejście „dwustronnego testu”, i to może być sposobem sformalizowania „wystarczająco blisko” (lub byłoby tak, gdyby model gamma był prawdziwy, ale w rzeczywistości sam byłby praktycznie pewien, że zostanie odrzucony przez zwykły test dobroci dopasowania,

Testowanie dobroci dopasowania (a często szerzej, testowanie hipotez) jest naprawdę odpowiednie tylko w dość ograniczonym zakresie sytuacji. Pytanie, na które ludzie zazwyczaj chcą odpowiedzieć, nie jest tak precyzyjne, ale nieco bardziej niejasne i trudniejsze do odpowiedzi - ale jak powiedział John Tukey: „O wiele lepsza jest przybliżona odpowiedź na właściwe pytanie, które jest często niejasne, niż dokładna odpowiedź na złe pytanie, które zawsze można sprecyzować ”.

Rozsądne podejście do odpowiedzi na bardziej niejasne pytanie może obejmować badania symulacyjne i ponowne próbkowanie w celu oceny wrażliwości pożądanej analizy na rozważane założenie, w porównaniu do innych sytuacji, które są również w miarę zgodne z dostępnymi danymi.

(Jest to również część podstawy podejścia do solidności poprzez zanieczyszczenie - zasadniczo poprzez spojrzenie na wpływ przebywania w pewnej odległości w sensie Kołmogorowa-Smirnowa)ε

Glen_b - Przywróć Monikę
źródło
Glen, to świetna odpowiedź. Czy są dostępne większe zasoby dotyczące „rozsądnych podejść do odpowiedzi na bardziej niejasne pytanie”? Byłoby wspaniale zobaczyć sprawdzone przykłady, w których ludzie odpowiadają: „czy moje dane są wystarczająco blisko dystrybucji X do moich celów?” w kontekście.
Stumpy Joe Pete
2
@StumpyJoePete Jest przykładem odpowiedzi na bardziej niejasnym (ale nieco inny) pytanie tutaj , gdzie symulacja jest używany do sędziego w przybliżeniu jakie próbki wielkości może być uzasadnione zastosowanie t-test z skośny (wykładniczej, powiedzmy) dane. Następnie w kolejnym pytaniu OP przedstawił więcej informacji o próbce (był dyskretny i, jak się okazało, znacznie więcej przekrzywienia niż sugerowałoby to „wykładniczy”), ... (ctd)
Glen_b -Reinstate Monica
2
(ctd) ... problem został zbadany bardziej szczegółowo , ponownie przy użyciu symulacji. Oczywiście w praktyce musi być więcej „tam iz powrotem”, aby upewnić się, że jest on odpowiednio dostosowany do faktycznych potrzeb danej osoby, zamiast zgadywać na podstawie jej początkowego wyjaśnienia.
Glen_b
Dzięki! Właśnie tego szukałem.
Stumpy Joe Pete
17

Po drugie udzielam odpowiedzi @ Glen_b i dodam, że ogólnie problem „brak dowodów nie jest dowodem na nieobecność” sprawia, że ​​testy hipotez iP.-wartości mniej użyteczne niż się wydaje. Szacowanie jest często lepszym podejściem nawet w ocenie zgodności. Jako miarę można wykorzystać odległość Kołmogorowa-Smirnowa. Po prostu trudno go używać bez marginesu błędu. Konserwatywne podejście wykorzystałoby górną granicę ufności odległości KS do modelowania przewodnika. Doprowadziłoby to (właściwie) do dużej niepewności, co może prowadzić do wniosku, że preferowane jest wybranie solidnej metody. Mając to na uwadze, i wracając do pierwotnego celu, gdy porównuje się rozkład empiryczny z więcej niż, powiedzmy, 2 możliwymi formami parametrycznymi, prawdziwa wariancja końcowego dopasowanego rozkładu nie ma lepszej precyzji niż empiryczna funkcja rozkładu skumulowanego. Jeśli więc nie ma teorii przedmiotu, która by sterowała wyborem rozkładu,

Frank Harrell
źródło
3
Nie mogę pojąć powodu, dla którego to zdanie zostało odrzucone; jest tu kilka świetnych punktów. Pomogłoby to, gdyby osoba oddająca głos wyjaśniła, co postrzega jako problem. Może się czegoś nauczymy.
Glen_b
2

Myślę, że to doskonały przykład ilustrujący różnicę między pracą naukową a praktycznym podejmowaniem decyzji. W środowisku akademickim (gdzie jestem) możesz dyskutować w dowolny sposób, o ile inni uznają to za uzasadnione. Dlatego w gruncie rzeczy mamy do czynienia z niekończącymi się, czasami okrągłymi, kłótniami. W tym sensie zapewnia to ludziom coś do pracy.

Jeśli jednak rzeczywiście jesteś w stanie podejmować decyzje, odpowiedź brzmi zdecydowanie tak lub nie. Niezdecydowanie zaszkodzi twojej reputacji jako osoby podejmującej decyzje. Oczywiście dokonanie wyboru wiąże się nie tylko ze statystykami, ale także czasem z elementem hazardu i skoku wiary. Podsumowując, tego rodzaju ćwiczenia są do pewnego stopnia przydatne w podejmowaniu decyzji. Jednak to, czy oprzeć swoją decyzję wyłącznie na tym teście hipotez, to zupełnie inna historia.

LaTeXFan
źródło
2
To nie jest poprawne IMHO. Najlepszą książką, którą przeczytałem, która wyjaśnia, dlaczego podejmujemy lepsze decyzje poprzez zawsze uwzględnianie niepewności na każdym etapie decyzji, to Sygnał i hałas Nate'a Silvera . Na przykład, najlepsi gracze w pokera to ci, którzy nigdy nie wierzą, że prawdopodobieństwo określonego rozdania wynosi 0 lub 1.
Frank Harrell,
1
@FrankHarrell Zastanawiam się, jak odpowiedzielibyście na pytania, takie jak to, czy zbudować drogę, czy kupić udział. To jest pytanie tak lub nie. Są to pytania, na które muszą odpowiedzieć decydenci.
LaTeXFan
1
@FrankHarrell Na pewno statystyki odgrywają rolę w podejmowaniu decyzji. Jednak z punktu widzenia odporności wszystko, co robimy, to przybliżanie rzeczywistości. Istnieje mnóstwo rzeczy, których matematyka po prostu nie mogła wyjaśnić. I tutaj pojawiają się inne środki, takie jak instynkt.
LaTeXFan
1
P.
1
@FrankHarrell Dziękujemy za komentarze. Uważam, że wasze rozróżnienie między nieodwołalnymi decyzjami i innymi sprawami jest słuszne. Zasadniczo chodzi o wymiarowy czas problemu. W krótkim czasie większość decyzji jest nieodwołalna. Tak się dzieje, gdy ludzie są na miejscu, aby zadzwonić. Z drugiej strony, jeśli stać nas na dłuższą perspektywę, masz rację - lepiej mieć system, który może reagować na zmiany okoliczności. Mimo to nie można uniknąć niektórych szkód, zarówno finansowych, jak i fizycznych.
LaTeXFan
2

Chodzi o to, że z czysto statystycznego punktu widzenia nie można zaakceptować , ale w praktyce tak jest. Na przykład, jeśli szacujesz ryzyko portfela przy użyciu wartości zagrożonej lub podobnych miar, rozkład zwrotu z portfela jest dość ważny. Jest tak, ponieważ ryzyko jest określone przez ogon twojej dystrybucji.

W przypadkach podręczników często stosuje się rozkład normalny. Jeśli jednak zwroty z twojego portfela mają gruby ogon (co często robią), normalne przybliżenie rozkładu nie doceni ryzyka. Dlatego ważne jest, aby sprawdzić zwroty i zdecydować, czy zamierzasz zastosować normalne przybliżenie, czy nie. Uwaga: nie musi to oznaczać przeprowadzania testów statystycznych, może to być wykresy QQ lub inne środki. Jednak w pewnym momencie musisz podjąć decyzję w oparciu o analizę zwrotów i modeli zwrotu i użyć albo normalnego, albo nie.

Dlatego dla wszystkich praktycznych celów nie odrzucenie tak naprawdę oznacza zaakceptowanie, choć nie w ścisłym znaczeniu statystycznym. Zaakceptujesz normę i wykorzystasz ją w swoich obliczeniach, które będą codziennie pokazywane wyższemu kierownictwu, swoim organom regulacyjnym, audytorom itp. Nie odrzucenie w tym przypadku ma daleko idące konsekwencje pod każdym względem, więc jest tak lub potężniejszy niż głupi wynik statystyczny.

Aksakal
źródło
0

Żaden oskarżony w sądzie nigdy nie jest niewinny. Są albo winni (odrzucają hipotezę zerową o niewinności), albo niewinni (nie odrzucają domniemania niewinności).

Brak dowodów nie jest dowodem nieobecności.

BCLC
źródło
-1

Zatem moje pytanie brzmi: po co przeprowadzać takie testy, jeśli nie możemy stwierdzić, czy dane są zgodne z daną dystrybucją?

Jeśli masz na myśli alternatywny rozkład (lub zestaw rozkładów) do porównania, może to być przydatne narzędzie.

Powiedziałbym: mam pod ręką zestaw obserwacji, które moim zdaniem mogą być normalnie podzielone. (Myślę, że tak, ponieważ widziałem obserwacje o podobnym charakterze, że byłem usatysfakcjonowany zgodnie z rozsądną krzywą normalną.) Myślę również, że mogą nie podążać za krzywą normalną, ale jakąś zwykłą krzywą inną niż normalna. (Myślę, że może to być spowodowane tym, że widziałem takie dane, które nie są zgodne z krzywą normalną, ale były na przykład pochylone itp.) 3 Następnie zadaję pytanie w następujący sposób: Jeśli obserwacje pochodzą z rozkładu normalnego, jak często zdarza się taki chi-kwadrat, jak się dostaję? Wniosek jest następujący: „Całkiem rzadko - tylko dwa razy na sto”. Następnie zadaję pytanie, które nie zostało określone i nie zostało obliczone, ale uważam, że jest to absolutnie konieczne do uzupełnienia ważnego argumentu, jak następuje: Jeśli rozkład jest nienormalny, doświadczenie to, oceniane na podstawie różnicy chi-kwadrat, występowałoby dość często. (Wszystko, co muszę zrobić, to wyobrazić sobie, że krzywa nienormalna ma obserwowany skośny charakter rozkładu.) Dlatego odrzucam normalną hipotezę na zasadzie, że akceptuję jedną z alternatywnych rozważanych hipotez, na których doświadczane zdarzenie byłoby bardziej częsty. Mówię, że odrzucenie hipotezy zerowej jest ważne tylko w przypadku chęci zaakceptowania alternatywy (ta alternatywa niekoniecznie została dokładnie określona pod każdym względem). ). Odrzucam zatem zwykłą hipotezę opartą na zasadzie, że akceptuję jedną z alternatywnych rozważanych hipotez, na których doświadczane zdarzenie byłoby częstsze. Mówię, że odrzucenie hipotezy zerowej jest ważne tylko w przypadku chęci zaakceptowania alternatywy (ta alternatywa niekoniecznie została dokładnie określona pod każdym względem). ). Odrzucam zatem zwykłą hipotezę opartą na zasadzie, że akceptuję jedną z alternatywnych rozważanych hipotez, na których doświadczane zdarzenie byłoby częstsze. Mówię, że odrzucenie hipotezy zerowej jest ważne tylko w przypadku chęci zaakceptowania alternatywy (ta alternatywa niekoniecznie została dokładnie określona pod każdym względem).

Teraz linia rozumowania, którą opisałem, w przeciwieństwie do tego, co opisałem jako bardziej typowy, wyjaśniłaby, dlaczego moja decyzja różni się od rutyny w trzecim i czwartym przypadku.

W odniesieniu do trzeciego przypadku, po wypróbowaniu testu chi-kwadrat, doszedłem do wniosku, że zgodnie z hipotezą braku różnicy od normalności rozkład o tak dużym chi-kwadrat występowałby rzadko. Jak dotąd jesteśmy w dokładnie takiej samej sytuacji, jak w tym momencie w drugim przypadku. Ale teraz pozwól mi zbadać prawdopodobieństwo, że takie doświadczenie miałoby miejsce, gdyby pierwotna podaż była regularna i nienormalna. Czy to doświadczenie występowałoby częściej? Nie ma powodu, aby tak mówić. Rozkład jest idealnie symetryczny, tzn. Skośność wynosi zero (było dokładnie 50 procent przypadków po każdej stronie średniej), a pobieżne badanie różnic od oczekiwanych częstotliwości w różnych klasach pokazuje, że nie są one systemowe. tematyczny, tj. odchylenia plus i odchylenia minus są na przemian w losowej kolejności. Tego rozkładu nie należy się często spodziewać na podstawie jakiejkolwiek prawdopodobnej krzywej nienormalnej. Nie mamy zatem żadnego powodu, aby odrzucić krzywą normalną.

Uważam, że nigdy nie ma żadnego uzasadnionego powodu do odrzucenia hipotezy zerowej, z wyjątkiem chęci przyjęcia alternatywnej.

Pewne trudności interpretacyjne związane z zastosowaniem testu chi-kwadrat. Joseph Berkson. Journal of American Statistics Association. Vol. 33, nr 203 (wrzesień 1938), str. 526–536

Wściekły
źródło
1
Cytat / artykuł Berksona wydaje mi się odpowiedni i uzasadniony. Powszechnie wiadomo, że przy wystarczająco dużej próbce każdy zakładany rozkład zostanie odrzucony, nawet jeśli tylko z powodu błędu pomiaru. Jeśli stwierdzimy, że dane są mało prawdopodobne przy niektórych założeniach dystrybucji, czy nie powinniśmy próbować dowiedzieć się, jaki byłby lepszy wybór? A jeśli nie możemy uzasadnić tych innych wyborów, powinniśmy założyć, jeśli to konieczne, najprostszy możliwy podział? Czy ktoś może wyjaśnić, dlaczego zostało to odrzucone?
Livid