W co wierzyć: test Kołmogorowa-Smirnowa czy wykres QQ?

16

Próbuję ustalić, czy mój zestaw danych ciągłych danych jest zgodny z rozkładem gamma o parametrach kształt 1,7 i szybkość === 0,000063.

Problem polega na tym, gdy używam R do utworzenia wykresu QQ mojego zestawu danych x względem teoretycznego rozkładu gamma (1,7, 0,000063), otrzymuję wykres, który pokazuje, że dane empiryczne w przybliżeniu zgadzają się z rozkładem gamma. To samo dzieje się z fabułą ECDF.

Jednak gdy przeprowadzam test Kołmogorowa-Smirnowa, daje mi to nieuzasadnioną małą wartość < 1 % .p<1%

W co powinienem wierzyć? Wyjście graficzne czy wynik testu KS?

Wykres QQplot i wykres ECDF

użytkownik22119
źródło
czy możesz również podać otrzymane wykresy rozkładu gęstości?
Scratch
13
Test i wykres diagnostyczny nie są niespójne. Rozkład jest podobny do teoretycznego, jak pokazuje wykres QQ. Wielkość próbki jest na tyle duża, że ​​prawdopodobnie dostrzeżesz nawet niewielkie różnice od teoretycznej.
Glen_b

Odpowiedzi:

18

Nie widzę sensu w „niewiary” w fabułę QQ (jeśli właściwie ją stworzyliście); to tylko graficzna reprezentacja rzeczywistości twoich danych, zestawiona z rozkładem definicji. Oczywiście nie jest to idealne dopasowanie, ale jeśli jest wystarczająco dobre dla twoich celów, może to być mniej więcej koniec historii. Może zechcesz sprawdzić następujące pokrewne pytanie: Czy testowanie normalności jest „zasadniczo bezużyteczne”?

p z testu KS w zasadzie mówi ci, że twoja próbka jest wystarczająco duża, aby dać mocne dowody przeciwko hipotezie zerowej, że twoje dane należą do dokładnie tego samego rozkładu, co rozkład odniesienia (zakładam, że odwoływałeś się do rozkładu gamma; ty może chcieć dokładnie to sprawdzić). Wydaje się to dość jasne również z wykresu QQ (tj. Istnieją pewne małe, ale pozornie systematyczne wzorce odchyleń), więc nie sądzę, aby naprawdę istniały tutaj jakiekolwiek sprzeczne informacje.

To, czy Twoje dane zbyt różnią się od rozkładu gamma dla zamierzonych celów, to kolejne pytanie. Sam test KS nie jest w stanie odpowiedzieć za ciebie (ponieważ jego wynik będzie zależał między innymi od wielkości próbki), ale wykres QQ może pomóc ci zdecydować. Być może warto przyjrzeć się solidnym alternatywom dla wszelkich innych analiz, które planujesz przeprowadzić, a jeśli szczególnie poważnie podchodzisz do kwestii wrażliwości kolejnych analiz na odchylenia od rozkładu gamma, możesz również rozważyć wykonanie testów symulacyjnych .

Nick Stauner
źródło
15

Co możesz zrobić, to utworzyć wiele próbek z rozkładu teoretycznego i wykreślić je na tle twojego wykresu QQ. To da ci wyobrażenie o tym, jakiej zmienności możesz racjonalnie oczekiwać od samego próbkowania.

Możesz rozwinąć ten pomysł, aby utworzyć obwiednię wokół linii teoretycznej, korzystając z przykładu ze stron 86-89:

Venables, WN i Ripley, BD 2002. Nowoczesne statystyki stosowane z S. New York: Springer.

To będzie koperta punktowa. Możesz rozszerzyć ten pomysł jeszcze bardziej, aby utworzyć ogólną kopertę, korzystając z pomysłów ze stron 151-154:

Davison, AC i Hinkley, DV 1997. Metody bootstrap i ich zastosowanie. Cambridge: Cambridge University Press.

Jednak dla podstawowej eksploracji myślę, że wystarczy wykreślić kilka próbek referencyjnych w tle twojego wykresu QQ.

Maarten Buis
źródło
Dobry pomysł! Przypomnij mi, żebym głosował za 11 godzin (wykorzystałem wszystkie moje głosy na bajki ) ... Szczególnie podoba mi się bootowanie ECDF jako sposób na wzbogacenie tego rodzaju fabuły.
Nick Stauner
1
Zobacz także pakiet CRAN sfsmisc, który ma funkcję ecdf.ksCI rysującą pasmo zaufania na wykresie ecdf. Ten sam pomysł można wykorzystać do narysowania
przedziału
2

Test KS zakłada określone parametry twojej dystrybucji. Testuje hipotezę „dane są dystrybuowane zgodnie z tym konkretnym rozkładem”. Być może gdzieś podałeś te parametry. Jeśli nie, mogły zostać użyte niektóre niepasujące wartości domyślne. Zauważ, że test KS stanie się konserwatywny, jeśli oszacowane parametry zostaną włączone do hipotezy.

Jednak większość testów dopasowania jest wykorzystywana w niewłaściwy sposób. Jeśli test KS nie wykazałby znaczenia, nie oznacza to, że model, który chciałeś udowodnić, jest odpowiedni. Tak powiedział @Nick Stauner o zbyt małej wielkości próby. Ten problem jest podobny do testów hipotez punktowych i testów równoważności.

Na koniec: rozważ tylko wykresy QQ.

Horst Grünbusch
źródło
-1

Wykres QQ jest eksploracyjną techniką analizy danych i powinien być traktowany jako taki - podobnie jak wszystkie inne wykresy EDA. Mają one jedynie na celu uzyskanie wstępnego wglądu w dostępne dane. Nigdy nie powinieneś decydować ani zatrzymywać analizy na podstawie wykresów EDA, takich jak wykres QQ. Błędem jest rozważanie tylko wykresów QQ. Zdecydowanie powinieneś zastosować techniki ilościowe, takie jak KS Test. Załóżmy, że masz inny wykres QQ dla podobnego zestawu danych. Jak porównałbyś je bez narzędzia ilościowego? Następnym krokiem dla Ciebie, po teście EDA i KS, jest ustalenie, dlaczego test KS daje niską wartość p (w twoim przypadku może to być nawet spowodowane pewnym błędem).

Techniki EDA NIE mają służyć jako narzędzia do podejmowania decyzji. W rzeczywistości powiedziałbym, że nawet wnioskowanie statystyczne ma jedynie charakter eksploracyjny. Dają wskazówki dotyczące kierunku, w którym powinna przebiegać analiza statystyczna. Na przykład test t na próbce dałby tylko poziom pewności, że próbka może (ale nie musi) należeć do populacji, możesz nadal kontynuować na podstawie tego wglądu w to, do jakiego rozkładu należą twoje dane i do czego są jego parametry itp. W rzeczywistości, gdy niektórzy twierdzą, że nawet techniki wdrożone w ramach bibliotek uczenia maszynowego mają również charakter eksploracyjny !!! Mam nadzieję, że mają to na myśli w tym sensie ...!

Podejmowanie decyzji statystycznych na podstawie wykresów lub technik wizualizacji jest kpiną z osiągnięć w dziedzinie statystyki. Jeśli o mnie zapytasz, powinieneś użyć tych wykresów jako narzędzia do przekazania ostatecznych wniosków na podstawie ilościowej analizy statystycznej.

Murugesan Narayanaswamy
źródło
To zabrania mi robienia czegoś, co często robię i uważam za rozsądne, podjęcia decyzji na podstawie fabuły eksploracyjnej i zatrzymania się przed bardziej formalnym testem istotności. Nie pociąga to za sobą kpin. To powtarzający się i dogmatyczny komentarz, który nie dodaje nic użytecznego do istniejących doskonałych i znacznie bardziej dopracowanych odpowiedzi. Porównywanie wykresów QQ jest bardzo łatwe ...
Nick Cox
Nie czytałem innych odpowiedzi, ale jeśli zachęcają również do metod ilościowych, nic mi nie jest. Na zadane pytanie udzieliłem odpowiedzi. Ale jestem ciekawy, że nie zajmuje dużo czasu przeprowadzanie formalnych testów ilościowych (tylko kilka minut, aby wykonać test KS) z obecnie dostępnymi pakietami, takimi jak R, więc dlaczego ktoś miałby zatrzymywać się na wykresach EDA? Zaraz po sprawdzeniu poprawności wyników testu R dla KS z ładowaniem początkowym zauważyłem w kilku miejscach, w których wspomniano, że nie należy go stosować itp., .. Czy wynika to z ogólnego podejrzenia co do tradycyjnych metod statystycznych? To jest uzasadnienie moich mocnych komentarzy .. nie obrażać żadnego
Murugesan Narayanaswamy
Naprawdę powinieneś przeczytać inne odpowiedzi przed opublikowaniem. Implikacja wysyłania jest taka, że ​​masz coś innego (jak również obronnego) do powiedzenia. Twój komentarz jest zastanawiający, sugerując, że wykresy QQ nie są „metodami ilościowymi”. Wykres QQ pokazuje w zasadzie wszystkie informacje ilościowe istotne w ocenie dopasowania rozkładu. W przeciwieństwie do tego test taki jak Kołmogorow-Smirnov daje jednowymiarową redukcję i niewiele pomaga w tym, co robić dalej.
Nick Cox
Wykres QQ porównuje rozkład teoretyczny z podanymi danymi testowymi i zapewnia wizualną reprezentację, ale test KS robi to samo w znacznie bardziej rygorystyczny sposób przy użyciu pojęć statystycznych i ostatecznie podaje wartość prawdopodobieństwa. Nie możesz porównać dwóch wykresów QQ, ale otrzymasz różnicę ilościową, gdy użyjesz testu KS. Błędne jest to, że wartość p testu KS jest błędna. Błędem jest również to, że empiryczny zestaw danych nie może być użyty do wyodrębnienia parametrów dystrybucji. Osobiście wykonałem bootstrapowanie i zweryfikowałem wartości p dla obu tabel i ręcznie obliczono rozkład kolomogrov.
Murugesan Narayanaswamy
W twoim komentarzu jest wiele boksu cienia. Kto spiera się, gdzie nie można użyć danych empirycznych do uzyskania oszacowań parametrów? Wszyscy powinniśmy się zgodzić, że odbywa się tutaj. Musisz mi wybaczyć, że nie chcę kontynuować dyskusji. Podtrzymuję moją reakcję na twoją odpowiedź.
Nick Cox