Kwantyfikacja wykresu QQ

10

Wykres qq może być użyty do wizualizacji podobieństwa dwóch rozkładów (np. Wizualizacji podobieństwa rozkładu do rozkładu normalnego, ale także do porównania dwóch rozkładów danych biblioteki artystycznej). Czy są jakieś statystyki, które generują bardziej obiektywną, liczbową miarę, która reprezentuje ich podobieństwo (najlepiej w znormalizowanej (0 <= x <= 1))? Współczynnik Giniego jest na przykład wykorzystywany w ekonomii podczas pracy z krzywymi Lorenza; czy jest coś dla wykresów QQ?

Ampleforth
źródło

Odpowiedzi:

8

Jak mówię w odpowiedzi na twój komentarz do poprzedniego pytania, sprawdź test Kołmogorowa-Smirnowa. Wykorzystuje maksymalną statystyczną odległość między dwiema funkcjami rozkładu skumulowanego (alternatywnie rozumianą jako maksymalna bezwzględna odległość krzywej na wykresie QQ od linii 45 stopni) jako statystykę. Test KS można znaleźć w R za pomocą polecenia ks.test()w bibliotece „stats”. Oto więcej informacji na temat jego użycia R.

Charlie
źródło
Zauważ, że (jak rozumiem) test KS służy do testowania danych empirycznych względem rozkładu a priori. Nie jest właściwe porównywanie dwóch rozkładów empirycznych ani porównywanie danych empirycznych z rozkładem a priori, którego wartości parametrów oszacowano na podstawie danych empirycznych.
Mike Lawrence,
4
@Mike, możesz użyć testu KS do porównania dwóch rozkładów uzyskanych empirycznie, zobacz wcześniejszą odpowiedź Charliego i komentarze stats.stackexchange.com/questions/2918/lorenz-curve-qq-plot/…
Andy W
@Andy, Ach, wziąłem punkt 3 z itl.nist.gov/div898/handbook/eda/section3/eda35g.htm jako następstwo, że nie można porównać dwóch empirycznych CDF, ale widzę, że moje założenie nie było właściwy. Dobrze wiedzieć, dziękuję!
Mike Lawrence,
2
Jednak punkt 3 oznacza, że ​​nie można użyć KS do przetestowania, czy dane pochodzą z rozkładu normalnego ze średnią i wartością sd oszacowaną na podstawie danych . Jest to popularny błąd wśród studentów psychologii, których spotykam.
Stephan Kolassa,
1
(+1) Nadrzędnym aspektem tej odpowiedzi jest to, że statystyki KS można odczytać bezpośrednio z wykresu QQ.
whuber
2

I niedawno używany korelację między empiryczną CDF CDF i dopasowanej do ilościowego dobroci dopasowania, i zastanawiam się, czy takie podejście może być również użyteczny w obecnym przypadku, który jak rozumiem obejmuje porównanie dwóch zestawów danych empirycznych. Interpolacja może być konieczna, jeśli między zbiorami występuje różna liczba obserwacji.

Mike Lawrence
źródło
Twój artykuł zawiera bardzo ładne liczby :)
chl
@chi: Wszystkie zostały utworzone w R przy użyciu ggplot2. To fantastyczny system produkcji grafiki!
Mike Lawrence,
Co masz na myśli z dopasowanym CDF?
Ampleforth
@Pierwszy, w tym artykule dopasowałem rozkład do danych empirycznych, więc przez „dopasowany CDF” rozumiałem teoretyczny CDF dopasowanego rozkładu. Przepraszam, widzę, jak mogłem być bardziej klarowny!
Mike Lawrence
Och, proszę nie przepraszać. Mój brak statystyk jest dość duży i to jest jedyny problem tutaj;) Również nie czytałem twojego papieru, ale tylko przeglądałem twoje wykresy, które naprawdę mi się podobały.
Ampleforth
1

Powiedziałbym, że mniej więcej kanonicznym sposobem porównania dwóch rozkładów byłby test chi-kwadrat. Statystyka nie jest jednak znormalizowana i zależy od tego, jak wybierzesz pojemniki. Ostatni punkt można oczywiście postrzegać jako cechę, a nie błąd: odpowiednie wybranie pojemników pozwala na dokładniejsze przyjrzenie się podobieństwu w ogonach, na przykład w środku dystrybucji.

Stephan Kolassa
źródło
1

Dość bezpośrednią miarą „bliskości” liniowości na wykresie QQ byłaby statystyka testu Shapiro-Francii (która jest ściśle związana z lepiej znanym Shapiro-Wilkiem i może być traktowana jako zwykłe przybliżenie).

Statystyka Shapiro-Francia to kwadratowa korelacja między uporządkowanymi wartościami danych a oczekiwanymi statystykami normalnego rzędu (czasami oznaczonymi jako „kwantyle teoretyczne”) - to znaczy powinien to być kwadrat korelacji widoczny na wykresie, dość bezpośredni miara podsumowująca.

(Shapiro-Wilk jest podobny, ale bierze pod uwagę korelacje między statystykami zamówień; ma podobną interpretację jak Shapiro-Francia i jest prawie tak samo przydatny jak podsumowanie wykresu QQ.)

Tak czy inaczej, dla pojedynczego podsumowania tego, co pokazuje wykres QQ, jeden z nich może być odpowiednim sposobem na podsumowanie wykresu.

1W ). Ta skala ma tendencję do pozostawiania ci dość stałych wartości dla określonej ilości nienormalności.

n1W)nn(1W)nnnlog(n)log(n)n

Glen_b - Przywróć Monikę
źródło