Korzyści z używania wykresów QQ nad histogramami

22

W tym komentarzu Nick Cox napisał:

Podział na klasy jest starożytną metodą. Podczas gdy histogramy mogą być przydatne, nowoczesne oprogramowanie statystyczne ułatwia, a także wskazane jest dopasowanie rozkładów do surowych danych. Binning po prostu odrzuca szczegóły, które są kluczowe przy określaniu, które rozkłady są prawdopodobne.

Kontekst tego komentarza sugeruje użycie wykresów QQ jako alternatywnego sposobu oceny dopasowania. To stwierdzenie wydaje się bardzo wiarygodne, ale chciałbym wiedzieć o wiarygodnym źródle wspierającym to stwierdzenie. Czy jest jakaś praca, która dokładniej bada ten fakt, poza prostym „cóż, to brzmi oczywisto”? Jakieś faktyczne systematyczne porównania wyników lub polubień?

Chciałbym również zobaczyć, jak daleko można rozciągnąć tę przewagę wykresów QQ nad histogramami do zastosowań innych niż dopasowanie modelu. Odpowiedzi na to pytanie są zgodne, że „wykres QQ […] mówi tylko, że„ coś jest nie tak ”. Zastanawiam się nad wykorzystaniem ich jako narzędzia do identyfikacji struktury obserwowanych danych w porównaniu z modelem zerowym i zastanawiam się, czy istnieją jakieś ustalone procedury korzystania z wykresów QQ (lub ich danych bazowych) do nie tylko wykrywania, ale także opisywania nieprzypadkowego struktura obserwowanych danych. Odniesienia obejmujące ten kierunek byłyby zatem szczególnie przydatne.

MvG
źródło
4
stats.stackexchange.com/questions/51718/... już odpowiada na połowę pytania, a mianowicie dlaczego najlepiej unikać histogramów, bez względu na to, co je zastąpisz .
Gala

Odpowiedzi:

25

Papier kanoniczny tutaj był

Wilk, MB i R. Gnanadesikan. 1968. Metody kreślenia prawdopodobieństwa do analizy danych. Biometrika 55: 1-17

i nadal spłaca bliskie i powtarzane czytanie.

Podano jasne leczenie z wieloma dobrymi przykładami

Cleveland, WS 1993. Wizualizacja danych. Summit, NJ: Hobart Press.

i warto wspomnieć o bardziej wprowadzającym

Cleveland, WS 1994. Elementy grafowania danych. Summit, NJ: Hobart Press.

Inne teksty zawierające uzasadnione narażenie na to podejście obejmują

Davison, AC 2003. Modele statystyczne. Cambridge: Cambridge University Press.

Rice, JA 2007. Statystyka matematyczna i analiza danych. Belmont, Kalifornia: Duxbury.

Poza tym nie wiem o niczym, o co prosisz. Kiedy zobaczysz już sens wykresów kwantylowo-kwantylowych, pokazanie szczegółowo, że histogramy są alternatywą drugiej kategorii, nie wydaje się ani interesujące, ani użyteczne, zbyt przypomina strzelanie do ryb w beczce.

Ale podsumowałbym tak:

  1. Binning pomija szczegóły, a szczegóły są często ważne. Może to dotyczyć nie tylko tego, co dzieje się w ogonach, ale także tego, co dzieje się w środku. Na przykład istotna może być ziarnistość lub multimodalność, a także skośność lub waga ogona.

  2. Podział na grupy wymaga decyzji o pochodzeniu i szerokości pojemnika, co może znacząco wpłynąć na wygląd histogramów, więc trudno jest zobaczyć, co jest rzeczywiste, a co jest efektem ubocznym wyborów. Jeśli twoje oprogramowanie podejmie te decyzje, problemy pozostaną. (Na przykład domyślne opcje bin są często zaprojektowane tak, abyś nie używał „zbyt wielu pojemników”, tj. Z motywem nieco wygładzenia.)

  3. Graficzny i psychologiczny problem porównywania dwóch histogramów jest trudniejszy niż ocena dopasowania zestawu punktów do linii prostej.

-średnia) / SD. Jeśli kwantyle są tylko statystyką rzędu, wszystko, co musisz zrobić, to zastosować transformację, ponieważ np. Logarytm maksimum jest identyczny z maksimum logarytmów i tak dalej. (Trywialnie, odwrotność odwraca kolejność.) Nawet jeśli drukujesz wybrane kwantyle, które są oparte na dwóch statystykach porządkowych, zwykle są one po prostu interpolowane między dwiema oryginalnymi wartościami danych, a efekt interpolacji jest trywialny. W przeciwieństwie do tego histogramy na logu lub w innych transformowanych skalach wymagają nowej decyzji o pochodzeniu i szerokości bin, co nie jest szczególnie trudne, ale nie jest banalne. To samo można powiedzieć o szacowaniu gęstości jako sposobie podsumowania rozkładu.

Nick Cox
źródło
8

Zobacz dzieło Williama S. Clevelanda.

Wizualizacja danych jest prawdopodobnie najlepszym pojedynczym źródłem, ale także jego stroną internetową , szczególnie bibliografię i stronę do wizualizacji danych (w tym kod S +, który można dostosować do użytku w R).

Cleveland ma wiele powodów, dla których wykresy QQ są dobre i dlaczego histogramy nie są tak dobre.

Peter Flom - Przywróć Monikę
źródło
7

Po nauczeniu się, jak z nich korzystać, wykresy QQ pozwalają zidentyfikować skośność, ciężką skrzynię, ogólny kształt, szczyty i tak dalej, te same cechy, które ludzie używają histogramów do oceny.

Oszacowania gęstości jądra lub oszacowania gęstości log-splajn mogą uniknąć niektórych problemów z histogramami, na które Gala wskazała w komentarzach.

Rozważ ten przykład z tego linku:

Jednak, jeśli nie masz szczęścia, nieoczekiwaną dyskrecję można czasem przeoczyć za pomocą histogramu, a nawet przy gładkich szacunkach gęstości (ponieważ są one gładkie, naturalnie), ale często będą oczywiste na wykresach QQ. Gładkie szacunki gęstości - o ile nie są specjalnie traktowane - mogą również mieć problemy z ograniczonymi zmiennymi.

Histogramy i gładkie szacunki gęstości opierają się na przybliżeniu danych - co może być przydatne - ale może również wprowadzać artefakty lub nieco wprowadzać w błąd.

Glen_b - Przywróć Monikę
źródło