W tym komentarzu Nick Cox napisał:
Podział na klasy jest starożytną metodą. Podczas gdy histogramy mogą być przydatne, nowoczesne oprogramowanie statystyczne ułatwia, a także wskazane jest dopasowanie rozkładów do surowych danych. Binning po prostu odrzuca szczegóły, które są kluczowe przy określaniu, które rozkłady są prawdopodobne.
Kontekst tego komentarza sugeruje użycie wykresów QQ jako alternatywnego sposobu oceny dopasowania. To stwierdzenie wydaje się bardzo wiarygodne, ale chciałbym wiedzieć o wiarygodnym źródle wspierającym to stwierdzenie. Czy jest jakaś praca, która dokładniej bada ten fakt, poza prostym „cóż, to brzmi oczywisto”? Jakieś faktyczne systematyczne porównania wyników lub polubień?
Chciałbym również zobaczyć, jak daleko można rozciągnąć tę przewagę wykresów QQ nad histogramami do zastosowań innych niż dopasowanie modelu. Odpowiedzi na to pytanie są zgodne, że „wykres QQ […] mówi tylko, że„ coś jest nie tak ”. Zastanawiam się nad wykorzystaniem ich jako narzędzia do identyfikacji struktury obserwowanych danych w porównaniu z modelem zerowym i zastanawiam się, czy istnieją jakieś ustalone procedury korzystania z wykresów QQ (lub ich danych bazowych) do nie tylko wykrywania, ale także opisywania nieprzypadkowego struktura obserwowanych danych. Odniesienia obejmujące ten kierunek byłyby zatem szczególnie przydatne.
Odpowiedzi:
Papier kanoniczny tutaj był
Wilk, MB i R. Gnanadesikan. 1968. Metody kreślenia prawdopodobieństwa do analizy danych. Biometrika 55: 1-17
i nadal spłaca bliskie i powtarzane czytanie.
Podano jasne leczenie z wieloma dobrymi przykładami
Cleveland, WS 1993. Wizualizacja danych. Summit, NJ: Hobart Press.
i warto wspomnieć o bardziej wprowadzającym
Cleveland, WS 1994. Elementy grafowania danych. Summit, NJ: Hobart Press.
Inne teksty zawierające uzasadnione narażenie na to podejście obejmują
Davison, AC 2003. Modele statystyczne. Cambridge: Cambridge University Press.
Rice, JA 2007. Statystyka matematyczna i analiza danych. Belmont, Kalifornia: Duxbury.
Poza tym nie wiem o niczym, o co prosisz. Kiedy zobaczysz już sens wykresów kwantylowo-kwantylowych, pokazanie szczegółowo, że histogramy są alternatywą drugiej kategorii, nie wydaje się ani interesujące, ani użyteczne, zbyt przypomina strzelanie do ryb w beczce.
Ale podsumowałbym tak:
Binning pomija szczegóły, a szczegóły są często ważne. Może to dotyczyć nie tylko tego, co dzieje się w ogonach, ale także tego, co dzieje się w środku. Na przykład istotna może być ziarnistość lub multimodalność, a także skośność lub waga ogona.
Podział na grupy wymaga decyzji o pochodzeniu i szerokości pojemnika, co może znacząco wpłynąć na wygląd histogramów, więc trudno jest zobaczyć, co jest rzeczywiste, a co jest efektem ubocznym wyborów. Jeśli twoje oprogramowanie podejmie te decyzje, problemy pozostaną. (Na przykład domyślne opcje bin są często zaprojektowane tak, abyś nie używał „zbyt wielu pojemników”, tj. Z motywem nieco wygładzenia.)
Graficzny i psychologiczny problem porównywania dwóch histogramów jest trudniejszy niż ocena dopasowania zestawu punktów do linii prostej.
źródło
Zobacz dzieło Williama S. Clevelanda.
Wizualizacja danych jest prawdopodobnie najlepszym pojedynczym źródłem, ale także jego stroną internetową , szczególnie bibliografię i stronę do wizualizacji danych (w tym kod S +, który można dostosować do użytku w
R
).Cleveland ma wiele powodów, dla których wykresy QQ są dobre i dlaczego histogramy nie są tak dobre.
źródło
Po nauczeniu się, jak z nich korzystać, wykresy QQ pozwalają zidentyfikować skośność, ciężką skrzynię, ogólny kształt, szczyty i tak dalej, te same cechy, które ludzie używają histogramów do oceny.
Oszacowania gęstości jądra lub oszacowania gęstości log-splajn mogą uniknąć niektórych problemów z histogramami, na które Gala wskazała w komentarzach.
Rozważ ten przykład z tego linku:
Jednak, jeśli nie masz szczęścia, nieoczekiwaną dyskrecję można czasem przeoczyć za pomocą histogramu, a nawet przy gładkich szacunkach gęstości (ponieważ są one gładkie, naturalnie), ale często będą oczywiste na wykresach QQ. Gładkie szacunki gęstości - o ile nie są specjalnie traktowane - mogą również mieć problemy z ograniczonymi zmiennymi.
Histogramy i gładkie szacunki gęstości opierają się na przybliżeniu danych - co może być przydatne - ale może również wprowadzać artefakty lub nieco wprowadzać w błąd.
źródło