Jaka jest historia działek i jak ewoluował projekt „pudełka i wąsów”?

19

Wiele źródeł datuje klasyczny projekt „pudełkowej fabuły” na Johna Tukeya i jego „schematyczną fabułę” z 1970 r. Wygląda na to, że od tego czasu pozostał względnie niezmienny, a wycięta w pudełku wersja Edwarda Tufte'a nie została przyłapana, podczas gdy wykresy skrzypcowe - choć bardziej pouczający wariant wykresu skrzynkowego - pozostają mniej popularne. Sugestia Clevelanda, że ​​wąsy rozciągają się na 10 i 90 percentyli, ma niektórych zwolenników, patrz Cox (2009) , ale nie jest normą.

Hadley Wickham i Lisa Stryjewski napisali niepublikowany artykuł na temat historii fabuły, ale nie wydaje się, aby obejmował on historyczne prekursory fabuły.

Jak więc powstała obecna, wszechobecna fabuła „pudełka i wąsów”? Z jakiego rodzaju wizualizacji danych ewoluowała, czy te wcześniejsze projekty miały jakieś znaczące zalety i dlaczego wydaje się, że zostały przyćmione tak kompleksowo przy użyciu schematu Tukeya? Zilustrowana odpowiedź byłaby bonusem, ale przydatne byłoby skierowanie do referencji, która nurkuje głębiej niż Wickham i Stryjewski.

Bibliografia

  • Cox, NJ (2009). Speaking Stata: Tworzenie i zmienianie wykresów pudełkowych. Stata Journal , 9 (3), 478.
  • Wickham, H. and Stryjewski, L. (2011). 40 lat fabuły. http://vita.had.co.nz/papers/boxplots.pdf
Silverfish
źródło
1
Kilka istotnych dyskusji na temat wielu prekursorów tutaj: stats.stackexchange.com/questions/125521/ ... ... Tukey był świadomy pracy Mary Spears, ale możliwe, że nie widział żadnej z wcześniejszych
Glen_b
Dzięki @Glen_b, to właśnie dyskusja, którą przeczytałem, zainspirowała to pytanie, ale zajęło mi 4 lata, aby zadać to pytanie i nie mogłem wyśledzić dyskusji! (Szkoda, że ​​komentarze nie pojawiają się w wyszukiwaniu w witrynie, dlatego pomocne byłoby wprowadzenie odpowiednich pytań i odpowiedzi.)
Silverfish
1
Korzystam z wyszukiwania Google z site:stats.stackexchange.comustawieniem, aby śledzić rzeczy w komentarzach. Byłem w stanie zapamiętać wystarczająco dużo szczegółów (że była to dyskusja między mną i Nickiem, odnosząca się do fabuły i że wspomniałem o Schmiddzie), aby dostać to pierwsze trafienie.
Glen_b
1
Styczna uwaga na temat wartości odstających boxplot. Powszechnie stosowane są dwie zasady. Zasadniczo najczęściej (w R i innym oprogramowaniu) jest to, że obserwacje poniżej lub powyżej są oznaczone jako wartości odstające; „reguła 1.5IQR”. We wczesnych wersjach Minitab stosował również zasadę , nazywając bardziej ekstremalne wartości odstające „prawdopodobnymi wartościami odstającymi”, a mniej ekstremalne „możliwymi wartościami odstającymi”. Przynajmniej dla danych w przybliżeniu normalnych obie reguły pokazują wartości odstające, które różnią się znacznie w zależności od wielkości próbyIstnieją symulacje, że reguła byłaby bardziej stabilna do 1000. Q1-1.5jaQRQ3)+1.5jaQR3)jaQRn.2.25jaQR
BruceET
1
github.com/hadley/boxplots-paper zawiera wiele materiałów, takich jak anonimowe raporty recenzentów z czasopisma (? American Statistician_) (krótkie i zniechęcające) oraz niezależne, ale nakładające się na siebie niechciane recenzje Davida Hoaglina i mnie (oba bardziej szczegółowe).
Nick Cox,

Odpowiedzi:

18

Podsumowanie dyrektora generalnego

Historia jest znacznie dłuższa i bardziej skomplikowana, niż wielu ludziom się wydaje.

Streszczenie wykonawcze

Historia tego, co Tukey nazywał wykresami pudełkowymi, jest splątana z historią, która jest obecnie często nazywana wykresami kropkowymi lub paskowymi (dziesiątki innych nazw) i reprezentacjami empirycznej funkcji kwantylu.

Wykresy pudełkowe w szeroko aktualnych formach najlepiej znane są z prac Johna Wildera Tukeya (1970, 1972, 1977).

Ale pomysł pokazania mediany i kwartyli jako podstawowych podsumowań - często, ale nie zawsze, z kropkami pokazującymi wszystkie wartości - wraca przynajmniej do diagramów dyspersji (wiele nazw wariantów) wprowadzonych przez geografa Percy'ego Roberta Crowe (1933). Były to podstawowe opłaty dla geografów i były używane w wielu podręcznikach, a także w artykułach naukowych z końca lat 30. XX wieku.

Bibby (1986, s. 56, 59) podał nawet wcześniejsze odniesienia do podobnych idei nauczanych przez Arthura Lyona Bowleya (później Sir Arthur) w swoich wykładach około 1897 r. I do jego rekomendacji (Bowley, 1910, s. 62; 1952, s. 73 ), aby wykorzystać minimum i maksimum oraz 10, 25, 50, 75 i 90% punktów jako podstawę do podsumowania graficznego.

Słupki zasięgu przedstawiające skrajności i kwartyle są często przypisywane Mary Eleanor Spear (1952), ale w moim czytaniu mniej osób cytuje Kennetha W. Haemera (1948). Artykuły Haemera na temat grafiki statystycznej w American Statistician około 1950 r. Były pomysłowe i mają krytyczne znaczenie i warto je ponownie przeczytać. (Wielu czytelników będzie mogło uzyskać do nich dostęp za pośrednictwem jstor.org.) W przeciwieństwie do tego książki Speara (Spear 1969 to rehash) były dostępne i rozsądne, ale celowo wprowadzające, a nie nowatorskie czy naukowe.

Warianty wykresów pudełkowych, w których wąsy rozciągają się na wybrane percentyle, są powszechniejsze, niż się wydaje wielu osobom. Znów równoważne wykresy były używane przez geografów od lat 30. XX wieku.

To, co jest najbardziej oryginalne w wersji wykresów pudełkowych Tukeya, to przede wszystkim kryteria identyfikacji punktów na ogonach, które mają zostać wydrukowane osobno i zidentyfikowane jako zasługujące na szczegółowe rozważenie - i równie często oznacza to, że zmienna powinna być analizowana w przekształconej skali. Jego praktyczna reguła 1,5 IQR pojawiła się dopiero po wielu eksperymentach. W niektórych rękach zmutowano twardą zasadę usuwania punktów danych, co nigdy nie było intencją Tukeya. Mocna, niezapomniana nazwa - fabuła pudełkowa - nie zaszkodziła w zapewnieniu znacznie szerszego wpływu tych pomysłów. Natomiast schemat dyspersji jest raczej nudnym i ponurym terminem.

Dość długa lista odniesień tutaj, być może wbrew pozorom, nie ma być wyczerpująca. Celem jest jedynie dostarczenie dokumentacji dla niektórych prekursorów i alternatyw dla fabuły pudełkowej. Konkretne odniesienia mogą być pomocne w przypadku szczegółowych zapytań lub jeśli są blisko twojego pola. Natomiast nauka o praktykach w innych dziedzinach może być pożyteczna. Graficzna - nie tylko kartograficzna - wiedza geografów była często niedoceniana.

Więcej szczegółów

Hybrydowe wykresy punktowe były używane przez Crowe (1933, 1936), Matthews (1936), Hogg (1948), Monkhouse and Wilkinson (1952), Farmer (1956), Gregory (1963), Hammond i McCullagh (1974), Lewis (1975), Matthews (1981), Wilkinson (1992, 2005), Ellison (1993, 2001), Wild and Seber (2000), Quinn and Keough (2002), Young i in. (2006) oraz Hendry i Nielsen (2007) i wielu innych. Zobacz także Miller (1953, 1964).

Przyciąganie wąsów do konkretnych percentyli, a nie do punktów danych w tak wielu IQR kwartyli, zostało podkreślone przez Clevelanda (1985), ale przewidywane przez Matthewsa (1936) i Grove (1956), którzy wykreślili zakres interoktyli, czyli między pierwszym a siódme oktyle, a także zakres i przedział międzykwartylowy. Dury (1963), Johnson (1975), Harris (1999), Myatt (2007), Myatt and Johnson (2009, 2011) i Davino i in. (2014) pokazał średnie, a także minimum, kwartyle, medianę i maksimum. Schmid (1954) pokazał wykresy podsumowujące z medianą, kwartylami oraz 5 i 95% punktów. Bentley (1985, 1988), Davis (2002), Spence (2007, 2014) i Motulsky (2010, 2014, 2018) wykreślili wąsy do 5 i 95% punktów. Morgan i Henrion (1990, s. 221, 241), Spence (2001, s. 36) oraz Gotelli i Ellison (2004, 2013, s. 72, 110, 213, 416) wykreślono wąsy do 10% i 90% punktów. Harris (1999) pokazał przykłady 5 i 95% oraz 10 i 90% punktów. Altman (1991, s. 34, 63) i Greenacre (2016) wykreślili wąsy do 2,5% i 97,5% punktów. Reimann i in. (2008, s. 46–47) wykreślili wąsy do 5% i 95% oraz 2% i 98% punktów.

Parzen (1979a, 1979b, 1982) hybrydyzował wykresy pudełkowe i kwantylowe jako wykresy kwantowe. Zobacz także (np.) Shera (1991), Militký and Meloun (1993), Meloun and Militký (1994). Zauważ jednak, że kwantylowy wykres pudełkowy Keena (2010) to po prostu wykres pudełkowy z wąsami sięgającymi skrajności. Natomiast kwantowe wykresy pudełkowe JMP są ewidentnie wykresami pudełkowymi ze znacznikami przy 0,5%, 2,5%, 10%, 90%, 97,5%, 99,5%: patrz Sall i in. (2014, s. 143–4).

Oto kilka uwag na temat wariantów wykresów kwantowych.

(A) Wykres centylowo-percentylowy Esty i Banfielda (2003) drukuje tę samą informację inaczej, wykreślając dane jako linie ciągłe i tworząc symetryczny wyświetlacz, w którym oś pionowa pokazuje kwantyle, a oś pozioma nie pokazuje położenia , ale oba min ( ) i jego odbicie lustrzane min ( ). Drobne szczegóły: na ich papierze pozycje kreślenia są źle opisane jako „percentyle”. Zobacz także Martinez i in. (2011, 2017), co utrwala to zamieszanie.pp,1-p-p,1-p

Pomysł wykreślenia min ( ) (lub jego ekwiwalentu procentowego) pojawia się niezależnie w (B) „działkach górskich” (Krouwer 1992; Monti 1995; Krouwer i Monti 1995; Goldstein 1996) oraz w (C) działkach „odwrócona funkcja rozkładu empirycznego” (Huh 1995). Zobacz także Xue i Titterington (2011), aby uzyskać szczegółową analizę składania funkcji rozkładu w dowolnym kwantylu. p,1-p

Z literatury widzianej przeze mnie wydaje się, że żaden z tych wątków - wykresy kwantowe lub późniejsze warianty (A) (B) (C) - nie cytują się nawzajem.

!!! na dzień 3 października 2018 r. szczegóły dotyczące niektórych odniesień należy podać w następnej edycji.

Altman, DG 1991. Statystyka praktyczna w badaniach medycznych. Londyn: Chapman and Hall.

Bentley, JL 1985. Programowanie pereł: wybór. Komunikacja ACM 28: 1121-1127.

Bentley, JL 1988. Więcej pereł programistycznych: Wyznania kodera. Reading, MA: Addison-Wesley.

Bibby, J. 1986. Uwagi w kierunku historii statystyki nauczania. Edynburg: John Bibby (Książki).

Bowley, AL 1910. Podstawowy podręcznik statystyki. Londyn: Macdonald and Evans. (siódma edycja 1952)

Cleveland, WS 1985. Elementy danych graficznych. Monterey, Kalifornia: Wadsworth.

Crowe, PR 1933. Analiza prawdopodobieństwa opadów: Metoda graficzna i jej zastosowanie do danych europejskich. Scottish Geographical Magazine 49: 73-91.

Crowe, PR 1936. System opadów na równinach zachodnich. Przegląd geograficzny 26: 463–484.

Davis, JC 2002. Statystyka i analiza danych w geologii. Nowy Jork: John Wiley.

Dickinson, GC 1963. Mapowanie statystyczne i prezentacja statystyki. Londyn: Edward Arnold. (drugie wydanie 1973)

Dury, GH 1963. East Midlands and the Peak. Londyn: Thomas Nelson.

Farmer, BH 1956. Opady deszczu i zaopatrzenie w wodę w suchej strefie Cejlonu. W Steel, RW i CA Fisher (red.) Geographic Essays on British Tropical Lands. Londyn: George Philip, 227-268.

Gregory, S. 1963. Metody statystyczne i geograf. Londyn: Longmans. (późniejsze wydania 1968, 1973, 1978; wydawca później Longman)

Grove, AT 1956. Erozja gleby w Nigerii. W Steel, RW i CA Fisher (red.) Geographic Essays on British Tropical Lands. Londyn: George Philip, 79-111.

Haemer, KW 1948. Wykresy zasięgu. American Statistician 2 (2): 23.

Hendry, DF i B. Nielsen. 2007. Modelowanie ekonometryczne: podejście oparte na prawdopodobieństwie. Princeton, NJ: Princeton University Press.

Hogg, WH 1948. Diagramy dyspersji opadów: omówienie ich zalet i wad. Geografia 33: 31-37.

Ibrekk, H. i MG Morgan. 1987. Graficzna komunikacja niepewnych ilości dla osób nietechnicznych. Analiza ryzyka 7: 519–529.

Johnson, BLC 1975. Bangladesz. Londyn: Heinemann Educational.

Keen, KJ 2010. Grafika do statystyki i analizy danych z R. Boca Raton, Floryda: CRC Press. (2. edycja 2018)

Lewis, CR 1975. Analiza zmian w statusie miejskim: studium przypadku w środkowej Walii i na środkowym pograniczu walijskim. Transakcje Institute of British Geographers 64: 49-65.

Martinez, WL, AR Martinez i JL Solka. 2011. Analiza danych eksploracyjnych za pomocą MATLAB. Boca Raton, Floryda: CRC Press.

Matthews, HA 1936. Nowe spojrzenie na niektóre znane indyjskie opady deszczu. Scottish Geographical Magazine 52: 84-97.

Matthews, JA 1981. Podejścia ilościowe i statystyczne do geografii: Podręcznik praktyczny. Oxford: Pergamon.

Meloun, M. i J. Militký. 1994. Wspomagane komputerowo przetwarzanie danych w chemometrii analitycznej. I. Analiza eksploracyjna danych jednowymiarowych. Chemical Papers 48: 151-157.

Militký, J. i M. Meloun. 1993. Niektóre pomoce graficzne do jednoznacznej analizy danych eksploracyjnych. Analytica Chimica Acta 277: 215-221.

Miller, AA 1953. The Skin of the Earth. Londyn: Methuen. (2. wydanie 1964)

Monkhouse, FJ i HR Wilkinson. 1952. Mapy i diagramy: ich kompilacja i konstrukcja. Londyn: Methuen. (późniejsze wydania 1963, 1971)

Morgan, MG i M. Henrion. 1990. Niepewność: przewodnik po radzeniu sobie z niepewnością w analizie ryzyka ilościowego i polityki. Cambridge: Cambridge University Press.

Myatt, GJ 2007. Sense of Data: Praktyczny przewodnik po eksploracyjnej analizie danych i eksploracji danych. Hoboken, NJ: John Wiley.

Myatt, GJ i Johnson, WP 2009. Sense of Data II: Praktyczny przewodnik po wizualizacji danych, zaawansowanych metodach eksploracji danych i aplikacjach. Hoboken, NJ: John Wiley.

Myatt, GJ i Johnson, WP 2011. Sense of Data III: Praktyczny przewodnik po projektowaniu interaktywnych wizualizacji danych. Hoboken, NJ: John Wiley.

Ottaway, B. 1973. Diagramy dyspersji: nowe podejście do wyświetlania dat węgla-14. Archeometria 15: 5-12.

Parzen, E. 1979a. Modelowanie danych nieparametrycznych. Journal, American Statistics Association 74: 105-121.

Parzen, E. 1979b. Perspektywa funkcji kwantylu gęstości na solidne oszacowanie. W Launer, RL i GN Wilkinson (red.) Solidność w statystyce. New York: Academic Press, 237-258.

Parzen, E. 1982. Modelowanie danych z wykorzystaniem funkcji kwantylu i kwantyli gęstości. W Tiago de Oliveira, J. i Epstein, B. (red.) Kilka ostatnich postępów w statystyce. Londyn: Academic Press, 23–52.

Quinn, GP i MJ Keough. 2002. Projekt eksperymentalny i analiza danych dla biologów. Cambridge: Cambridge University Press.

Reimann, C., P. Filzmoser, RG Garrett i R. Dutter. 2008. Wyjaśnienie analizy danych statystycznych: Zastosowane statystyki środowiskowe z R. Chichester: John Wiley.

Sall, J., A. Lehman, M. Stephens i L. Creighton. 2014. JMP Start Statistics: Przewodnik po statystykach i analizie danych za pomocą JMP. Cary, Karolina Północna: SAS Institute.

Shera, DM 1991. Niektóre zastosowania wykresów kwantowych w celu poprawy prezentacji danych. Informatyka i statystyki 23: 50–53.

Spear, ME 1952. Statystyka wykresów. Nowy Jork: McGraw-Hill.

Spear, ME 1969. Practical Charting Techniques. Nowy Jork: McGraw-Hill.

Tukey, JW 1970.
Analiza danych eksploracyjnych. Limitowana edycja wstępna. Tom I. Reading, MA: Addison-Wesley.

Tukey, JW 1972. Niektóre wyświetlacze graficzne i półgraficzne. W Bancroft, TA i Brown, SA (red.) Dokumenty statystyczne na cześć George'a W. Snedecora. Ames, IA: Iowa State University Press, 293-316. (dostępny również na stronie http://www.edwardtufte.com/tufte/tukey )

Tukey, JW 1977. Analiza danych eksploracyjnych. Reading, MA: Addison-Wesley.

Wild, CJ i GAF Seber. 2000. Spotkania losowe: pierwszy kurs analizy danych i wnioskowania. Nowy Jork: John Wiley.

Nick Cox
źródło
Mam inny materiał na wykresach centylowych, wykresach górskich i innych formach hybrydowych, które zostaną dodane później.
Nick Cox,
Naprawdę doceniam tę odpowiedź, dziękuję Nick - nie mogę się doczekać dodatków na temat alternatyw i hybryd. Myślę, że prawdopodobnie sprawiedliwym jest powiedzenie, że „wykresy pudełkowe” i przyjaciele „tworzą„ rodzinę ”wizualizacji danych, chociaż nie wiem, jak powinna się nazywać ta rodzina
Silverfish
Dzięki! jeśli posiadanie linii lub innych znaczników wskazujących medianę i kwartyle definiuje pudełko, wówczas istniały wykresy pudełkowe na długo przed nazwaniem ich przez Tukeya i jestem pewien, że nigdy nie twierdził inaczej. Jednak wiele miniaturowych historii w podręcznikach i innych miejscach wydaje się bardzo trafnych; przeważnie jest to tylko mem powtórzony bez dowodów, takich jak historia, że ​​lemingi skaczą z klifów jako zbiorowe samobójstwo. Wiele z alternatyw do pola działki nawet nie pokazać okno w każdym sensie, więc to pole jest otwarte zawierać dowolną graficzną reprezentację rozkładów jednowymiarowych.
Nick Cox