Współczesny następca eksploracyjnej analizy danych Tukeya?

52

Czytałem książkę Tukeya „Analiza danych eksploracyjnych”. Książka, napisana w 1977 r., Podkreśla metody papierowe / ołówkowe. Czy istnieje bardziej „nowoczesny” następca, który bierze pod uwagę, że możemy teraz błyskawicznie wykreślić duże zbiory danych?

biofreezer
źródło
czy powinna to być wiki społeczności?
richiemorrisroe
Nie jest dla mnie jasne, czy to powinien być CW. Nie może być dobrych odpowiedzi; może być jedna wyraźna zaległa odpowiedź; możemy wygenerować długą listę skutecznych odpowiedzi. Zobaczmy co się stanie.
whuber
4
To dobre pytanie, zamrażarka biologiczna. Chciałem tylko zauważyć, że istnieją ścisłe analogie do innych metod pracy. Moje ulubione to pióro i papier EDA to współczesne statystyki, podobnie jak narzędzia ręczne do nowoczesnej obróbki drewna. („Nowoczesna” obróbka drewna wykorzystuje wiele elektronarzędzi, takich jak piły stołowe i routery, które pozwalają nawet początkującym użytkownikom uzyskać zadowalające wyniki w znacznie krótszym czasie. Jednak narzędzia te odpowiadają również za tysiące brakujących cyfr i kończyn każdego roku. Ludzie, którzy uczą się obsługi narzędzi ręcznych ogólnie uczą się pracować lepiej i wydajniej, nawet jeśli używają elektronarzędzi.)
whuber
4
Tak, obróbka drewna jest dobrą analogią (brakujące cyfry, brakujące cyfry). Zobacz także software-carpentry.org .
den

Odpowiedzi:

19

Najbliższe są wizualizujące dane Clevelanda . Chodzi o analizę danych eksploracyjnych, wizualizacje generowane komputerowo, głębokie, klasyczne.

Carlos Accioly
źródło
2
To samo dotyczy również książki The Elements of Graphing Data tego samego autora. Kup oba; oba są doskonałe.
Karl Ove Hufthammer
7

Interaktywna grafika do analizy danych: lubię zasady i przykłady ; opis książki mówi, że „omawia eksploracyjną analizę danych (EDA) oraz w jaki sposób interaktywne metody graficzne mogą pomóc w uzyskaniu wglądu, a także w generowaniu nowych pytań i hipotez z zestawów danych”.

Aaron - Przywróć Monikę
źródło
5

Książka ggplot2 Hadleya Wickhama jest interesująca, ponieważ uczy zarówno gramatyki grafiki, jak i korzystania z oprogramowania ggplot2.

Jack Tanner
źródło
4

Warto tutaj wspomnieć o eksploracji danych w inżynierii, naukach i medycynie Ronalda Pearsona . Wydaje się, że głównym celem czytelników są naukowcy, którzy nie boją się matematyki, którzy chcieliby wiedzieć więcej statystyk. To dość duża grupa i dobrze tu reprezentowana. Jest trochę dziwaczny i niecodzienny, ale obejmuje wiele gruntów i zawiera wiele rozsądnych rad. Nie jest ponownie odwiedzany przez Tukeya w tym sensie, że oferuje wiele nowych pomysłów, ale studiowanie może być satysfakcjonujące, nawet jeśli uważasz, że jest to trochę niewłaściwe.

Wydaje się, że ta książka przyciągnęła bardzo mało uwagi, być może dlatego, że jest bardzo droga, oczywiście nie nadaje się jako tekst kursu, a jak dotąd jest dostępna tylko w twardej oprawie. Ale jest inteligentny i czytelny i wolny od śmieci współczesnych podręczników wprowadzających (strony i strony podstawowych ćwiczeń, głupie ikony, bezpłatne zdjęcia szczęśliwych młodych ludzi, wybredny układ z pudełkami, cokolwiek, itp.).

Nick Cox
źródło
0

Kolejnymi dobrymi książkami do przeczytania są Piękna wizualizacja i Piękne dane. Są to zredagowane książki, są zadziwiająco dobre przykłady eksploracji danych za pomocą wykresów i niektóre absolutnie przerażające rozdziały.

Kolejną książką, która ma kilka dobrych przykładów użycia ggplot2, jest nowa książka Winstona Changa

Dianne Cook
źródło
1
Chcę tylko dwukrotnie sprawdzić, Di, na wypadek, gdyby wkradła się subtelna literówka: czy może chciałeś napisać „pociągający” zamiast „przerażający”? Chociaż oba mają sens w tym kontekście, pojawienie się tego drugiego - bez dalszych wyjaśnień - jest raczej niespodzianką!
whuber
2
przerażające było poprawne - to mieszana torba - często wydawane są tomy
Dianne Cook
Jestem zaskoczony tymi zaleceniami. Obie książki były dla mnie najbardziej rozczarowujące (długo na guff, mało na grafice). Niestety O'Reilly, z którym po raz pierwszy spotkałem się jako wydawca spektakularnie dobrych książek uniksowych, wydaje się mieć bardzo nierównomierną kontrolę jakości książek na wszystko, nawet zdalnie statystycznych.
Nick Cox,
Lubię obie książki i naprawdę uważam, że stanowią one znaczący wkład. Winston Chang ma wiele podstawowych szczegółów na temat kreślenia z ggplot2. Jest to dobre odniesienie dla początkujących. Nie mówi ci wiele o tym, dlaczego miałbyś tworzyć te fabuły, ale większość ma sens w tym celu, z fragmentów, które przeczytałem. Piękna wizualizacja zawiera kilka bardzo imponujących rozdziałów, zajmujących się trudnymi problemami, takimi jak wizualizacja wikipedii, ogromnych danych, wielu złożoności, i przechodzi przez proces myślenia / decyzje podjęte w celu sporządzenia fabuły.
Dianne Cook
Na wszelki wypadek mój komentarz jest niejednoznaczny: miałem na myśli książki „Piękne”. Książka Winstona Changa jest miła i pomocna.
Nick Cox,
0

Myślę o zrozumieniu solidnej i eksploracyjnej analizy Hoaglina, Mostellera i Tukeya oraz towarzyszącego mu tomu dotyczącego eksploracji tabel i kształtów danych jako technicznej kontynuacji EDA. Widzę także analizę danych i regresję, drugi kurs statystyki Mostellera i Tukeya jako kontynuację EDA. Różne wyżej wymienione książki Cleveland to skarby.

SJC
źródło