Piszę pracę doktorską i zdałem sobie sprawę, że nadmiernie polegam na wykresach pudełkowych w celu porównania rozkładów. Jakie inne alternatywy podoba Ci się w realizacji tego zadania?
Chciałbym również zapytać, czy znasz inne zasoby, takie jak galeria R, w której mogę zainspirować się różnymi pomysłami na wizualizację danych.
r
distributions
data-visualization
boxplot
relative-distribution
pedrosaurio
źródło
źródło
hist
; wygładzone gęstościdensity
; Wykresy QQqqplot
; wykresy łodyg i liści (nieco starożytne)stem
. Ponadto test Kołmogorowa-Smirnowa może być dobrym uzupełnieniemks.test
.Odpowiedzi:
Mam zamiar rozwinąć mój komentarz, zgodnie z sugestią @gung. Do kompletności dołączę również spisek skrzypcowy sugerowany przez @Alexander. Niektóre z tych narzędzi można wykorzystać do porównania więcej niż dwóch próbek.
Mam nadzieję, że to pomoże.
źródło
Po dokładniejszym zbadaniu twoich sugestii znalazłem tego rodzaju spisek, który uzupełniałby odpowiedź @Procastinator. Nazywa się to „rojem pszczół” i jest mieszaniną wykresu skrzynkowego i wykresu skrzypcowego o tym samym poziomie szczegółowości co wykres rozproszenia.
pakiet beeswarm R.
źródło
beanplot
.Notka:
Chcesz odpowiadać na pytania dotyczące swoich danych, a nie tworzyć pytań dotyczących samej metody wizualizacji. Często nudne jest lepsze. Ułatwia to także porównywanie porównań.
Odpowiedź:
Potrzeba prostego formatowania poza pakiet podstawowy R prawdopodobnie wyjaśnia popularność pakietu ggplot Hadleya w R.
Wreszcie odkryłem, że dodanie prostego tła pomaga. Dlatego napisałem „bgfun”, który można wywołać przez panel.first
źródło
alpha=0.5
do pierwszego wątku (dogeom_density()
), aby zachodzące na siebie części nie były ukryte.Oto fajny samouczek z blogu Nathan Yau Flowing Data, w którym wykorzystano dane przestępczości na poziomie R i USA. To pokazuje:
Ostatnio odkrywam, że planuję CDF znacznie więcej niż histogramy.
źródło
Istnieje koncepcja specjalnie do porównywania rozkładów, która powinna być lepiej znana: rozkład względny.
Spójrzmy na przykład. Witryna http://www.math.hope.edu/swanson/data/cellphone.txt zawiera dane dotyczące długości ostatniego połączenia telefonicznego studentów i studentek. Wyjaśnijmy rozkład długości połączeń telefonicznych dla studentów płci męskiej, z referencją dla studentek.
Możemy również wykonać ten sam wykres z punktowymi przedziałami ufności wokół krzywej gęstości względnej:
Szerokie pasma ufności w tym przypadku odzwierciedlają niewielki rozmiar próbki.
Jest książka o tej metodzie: Handcock
Kod R dla wykresu jest tutaj:
Dla ostatniej działki zmień na:
Należy zauważyć, że wykresy są tworzone przy użyciu oszacowania gęstości jądra, przy czym stopień gładkości wybiera się za pomocą gcv (uogólniona walidacja krzyżowa).
źródło
Lubię po prostu oszacować gęstość i wykreślić je,
źródło