Pracuję nad projektem, który obejmuje 14 zmiennych i 345 000 obserwacji danych mieszkaniowych (takich jak rok budowy, powierzchnia, sprzedana cena, okręg zamieszkania itp.). Niepokoję się próbą znalezienia dobrych technik graficznych i bibliotek R, które zawierają niezłe techniki kreślenia.
Już widzę, co w ggplot i sieci będą ładnie działały, i myślę o robieniu wykresów skrzypcowych dla niektórych moich zmiennych numerycznych.
Jakie inne pakiety poleciliby ludzie, aby wyświetlać dużą liczbę zmiennych liczbowych lub zmiennych typu czynnikowego w jasny, dopracowany i, co najważniejsze, zwięzły?
r
data-visualization
large-data
eda
Christopher Aden
źródło
źródło
Odpowiedzi:
Najlepszy „wykres” jest tak oczywisty, że nikt jeszcze o nim nie wspominał: twórz mapy. Dane mieszkaniowe zależą zasadniczo od lokalizacji przestrzennej (według starej piły o nieruchomościach), więc pierwszą rzeczą do zrobienia jest stworzenie jasnej szczegółowej mapy każdej zmiennej. Aby zrobić to dobrze z jedną trzecią miliona punktów, naprawdę potrzebny jest system GIS o przemysłowej wytrzymałości, który może skrócić proces. Następnie sensowne jest kontynuowanie tworzenia wykresów prawdopodobieństwa i wykresów pudełkowych w celu zbadania rozkładów jednowymiarowych, a także w celu wykreślenia macierzy rozproszenia i wędrujących schematów pudełkowych itp. W celu zbadania zależności - ale mapy natychmiast podpowiedzą, co zbadać, jak modelować relacje danych i sposób podziału danych geograficznie na znaczące podzbiory.
źródło
ggplot2
(zwłaszcza jeśli nie musisz rysować granic kraju), had.co.nz/ggplot2/coord_map.html . W przeciwnym raziemaps
,gmaps
są lepsze. Istnieje równieżGeoXp
interfejs R do GRASS. BTW, Mondrian ma wtyczkę do danych geograficznych :)lattice
„slevelplot
icontourplot
. Pakietfields
ma kilka fajnych funkcji, w tymquiltplot
które są przydatne, jeśli twoje dane nie są ściśle w siatce. Posiada również przyjemną funkcję splajnu cienkiej płytyTps
do wygładzania danych niesiatkowanych do siatki. Jeśli chodzi o dedykowane oprogramowanie GIS, GRASS jakoś nigdy nie ma dla mnie sensu, wolę QGIS.Polecam przyjrzeć się GGobi , który ma również interfejs R, przynajmniej do celów eksploracyjnych. Ma wiele wyświetlaczy graficznych, szczególnie przydatnych do radzenia sobie z dużą liczbą obserwacji i zmiennych oraz do łączenia ich ze sobą. Możesz zacząć od obejrzenia niektórych filmów w sekcji „Obejrzyj prezentację” na stronie Naucz się GGobi .
Aktualizacja
Linki do narzędzi Hadleya Wickhama dla GGobi, jak sugeruje chl w komentarzach:
źródło
DescribeDisplay
iclusterfly
.Czuję, że faktycznie zadajesz dwa pytania: 1) jakie rodzaje wizualizacji użyć i 2) jaki pakiet R może je wytworzyć.
W przypadku tego, jakiego typu wykresu użyć, jest wiele i zależy to od twoich potrzeb (np .: rodzaje zmiennych - liczbowe, czynnikowe, geograficzne itp. Oraz rodzaj połączeń, które chcesz wyświetlić):
Teraz odnośnie tego, jak to zrobić. Jednym problemem z wieloma punktami danych jest czas do utworzenia wykresu. ggplot2, iplots, ggobi nie są zbyt dobre dla zbyt wielu punktów danych (przynajmniej z mojego doświadczenia). W takim przypadku możesz skoncentrować się na podstawowych funkcjach graficznych w języku R lub spróbować swoich danych i użyć wszystkich innych narzędzi. Możesz też mieć nadzieję, że osoby opracowujące iplots extreme (lub Acinonyx ) przejdą do etapu wcześniejszej wersji.
źródło
rflowcyt
i Acinonyx.rflowcyt
został przestarzały w ostatnich wydaniach Bioconductor, teraz zaleca się jego stosowanieflowViz
. W każdym razie oba polegają nalattice
.Mondrian zapewnia interaktywne funkcje i obsługuje dość duże zestawy danych (choć jest to Java).
Paraview obejmuje 2D / 3D mianowicie. cechy.
źródło
iplots
cytowaną przez @Tal. O Paraview możesz zapisać zrzut ekranu swojego viz.DescribeDisplay
jest sposobem na eksportowanie dynamicznej wizualizacji z GGobi, cran.r-project.org/web/packages/DescribeDisplay/index.html .Chciałbym zwrócić uwagę, Współrzędne równoległe: wizualna geometria wielowymiarowa i jej zastosowania , który zawiera najnowsze przełomy i zastosowania w tej dziedzinie.
Książkę chwalił między innymi Stephen Hawking. Powierzchnie są opisane (za pomocą dualności) ich normalnymi wektorami w swoich punktach. Zawiera aplikacje do kontroli ruchu lotniczego (automatyczne unikanie kolizji - 3 patenty USA), wyszukiwania danych na wielu zmiennych (w prawdziwych zestawach danych, z setkami zmiennych), optymalizacji wielu obiektów, kontroli procesu, inteligentnych monitorów intensywnej opieki, bezpieczeństwa, wizualizacji sieci i ostatnio dużych Dane.
źródło