Czy istnieje pakiet R, którego można użyć do zbadania, czy istnieją zależności między zmiennymi?
Zazwyczaj, gdy szukam wzorów, patrzę na korelacje, a następnie na wykres aspektowy. Następnie ręcznie stosuję przekształcenia zmiennych w danych. Zastanawiałem się, czy mogę przyspieszyć ten proces dzięki pakietowi R.
r
data-visualization
correlation
eda
celenius
źródło
źródło
Odpowiedzi:
AFAIK, nr Mówiąc ściślej, nie znam jednego pakietu R, który wykonałby dla ciebie część tego, co nazywa się analizą danych eksploracyjnych (EDA) za pomocą jednego wywołania funkcji - myślę o aspektach ponownego wyrażania i objawienia omówione w Hoaglin, Mosteller i Tukey, Zrozumienie solidnej i eksploracyjnej analizy danych . Wiley-Interscience, 1983, w szczególności.
Istnieje jednak kilka fajnych alternatyw w R, szczególnie w odniesieniu do interaktywnej eksploracji danych (zajrzyj tutaj, aby zapoznać się z interesującą dyskusją: Kiedy warto korzystać z interaktywnej wizualizacji danych? ). Mogę myśleć o
To jest tylko do interaktywnej eksploracji danych, ale powiedziałbym, że to jest istota EDA. W każdym razie powyższe techniki mogą pomóc w badaniu zależności dwuwymiarowych lub wyższego rzędu między zmiennymi numerycznymi. W przypadku danych kategorycznych dobrym rozwiązaniem jest pakiet vcd (tabele wizualizacji i podsumowania). Powiedziałbym, że najpierw pakiety wegańskie i ade4 służą do badania zależności między zmiennymi mieszanymi typami danych.
Wreszcie, co z eksploracją danych w R? (Wypróbuj to słowo kluczowe w Rseek )
źródło
loon
też waddella.github.io/loon Credit idzie do @hadleywickham za wskazanie tego.Jeśli chcesz tylko rzucić okiem na to, jak zmienne w zbiorze danych są ze sobą skorelowane, spójrz na funkcję pairs (), a jeszcze lepiej, na funkcję pairs.panels () w pakiecie psych. Tutaj napisałem trochę o funkcji par .
Korzystanie z funkcji pairs () lub psych :: pairs.panels () jest dość łatwe do tworzenia macierzy scatterplot.
źródło
Sprawdź
scagnostics
paczkę i oryginalny dokument badawczy . Jest to bardzo interesujące dla relacji dwuwymiarowych. W przypadku relacji wielowymiarowych realizacja projekcji jest bardzo dobrym pierwszym krokiem.Ogólnie rzecz biorąc, wiedza specjalistyczna w zakresie domen i danych zarówno zawęzi, jak i ulepszy metody szybkiego badania relacji.
źródło
Funkcja chart.Correlation w PerformanceAnalytics zapewnia podobną funkcjonalność do wspomnianej funkcji plot.pairs @Stephen Turner, z wyjątkiem tego, że wygładza ją funkcja lessowa zamiast modelu liniowego oraz znaczenie dla korelacji.
źródło
Jeśli szukasz możliwych transformacji do pracy z korelacją, to narzędzie, które nie zostało jeszcze wspomniane, może być przydatne,
ace
które można znaleźć wacepack
pakiecie (i prawdopodobnie także w innych pakietach). Robi to interaktywny proces próbowania wielu różnych transformacji (przy użyciu wygładzaczy) w celu znalezienia transformacji w celu zmaksymalizowania korelacji między zestawem zmiennych x a zmienną ay. Wykreślenie przekształceń może następnie sugerować znaczące przekształcenia.źródło
Możesz użyć funkcji DCOR w pakiecie „energii”, aby obliczyć miarę zależności nieliniowej zwaną korelacją odległości i wykresem jak powyżej. Problem z korelacją Pearsona polega na tym, że może on wykryć jedynie zależności liniowe między zmiennymi. Upewnij się, że wybrałeś parametr zapisu dla indeksu w funkcji DCOR, który powiedział.
źródło