Graficzny przegląd danych (podsumowanie) w R

39

Jestem pewien, że wcześniej spotkałem taką funkcję w pakiecie R. Ale po rozległym Googlingu nigdzie nie mogę jej znaleźć. Funkcja, o której myślę, wygenerowała podsumowanie graficzne dla danej zmiennej, generując dane wyjściowe z niektórymi wykresami (histogram i być może wykres z pudełkiem i wąsami) oraz tekstem zawierającym takie szczegóły, jak średnia, SD itp.

Jestem prawie pewien, że tej funkcji nie ma w bazie R, ale nie mogę znaleźć pakietu, którego użyłem.

Czy ktoś wie o takiej funkcji, a jeśli tak, to w jakim pakiecie jest?

robintw
źródło

Odpowiedzi:

25

Pakiet Hmisc Franka Harrella, zawiera kilka podstawowych grafik z opcjami adnotacji: sprawdź summary.formula()powiązane plotfunkcje zawijania. Podoba mi się również describe()funkcja.

Aby uzyskać dodatkowe informacje, zapoznaj się z biblioteką Hmisc lub wstępem do S-Plus oraz bibliotekami Hmisc i bibliotekami projektowymi .

Oto kilka zdjęć wykonanych z pomocy on-line ( bpplt, describe, i plot(summary(...))): alternatywny tekst alternatywny tekst alternatywny tekst

Wiele innych przykładów można przeglądać online w podręczniku graficznym R , patrz Hmisc (i nie przegap rms ).

chl
źródło
Wszystkie te funkcje są w pakiecie Hmisc, a nie Design. Dzięki za opublikowanie tego.
Frank Harrell,
Dwa z trzech linków są wyłączone.
Donnied
15

Bardzo polecam tabelę funkcji. Korelacje w pakiecie PerformanceAnalytics . Zawiera niesamowitą ilość informacji w jednym wykresie: wykresy gęstości jądra i histogramy dla każdej zmiennej oraz wykresy rozrzutu, wygładzacze lowess i korelacje dla każdej pary zmiennych. Jest to jedna z moich ulubionych funkcji podsumowania danych graficznych:

library(PerformanceAnalytics)
chart.Correlation(iris[,1:4],col=iris$Species)

Uwielbiam ten wykres!

Zach
źródło
2
+1, FWIW, ? Scatterplot.matrix w pakiecie samochodu daje podobną działkę (w / pewne różnice, na przykład, w / o gwiazdki grupę R &).
gung - Przywróć Monikę
@gung To doskonała funkcja, dziękuję za wskazówkę.
Zach.
5

Uznałem tę funkcję za przydatną ... oryginalny uchwyt autora to respiratoryclub .

Oto przykład wyniku

f_summary <- function(data_to_plot)
{
## univariate data summary
require(nortest)
#data <- as.numeric(scan ("data.txt")) #commenting out by mike
data <- na.omit(as.numeric(as.character(data_to_plot))) #added by mike
dataFull <- as.numeric(as.character(data_to_plot))

# first job is to save the graphics parameters currently used
def.par <- par(no.readonly = TRUE)
par("plt" = c(.2,.95,.2,.8))
layout( matrix(c(1,1,2,2,1,1,2,2,4,5,8,8,6,7,9,10,3,3,9,10), 5, 4, byrow = TRUE))

#histogram on the top left
h <- hist(data, breaks = "Sturges", plot = FALSE)
xfit<-seq(min(data),max(data),length=100)
yfit<-yfit<-dnorm(xfit,mean=mean(data),sd=sd(data))
yfit <- yfit*diff(h$mids[1:2])*length(data)
plot (h, axes = TRUE, main = paste(deparse(substitute(data_to_plot))), cex.main=2, xlab=NA)
lines(xfit, yfit, col="blue", lwd=2)
leg1 <- paste("mean = ", round(mean(data), digits = 4))
leg2 <- paste("sd = ", round(sd(data),digits = 4))
count <- paste("count = ", sum(!is.na(dataFull)))
missing <- paste("missing = ", sum(is.na(dataFull)))
legend(x = "topright", c(leg1,leg2,count,missing), bty = "n")

## normal qq plot
qqnorm(data, bty = "n", pch = 20)
qqline(data)
p <- ad.test(data)
leg <- paste("Anderson-Darling p = ", round(as.numeric(p[2]), digits = 4))
legend(x = "topleft", leg, bty = "n")

## boxplot (bottom left)
boxplot(data, horizontal = TRUE)
leg1 <- paste("median = ", round(median(data), digits = 4))
lq <- quantile(data, 0.25)
leg2 <- paste("25th percentile =  ", round(lq,digits = 4))
uq <- quantile(data, 0.75)
leg3 <- paste("75th percentile = ", round(uq,digits = 4))
legend(x = "top", leg1, bty = "n")
legend(x = "bottom", paste(leg2, leg3, sep = "; "), bty = "n")

## the various histograms with different bins
h2 <- hist(data,  breaks = (0:20 * (max(data) - min (data))/20)+min(data), plot = FALSE)
plot (h2, axes = TRUE, main = "20 bins")

h3 <- hist(data,  breaks = (0:10 * (max(data) - min (data))/10)+min(data), plot = FALSE)
plot (h3, axes = TRUE, main = "10 bins")

h4 <- hist(data,  breaks = (0:8 * (max(data) - min (data))/8)+min(data), plot = FALSE)
plot (h4, axes = TRUE, main = "8 bins")

h5 <- hist(data,  breaks = (0:6 * (max(data) - min (data))/6)+min(data), plot = FALSE)
plot (h5, axes = TRUE,main = "6 bins")

## the time series, ACF and PACF
plot (data, main = "Time series", pch = 20, ylab = paste(deparse(substitute(data_to_plot))))
acf(data, lag.max = 20)
pacf(data, lag.max = 20)

## reset the graphics display to default
par(def.par)

#original code for f_summary by respiratoryclub

}
Michael Bishop
źródło
2
Właśnie zaktualizowałem kod, aby zgłosił poprawne / brakujące n, a następnie pomija brakujące wartości funkcji, które zostały uszkodzone przez brakujące wartości.
Michael Bishop,
4

Nie jestem pewien, czy właśnie o tym myślałeś, ale możesz chcieć sprawdzić pakiet fitdistrplus . Ma wiele fajnych funkcji, które automatycznie generują przydatne informacje podsumowujące o twojej dystrybucji i tworzą wykresy niektórych z tych informacji. Oto kilka przykładów z winiety :

library(fitdistrplus)
data(groundbeef)
windows()              # or quartz() for mac
  plotdist(groundbeef$serving)  

wprowadź opis zdjęcia tutaj

windows()
> descdist(groundbeef$serving, boot=1000)
summary statistics
------
min:  10   max:  200 
median:  79 
mean:  73.64567 
estimated sd:  35.88487 
estimated skewness:  0.7352745 
estimated kurtosis:  3.551384 

wprowadź opis zdjęcia tutaj

fw = fitdist(groundbeef$serving, "weibull")

>summary(fw)
Fitting of the distribution ' weibull ' by maximum likelihood 
Parameters : 
       estimate Std. Error
shape  2.185885  0.1045755
scale 83.347679  2.5268626
Loglikelihood:  -1255.225   AIC:  2514.449   BIC:  2521.524 
Correlation matrix:
         shape    scale
shape 1.000000 0.321821
scale 0.321821 1.000000

fg  = fitdist(groundbeef$serving, "gamma")
fln = fitdist(groundbeef$serving, "lnorm")
windows()
  plot(fw)

wprowadź opis zdjęcia tutaj

windows()
  cdfcomp(list(fw,fln,fg), legendtext=c("Weibull","logNormal","gamma"), lwd=2,
          xlab="serving sizes (g)")

wprowadź opis zdjęcia tutaj

>gofstat(fw)
Kolmogorov-Smirnov statistic:  0.1396646 
Cramer-von Mises statistic:  0.6840994 
Anderson-Darling statistic:  3.573646 
gung - Przywróć Monikę
źródło
1

Do eksploracji zestawu danych bardzo mi się podoba rattle. Zainstaluj pakiet i po prostu zadzwoń rattle(). Interfejs jest dość intuicyjny.

Nico
źródło
gattle wymaga XML, który nie jest obsługiwany przez Windows (i niedostępny w binarnym systemie Windows) :-(. cran.r-project.org/web/packages/XML/index.html
whuber
@whuber: szkoda! to całkiem fajny pakiet
nico
2
@whuber @nico Plik zip dla XML można znaleźć na przykład na stats.ox.ac.uk/pub/RWin/bin/windows/contrib/2.13 (i podobnie w przypadku niektórych innych wersji). Są z tym inne problemy, ale ostatecznie wydaje się, że to działa
Henry
0

Być może szukasz biblioteki ggplot2, która pozwala ładnie kreślić rzeczy. Lub możesz sprawdzić tę stronę, która wydaje się mieć wiele narzędzi graficznych R http://addictedtor.free.fr/graphiques/

mariana bardziej miękka
źródło
0

Prawdopodobnie nie jest to dokładnie to, czego szukasz, ale funkcja pairs.panels () w pakiecie psych dla R może się przydać. Daje ci wartości korelacji w górnej przekątnej, mniejszych linii i punktów w dolnej przekątnej oraz pokazuje histogram wyników każdej zmiennej w przekątnej matrycy. Osobiście uważam, że jest to jedno z najlepszych graficznych podsumowań danych.

richiemorrisroe
źródło
0

Moim ulubionym jest DescTools

library(DescTools)
data("iris")
Desc(iris, plotit = T)

Który tworzy szereg takich wykresów:

wprowadź opis zdjęcia tutaj wprowadź opis zdjęcia tutaj i wyświetla szereg wartości opisowych (w tym średnią, średnią, medianę, percentyle, zakres, sd, IQR, wartości skośności i kurtozę): wprowadź opis zdjęcia tutaj

Alternatywnie tabplot jest również bardzo dobry do przeglądu graficznego.

Tworzy fantazyjne fabuły z tableplot(iris, sortCol=Species)

wprowadź opis zdjęcia tutaj

Istnieje nawet wersja D3 tabplot, tj . Tabplotd3 .

epo3
źródło